Разработка и валидация моделей прогнозирования общего риска преэклампсии и риска ранней преэклампсии с использованием алгоритмов машинного обучения в первом триместре беременности
На портале РОАГ размещена статья «Разработка и валидация моделей прогнозирования общего риска преэклампсии и риска ранней преэклампсии с использованием алгоритмов машинного обучения в первом триместре беременности», опубликованная в № 10/2023 журнала «Акушерство и гинекология».
Андрейченко А.Е., Лучинин А.С., Ившин А.А., Ермак А.Д., Новицкий Р.Э., Гусев А.В.
- ООО «К-Скай», Петрозаводск, Россия;
- ФГБУН «Кировский научно-исследовательский институт гематологии и переливания крови Федерального медико-биологического агентства», Киров, Россия;
- ФГБОУ ВО «Петрозаводский государственный университет», Петрозаводск, Россия;
- ФГБУ «Центральный научно-исследовательский институт организации и информатизации здравоохранения» Минздрава России, Москва, Россия;
- ГБУЗ города Москвы «Научно-практический клинический центр диагностики и телемедицинских технологий Департамента здравоохранения города Москвы», Москва, Россия
Ключевые слова: Преэклампсия, большие акушерские синдромы, ранняя диагностика, прогнозные модели, машинное обучение, искусственный интеллект.
Разработка моделей прогнозирования общего риска ПЭ и риска ранней ПЭ с использованием технологий машинного обучения (МО) на основе данных реальной клинической практики в I триместре беременности.
Наилучшие результаты при решении задачи прогнозирования ПЭ показала модель ExtraTrees – площадь под кривой (AUC) 0,858 (95% ДИ 0,827–0,890). Точность модели составила 0,634 (95% ДИ 0,616–0,652), чувствительность – 0,897 (95% ДИ 0,837–0,953), специфичность – 0,624 (95% ДИ 0,605–0,643). В числе моделей оценки риска ранней ПЭ наилучшие результаты продемонстрировал алгоритм RandomForest. По результатам его валидации AUC составила 0,848 (95% ДИ 0,785–0,904), точность – 0,813 (95% ДИ 0,798–0,828), чувствительность – 0,733 (95% ДИ 0,565–0,885), специфичность – 0,814 (95% ДИ 0,799–0,828).
Метрики полученных итоговых моделей соответствовали опубликованным ранее аналогам. Результаты внешней валидации показали относительную устойчивость моделей к новым данным, что в совокупности с показателями качества предполагает возможность их использования в реальной клинической практике.
По сведениям из электронных медицинских карт, полученных через платформу Webiomed, были проанализированы 21 092 записи, соответствующие 12 434 уникальным беременностям 12 283 женщин в возрасте от 11 до 60 лет на сроке до 16 недель включительно. В качестве потенциальных факторов прогноза ПЭ отобраны анамнестические, конституциональные, клинические, инструментальные и лабораторные данные, широко используемые в рутинной врачебной практике, всего – 53 переменные. Для создания моделей применялись логистическая регрессия (LR), методы градиентного бустинга (LightGBM, XGBoost, CatBoost) и методы, основанные на деревьях решений (RandomForest и ExtraTrees).