Методики оценки качества больших генеративных моделей для базовых сценариев применения в здравоохранении
https://doi.org/10.25881/18110193_2025_3_64
Аннотация
Большие генеративные модели (БГМ) обладают значительным потенциалом для здравоохранения и медицинской науки. Несмотря на экспоненциальный рост числа публикаций, качество и результативность научного изучения БГМ остается неудовлетворительной. В научной литературе утверждается необходимость создания стандартизированных подходов для обеспечения безопасной и эффективной интеграции БГМ в клиническую практику. В системе здравоохранения г. Москвы осуществляется апробация БГМ в качестве средства поддержки принятия врачебных решений, которая потребовала создания особых методов и инструментов для оценки их качества. Представлены две методики оценки качества БГМ, разработанные на основе: анализа литературных данных (всего свыше 200 источников); результатов проведенного авторами этапного комплексного тестирования 204 БГМ; эмпирического опыта оценки качества БГМ на выборке из более 12 000 случаев применения. Методики предназначены для двух основных сценариев применения моделей. В их основе лежат (с учетом сценария) принципы формирования тестовой выборки, специально разработанные и валидированные опросники, способы тестирования, унифицированные требования к составу и структуре результатов оценки качества.
Об авторах
Р. В. РешетниковРоссия
к.ф.-м.н.
г. Москва
И. А. Тыров И.А.
Россия
Москва
Ю. А. Васильев
Россия
к. м. н.
г. Москва
Ю. Ф. Шумская
Россия
г. Москва
А. В. Владзимирский
Россия
д.м.н.
г. Москва
Д. А. Ахмедзянова
Россия
г. Москва
К. Ю. Беженова
Россия
г. Москва
М. Д. Варюхина
Россия
к.м.н.
г. Москва
М. В. Соколова
Россия
г. Москва
И. А. Блохин
Россия
к. м. н.
г. Москва
Д. А. Войтенко
Россия
г. Москва
О. И. Мынко
Россия
г. Москва
М. Р. Коденко
Россия
к. т. н.
г. Москва
О. В. Омелянская
Россия
г. Москва
Список литературы
1. Singh N, Neubronner S, Kanayan S, Illanes S, Choolani M, Kemp MW. Advances, reception and potential of ChatGPT as a tool for healthcare delivery and research: a systematic review. Singapore Med J. 2025 Jul 29. doi: 10.4103/singaporemedj.SMJ-2024-173.
2. Ferreira Santos J, Ladeiras-Lopes R, Leite F, Dores H. Applications of large language models in cardiovascular disease: a systematic review. Eur Heart J Digit Health. 2025; 6(4): 540-553. doi: 10.1093/ehjdh/ztaf028.
3. Андрейченко А.Е., Гусев А.В. Перспективы применения больших языковых моделей в здравоохранении // Национальное здравоохранение. — 2023. — Т.4. — №4. — С.48-55.
4. Назаров Д.М., Бадаев Ф.И. Применение больших языковых моделей в сфере здравоохранения // Менеджер здравоохранения. — 2025. — №5. — С.142-154.
5. Васильев Ю.А., Решетников Р.В., Нанова О.Г., Владзимирский А.В. и др. Применение больших языковых моделей в лучевой диагностике: обзор предметного поля // Digital Diagnostics. 2025; 6(2): 268-285. doi: 10.17816/DD678373.
6. Moëll B, Sand Aronsson F. Harm Reduction Strategies for Thoughtful Use of Large Language Models in the Medical Domain: Perspectives for Patients and Clinicians. J Med Internet Res. 2025; 27: e75849. doi: 10.2196/75849.
7. Shool S, Adimi S, Saboori Amleshi R, Bitaraf E, et al. A systematic review of large language model (LLM) evaluations in clinical medicine. BMC Med Inform Decis Mak. 2025; 25(1): 117. doi: 10.1186/s12911-025-02954-4.
8. Preiksaitis C, Ashenburg N, Bunney G, Chu A, et al. The Role of Large Language Models in Transforming Emergency Medicine: Scoping Review. JMIR Med Inform. 2024; 12: e53787. doi: 10.2196/53787.
9. Flanagin A, Iorio A, Cacciamani G, Chen X, et al. Reporting guideline for Chatbot Health Advice studies: the CHART statement. BMC Med. 2025; 23(1): 447. doi: 10.1186/s12916-025-04274-w.
10. Gallifant J, Afshar M, Ameen S, Aphinyanaphongs Y, et al. The TRIPOD-LLM reporting guideline for studies using large language models: a Korean translation. Ewha Med J. 2025; 48(3): e49. doi: 10.12771/emj.2025.00661.
11. Zong H, Wu R, Cha J, Wang J, et al. Large Language Models in Worldwide Medical Exams: Platform Development and Comprehensive Analysis. J Med Internet Res. 2024; 26: e66114. doi: 10.2196/66114.
Рецензия
Для цитирования:
Решетников Р.В., Тыров И.А. И.А., Васильев Ю.А., Шумская Ю.Ф., Владзимирский А.В., Ахмедзянова Д.А., Беженова К.Ю., Варюхина М.Д., Соколова М.В., Блохин И.А., Войтенко Д.А., Мынко О.И., Коденко М.Р., Омелянская О.В. Методики оценки качества больших генеративных моделей для базовых сценариев применения в здравоохранении. Врач и информационные технологии. 2025;(3):64-75. https://doi.org/10.25881/18110193_2025_3_64
For citation:
Reshetnikov R.V., Tyrov I.A., Vasilev Yu.A., Shumskaya Yu.F., Vladzymyrskyy A.V., Akhmedzyanova D.A., Bezhenova K.Yu., K.Yu., Varyukhina M.D., Sokolova M.V., Blokhin I.A., Voytenko D.A., Mynko O.I., Kodenko M.R., Omelyanskaya O.V. Assessing the quality of large generative models for basic healthcare applications. Medical Doctor and Information Technologies. 2025;(3):64-75. (In Russ.) https://doi.org/10.25881/18110193_2025_3_64