Preview

Врач и информационные технологии

Расширенный поиск

Методики оценки качества больших генеративных моделей для базовых сценариев применения в здравоохранении

https://doi.org/10.25881/18110193_2025_3_64

Аннотация

Большие генеративные модели (БГМ) обладают значительным потенциалом для здравоохранения и медицинской науки. Несмотря на экспоненциальный рост числа публикаций, качество и результативность научного изучения БГМ остается неудовлетворительной. В научной литературе утверждается необходимость создания стандартизированных подходов для обеспечения безопасной и эффективной интеграции БГМ в клиническую практику. В системе здравоохранения г. Москвы осуществляется апробация БГМ в качестве средства поддержки принятия врачебных решений, которая потребовала создания особых методов и инструментов для оценки их качества. Представлены две методики оценки качества БГМ, разработанные на основе: анализа литературных данных (всего свыше 200 источников); результатов проведенного авторами этапного комплексного тестирования 204 БГМ; эмпирического опыта оценки качества БГМ на выборке из более 12 000 случаев применения. Методики предназначены для двух основных сценариев применения моделей. В их основе лежат (с учетом сценария) принципы формирования тестовой выборки, специально разработанные и валидированные опросники, способы тестирования, унифицированные требования к составу и структуре результатов оценки качества.

Об авторах

Р. В. Решетников
ГБУЗ «НПКЦ ДиТ ДЗМ»
Россия

к.ф.-м.н.

г. Москва



И. А. Тыров И.А.
Департамент здравоохранения города Москвы
Россия

Москва



Ю. А. Васильев
ГБУЗ «НПКЦ ДиТ ДЗМ»
Россия

к. м. н.

г. Москва



Ю. Ф. Шумская
ГБУЗ «НПКЦ ДиТ ДЗ»
Россия

г. Москва



А. В. Владзимирский
ГБУЗ «НПКЦ ДиТ ДЗМ»
Россия

д.м.н.

г. Москва



Д. А. Ахмедзянова
ГБУЗ «НПКЦ ДиТ ДЗМ»
Россия

г. Москва



К. Ю. Беженова
ГБУЗ «НПКЦ ДиТ ДЗМ»
Россия

г. Москва



М. Д. Варюхина
ГБУЗ «НПКЦ ДиТ ДЗМ»
Россия

к.м.н.

г. Москва



М. В. Соколова
ГБУЗ «НПКЦ ДиТ ДЗМ»
Россия

г. Москва



И. А. Блохин
ГБУЗ «НПКЦ ДиТ ДЗМ»
Россия

к. м. н.

г. Москва



Д. А. Войтенко
ГБУЗ «НПКЦ ДиТ ДЗМ»
Россия

г. Москва



О. И. Мынко
ГБУЗ «НПКЦ ДиТ ДЗМ»
Россия

г. Москва



М. Р. Коденко
ГБУЗ «НПКЦ ДиТ ДЗМ»; Московский государственный технический университет имени Н.Э. Баумана
Россия

к. т. н.

г. Москва



О. В. Омелянская
ГБУЗ «НПКЦ ДиТ ДЗМ»
Россия

г. Москва



Список литературы

1. Singh N, Neubronner S, Kanayan S, Illanes S, Choolani M, Kemp MW. Advances, reception and potential of ChatGPT as a tool for healthcare delivery and research: a systematic review. Singapore Med J. 2025 Jul 29. doi: 10.4103/singaporemedj.SMJ-2024-173.

2. Ferreira Santos J, Ladeiras-Lopes R, Leite F, Dores H. Applications of large language models in cardiovascular disease: a systematic review. Eur Heart J Digit Health. 2025; 6(4): 540-553. doi: 10.1093/ehjdh/ztaf028.

3. Андрейченко А.Е., Гусев А.В. Перспективы применения больших языковых моделей в здравоохранении // Национальное здравоохранение. — 2023. — Т.4. — №4. — С.48-55.

4. Назаров Д.М., Бадаев Ф.И. Применение больших языковых моделей в сфере здравоохранения // Менеджер здравоохранения. — 2025. — №5. — С.142-154.

5. Васильев Ю.А., Решетников Р.В., Нанова О.Г., Владзимирский А.В. и др. Применение больших языковых моделей в лучевой диагностике: обзор предметного поля // Digital Diagnostics. 2025; 6(2): 268-285. doi: 10.17816/DD678373.

6. Moëll B, Sand Aronsson F. Harm Reduction Strategies for Thoughtful Use of Large Language Models in the Medical Domain: Perspectives for Patients and Clinicians. J Med Internet Res. 2025; 27: e75849. doi: 10.2196/75849.

7. Shool S, Adimi S, Saboori Amleshi R, Bitaraf E, et al. A systematic review of large language model (LLM) evaluations in clinical medicine. BMC Med Inform Decis Mak. 2025; 25(1): 117. doi: 10.1186/s12911-025-02954-4.

8. Preiksaitis C, Ashenburg N, Bunney G, Chu A, et al. The Role of Large Language Models in Transforming Emergency Medicine: Scoping Review. JMIR Med Inform. 2024; 12: e53787. doi: 10.2196/53787.

9. Flanagin A, Iorio A, Cacciamani G, Chen X, et al. Reporting guideline for Chatbot Health Advice studies: the CHART statement. BMC Med. 2025; 23(1): 447. doi: 10.1186/s12916-025-04274-w.

10. Gallifant J, Afshar M, Ameen S, Aphinyanaphongs Y, et al. The TRIPOD-LLM reporting guideline for studies using large language models: a Korean translation. Ewha Med J. 2025; 48(3): e49. doi: 10.12771/emj.2025.00661.

11. Zong H, Wu R, Cha J, Wang J, et al. Large Language Models in Worldwide Medical Exams: Platform Development and Comprehensive Analysis. J Med Internet Res. 2024; 26: e66114. doi: 10.2196/66114.


Рецензия

Для цитирования:


Решетников Р.В., Тыров И.А. И.А., Васильев Ю.А., Шумская Ю.Ф., Владзимирский А.В., Ахмедзянова Д.А., Беженова К.Ю., Варюхина М.Д., Соколова М.В., Блохин И.А., Войтенко Д.А., Мынко О.И., Коденко М.Р., Омелянская О.В. Методики оценки качества больших генеративных моделей для базовых сценариев применения в здравоохранении. Врач и информационные технологии. 2025;(3):64-75. https://doi.org/10.25881/18110193_2025_3_64

For citation:


Reshetnikov R.V., Tyrov I.A., Vasilev Yu.A., Shumskaya Yu.F., Vladzymyrskyy A.V., Akhmedzyanova D.A., Bezhenova K.Yu., K.Yu., Varyukhina M.D., Sokolova M.V., Blokhin I.A., Voytenko D.A., Mynko O.I., Kodenko M.R., Omelyanskaya O.V. Assessing the quality of large generative models for basic healthcare applications. Medical Doctor and Information Technologies. 2025;(3):64-75. (In Russ.) https://doi.org/10.25881/18110193_2025_3_64

Просмотров: 3


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1811-0193 (Print)
ISSN 2413-5208 (Online)