07 Ноября 2025 Пятница

Исследование: 95% тестов медицинских ИИ-моделей не отражают их реальную эффективность
Дарья Березина
Искусственный интеллект
14 октября 2025, 9:51

Фото: freepik.com / автор: freepik
1583

Ученые Массачусетского технологического института и Гарвардского университета в США доказали, что большинство оценок медицинских систем искусственного интеллекта (ИИ) проводятся на нереалистичных данных и не позволяют судить об их практической пользе. По их подсчетам, лишь 5% исследований LLM (больших языковых моделей) используют настоящие электронные медицинские карты, тогда как остальные 95% опираются на учебные вопросы и искусственно созданные примеры. Работа опубликована в Digital Medicine.

По мнению ученых, такой подход формирует «иллюзию эффективности» и создает ложное ощущение готовности ИИ к медицинской практике. Авторы подчеркивают, что реальные клинические данные гораздо сложнее для анализа: они содержат профессиональный жаргон, неполные записи и значительные различия между медицинскими учреждениями. В результате алгоритмы, демонстрирующие высокие показатели на синтетических тестах, часто оказываются менее точными в реальной работе врача.

Более того, большинство оценок основано на автоматических метриках точности – BLEU, ROUGE, BERTScore и других, которые были разработаны для задач машинного перевода и обработки текстов, но плохо подходят для медицинского контекста. Совпадение между автоматическими и человеческими оценками минимально: модели, показавшие высокую точность по формальным метрикам, на практике нередко дают неверные или неполные ответы.

Еще одна проблема заключается в том, что даже использование данных из реальных медицинских карт не гарантирует точной оценки работы моделей. Многие тесты, такие как MedNLI, создаются на основе настоящих записей врачей, но при их подготовке данные часто упрощаются и теряют важные детали. В итоге алгоритм может показывать высокий результат не потому, что действительно «понимает» клинический текст, а потому что угадывает ответы, подстраиваясь под особенности набора.

Кроме того, наиболее распространенный формат испытаний – экзамены со множественным выбором – не отражает практику врачей, где решения приходится принимать при неполных и противоречивых данных. В реальных условиях языковые модели показывают существенно более низкие результаты, что подтверждают исследования. Например, ученые из Германии, Великобритании и США в 2024 году проверили точность постановки диагнозов ИИ на данных 2,4 тысячи пациентов с четырьмя распространенными заболеваниями брюшной полости и выяснили, что точность моделей составляла лишь 13–68%, тогда как врачи определяли те же патологии в 84–86% случаев. Алгоритмы пока не способны воспроизводить процесс клинического мышления и принятия решений, свойственный специалистам.

Исследователи предлагают перейти к новым стандартам оценки медицинского ИИ – с участием клиницистов, анализом реальных сценариев взаимодействия врача и языковых моделей, а также проверкой того, как алгоритмы влияют на качество диагностики, скорость работы и когнитивную нагрузку персонала. Они подчеркивают, что ИИ-системы в ближайшие годы будут использоваться не как самостоятельные инструменты, а как вспомогательные технологии для рутинных задач специалистов, поэтому качество их оценки должно учитывать не только точность ответов, но и реальный эффект для медицинской практики.

По мнению авторов, только комплексная, прозрачная и учитывающая клинический контекст система проверки позволит объективно определить, насколько ИИ способен повысить эффективность здравоохранения и снизить риски для пациентов.

Ранее исследователи из Вашингтонского и Мичиганского университетов совместно с коллегами из Китая предложили включать в работу алгоритмов не только данные пациентов, но и цифровые следы взаимодействия врачей с электронными медкартами. Такой подход позволит моделям учитывать реальные особенности клинического мышления. Интеграция этих данных в систему раннего предупреждения об ухудшении состояния позволила снизить внутрибольничную смертность на 35,6%. Так учет реального контекста, на котором настаивают авторы статьи об «иллюзии эффективности», становится ключевым направлением развития медицинского ИИ.

Источник: Digital Medicine

ЮНЕСКО примет первый этический стандарт в сфере нейротехнологий

Мединдустрия

Сегодня, 17:54

Microsoft создает команду для разработки медицинского «суперинтеллекта»

Мединдустрия

Сегодня, 17:28

Комиссия Минздрава не изменила перечень ЖНВЛП и запланировала корректировки порядка своей работы

Фарминдустрия

Сегодня, 17:13

Трамп заключил договор с Novo Nordisk и Eli Lilly о снижении цен на препараты от ожирения

Фарминдустрия

Сегодня, 14:57

В Санкт-Петербурге построят два медобъекта за 5,5 млрд рублей

Мединдустрия

Сегодня, 13:50

Экс-главе владимирского Минздрава продлили меру пресечения на полгода

Мединдустрия

Сегодня, 12:47

Путин поручил сформировать Стратегию развития спортивной медицины

Мединдустрия

Сегодня, 11:51

Правительство добавило стероиды и психостимуляторы в перечень сильнодействующих веществ

Фарминдустрия

Сегодня, 10:54

Татьяна Быковская добилась УДО

Мединдустрия

Сегодня, 9:18

Картина дня: дайджест главных новостей от 6 ноября 2025 года