23 Апреля 2026 Четверг

Исследование: GPT-5 не показал ожидаемого прогресса – ошибки фиксируются в 65% случаев
Дарья Березина
Мединдустрия Искусственный интеллект
8 апреля 2026, 15:55

Фото: freepik.com / автор: freepik
1195

Ученые из США и Израиля представили исследование, посвященное оценке клинической надежности GPT-5, и пришли к выводу, что модель от OpenAI не снизила риски предвзятости и уязвимости к ложным данным по сравнению с предыдущей версией (GPT-4o). Авторы сопоставили поведение моделей на одинаковых сценариях из практики неотложной помощи и показали, что различия в решениях по социально-демографическим признакам сохраняются, а склонность к «додумыванию» ошибочной информации даже усиливается. Работа опубликована в журнале Digital Medicine.

В основе анализа – 500 клинических сценариев, каждый из которых моделировался в 32 вариантах с различными социально-демографическими характеристиками пациента. Модель принимала решения по четырем ключевым параметрам: приоритет триажа, объем обследований, уровень лечения и необходимость психиатрического скрининга. Авторы фиксировали, как меняются рекомендации при неизменных клинических данных.

Результаты показали, что GPT-5 сохраняет системные различия в решениях в зависимости от профиля пациента. При одинаковых клинических данных модель значительно чаще рекомендовала для уязвимых групп, включая бездомных пациентов, проведение срочного психиатрического скрининга, а также более интенсивную тактику ведения – вместо амбулаторного наблюдения госпитализацию или перевод в стационар с более высоким уровнем медицинского контроля, вплоть до отделения интенсивной терапии. Одновременно сохранялся социально-экономический градиент – пациентам с низким доходом реже предлагались расширенные методы диагностики, такие как КТ и МРТ.

Подчеркивается, что масштаб этих различий сопоставим с предыдущими результатами для GPT-4o, а в ряде случаев даже превышает их. Это означает, что обновление модели само по себе не привело к снижению вариативности решений при одинаковых медицинских данных.

Отдельный блок исследования посвящен устойчивости к ложным данным в запросах. Тесты показали, что при наличии даже одного недостоверного элемента GPT-5 в 65% случаев не распознавал ошибку и включал ее в ответ, развивая ложную информацию. Для предыдущей версии этот показатель составлял 53%. Так, модель системно воспроизводит и усиливает ошибки, если они присутствуют в исходных данных. Использование специального защитного промта снижало долю таких сбоев до 7,7%, однако полностью проблему не устраняло.

Авторы отмечают, что выявленные эффекты могут иметь практические последствия для системы здравоохранения – это риски избыточной маршрутизации пациентов, необоснованной эскалации лечения и дополнительной нагрузки на службы неотложной помощи. Кроме того, сохраняется вероятность закрепления ошибок, если недостоверные данные из запроса переносятся в клинические рекомендации.

В качестве ключевого вывода исследователи указывают на необходимость системного контроля за использованием таких моделей. По их мнению, каждое обновление искусственного интеллекта должно сопровождаться повторной проверкой на стандартизированных клинических сценариях, а сами механизмы аудита должны быть автоматизированы и встроены в процесс эксплуатации.

При запуске GPT-5 в августе 2025 года компания OpenAI позиционировала модель как более безопасную и пригодную для медицинских задач. По внутренним тестам с участием врачей она демонстрировала более высокую точность ответов и уже внедрялась в фармацевтические и страховые процессы. Кроме того, в компании заявляли об улучшении качества ответов в диалогах, связанных с психическим здоровьем: после обновлений доля нежелательных реакций снизилась на 65–80%. Модель демонстрировала высокое соответствие ожидаемому поведению в кризисных сценариях.

В конце 2025 года аналитики компании Artificial Analysis оценили ИИ-модели в условиях, максимально приближенных к реальному использованию – через интерфейс, применяемый в медицинских сервисах и клинических системах. По их данным, GPT-5.1 давала лишь около 35% корректных ответов и демонстрировала склонность к уверенным, но неверным выводам.

Подписывайтесь на наши каналы в MAX: Vademecum и Vademecum Live

Источник: Digital Medicine

Картина дня: дайджест главных новостей от 22 апреля 2026 года

«Гемотест» вложил 125 млн рублей в Центр морфологических исследований

«ПСК Фарма» планирует оспорить решение Роспатента о сохранении прав Pfizer на тофацитиниб

В Гонконге разработали ИИ для диагностики рака без дополнительного обучения

SuperJob: анестезиолог-реаниматолог в медцентре Мурманска может зарабатывать от 140 тысяч рублей

Карьера

22.04.2026

Ученые заявили о рисках для радиационной безопасности в России

Разработан проект стандарта медпомощи взрослым при миопии

Минобрнауки предложило скорректировать показатели эффективности госполитики в области НТР

Мосгорсуд признал законным прекращение дела в отношении хирургов клиники Хайдарова

Картина дня: дайджест главных новостей от 21 апреля 2026 года