Dark
Light
06.12.2025
openai-представила-healthbench —-датасет-для-оценки ИИ-в медицине
OpenAI представила HealthBench — датасет для оценки ИИ в медицине

OpenAI представила HealthBench — датасет для оценки ИИ в медицине

15.05.2025

Компания OpenAI разработала новый инструмент для оценки качества работы искусственного интеллекта (ИИ) в сфере здравоохранения. Набор данных под названием HealthBench содержит 5 000 смоделированных медицинских диалогов, а также критерии для оценки ответов, которые помогут сравнивать разные модели искусственного интеллекта.

Над созданием HealthBench работали 262 врача из 60 стран. Они предложили более 57 000 параметров, по которым можно оценивать точность, полноту и уместность медицинских ответов от ИИ. Главная цель проекта — обеспечить справедливую и масштабируемую проверку ИИ-моделей в чувствительной сфере здравоохранения.

Разработчики подчеркивают, что HealthBench не содержит настоящих медицинских записей — чтобы избежать нарушений конфиденциальности, все диалоги были синтезированы на основе врачебного опыта. В том числе в датасет включены 1 000 особенно сложных случаев, с которыми ИИ-модели ранее не справлялись. Это сделано для того, чтобы разработчики могли улучшать свои системы на конкретных примерах.

OpenAI уже провела тесты своих моделей, включая новую o3, а также сравнила их с решениями от других разработчиков. Модель o3 показала лучшие результаты в передаче информации, но все протестированные ИИ дали слабые ответы в плане понимания контекста и полноты информации.

Некоторые специалисты раскритиковали OpenAI за то, что она оценивает собственные модели. Также вызывает опасения тот факт, что часть оценок проводилась самими ИИ-системами — это может скрыть ошибки, которые разделяют и модель, и оценщик.

loader-image
Ashgabat
,
temperature icon
Humidity
Pressure
Wind
Wind Gust Wind Gust:
Clouds Clouds:
Visibility Visibility:
Sunrise Sunrise:
Sunset Sunset:
intel-представит-видеокарту-arc-b770-battlemage-на computex-2025
Предыдущая история

Intel представит видеокарту Arc B770 Battlemage на Computex 2025

Рекламные-материалы-oppo-a5x-утекли-в Сеть
Next Story

Рекламные материалы Oppo A5x утекли в Сеть

Последние из Технология

ПРООН и Министерство связи Туркменистана открывают Международный форум стартапов 2025 в рамках конференции TurkmenTel–2025

14.11.2025
Ашхабад, 13 ноября 2025 г.: 13 ноября 2025 года Программа развития Организации Объединенных Наций (ПРООН) в Туркменистане совместно с Министерством связи Туркменистана успешно открыли

Как скучная Oracle снова стала модной

23.09.2025
Технологический гигант возвращается в игру благодаря ИИ и облачным решениям Oracle, ранее воспринимавшаяся как консервативная компания корпоративного ПО, сегодня вновь в центре внимания благодаря

Oracle получит контроль над алгоритмом TikTok в США

23.09.2025
Ключевой шаг в обеспечении цифровой безопасности После завершения сделки по продаже американского сегмента TikTok, корпорация Oracle получит контроль над алгоритмом рекомендаций платформы в США.
Перейти кTop

Don't Miss