OpenAI: ИИ чаще создает вымышленные ответы, чем предоставляет точные данные
OpenAI представила новый бенчмарк SimpleQA, предназначенный для оценки точности ответов своих и конкурирующих моделей ИИ. Результаты показали, что даже самая современная модель o1-preview от OpenAI достигла лишь 42.7% правильных ответов, что указывает на то, что крупные языковые модели чаще ошибаются, чем дают верные данные.
Конкурирующая модель Claude-3.5-sonnet от Anthropic показала ещё более низкий результат – 28.9% правильных ответов, но она чаще признаёт свою неуверенность и отказывается отвечать, что иногда предпочтительнее, чем давать потенциально неверные ответы.
Исследование также выявило, что модели часто переоценивают свои способности и уверенно предоставляют ошибочные данные, что усугубляет проблему «галлюцинаций», когда ИИ генерирует недостоверную информацию.
Бенчмарк SimpleQA включает 4326 вопросов, нацеленных на проверку фактической точности ответов, что делает тестирование более строгим и помогает выявить слабые места в работе языковых моделей. Эти результаты подчеркивают важность критического подхода к выводам, генерируемым языковыми моделями, особенно с их растущей интеграцией в повседневную жизнь.
Рекомендуем к прочтению
- OpenAI запустила сервис для персонализированного озвучивания текстов
- Meta даст старт в ЕС чат-боту Meta AI на основе ИИ
- Realme анонсирует новые модели V70 и V70s: названы характеристики и стоимость
- От бокового сальто до двойного вращения: китайский андроид G1 задает новые стандарты робототехники
- Itel AI Vision: недорогой прорыв с 5G, нейросетями и экраном 120 Гц