OpenAI: ИИ чаще создает вымышленные ответы, чем предоставляет точные данные
OpenAI представила новый бенчмарк SimpleQA, предназначенный для оценки точности ответов своих и конкурирующих моделей ИИ. Результаты показали, что даже самая современная модель o1-preview от OpenAI достигла лишь 42.7% правильных ответов, что указывает на то, что крупные языковые модели чаще ошибаются, чем дают верные данные.

Конкурирующая модель Claude-3.5-sonnet от Anthropic показала ещё более низкий результат – 28.9% правильных ответов, но она чаще признаёт свою неуверенность и отказывается отвечать, что иногда предпочтительнее, чем давать потенциально неверные ответы.
Исследование также выявило, что модели часто переоценивают свои способности и уверенно предоставляют ошибочные данные, что усугубляет проблему «галлюцинаций», когда ИИ генерирует недостоверную информацию.
Бенчмарк SimpleQA включает 4326 вопросов, нацеленных на проверку фактической точности ответов, что делает тестирование более строгим и помогает выявить слабые места в работе языковых моделей. Эти результаты подчеркивают важность критического подхода к выводам, генерируемым языковыми моделями, особенно с их растущей интеграцией в повседневную жизнь.
Последние новости:
- Число авторов VK Видео удвоилось: платформа стала лидером по аудитории в России
- Журнал Time признал создателей искусственного интеллекта главными людьми 2025 года
- Telegram добавил новый способ авторизации
- Межзвездный объект 3I/ATLAS вынудил мировые державы активировать системы планетарной обороны
- Samsung показала «трикладушку» Galaxy Z TriFold с двумя шарнирами и камерой на 200 Мп