OpenAI: ИИ чаще создает вымышленные ответы, чем предоставляет точные данные
OpenAI представила новый бенчмарк SimpleQA, предназначенный для оценки точности ответов своих и конкурирующих моделей ИИ. Результаты показали, что даже самая современная модель o1-preview от OpenAI достигла лишь 42.7% правильных ответов, что указывает на то, что крупные языковые модели чаще ошибаются, чем дают верные данные.

Конкурирующая модель Claude-3.5-sonnet от Anthropic показала ещё более низкий результат – 28.9% правильных ответов, но она чаще признаёт свою неуверенность и отказывается отвечать, что иногда предпочтительнее, чем давать потенциально неверные ответы.
Исследование также выявило, что модели часто переоценивают свои способности и уверенно предоставляют ошибочные данные, что усугубляет проблему «галлюцинаций», когда ИИ генерирует недостоверную информацию.
Бенчмарк SimpleQA включает 4326 вопросов, нацеленных на проверку фактической точности ответов, что делает тестирование более строгим и помогает выявить слабые места в работе языковых моделей. Эти результаты подчеркивают важность критического подхода к выводам, генерируемым языковыми моделями, особенно с их растущей интеграцией в повседневную жизнь.
Последние новости:
- Gemini Live научился создавать и редактировать изображения прямо во время разговора — показываете камеру и получаете результат
- Microsoft запустила Scout: ИИ-агент, который работает за вас в Microsoft 365
- OpenAI расширила Codex плагинами для аналитики, дизайна и продаж
- ElevenLabs запустила Flows Agent — ИИ сам выбирает модели и создаёт рабочие цепочки
- Apple представила ИИ-ассистента Siri AI и новые функции iOS 27 на WWDC 2026