OpenAI: ИИ чаще создает вымышленные ответы, чем предоставляет точные данные
OpenAI представила новый бенчмарк SimpleQA, предназначенный для оценки точности ответов своих и конкурирующих моделей ИИ. Результаты показали, что даже самая современная модель o1-preview от OpenAI достигла лишь 42.7% правильных ответов, что указывает на то, что крупные языковые модели чаще ошибаются, чем дают верные данные.
Конкурирующая модель Claude-3.5-sonnet от Anthropic показала ещё более низкий результат – 28.9% правильных ответов, но она чаще признаёт свою неуверенность и отказывается отвечать, что иногда предпочтительнее, чем давать потенциально неверные ответы.
Исследование также выявило, что модели часто переоценивают свои способности и уверенно предоставляют ошибочные данные, что усугубляет проблему «галлюцинаций», когда ИИ генерирует недостоверную информацию.
Бенчмарк SimpleQA включает 4326 вопросов, нацеленных на проверку фактической точности ответов, что делает тестирование более строгим и помогает выявить слабые места в работе языковых моделей. Эти результаты подчеркивают важность критического подхода к выводам, генерируемым языковыми моделями, особенно с их растущей интеграцией в повседневную жизнь.
Рекомендуем к прочтению
- Опасность неофициального доступа к нейросетям: предупреждение эксперта
- Право (диалог) – первый ИИ-помощник в Телеграмме для арбитражных процессов
- ChatGPT покоряет сердца стилем Ghibli: сервера не выдержали ажиотажа
- Google представила бесплатный доступ к мощному ИИ Gemini 2.5 Pro
- YandexGPT 5 Lite Instruct: новая модель для бизнеса и разработчиков