OpenAI: ИИ чаще создает вымышленные ответы, чем предоставляет точные данные

OpenAI представила новый бенчмарк SimpleQA, предназначенный для оценки точности ответов своих и конкурирующих моделей ИИ. Результаты показали, что даже самая современная модель o1-preview от OpenAI достигла лишь 42.7% правильных ответов, что указывает на то, что крупные языковые модели чаще ошибаются, чем дают верные данные.

Конкурирующая модель Claude-3.5-sonnet от Anthropic показала ещё более низкий результат – 28.9% правильных ответов, но она чаще признаёт свою неуверенность и отказывается отвечать, что иногда предпочтительнее, чем давать потенциально неверные ответы.

Исследование также выявило, что модели часто переоценивают свои способности и уверенно предоставляют ошибочные данные, что усугубляет проблему «галлюцинаций», когда ИИ генерирует недостоверную информацию.

Бенчмарк SimpleQA включает 4326 вопросов, нацеленных на проверку фактической точности ответов, что делает тестирование более строгим и помогает выявить слабые места в работе языковых моделей. Эти результаты подчеркивают важность критического подхода к выводам, генерируемым языковыми моделями, особенно с их растущей интеграцией в повседневную жизнь.