Нейросети проходят испытание: OpenAI в лидерах «последнего экзамена человечества»

Недавно представленное испытание под названием «Предел человеческого разума», предназначенное для оценки возможностей нейронных сетей, выявило в лидерах две разработки от OpenAI: o3-mini и Deep Research.

Изначально, модель DeepSeek R1 продемонстрировала 9.4% успешных решений, однако её превзошли продукты OpenAI: o3-mini с результатом в 10.5% и o3-mini-high с 13%. Наиболее впечатляющий результат показала OpenAI Deep Research, достигнув отметки в 26.6%, что является значительным прогрессом по сравнению с предыдущими показателями.

Сопоставление результатов несколько затруднено, поскольку Deep Research обладает функцией самостоятельного поиска сведений, что отсутствует у других моделей. Данное обстоятельство имеет существенное значение, учитывая высокий уровень сложности предложенных задач.

Тем не менее, системы искусственного интеллекта непрерывно развиваются, и вопрос о том, когда одна из них сможет пройти данный тест с максимальным результатом, пока остается открытым. Будущее покажет, какая именно нейросеть сможет покорить эту вершину.