Gemini 3 Pro признан лидером среди ИИ в решении сложных математических задач

Искусственный интеллект продолжает демонстрировать впечатляющий прогресс в решении сложных математических задач. Недавно опубликованные результаты бенчмарка FrontierMath показали неожиданное лидерство модели от Google. Этот тест считается одним из наиболее требовательных для современных языковых моделей, поскольку включает задачи уровня высшей математики.

Результаты оказались особенно примечательными с учетом того, что победившая модель доступна по массовой подписке. Разрыв между ведущими моделями составил несколько процентных пунктов, что в контексте данного бенчмарка является существенным достижением. Впервые за долгое время модель не от OpenAI заняла первую строчку в столь престижном рейтинге. Это событие может сигнализировать о новом этапе конкуренции между технологическими гигантами в области ИИ.

Google Gemini 3 Pro Preview заняла лидирующую позицию в бенчмарке FrontierMath, обогнав GPT-5.1 Thinking от OpenAI как по совокупному результату, так и на наиболее сложном уровне заданий. Модель Google показала результат около 37,6% с поправкой на сложность, в то время как Gemini 2.5 Deep Think набрала 29%, а GPT-5 Thinking — 26,6%. Разница особенно заметна на четвертом уровне сложности, где Gemini 3 Pro решила девять задач против шести у конкурентов от OpenAI.

FrontierMath представляет собой коллекцию из нескольких сотен оригинальных математических задач, разработанных командой Epoch AI совместно с профессиональными математиками. Бенчмарк охватывает широкий спектр математических дисциплин — теорию чисел, математический анализ, алгебраическую геометрию и теорию категорий. Задачи разделены на четыре уровня сложности: первые три соответствуют программе от старших курсов бакалавриата до начала магистратуры, а четвертый уровень включает задачи исследовательского характера. Для решения таких заданий человеку требуется от нескольких часов до нескольких дней работы.

FrontierMath остается одним из немногих бенчмарков, где искусственный интеллект все еще значительно уступает людям. По данным Epoch, средний результат человеческих команд составляет около 30% на полном наборе задач, а при коллективной работе с несколькими попытками может достигать 50%. В этом контексте улучшение показателей ИИ с 13% до 19% на четвертом уровне сложности выглядит серьезным прорывом.

Важным аспектом достижения стала доступность модели. Gemini 3 Pro не требует дорогостоящей подписки за 200 долларов, как некоторые конкурирующие решения, а доступна в рамках Google AI Pro за 20 долларов в месяц. В отдельных сервисах компании модель предоставляется даже бесплатно, что делает передовые возможности ИИ в математике доступными широкому кругу пользователей.

Результаты тестирования демонстрируют растущую конкуренцию между крупными разработчиками языковых моделей и указывают на быстрое развитие возможностей ИИ в области формального математического мышления.

Читайте также:

neuronews.by

Gemini 3 Pro признан лидером среди ИИ в решении сложных математических задач

Последние новости: