GPT-5.5 показал лучший результат среди ИИ в закрытом IQ-тесте

Новые модели OpenAI показали впечатляющие результаты в специализированном тестировании интеллектуальных способностей, что вызвало волну обсуждений в профессиональном сообществе. GPT-5.5 Pro и GPT-5.5 Thinking набрали по 130 баллов на закрытом IQ-тесте платформы TrackingAI. Этот показатель соответствует верхним 2% населения по стандартной шкале IQ и достигает порога, по которому организация Mensa отбирает кандидатов.

Однако интерпретация этих результатов требует понимания методологии тестирования и существенных ограничений в сравнении различных моделей. Платформа TrackingAI использует раздельную систему оценки для текстовых моделей и систем с компьютерным зрением, что исключает прямое сопоставление результатов. Кроме того, существуют значительные различия между публичными и закрытыми тестами.

TrackingAI проводит оценку искусственного интеллекта по двум различным методикам. Первая основана на публичном тесте Mensa Norway, доступном в интернете, что создает риск попадания вопросов и решений в обучающие датасеты моделей. Вторая методика использует закрытый Offline Test, разработанный участником Mensa специально для этой платформы. Вопросы из закрытого теста никогда не публиковались в открытом доступе, что теоретически исключает возможность их предварительного заучивания нейросетями. Именно поэтому Offline Test представляет больший интерес для оценки способности моделей решать принципиально новые задачи, а не распознавать уже знакомые паттерны из обучающих данных.

Критически важным аспектом тестирования является разделение моделей по способу обработки информации. TrackingAI отдельно тестирует системы в текстовом режиме и с активированным компьютерным зрением. В первом случае модели получают словесное описание визуальных IQ-задач, во втором — непосредственно изображение задания. Это создает принципиально разные условия: текстовые модели зависят от качества и точности вербального описания визуальной информации, тогда как системы с компьютерным зрением самостоятельно интерпретируют графические элементы. Результаты этих двух категорий нельзя объединять в единый рейтинг, поскольку они оценивают различные наборы способностей.

В закрытом тесте Offline Test среди текстовых моделей GPT-5.5 Pro и GPT-5.5 Thinking действительно заняли лидирующие позиции с результатом 130 баллов. Однако картина меняется при анализе публичного теста Mensa Norway. В этом случае GPT-5.5 Thinking уступает нескольким конкурентам: выше в рейтинге расположились Grok-4.20 Expert Mode, Gemini 3.1 Pro Preview и Claude-4.7 Opus Extended Thinking. Такая разница в результатах может объясняться несколькими факторами, включая возможное присутствие похожих задач в обучающих данных конкурирующих моделей или различия в архитектуре систем, влияющие на решение определенных типов логических задач.

Необходимо понимать ограниченность IQ-тестов как инструмента оценки искусственного интеллекта. Тесты TrackingAI фокусируются преимущественно на абстрактной логике и распознавании визуальных паттернов. Они не измеряют множество других критически важных характеристик: способность к программированию, качество выполнения научной работы, надежность при решении практических задач, эффективность функционирования в режиме автономного агента. Модель может демонстрировать выдающиеся результаты в IQ-тестах, но при этом уступать конкурентам в специализированных задачах или показывать меньшую стабильность в реальных рабочих сценариях.

Корректная формулировка выводов выглядит следующим образом: GPT-5.5 стал лидером в важном сегменте рейтинга TrackingAI, особенно впечатляющим является результат на закрытом наборе задач Offline Test. Это свидетельствует о сильных способностях модели в области абстрактного мышления и решения логических задач, не встречавшихся в процессе обучения.

Читайте также:

neuronews.by

GPT-5.5 показал лучший результат среди ИИ в закрытом IQ-тесте

Последние новости: