GPT-5.5 показал лучший результат среди ИИ в закрытом IQ-тесте
Новые модели OpenAI показали впечатляющие результаты в специализированном тестировании интеллектуальных способностей, что вызвало волну обсуждений в профессиональном сообществе. GPT-5.5 Pro и GPT-5.5 Thinking набрали по 130 баллов на закрытом IQ-тесте платформы TrackingAI. Этот показатель соответствует верхним 2% населения по стандартной шкале IQ и достигает порога, по которому организация Mensa отбирает кандидатов.

Однако интерпретация этих результатов требует понимания методологии тестирования и существенных ограничений в сравнении различных моделей. Платформа TrackingAI использует раздельную систему оценки для текстовых моделей и систем с компьютерным зрением, что исключает прямое сопоставление результатов. Кроме того, существуют значительные различия между публичными и закрытыми тестами.
TrackingAI проводит оценку искусственного интеллекта по двум различным методикам. Первая основана на публичном тесте Mensa Norway, доступном в интернете, что создает риск попадания вопросов и решений в обучающие датасеты моделей. Вторая методика использует закрытый Offline Test, разработанный участником Mensa специально для этой платформы. Вопросы из закрытого теста никогда не публиковались в открытом доступе, что теоретически исключает возможность их предварительного заучивания нейросетями. Именно поэтому Offline Test представляет больший интерес для оценки способности моделей решать принципиально новые задачи, а не распознавать уже знакомые паттерны из обучающих данных.
Критически важным аспектом тестирования является разделение моделей по способу обработки информации. TrackingAI отдельно тестирует системы в текстовом режиме и с активированным компьютерным зрением. В первом случае модели получают словесное описание визуальных IQ-задач, во втором — непосредственно изображение задания. Это создает принципиально разные условия: текстовые модели зависят от качества и точности вербального описания визуальной информации, тогда как системы с компьютерным зрением самостоятельно интерпретируют графические элементы. Результаты этих двух категорий нельзя объединять в единый рейтинг, поскольку они оценивают различные наборы способностей.
В закрытом тесте Offline Test среди текстовых моделей GPT-5.5 Pro и GPT-5.5 Thinking действительно заняли лидирующие позиции с результатом 130 баллов. Однако картина меняется при анализе публичного теста Mensa Norway. В этом случае GPT-5.5 Thinking уступает нескольким конкурентам: выше в рейтинге расположились Grok-4.20 Expert Mode, Gemini 3.1 Pro Preview и Claude-4.7 Opus Extended Thinking. Такая разница в результатах может объясняться несколькими факторами, включая возможное присутствие похожих задач в обучающих данных конкурирующих моделей или различия в архитектуре систем, влияющие на решение определенных типов логических задач.
Необходимо понимать ограниченность IQ-тестов как инструмента оценки искусственного интеллекта. Тесты TrackingAI фокусируются преимущественно на абстрактной логике и распознавании визуальных паттернов. Они не измеряют множество других критически важных характеристик: способность к программированию, качество выполнения научной работы, надежность при решении практических задач, эффективность функционирования в режиме автономного агента. Модель может демонстрировать выдающиеся результаты в IQ-тестах, но при этом уступать конкурентам в специализированных задачах или показывать меньшую стабильность в реальных рабочих сценариях.
Корректная формулировка выводов выглядит следующим образом: GPT-5.5 стал лидером в важном сегменте рейтинга TrackingAI, особенно впечатляющим является результат на закрытом наборе задач Offline Test. Это свидетельствует о сильных способностях модели в области абстрактного мышления и решения логических задач, не встречавшихся в процессе обучения.
Читайте также:
- OpenAI выпустила GPT-5.5: передовую агентную модель с упором на полную автономность
- OpenAI тестирует ChatGPT Images 2 — новую версию генератора изображений
- OpenAI запустила новый тариф ChatGPT Pro за $100 в месяц — что в него входит
- Вышла GPT Images 2 — модель для генерации изображений с поддержкой текста и веб-поиском
- OpenAI улучшила Codex — ИИ-агента для управления Mac и браузером
- Вышла ImagineArt 2.0 — новая нейросеть для фотореалистичной генерации изображений
Последние новости:
- В Kling Video 3.0 появилась нативная генерация в 4K
- Яндекс представил ИИ-платформу «Яндекс Авто» с голосовым ассистентом «Алиса»
- Grok Imagine получил обновление: улучшенная синхронизация губ и реалистичный звук
- DeepSeek запустила сразу две модели ИИ: что скрывается за V4-Pro и V4-Flash
- xAI представила Grok Voice Think Fast 1.0 — голосовую модель с лидирующими показателями