Claude Opus 4.5 превзошел конкурентов в программировании и снизил цену в три раза
Anthropic выпустила Claude Opus 4.5 — новую флагманскую модель семейства Claude, которую разработчики позиционируют как лучшее решение для программирования, агентских задач и работы с компьютером. Модель демонстрирует значительный прогресс не только в написании кода, но и в аналитике, работе с таблицами и презентациями.

Ключевое изменение коснулось ценообразования: стоимость использования снизилась втрое по сравнению с предыдущими версиями Opus 4 и 4.1. Теперь входные токены стоят $5 за миллион вместо $15, а выходные — $25 вместо $75. При этом уровень возможностей остался сопоставимым или даже превысил показатели предшественников. Модель уже доступна через приложения Claude, API и крупные облачные платформы.
В области программирования и инженерных задач Claude Opus 4.5 показывает впечатляющие результаты. Модель заняла лидирующие позиции на бенчмарке SWE-bench Verified и опережает конкурентов в большинстве других тестов. На SWE-bench Multilingual она заняла первое место в семи из восьми языков программирования. В тесте Aider Polyglot прирост по сравнению с Sonnet 4.5 составил десять процентных пунктов. Anthropic провела внутреннее тестирование, организовав двухчасовой экзамен по кодингу повышенной сложности — Opus 4.5 набрала результат выше любого человеческого кандидата.
Разработчики уделили особое внимание поведению модели в многошаговых задачах. В бенчмарке τ2-bench модель должна была действовать как сотрудник авиакомпании и помочь недовольному клиенту, соблюдая корпоративные правила. Ожидаемый правильный ответ предполагал вежливый отказ в изменении бронирования для базового эконом-класса. Claude Opus 4.5 предложила нестандартное решение: повышение класса обслуживания с последующим переносом рейса на нужные даты. Формально тест засчитал это как ошибку, поскольку такой вариант не был предусмотрен создателями бенчмарка. Однако пользователи и тестировщики отмечают именно такое креативное поведение как прогресс в сторону более естественного взаимодействия, приближенного к работе живых специалистов.
В API добавлен новый параметр effort, регулирующий глубину анализа модели. Пользователи могут выбирать между быстрым режимом с поверхностной обработкой и медленным режимом с максимально тщательной проработкой. На среднем уровне effort модель Opus 4.5 достигает результатов Sonnet 4.5 на SWE-bench Verified, при этом генерируя на 76% меньше выходных токенов. На максимальном уровне она превосходит Sonnet 4.5 на 4,3 процентных пункта и все равно расходует на 48% меньше токенов.
Дополнительные механизмы включают сжатие контекста, улучшенное управление памятью и координацию нескольких агентов. По оценкам Anthropic, эти функции добавляют почти 15 процентных пунктов на внутреннем тесте глубоких исследований. Сочетание трехкратного снижения цены с передовыми возможностями делает Opus 4.5 доступной массовой моделью профессионального уровня для разработчиков и компаний.
Читайте также:
- Яндекс запустил Промптхаб: новая платформа с 1000+ готовых промптов для работы с нейросетями
- Math-GPT: нейросеть для решения задач по математике, физике и химии по фото
- Яндекс запускает бесплатное обучение школьников и студентов ИИ-робототехнике
- Google AI Studio как онлайн-репетитор: стало известно о новых возможностях искусственного интеллекта
- Яндекс запустил масштабный эксперимент по выявлению сознательного мышления у нейросетей
Последние новости:
- Anthropic готовит выпуск флагманской модели Claude Opus 4.5
- xAI запустила Grok 4.1 Fast: новая модель ИИ доступна бесплатно до 3 декабря
- Google выпустила Gemini 3.0 Deep Think: режим для решения сложных задач в математике и программировании
- Вышла Google Antigravity: новая IDE превращает программистов в архитекторов проектов
- Google запускает мобильное приложение AI Studio для разработчиков в 2026 году