Claude Opus 4.5 превзошел конкурентов в программировании и снизил цену в три раза

Anthropic выпустила Claude Opus 4.5 — новую флагманскую модель семейства Claude, которую разработчики позиционируют как лучшее решение для программирования, агентских задач и работы с компьютером. Модель демонстрирует значительный прогресс не только в написании кода, но и в аналитике, работе с таблицами и презентациями.

Ключевое изменение коснулось ценообразования: стоимость использования снизилась втрое по сравнению с предыдущими версиями Opus 4 и 4.1. Теперь входные токены стоят $5 за миллион вместо $15, а выходные — $25 вместо $75. При этом уровень возможностей остался сопоставимым или даже превысил показатели предшественников. Модель уже доступна через приложения Claude, API и крупные облачные платформы.

В области программирования и инженерных задач Claude Opus 4.5 показывает впечатляющие результаты. Модель заняла лидирующие позиции на бенчмарке SWE-bench Verified и опережает конкурентов в большинстве других тестов. На SWE-bench Multilingual она заняла первое место в семи из восьми языков программирования. В тесте Aider Polyglot прирост по сравнению с Sonnet 4.5 составил десять процентных пунктов. Anthropic провела внутреннее тестирование, организовав двухчасовой экзамен по кодингу повышенной сложности — Opus 4.5 набрала результат выше любого человеческого кандидата.

Разработчики уделили особое внимание поведению модели в многошаговых задачах. В бенчмарке τ2-bench модель должна была действовать как сотрудник авиакомпании и помочь недовольному клиенту, соблюдая корпоративные правила. Ожидаемый правильный ответ предполагал вежливый отказ в изменении бронирования для базового эконом-класса. Claude Opus 4.5 предложила нестандартное решение: повышение класса обслуживания с последующим переносом рейса на нужные даты. Формально тест засчитал это как ошибку, поскольку такой вариант не был предусмотрен создателями бенчмарка. Однако пользователи и тестировщики отмечают именно такое креативное поведение как прогресс в сторону более естественного взаимодействия, приближенного к работе живых специалистов.

В API добавлен новый параметр effort, регулирующий глубину анализа модели. Пользователи могут выбирать между быстрым режимом с поверхностной обработкой и медленным режимом с максимально тщательной проработкой. На среднем уровне effort модель Opus 4.5 достигает результатов Sonnet 4.5 на SWE-bench Verified, при этом генерируя на 76% меньше выходных токенов. На максимальном уровне она превосходит Sonnet 4.5 на 4,3 процентных пункта и все равно расходует на 48% меньше токенов.

Дополнительные механизмы включают сжатие контекста, улучшенное управление памятью и координацию нескольких агентов. По оценкам Anthropic, эти функции добавляют почти 15 процентных пунктов на внутреннем тесте глубоких исследований. Сочетание трехкратного снижения цены с передовыми возможностями делает Opus 4.5 доступной массовой моделью профессионального уровня для разработчиков и компаний.

Читайте также:

neuronews.by

Claude Opus 4.5 превзошел конкурентов в программировании и снизил цену в три раза

Последние новости: