TTT модели: новая модель в модернизации искусственного интеллекта
Исследователи разработали новую архитектуру искусственного интеллекта под названием Test-Time Training (TTT), которая может обрабатывать значительно больший объем данных по сравнению с трансформерами при меньших вычислительных затратах.
Этот метод позволяет моделям ИИ адаптироваться и обучаться непосредственно во время использования, что открывает возможности для создания более эффективных и производительных систем искусственного интеллекта.
За последние несколько лет в сфере генеративного ИИ, властвовали модели управления на основе архитектурного строения – трансформеры. Они заложены в основе работ очень популярных систем, типа: нейросети Sora от корпорации OpenAI, а также во множестве текстовых моделях типа GPT-4, Gemini и Claude. Однако сейчас, эти трансформеры стали сталкиваться на своем пути со множеством технических ограничений, особенно когда речь идет о работе в сфере очень мощны вычислительных систем.
Главным преимуществом новой TTT моделей от трансформеров является hidden state – скрытое состояние во внутренней модели при машинном обучении. Это открывает возможность TTT моделям еще более эффективнее обрабатывать и кодировать информацию в репрезентативные переменные, при этом, не увеличивая объем своей внутренней модели при работе с данными.
Рекомендуем к прочтению
- OpenAI выпустила GPT-4.1 и GPT-4.1 mini в ChatGPT с улучшенными возможностями для разработчиков
- Alibaba представляет Qwen 3: новое поколение языковых моделей с открытым исходным кодом
- OpenAI представляет Deep Research: революционный инструмент для исследований теперь доступен бесплатно
- Названы 8 скрытых возможностей ChatGPT для повышения эффективности работы
- ChatGPT получил функцию Memory with Search для персонализированного веб-поиска