Текст как изображение: стажёр «Сбера» выпустил ИИ, который быстрее GigaChat

Ответ появляется наброском и дорабатывается фрагментами, а не словом за словом

«Сбер» открыл доступ к экспериментальной языковой модели GFusion, которую создал бывший стажёр команды фундаментальных моделей Даниил Тихонов. В отличие от привычных нейросетей, она не пишет ответ строго слева направо, а сначала собирает черновик, затем постепенно улучшает отдельные части.

Такой подход называется диффузионным — похожим образом нейросети создают изображения и видео. Обычная языковая модель должна переписывать продолжение ответа, если ошиблась в начале. GFusion может вернуться к нужному фрагменту и исправить его, не начиная работу заново.

За счёт параллельной генерации модель, по тестам «Сбера», работает до 45% быстрее GigaChat 3, на основе которой её обучали. Разработчики считают, что такой принцип может пригодиться там, где важна скорость: в автодополнении кода, ИИ-агентах и сервисах с минимальной задержкой.

Диффузионные модели лучше структурируют ответы и могут генерировать текст непоследовательно, самостоятельно выбирая порядок его написания.
Даниил Тихонов, инженер машинного обучения «Сбера», автор проекта

Вместе с GFusion компания выложила инструменты для обучения подобных моделей. Они должны снизить потребность в видеокартах и ускорить эксперименты разработчиков. Команда также добавила поддержку своей архитектуры в SGLang — популярный открытый инструмент для запуска языковых моделей.

Читайте ещё материалы по теме: