Яндекс представил новый сервис, который позволяет запускать решения на основе искусственного интеллекта на смартфонах и ПК с минимальными затратами вычислительных ресурсов. Этот проект с открытым кодом направлен на снижение расходов при использовании больших языковых моделей (LLM).
Исследователь Владимир Малиновский из научного отдела Яндекса разработал решение для работы с языковой моделью, содержащей 8 миллиардов параметров, на обычных устройствах. Это нововведение значительно упрощает доступ к нейросетям для компаний, стартапов и исследователей. Исходный код проекта доступен на GitHub.
Его основой является технология сжатия нейросетей AQLM, созданная командой Yandex Research в сотрудничестве с университетами ISTA и KAUST летом 2024 года. Это позволяет выполнять все вычисления непосредственно на устройствах пользователей, исключая необходимость в дорогих графических процессорах.
Сервис позволяет пользователям загрузить модель, размер которой был уменьшен с 15 до 2,5 ГБ. Она может функционировать без интернета, а её скорость обработки зависит от мощности устройства. Например, на MacBook Pro M1 модель обрабатывает 1,5 токена в секунду.
Новый сервис Яндекса написан на языке Rust с использованием технологии WebAssembly, что позволяет запускать её прямо в браузере. Несмотря на значительное сжатие, качество работы модели сохраняется на уровне 80% от исходных показателей благодаря методам AQLM и PV-tuning.
Читайте ещё по теме:
Нейросеть от Яндекса научилась тезисно пересказывать текст
YandexGPT сдала ЕГЭ по литературе
Следит за нитью разговора: нейросеть от Яндекса стала более самообучаемой