Яндекс запускает инновационный сервис для работы с ИИ на смартфонах и ПК

Яндекс представил новый сервис, который позволяет запускать решения на основе искусственного интеллекта на смартфонах и ПК с минимальными затратами вычислительных ресурсов. Этот проект с открытым кодом направлен на снижение расходов при использовании больших языковых моделей (LLM).

Источник изображения сгенерировано нейросетью DALL•Е 3

Исследователь Владимир Малиновский из научного отдела Яндекса разработал решение для работы с языковой моделью, содержащей 8 миллиардов параметров, на обычных устройствах. Это нововведение значительно упрощает доступ к нейросетям для компаний, стартапов и исследователей. Исходный код проекта доступен на GitHub.

Его основой является технология сжатия нейросетей AQLM, созданная командой Yandex Research в сотрудничестве с университетами ISTA и KAUST летом 2024 года. Это позволяет выполнять все вычисления непосредственно на устройствах пользователей, исключая необходимость в дорогих графических процессорах.

Сервис позволяет пользователям загрузить модель, размер которой был уменьшен с 15 до 2,5 ГБ. Она может функционировать без интернета, а её скорость обработки зависит от мощности устройства. Например, на MacBook Pro M1 модель обрабатывает 1,5 токена в секунду.

Новый сервис Яндекса написан на языке Rust с использованием технологии WebAssembly, что позволяет запускать её прямо в браузере. Несмотря на значительное сжатие, качество работы модели сохраняется на уровне 80% от исходных показателей благодаря методам AQLM и PV-tuning.