ИИ размером с крошку: «Яндекс» готовит голосовую модель для наушников и часов

Система будет локально распознавать речь без лишней нагрузки на батарею

«Яндекс» разработал нейросетевую модель для голосового управления размером около 200 КБ. По словам руководителя направления голосовой активации Дмитрия Солодухи, это меньше объёма одной фотографии на смартфоне.

Технология предназначена для носимых устройств — наушников, умных часов и других гаджетов, где важны низкое энергопотребление, быстрая реакция и работа без постоянной нагрузки на процессор. В таких устройствах система должна постоянно слушать окружающий звук локально, но при этом не разряжать аккумулятор и не создавать задержек.

Для этого инженеры «Яндекса» применили двухэтапную схему. Сначала лёгкая модель определяет, есть ли в аудиопотоке речь. Только после этого включается основная нейросеть, которая отвечает за распознавание команды. Такой подход снижает нагрузку на устройство.

Дополнительно разработчики сократили число параметров модели примерно в 10 раз за счёт новой архитектуры. Также для работы подобных решений планируется использовать чипы с NPU — нейропроцессорами, которые ускоряют вычисления ИИ и потребляют меньше энергии, чем обычные CPU.

Новая модель может стать частью будущей линейки носимых ИИ-устройств «Яндекса». Первыми такими гаджетами, как ожидается, станут наушники «Яндекс Дропс» с «Алисой AI» и функцией «Моя память».

Читайте ещё материалы по теме: