«Яндекс» разработал нейросетевую модель для голосового управления размером около 200 КБ. По словам руководителя направления голосовой активации Дмитрия Солодухи, это меньше объёма одной фотографии на смартфоне.
Технология предназначена для носимых устройств — наушников, умных часов и других гаджетов, где важны низкое энергопотребление, быстрая реакция и работа без постоянной нагрузки на процессор. В таких устройствах система должна постоянно слушать окружающий звук локально, но при этом не разряжать аккумулятор и не создавать задержек.
Для этого инженеры «Яндекса» применили двухэтапную схему. Сначала лёгкая модель определяет, есть ли в аудиопотоке речь. Только после этого включается основная нейросеть, которая отвечает за распознавание команды. Такой подход снижает нагрузку на устройство.
Дополнительно разработчики сократили число параметров модели примерно в 10 раз за счёт новой архитектуры. Также для работы подобных решений планируется использовать чипы с NPU — нейропроцессорами, которые ускоряют вычисления ИИ и потребляют меньше энергии, чем обычные CPU.
Новая модель может стать частью будущей линейки носимых ИИ-устройств «Яндекса». Первыми такими гаджетами, как ожидается, станут наушники «Яндекс Дропс» с «Алисой AI» и функцией «Моя память».