«Яндекс» разработал ультрамалую нейросетевую модель для голосового управления в носимых ИИ-устройствах. Её размер удалось сократить примерно до 200 КБ — без потери качества. Подробностями с Rozetked поделились представители компании.
«Подход к голосовому управлению в носимых устройствах отличается от подхода, используемого в умных колонках или смартфонах. Компактные гаджеты сильнее ограничены по ёмкости аккумулятора, объёму памяти и вычислительной мощности процессора. При этом система голосовой активации должна постоянно анализировать аудиопоток и обрабатывать его локально в ожидании ключевой команды, не создавая заметной нагрузки на устройство и не сокращая время его автономной работы»— пресс-служба «Яндекса»
Для решения этой задачи команда «Яндекса» создала систему обработки голоса на нескольких уровнях — от аппаратной части до самой нейросетевой модели.
- Инженеры применили двухэтапную систему обработки аудиосигнала: сначала лёгкая модель определяет наличие речи в потоке звука и практически не нагружает устройство — основная модель запускается только после этого и проверяет, была ли произнесена ключевая голосовая команда.
- Команда сократила число параметров модели примерно в 10 раз за счёт более компактной архитектуры нейросети, которая требует меньше вычислений без существенной потери качества распознавания. Это позволяет выполнять распознавание голосовой команды локально — без постоянной передачи аудиосигнала в облако.
- Кроме того, используются чипы с NPU — специализированным нейропроцессором для ускорения вычислений нейросетей с меньшим энергопотреблением по сравнению с CPU.
По словам Дмитрия Солодухи, руководителя направления голосовой активации в «Яндексе», такой подход может использоваться в разных устройствах с обработкой речи в реальном времени — например, в наушниках, умных часах и других компактных носимых устройствах с ИИ-функциями.