Роман Пискун 0

«Яндекс» разработал ультрамалую нейросеть для носимых ИИ-устройств

Размер модели удалось сократить без потери качества примерно до 200 КБ.

«Яндекс» разработал ультрамалую нейросетевую модель для голосового управления в носимых ИИ-устройствах. Её размер удалось сократить примерно до 200 КБ — без потери качества. Подробностями с Rozetked поделились представители компании.

«Подход к голосовому управлению в носимых устройствах отличается от подхода, используемого в умных колонках или смартфонах. Компактные гаджеты сильнее ограничены по ёмкости аккумулятора, объёму памяти и вычислительной мощности процессора. При этом система голосовой активации должна постоянно анализировать аудиопоток и обрабатывать его локально в ожидании ключевой команды, не создавая заметной нагрузки на устройство и не сокращая время его автономной работы»
— пресс-служба «Яндекса»

Для решения этой задачи команда «Яндекса» создала систему обработки голоса на нескольких уровнях — от аппаратной части до самой нейросетевой модели.

Инженеры применили двухэтапную систему обработки аудиосигнала: сначала лёгкая модель определяет наличие речи в потоке звука и практически не нагружает устройство — основная модель запускается только после этого и проверяет, была ли произнесена ключевая голосовая команда.
Команда сократила число параметров модели примерно в 10 раз за счёт более компактной архитектуры нейросети, которая требует меньше вычислений без существенной потери качества распознавания. Это позволяет выполнять распознавание голосовой команды локально — без постоянной передачи аудиосигнала в облако.
Кроме того, используются чипы с NPU — специализированным нейропроцессором для ускорения вычислений нейросетей с меньшим энергопотреблением по сравнению с CPU.

По словам Дмитрия Солодухи, руководителя направления голосовой активации в «Яндексе», такой подход может использоваться в разных устройствах с обработкой речи в реальном времени — например, в наушниках, умных часах и других компактных носимых устройствах с ИИ-функциями.