Антон Курилов 0

«ВКонтакте» открыла доступ к собственной технологии распознавания речи

Технология работает на основе трёх нейросетей: первая распознаёт, вторая находит подходящие слова, а третья — расставляет знаки препинания.

«ВКонтакте» открыла доступ для сторонних разработчиков к собственной версии технологии ASR (Automatic Speech Recognition), которая распознаёт речь на аудио при помощи нейросетей.

ASR получает аудиофайл, при помощи одной нейросети распознаёт устную речь, другой моделью подбирает подходящие слова, а третья нейросеть помогает в расстановке знаков препинания. На выходе — готовый к использованию текст.

Пользователям предлагают две модели распознавания: спонтанная (речь со сленгом и ненормативной лексикой) и нейтральная (разборчивая речь, например, из интервью или телешоу). Как отмечают разработчики, нейросети не заточены под расшифровку песен и записей из колл-центров. Внутри «ВКонтакте» технология используется для расшифровки голосовых сообщений и генерации субтитров в видео.

«ВКонтакте» позволяет расшифровывать до 100 минут файлов в сутки бесплатно даже в коммерческих целях. Стоимость пользования технологией с повышенными лимитами не разглашается. Применять ASR можно как через веб-интерфейс, так и через API.