«ВКонтакте» открыла доступ для сторонних разработчиков к собственной версии технологии ASR (Automatic Speech Recognition), которая распознаёт речь на аудио при помощи нейросетей.
ASR получает аудиофайл, при помощи одной нейросети распознаёт устную речь, другой моделью подбирает подходящие слова, а третья нейросеть помогает в расстановке знаков препинания. На выходе — готовый к использованию текст.
Пользователям предлагают две модели распознавания: спонтанная (речь со сленгом и ненормативной лексикой) и нейтральная (разборчивая речь, например, из интервью или телешоу). Как отмечают разработчики, нейросети не заточены под расшифровку песен и записей из колл-центров. Внутри «ВКонтакте» технология используется для расшифровки голосовых сообщений и генерации субтитров в видео.
«ВКонтакте» позволяет расшифровывать до 100 минут файлов в сутки бесплатно даже в коммерческих целях. Стоимость пользования технологией с повышенными лимитами не разглашается. Применять ASR можно как через веб-интерфейс, так и через API.