Владислав Войтенко 0

Nvidia представила технологию, способную синтезировать реалистичную речь

Она синтезируется из человеческой, а затем гибко настраивается.

На конференции Interspeech 2021 исследовательская группа компании Nvidia представила новую технологию, которая позволяет синтезировать реалистичную речь.

Цель её создания заключается в желании добиться того, чтобы голос искусственного интеллекта не отличался от человеческого.

Для этого было разработано несколько моделей преобразования текста в речь. Одна из них получила название RAD-TTS.

Технология даёт возможность человеку обучать модель синтеза речи с помощью собственного голоса, предоставляя ей данные о тональности, тембре и других индивидуальных характеристиках.

Слова одного человека при помощи технологии способны преобразоваться в речь, которая в результате произносится голосом другого. В Nvidia уверены, что это позволит сделать более выразительными и реалистичными искусственные голоса.

Данная система также будет полезна, например, для воссоздания голоса известных исполнителей. Кроме того, такая технология может стать потенциальным помощником для людей с функциональными нарушениями голоса.

Один из роликов, озвученных ИИ:

Испытать некоторые обученные модели синтеза речи можно через соответствующий инструментарий для разговорного ИИ.

nvidia