Nvidia представила технологию, способную синтезировать реалистичную речь
Она синтезируется из человеческой, а затем гибко настраивается.

На конференции Interspeech 2021 исследовательская группа компании Nvidia представила новую технологию, которая позволяет синтезировать реалистичную речь.
Цель её создания заключается в желании добиться того, чтобы голос искусственного интеллекта не отличался от человеческого.
Для этого было разработано несколько моделей преобразования текста в речь. Одна из них получила название RAD-TTS.
Технология даёт возможность человеку обучать модель синтеза речи с помощью собственного голоса, предоставляя ей данные о тональности, тембре и других индивидуальных характеристиках.
Слова одного человека при помощи технологии способны преобразоваться в речь, которая в результате произносится голосом другого. В Nvidia уверены, что это позволит сделать более выразительными и реалистичными искусственные голоса.
Данная система также будет полезна, например, для воссоздания голоса известных исполнителей. Кроме того, такая технология может стать потенциальным помощником для людей с функциональными нарушениями голоса.
Один из роликов, озвученных ИИ:
Испытать некоторые обученные модели синтеза речи можно через соответствующий инструментарий для разговорного ИИ.