Microsoft разработала модель, которая имитирует голос человека на основе трёхсекундной записи

Автор Антон Курилов 12:00 10.01.2023
- 1 +  9 164 0
Microsoft разработала модель, которая имитирует голос человека на основе трёхсекундной записи

Группа исследователей из Microsoft презентовала новую модель для синтеза речи на основе нейросетевых алгоритмов. Она получила название VALL-E.

Главная фишка VALL-E — копирование голоса человека. Чтобы обучиться копировать голос, нейросети требуется его запись продолжительностью всего в три секунды. Помимо сохранения вокального тембра и эмоций говорящего, VALL-E может имитировать «акустическое окружение» — например, будто речь звучит как при телефонном звонке. Технология основана на алгоритме EnCodec и обучена на 60 000 часах англоязычной речи от более чем 7000 носителей.

На специальном сайте Microsoft предоставляет несколько десятков примеров работы VALL-E. В колонке Speaker Prompt представлена оригинальная трёхсекундная запись голоса, в колонке Ground Truth — полное прочтение заданной фразы для сравнения. Колонка Baseline показывает результат работы обычной технологии синтеза речи. Наконец, в колонке VALL-E представлен результат работы новой технологии Microsoft.

Исследователи уточняют, что понимают риски технологии — злоумышленники могут воспользоваться ей, чтобы выдать себя за другого человека. Поэтому специалисты предлагают создать алгоритм, который определяет, что аудиозапись создана при помощи VALL-E.

Подписывайтесь на Rozetked в Telegram, во «ВКонтакте» и обязательно в YouTube.

14.05.2024
Google I/O 2024
21.05.2024
Microsoft Build 2024
Нет событий
04.04.2025
«Форсаж 11»
Все события





Реклама на сайте



Комментарии

14.05.2024
Google I/O 2024
21.05.2024
Microsoft Build 2024
Нет событий
04.04.2025
«Форсаж 11»
Все события





Реклама на сайте