Разработчики Stable Diffusion представили модель, которая преобразует текст в аудио

Есть бесплатный тариф.

Разработчики Stable Diffusion представили модель, которая преобразует текст в аудио

Компания Stability AI, известная по ИИ Stable Diffusion, представила генеративную модель Stable Audio, которая преобразует текстовое описание в аудиокомпозицию.

Stable Audio использует модель диффузии и обучена на 800 000 аудиофайлов — музыке, звуковых эффектах и звучании отдельных музыкальных инструментов. Примеры работы нейросети есть на сайте Stability AI.

Stable Audio предусматривает три тарифа:

  • Free: до 20 треков в месяц продолжительностью до 45 секунд;
  • Professional (11,99 доллара в месяц): до 500 треков в месяц продолжительностью до 90 секунд;
  • Enterprise: настраиваемый уровень для организаций.

Результаты, полученные в рамках бесплатного тарифа, не могут использоваться в коммерческих целях.

Для регистрации в веб-сервисе Stable Audio понадобится только адрес электронной почты. Пользователь вводит текстовое описание желаемого результата, а также задаёт продолжительность трека.

В августе Meta* представила нейросеть AudioCraft, которая также умеет генерировать музыку по текстовому запросу.

*признана в России экстремистской организацией