Разработчики Stable Diffusion представили модель, которая преобразует текст в аудио
Есть бесплатный тариф.

Компания Stability AI, известная по ИИ Stable Diffusion, представила генеративную модель Stable Audio, которая преобразует текстовое описание в аудиокомпозицию.
Stable Audio использует модель диффузии и обучена на 800 000 аудиофайлов — музыке, звуковых эффектах и звучании отдельных музыкальных инструментов. Примеры работы нейросети есть на сайте Stability AI.
Stable Audio предусматривает три тарифа:
- Free: до 20 треков в месяц продолжительностью до 45 секунд;
- Professional (11,99 доллара в месяц): до 500 треков в месяц продолжительностью до 90 секунд;
- Enterprise: настраиваемый уровень для организаций.
Результаты, полученные в рамках бесплатного тарифа, не могут использоваться в коммерческих целях.
Для регистрации в веб-сервисе Stable Audio понадобится только адрес электронной почты. Пользователь вводит текстовое описание желаемого результата, а также задаёт продолжительность трека.
В августе Meta* представила нейросеть AudioCraft, которая также умеет генерировать музыку по текстовому запросу.
*признана в России экстремистской организацией