Компания Stability AI представила усовершенствованную версию своей платформы для генерации музыки — Stable Audio 2.0. Эта система позволяет пользователям создавать до трех минут аудио по текстовому запросу, что примерно соответствует длительности полноценной песни. Инструмент способен сгенерировать интро, полную аккордовую прогрессию и заключительную часть.
Три минуты — это неплохой прогресс, учитывая, что предыдущая версия ограничивалась 90 секундами. Еще один плюс — инструмент бесплатный и общедоступный через сайт компании.
Работа с генератором осуществляется при помощи текстовых запросов, но есть возможность загрузить свой аудиоклип. Система проанализирует его и создаст нечто похожее. Все загружаемые фрагменты должны быть свободными от авторских прав, так что это не для имитации уже существующих треков. Скорее, это может пригодиться, например, для того, чтобы напеть партию ударных или превратить 20-секундный отрывок во что-то более продолжительное.
Стоит учесть, что это все еще музыка, сгенерированная ИИ, так что результат все еще не достигает человеческого уровня. Но прогресс все же есть.
https://twitter.com/Radio_poodle/status/1775536038250762431
Одна из проблем генератора — Stable Audio 2.0 любит добавлять странный вокал. Иногда вокал звучит как настоящие люди, а временами напоминает григорианские песнопения. Короче говоря, выходит зловещая долина с аудио. Некоторые называют эту музыку "бездушной и странной", сравнивая ее со звуками китов.
Stable Audio 2.0 допускает те же странные ошибки, что и все подобные системы, независимо от типа результата. Части могут пропасть и заменяются чем-то другим. Иногда мелодические элементы удваиваются.
Главная проблема в том — что эти результаты не цепляют, как музыка, которую создают люди. Особенно, если говорить о треках, в которых вкладывают смысл, а не просто набор звуков. Впрочем, для экспериментов этого достаточно.