Статистика
Stability AI представляет генератор звуков

Stability AI представляет генератор звуков

Stability AI представляет Stable Audio Open: новый генератор звуков и музыки на базе ИИ Stability AI, стартап, известный своим искусственным интеллектом для генерации изображений Stable Diffusion, представил открытую модель ИИ для создания звуков и музыкальных композиций, которая, как утверждается, была обучена исключительно на бесплатных записях.

Новая генеративная модель под названием Stable Audio Open принимает текстовые описания (например, «Рок-бит, сыгранный в профессиональной студии с использованием акустической барабанной установки») и создает аудиозаписи продолжительностью до 47 секунд. Модель обучалась на базе примерно 486 000 семплов из бесплатных музыкальных библиотек FreeSound и Free Music Archive.

По заявлениям Stability AI, данную модель можно использовать для создания барабанных битов, инструментальных риффов, окружающих звуков и «производственных элементов» для видео, фильмов и телешоу. Она также может «редактировать» существующие композиции или применять стиль одной песни к другой (например, смешивание плавного джаза с другой мелодией).

«Главное преимущество этой открытой версии в том, что пользователи могут точно настраивать модель на основе своих собственных аудиоданных», — отмечает Stability AI в корпоративном блоге. «Например, барабанщик может настроить модель на основе своих собственных записей, чтобы создавать новые биты».

Однако у Stable Audio Open есть свои ограничения. Она не способна создавать полноценные песни, мелодии или вокальные партии на высоком уровне качества. Stability AI заявляет, что модель не оптимизирована для таких задач, и предлагает пользователям, нуждающимся в этих функциях, воспользоваться премиальной версией сервиса Stable Audio.

Кроме того, Stable Audio Open не предназначена для коммерческого использования; условия обслуживания запрещают это. Модель также не одинаково хорошо работает с разными музыкальными стилями и культурами, а также с описаниями на языках, отличных от английского, что связано с ограничениями обучающих данных.

«Источник данных может не охватывать все многообразие культур, и не все культуры равномерно представлены в наборе данных», — пишет Stability AI в описании модели. «Созданные моделью выборки будут отражать эти ограничения обучающих данных».

Stability AI, которая длительное время боролась за стабилизацию своего бизнеса, недавно оказалась в центре внимания из-за разногласий по поводу обучения моделей ИИ на произведениях, защищенных авторским правом. Вице-президент компании по генеративному аудио, Эд Ньютон-Рекс, ушел в отставку, несогласный с позицией компании о «справедливом использовании» таких произведений. Выпуск Stable Audio Open, вероятно, является попыткой Stability AI улучшить свою репутацию, одновременно рекламируя свои платные продукты.

Рост популярности музыкальных генераторов, таких как продукты Stability AI, привлекает внимание к вопросам авторского права. В мае Sony Music, представляющая артистов, таких как Билли Джоэл, Doja Cat и Lil Nas X, направила предупреждение 700 компаниям, работающим в сфере ИИ, против несанкционированного использования её контента для обучения генераторов звуков. В марте в Теннесси был принят первый в США закон, направленный на предотвращение злоупотреблений ИИ в музыке.