Нейросеть научили разделять вокал и фоновую музыку в песнях
Теперь можно самому создать партию для караоке из любой известной песни.
Стриминговый сервис Deezer запустил инструмент Spleeter, который позволяет разделить музыку на составляющие. Библиотека на основе нейросетей доступна всем желающим бесплатно — её опубликовали на GitHub.
Одну песню можно разделить максимум на пять составляющих: вокал, бас, ударные, пианино и всё остальное. Для этого достаточно загрузить в Spleeter любой аудиофайл, в ответ он выдаст несколько файлов.
Как рассказал разработчик Энди Байо, Spleeter работает на модели TensorFlow, которую обучили на «десятках тысяч песен». По словам Байо, пока сервис работает неидеально: на дорожках остаются некоторые артефакты, а вокал иногда становится похож на робоголос, но это всё равно лучше других решений.
Для использования Spleeter понадобятся некоторые технические навыки. Пользователям, которые никогда не использовали Python и инструмент TensorFlow, придётся загрузить несколько программ, чтобы всё заработало. Кроме того, взаимодействовать с Spleeter нужно через командную строку — у библиотеки пока нет графического интерфейса.
В Deezer пояснили, что это не первый раз, когда люди используют машинное обучения для автоматизации подобных задач, а разработка компании основана на огромном количестве предыдущих исследований. В разговоре с The Verge представители сервиса отметили, что натренировали систему на 20 тысячах композиций разных жанров с заранее изолированным вокалом.
Компания не собирается превращать Spleeter в потребительский инструмент. Однако так как библиотеку выпустили с открытым исходным кодом — сторонние разработчики могут её доработать.
Spleeter разработали в первую очередь для использования внутри Deezer. С помощью инструмента сервис решает сложные задачи вроде распределения композиций по категориям, транскрибирования и распознавания языка.
Другие примеры использования Spleeter можно посмотреть в блогах TJ.
#нейросети #стриминг #музыка #новости