返回首页 >

音乐圈版权保卫战:AI是如何“洗劫”音乐人的?

2026-07-02 09:31   澎湃新闻

  不过,AI Watchdog也强调了两点:其一,四个库并没有穷尽所有训练来源;其二,某首作品出现在数据集中,并不必然等于它最终被某个模型实际用来训练。但即便如此,也足以说明:在创作者不知情的情况下,大量音乐作品已经进入AI开发者可以随意获取和调用的候选原料池。

  据介绍,这4份数据库涵盖众多流行巨星的热门作品,包括Bad Bunny、Nirvana、Taylor Swift、Billie Eilish、Pearl Jam、Beatles,同时收纳了大量爵士名家作品与古典乐曲目。

  其中,体量最大的LAION-DISCO-12M由德国非营利机构LAION于2024年11月发布,知名图像生成模型Stable Diffusion的训练数据集同样出自该机构。

  官方声明中,该数据集仅限于学术研究,严禁商业落地或直接用于成品制作。然而,“仅供研究”的限定,在现实中面临法律裁量的模糊地带与开源社区的扩散惯性,数据集一经发布,其后续流向与使用意图便不再受原始发布者的掌控。

  另一套超大型曲库Sleeping-DISCO-9M则以YouTube音乐内容和Genius歌词为核心来源,开发者借助cloudscraper绕过Cloudflare对Genius页面的抓取限制,再将歌词、元数据与YouTube链接进行匹配。相比普通音乐资料库,它属于面向生成式音乐模型的预训练数据集,可用于文生音乐、音乐数据标注、歌声合成等任务。

  相比之下,Spotify Tracks Dataset的问题则集中在来源透明度上。媒体将其描述为一批从Spotify扒下来的曲目集合,由开源社区Hugging Face上一名身份不明的AI开发者上传。

猜你喜欢

热点新闻

{$loop_num=0}