《大西洋月刊》制作了一个可搜索的音乐数据库,其中收录了用于训练人工智能的曲目。

内容总结:
《大西洋月刊》记者亚历克斯·赖斯纳近日发现四组用于训练人工智能模型的音乐数据集,并向公众开放全文检索功能。其中两组数据规模极为庞大,分别包含1200万首和900万首曲目;另外两组则相对较小,但每组的训练数据仍超过10万首歌曲。
《大西洋月刊》据此创建了AI训练音乐的可检索数据库,用户可直接查询歌曲、书籍及其他被用于训练全球AI模型的作品。尽管这些数据集在理论上公开可获取,但实际使用并非简单下载压缩包即可。赖斯纳指出,其中三组数据集以YouTube或Spotify歌曲链接列表形式分发,AI开发者通过自动化工具抓取实际音频,部分工具甚至能绕过登录、广告及创收机制,这违反了相关平台的服务条款。
据披露,这些数据集已被下载数千次,谷歌与Stability AI公司均已在研究论文中确认使用过部分内容。数据集中的音乐人包括Lady Gaga、Fred Again..、电台司令乐队、Aphex Twin、武当派、布鲁斯·斯普林斯汀以及实验作曲家Hainbach等。其中Free Music Archive等部分数据集虽可免费用于个人流媒体播放,但商业用途仍需获得授权。
中文翻译:
《大西洋月刊》记者亚历克斯·赖斯纳近期发现了四组用于训练人工智能模型的音乐数据集,并将其全部公开供大众检索。其中两组数据集的规模极为庞大,分别包含1200万首和900万首曲目。另外两组规模较小,但每组仍拥有超过10万首歌曲,构成了相当可观的训练数据量。
《大西洋月刊》创建了用于训练AI的音乐数据集检索库
数百万首曲目在数据集中可自由获取,尽管它们本不应如此。
数百万首曲目在数据集中可自由获取,尽管它们本不应如此。
据赖斯纳透露,这些数据集已被下载数千次。虽然无法确切知晓使用者的具体身份,但谷歌和Stability AI公司均在研究论文中确认使用了这些数据。其中部分来源如自由音乐档案数据集虽可供个人免费流媒体播放,但商业应用仍需获得授权许可。
尽管这些数据集理论上可在互联网上自由获取,但将其用作训练数据并非简单下载ZIP文件后直接输入AI模型那么简单。赖斯纳解释道:
"我发现其中三个数据集以YouTube或Spotify歌曲链接列表的形式分发。AI开发者使用自动化工具下载实际音频文件,部分工具甚至能绕过登录验证、广告推送及为创作者创收或涨粉的机制。这类工具已违反相关平台的服务条款。"
数据集中出现的名字涵盖流行巨星Lady Gaga和Fred Again..,到电台司令、艾菲克斯双胞胎、武当帮、布鲁斯·斯普林斯汀,以及实验作曲家海因巴赫。读者可自行登录《大西洋月刊》的AI监察网站,检索用于训练全球人工智能模型的歌曲、书籍及其他媒体内容。
英文来源:
Atlantic reporter Alex Reisner recently uncovered four datasets of music being used to train AI models and made them fully searchable for the public. Two of the sets are absolutely enormous at 12 million and 9 million tracks. The other two are much smaller, but still represent a significant amount of training data at over 100,000 songs each.
The Atlantic created a searchable database of the music used to train AI
Millions of tracks are freely available in datasets, even if they’re not supposed to be.
Millions of tracks are freely available in datasets, even if they’re not supposed to be.
According to Reisner, the sets have been downloaded thousands of times and, while it’s impossible to know exactly who has used them, Google and Stability have both confirmed they have in research papers. Some of the sources, like the Free Music Archive dataset, are free to stream for personal use but require licensing for commercial applications.
While the datasets are freely available on the internet in theory, using them as training data is not as simple as downloading a ZIP file and feeding it to an AI model. As Reisner explains:
Three of the datasets I found are distributed as a list of links to songs on YouTube or Spotify. AI developers download the actual audio using tools that automate the job, some of which allow developers to bypass logins, advertisements, and mechanisms that might earn money or subscribers for creators. Such tools violate the terms of service of these platforms.
Names that pop up in the dataset range from pop stars like Lady Gaga and Fred Again.., to Radiohead, Aphex Twin, Wu-Tang Clan, Bruce Springsteen, and experimental composer Hainbach. You can hop over to the Atlantic’s AI Watchdog site and search through the songs, books, and other media being used to train the world’s AI models yourself.
文章标题:《大西洋月刊》制作了一个可搜索的音乐数据库,其中收录了用于训练人工智能的曲目。
文章链接:https://news.qimuai.cn/?post=4407
本站文章均为原创,未经授权请勿用于任何商业用途