作者 | 琥珀

出品 | AI科技大本营(id:rgznai100)




基于深度神经网络进行语音合成、音乐风格迁移,正成为不少致力于“让人人成为音乐家”的研究人员所追求的事情。像此前我们报道的微软小冰作词又作曲
<http://mp.weixin.qq.com/s?__biz=MzI0ODcxODk5OA==&mid=2247495480&idx=2&sn=4cfc91e1c5b4a4a8d12b5c55f03eebae&chksm=e99edcc1dee955d74a4b8c5fbb0a48e387e9f3fe2b525fa189056b05b2f0e5d3d3fd1d00da49&scene=21#wechat_redirect>
,AI帮清华博士写说唱歌词晋级
<https://mp.weixin.qq.com/s?__biz=MzI0ODcxODk5OA==&mid=2247496716&idx=1&sn=6069ef42e0d81f9da1ab794b11c30d63&scene=21#wechat_redirect>
,甚至不久前中央音乐学院招音乐AI方向博士生
<http://mp.weixin.qq.com/s?__biz=MzI0ODcxODk5OA==&mid=2247503031&idx=1&sn=7c629d7c3b047f5ae85044e60e37ddf4&chksm=e99eff4edee97658c49095a625237d8d6ee2a41dbf939142d735216f96d0827ab5311e3c7114&scene=21#wechat_redirect>
。不久前,为了纪念著名作曲家巴赫诞辰,Google根据巴赫合唱和声训练而成的机器学习模式 Coconet
<https://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247519817&idx=4&sn=b6ac4026f88a7380cb04559b04a26229&scene=21#wechat_redirect>
吸引了不少人前来围观。




最近,OpenAI 最新研发的 MuseNet 的深度神经网络,可以制作 4 分钟时长的音乐作品,其中涵盖 10
种不同的乐器(如钢琴、鼓、贝斯、吉他),甚至还能将诸如乡村风格、莫扎特风格、甲壳虫乐队风格的音乐融合起来。











首先需要说明的是,MuseNet 并没有根据人类输入的对音乐理解进行显式编程,而是通过学习预测成千上万个 MIDI 文件的下一个 token
来发现和弦、节奏和风格的模式。MuseNet 采用了无监督神经网络语言模型 GPT2.0(是的,就是此前被誉为可以 BERT 媲美的 NLP 模型GPT2.0
<http://mp.weixin.qq.com/s?__biz=MzI0ODcxODk5OA==&mid=2247502492&idx=1&sn=9cdeb09c81059325bef656c3ee971edf&chksm=e99ef965dee97073c57f23d438699caa3288b717664213fce32680771a864fc0da9daaa14835&scene=21#wechat_redirect>
,普遍观点是,经过预训练可以预测上下文,无论是音频还是文本。)









据悉,5 月 12 日将正式开放 MuseNet 语言生成工具的试用版本。(以下为学习了肖邦作曲风格的英国女歌手 Adele 的 Someone Like
You 的 AI编曲录音。)









传送门:

https://openai.com/blog/musenet/




▌过程原理





在简单模式(默认显示)中,用户会听到预设生成的随机未切割样本;然后选择某作曲家或风格下的著名作品片段,即可生成各种风格的音乐。




在高级模式下,用户可直接与模型交互。这个过程需要完成的时间会更长,但用户可以创建一个全新的作品。




*
注意:MuseNet 通过计算所有可能的音符和乐器的概率来生成每个音符,模型会倾向采用你选择的乐器,但也可能会选择逼得乐器;同样,MuseNet
也会搭配不同风格的乐器,如果用户自行选择最接近作家或乐队常用分风格或乐器,产生的音乐会更自然。




研究人员还创建了作曲家和乐器的 token,以便更好地控制 MuseNet 生成的样本类型。训练期间,这些作曲家和乐器 token
将预先添加到每个样本中,因此模型将学习利用该信息进行音符预测。生成音乐时,可以调整模型,如拉赫玛尼诺夫的钢琴曲为前提,以创建选定风格的音乐。




研究人员还将 MuseNet 中的嵌入进行可视化,以深入了解模型所学到的内容。他们采用了 t-SNE 创建各种风格嵌入的余弦相似性。(如下 2D
图像所示,可查看某个特定作曲家或风格之间的关系。)









▌利用 Sparse Transformer 记住长期结构




MuseNet 使用 Sparse Transformer 的重算和优化内核来训练一个具有 24 个注意力头的 72 层网络,并将全部注意力放在 4096
个 token 的上下文中。这个长文本的目的是能够记住一个片段中的长期结构。或者,它还可以创建音乐旋律结构。




音乐生成是测试 Sparse Transformer 的一个有用域,因为它位于文本和图像的中间位置。它具有文本的 token 结构。在图形中,你可以查看 N
个 token,而在音乐中,查看之前的起点没有固定数。此外,还可以很容易听到该模型是否在按照成百上千个 token 顺序来获取长期结构。




▌数据集




研究人员收集了不同来源的 MuseNet 训练数据(ClassicalArchives、BitMidi、MAESTRO
),涵盖爵士乐、流行乐,以及非洲、印度和阿拉伯等不同风格的音乐。




首先,研究人员采用 transformer 在序列数据上进行训练:给定一组音符,要求它预测其他即将出现的音符。在尝试了几种不同方法后将 MIDI
文件编码为适用于此任务的 token。




在这种其中,他们采用和弦方法,将每次听到的音符组合视为单独的 “和弦”,并为每个和弦指定一个
token。然后,通过仅关注音符开头压缩音乐模式,并尝试使用字节对编码方案进行近一步压缩。




研究人员还尝试了标记时间推移的两种不同方法:一是根据音乐节奏进行缩放的 token,代表节拍或节拍的一小部分;二是以绝对时间为单位来标记
token。他们采用了一种结合了表现力和简洁性的编码方式:将音高、音量以及乐器信息组合称一个 token。




在训练中,




*
通过提高和降低音高来调换音符。(之后的训练中,减少了调换数量,使得每个乐器都有生成的音符。)

*
提高音量,调高或降低不同样本的整体音量。

*
增加时间,当使用以秒为单位的绝对时间编码时,可有效稍微减缓或加速片段。

*
在 token 嵌入空间中使用 mixup。




研究人员还创建了一个内部评测,在训练中,通过模型预测给定的样本是否来自数据集还是之前生成的样本,进行评判。




▌嵌入




为了给模型提供更加结构化的上下文,研究人员还添加几种不同类型的嵌入。





除了标准位置嵌入外,还有学习到的嵌入,可在给定的样本中追踪时间推移;然后,他们还在每个和弦中的音符添加了嵌入;最后,他们添加了两个结构化嵌入,该嵌入可表明模型既定的音乐样本在较大音乐片段中的位置。




(本文为AI科技大本营整理文章,转载请微信联系 1092722531)
长三角开发者联盟
代码就是力量,长三角的开发者联合起来!

加入「长三角开发者联盟」将获得以下权益

长三角地区明星企业内推岗位
CSDN独家技术与行业报告
CSDN线下活动优先参与权
CSDN线上分享活动优先参与权




扫码添加联盟小助手,回复关键词“长三角2”,加入「长三角开发者联盟」。



推荐阅读:


*
打开阿兹海默之门:
<https://mp.weixin.qq.com/s?__biz=MzI0ODcxODk5OA==&mid=2247504657&idx=1&sn=f389f6becbcc6952e9af8d4992cbe720&scene=21#wechat_redirect>
华裔张复伦利用RNN成功解码脑电波,合成语音 | Nature
<https://mp.weixin.qq.com/s?__biz=MzI0ODcxODk5OA==&mid=2247504657&idx=1&sn=f389f6becbcc6952e9af8d4992cbe720&scene=21#wechat_redirect>

*
Python程序员Debug利器,和Print说再见 | 技术头条
<https://mp.weixin.qq.com/s?__biz=MzI0ODcxODk5OA==&mid=2247504657&idx=3&sn=1ebb9c9178900a78d07a2397dd286e28&scene=21#wechat_redirect>

*
前端程序员别哭,优化性能的经验分享给你
<https://mp.weixin.qq.com/s?__biz=MzU5MjEwMTE2OQ==&mid=2247485734&idx=1&sn=4830e3f7e78e097238bf64432b34cd3e&scene=21#wechat_redirect>

*
如何使用Python玩转PDF各种骚操作?
<https://mp.weixin.qq.com/s?__biz=MzU5MjEwMTE2OQ==&mid=2247485734&idx=2&sn=42c8a180d1ff7ddda0633222433fc1ee&scene=21#wechat_redirect>

*
人工智能先驱 Nils Nilsson 去世,吴恩达、Yann LeCun 悼念!
<https://mp.weixin.qq.com/s?__biz=MjM5MjAwODM4MA==&mid=2650719041&idx=2&sn=507c40276d7dd81b27ab7d1c1be89c79&scene=21#wechat_redirect>

*
关于谷歌云,你应该知道的一切!
<https://mp.weixin.qq.com/s?__biz=MzA3MjY1MTQwNQ==&mid=2649827406&idx=1&sn=e44ab424c6d05f67bcde8f3f8e4a3f94&scene=21#wechat_redirect>
 | 技术头条
<https://mp.weixin.qq.com/s?__biz=MzA3MjY1MTQwNQ==&mid=2649827406&idx=1&sn=e44ab424c6d05f67bcde8f3f8e4a3f94&scene=21#wechat_redirect>

*
养生 996 的崛起:
<https://mp.weixin.qq.com/s?__biz=MzA5MzY4NTQwMA==&mid=2651010531&idx=1&sn=1f4e1e5680fc7cca49bc1cf7e65797d9&scene=21#wechat_redirect>
马云竟给他最痛恨的「兔子」站台?
<https://mp.weixin.qq.com/s?__biz=MzA5MzY4NTQwMA==&mid=2651010531&idx=1&sn=1f4e1e5680fc7cca49bc1cf7e65797d9&scene=21#wechat_redirect>

*
澳洲生活7年, 前阿里程序员谈我们的区块链差距究竟在哪?
<https://mp.weixin.qq.com/s?__biz=MzU2MTE1NDk2Mg==&mid=2247494707&idx=1&sn=6757741b195929e180f201783ca5ace4&scene=21#wechat_redirect>

*
她说:
<https://mp.weixin.qq.com/s?__biz=MzA5MjcxNjc2Ng==&mid=2650559816&idx=1&sn=380cfd3d18fb987c0073bf1b8289155a&scene=21#wechat_redirect>
为啥程序员都特想要机械键盘?
<https://mp.weixin.qq.com/s?__biz=MzA5MjcxNjc2Ng==&mid=2650559816&idx=1&sn=380cfd3d18fb987c0073bf1b8289155a&scene=21#wechat_redirect>
这答案我服!
<https://mp.weixin.qq.com/s?__biz=MzA5MjcxNjc2Ng==&mid=2650559816&idx=1&sn=380cfd3d18fb987c0073bf1b8289155a&scene=21#wechat_redirect>






点击阅读原文,了解「CTA核心技术及应用峰会」。

友情链接
ioDraw流程图
API参考文档
OK工具箱
云服务器优惠
阿里云优惠券
腾讯云优惠券
华为云优惠券
站点信息
问题反馈
邮箱:ixiaoyang8@qq.com
QQ群:637538335
关注微信