输入文字生成音乐，这个音乐版Stable Diffusion火了，网友：电子音乐界要被冲击了

#输入文字生成音乐，这个音乐版Stable Diffusion火了，网友：电子音乐界要被冲击了 | 来源: 网络整理| 查看: 265

鱼羊发自凹非寺量子位 | 公众号 QbitAI

Stable Diffusion被两位普林斯顿校友玩出花儿来了。

这是一张Stable Diffusion生成的图片：

先别着急说“丑”，仔细看，其实这是一份频谱图。

还是真的能转换成一段音乐的那种！

并且两位作者还表示：

只是对Stable Diffusion的1.5版本进行了微调。

这个会创作音乐的Stable Diffusion名叫Riffusion（riff+Diffusion），现在打开网页就能玩。

输入提示词，即可获得一段对应的音乐。比如，输入“民谣，女声引入，过渡到青少年流行歌星”。

生成的音乐是酱婶的：

这么一个音乐版Stable Diffusion，上线后立即引来不少网友围观。

连作者自己都赶紧抛出来说：试不上别着急，等我们扩充下GPU。

而有网友已经开始为电子音乐从业者们担心了：

它会像核弹一样冲击电子音乐。

那么问题来了——

Riffusion怎么做到的？

就像开头说到的，作者表示，他们没对Stable Diffusion v1.5做任何修改。

只是用与文本配对的频谱图数据，对模型进行了微调。

这样一来，Riffusion就能根据提示词，生成对应的频谱图了。

这里需要补充的背景知识是，利用短时傅里叶变换（STFT），我们可以从音频中计算出频谱图。而短时傅里叶变换是可逆的，所以根据频谱图，我们也可以重建出一段音频。

不过，作者提到，因为相位具有混沌性，模型学起来比较困难。所以Riffusion生成的频谱图像，其实只有正弦波的振幅，而不包含相位。

实际在重建音频剪辑时，作者们是采用Griffin-Lim算法来近似相位的。

值得一提的是，就像Stable Diffusion能根据文字提示P图，Riffusion也能够依照文本指示，修改音乐的细节。

比如把开头那段萨克斯即兴重复段（也就是riff）：

改成钢琴版：

丝滑过渡

看到这里你可能会觉得，Riffusion生成的riff有点短啊。

但其实，Riffusion也有一些时长更长的作品。关键是怎么把不同的音乐片段串联起来。

比如先来一段rap，再自然过渡到爵士乐：

作者们采用的策略，是先选取一个初始频谱图，然后通过改变种子和提示词，去不断修改这张图，使其产生新的变化。

而为了使整段音乐更加和谐统一，作者们还在模型的隐空间内进行了插值。

具体而言，可以对具有两个不同种子的提示的隐空间进行采样，也可以对具有相同种子的两个不同提示的隐空间进行采样。

关于作者

如果你对Riffusion感兴趣，戳进文末链接就可以直接体验起来了~

最后的最后，还得提一嘴，Riffusion其实是个“业余项目”。

它的作者是两位普林斯顿校友。

其中，Seth Forsgren本科在普林斯顿学生物，毕业后搞了不少软件创业项目，今年刚把一个能把手机变成对讲机的项目卖掉。

而Hayk Martiros则是美国无人机独角兽Skydio的技术专家，同样在普林斯顿本科毕业，后来在斯坦福读完了研究生。

在线试玩： https://www.riffusion.com/?&prompt=jack+johnson+vocals

参考链接： https://www.riffusion.com/about

— 完 —

「人工智能」、「智能汽车」微信社群邀你加入！

欢迎关注人工智能、智能汽车的小伙伴们加入我们，与AI从业者交流、切磋，不错过最新行业发展&技术进展。

PS. 加好友请务必备注您的姓名-公司-职位哦 ~

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

【本文地址】

公司简介

联系我们