输入文字生成音乐,这个音乐版Stable Diffusion火了,网友:电子音乐界要被冲击了 | 您所在的位置:网站首页 › 音乐mv解析 › 输入文字生成音乐,这个音乐版Stable Diffusion火了,网友:电子音乐界要被冲击了 |
鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI Stable Diffusion被两位普林斯顿校友玩出花儿来了。 这是一张Stable Diffusion生成的图片: 先别着急说“丑”,仔细看,其实这是一份频谱图。 还是真的能转换成一段音乐的那种! 并且两位作者还表示: 只是对Stable Diffusion的1.5版本进行了微调。 这个会创作音乐的Stable Diffusion名叫Riffusion(riff+Diffusion),现在打开网页就能玩。 输入提示词,即可获得一段对应的音乐。比如,输入“民谣,女声引入,过渡到青少年流行歌星”。 生成的音乐是酱婶的: 这么一个音乐版Stable Diffusion,上线后立即引来不少网友围观。 连作者自己都赶紧抛出来说:试不上别着急,等我们扩充下GPU。 而有网友已经开始为电子音乐从业者们担心了: 它会像核弹一样冲击电子音乐。 那么问题来了—— Riffusion怎么做到的?就像开头说到的,作者表示,他们没对Stable Diffusion v1.5做任何修改。 只是用与文本配对的频谱图数据,对模型进行了微调。 这样一来,Riffusion就能根据提示词,生成对应的频谱图了。 这里需要补充的背景知识是,利用短时傅里叶变换(STFT),我们可以从音频中计算出频谱图。而短时傅里叶变换是可逆的,所以根据频谱图,我们也可以重建出一段音频。 不过,作者提到,因为相位具有混沌性,模型学起来比较困难。所以Riffusion生成的频谱图像,其实只有正弦波的振幅,而不包含相位。 实际在重建音频剪辑时,作者们是采用Griffin-Lim算法来近似相位的。 值得一提的是,就像Stable Diffusion能根据文字提示P图,Riffusion也能够依照文本指示,修改音乐的细节。 比如把开头那段萨克斯即兴重复段(也就是riff): 改成钢琴版: 丝滑过渡看到这里你可能会觉得,Riffusion生成的riff有点短啊。 但其实,Riffusion也有一些时长更长的作品。关键是怎么把不同的音乐片段串联起来。 比如先来一段rap,再自然过渡到爵士乐: 作者们采用的策略,是先选取一个初始频谱图,然后通过改变种子和提示词,去不断修改这张图,使其产生新的变化。 而为了使整段音乐更加和谐统一,作者们还在模型的隐空间内进行了插值。 具体而言,可以对具有两个不同种子的提示的隐空间进行采样,也可以对具有相同种子的两个不同提示的隐空间进行采样。 关于作者如果你对Riffusion感兴趣,戳进文末链接就可以直接体验起来了~ 最后的最后,还得提一嘴,Riffusion其实是个“业余项目”。 它的作者是两位普林斯顿校友。 其中,Seth Forsgren本科在普林斯顿学生物,毕业后搞了不少软件创业项目,今年刚把一个能把手机变成对讲机的项目卖掉。 而Hayk Martiros则是美国无人机独角兽Skydio的技术专家,同样在普林斯顿本科毕业,后来在斯坦福读完了研究生。 在线试玩: https://www.riffusion.com/?&prompt=jack+johnson+vocals 参考链接: https://www.riffusion.com/about — 完 — 「人工智能」、「智能汽车」微信社群邀你加入! 欢迎关注人工智能、智能汽车的小伙伴们加入我们,与AI从业者交流、切磋,不错过最新行业发展&技术进展。 PS. 加好友请务必备注您的姓名-公司-职位哦 ~ 点这里👇关注我,记得标星哦~ 一键三连「分享」、「点赞」和「在看」 科技前沿进展日日相见 ~ |
CopyRight 2018-2019 实验室设备网 版权所有 |