【AI 孙燕姿 | 您所在的位置:网站首页 › 唱歌机能训练声音吗 › 【AI 孙燕姿 |
最近,视频网站音乐区up主掀了“AI孙燕姿”的风潮。这种使用AI技术提取某位歌手的音色,再用其替换另一位歌手音色的方式,可以实现接近歌手本人翻唱的逼真效果。除孙燕姿外,面对周杰伦、陶喆、陈奕迅、王菲等众多具有独特嗓音的歌手,歌迷纷纷奔向“AI点唱机”——这个可以生成任何希望被翻唱歌曲的“神器”,让众多粉丝一偿“直接点歌偶像”的心愿。当然,以此为基础,也诞生了很多有意思的开源应用方案,如:无需学习其他伪音技巧,即可实现实时男女声音互换等等。作者将使用 RVC 模型和入梦工具,带大家实现以下几个功能: 音乐干声分离:背景音(BGM)与人声(干声)的分离训练个人音色模型:作为模仿其他干声素材的音色数据男女换声(伪音):基于异性干声素材,进行实时转化声音为异性声音AI 唱歌:仅作基础的模拟演唱,仍需进行调音等等操作,才可以达到完美音色融合:不同音色的特征融合出一个全新的音色 文章目录 现实案例说明注意事项音色推理流程素材干声分离音色训练音色融合入梦工具实现男女伪音实时无技巧转化总结一下 现实案例说明在进行教学前,我们先假设这样一个场景:现有素材,男声音色A,女声音色B,女声音色C的朗读素材C,男唱歌状态下的音色D,女声音色C的唱歌素材E,我们根据以上介绍的功能进行整合,可以做到以下案例: 案例一:将女声C的朗读素材进行干声分离,再用男声音色A朗读女声音色C的朗读素材C。案例二:可以用女声B的音色去朗读女声C的朗读素材。案例三:甚至能够进行小延迟(0.1s)的实时音色转换,比如将使用男声音色A的声音去讲,可以实时转化为女声音色B的声音,实现无技巧完成男女伪声转换。案例四:利用音色D的声音去演唱音色C的唱歌素材,实现类似AI孙燕姿的功能。案例五:拿女音色B和C的素材进行融合出一个新的音色F案例六:音色A从来没有说过外语(英语、日语等等),但需要现在马上说一段外语音频效果可参考出处:【rvc教程】AI变声/AI音色训练-哔哩哔哩 极为逼真,值得尝试。当然,我也只是作为分享。 在此感谢三位UP主:花儿不哭/唯有如梦/干易/掉脑袋切切_bling 的视频 下载资源:https://pan.baidu.com/s/125_wzk7Txr5UGAwOJE7qJQ?pwd=20e1 文件目录如下:
什么是音色推理呢?其实就是实现案例一二的过程,也就是推理音色A到音色B,再应用到声音素材上的过程。我们将使用 RVC 模型的一建训练包,步骤如下: 启动 RVC web 界面:双击打开 RVC-beta_5\RVC-beta\go-web.bat等待启动,启动成功命令行效果如下: 命令行:![]() ![]() ![]() 素材干声分离也就是分离人声和背景音,这一部分不一定需要本模型一键训练包来完成,只是为了获得更好的干声素材而做的预处理操作,有其他现成更简单的工具也可以使用。话扯远了,接下来就说说怎么进行素材的干声分离,步骤如下: 启动 RVC 模型的一建训练包,和推理模型的启动方法一致,切换到干声分离界面,如下:![]() ![]() 音色训练其实就是利用经过预处理或者本身音源素质良好的干声素材进行训练,提取对应的音色特征,进而模拟其音色特征,再生成对应的音色包,这个过程中当然可以尝试通过微调参数实现更好的音色特征提取,但篇幅有限,本文只介绍最简单,最直接的音色训练教程。步骤如下: 准备好 3 分钟以上、50 分钟以内的优质干声素材,建议在3到7分钟之间,效果就很不错了,做好训练时长等待的准备启动训练模型,切换到训练模块,如下:![]() ![]() ![]() ![]() ![]() 利用这个音色包文件就可以进行前文的音色推理了,也就能够实现案例一、二、四、七,包含唱歌类型的模拟,以及说一段自己不会的外语音频也是可以实现的,同时,实现唱歌素材的模拟不就可以得到 AI 孙燕姿的干声素材,再利用之前干声分离出的背景音进行调整,就可以基本实现AI孙燕姿啦,只要我们拥有(训练所得、分享获得)孙燕姿的唱歌音色包,以及对应优质的唱歌干声素材,当然,还需要进一步的调音、编曲等待操作,让它更像更完美。 音色融合音色融合就是基于前文提到的音色训练出来的音色包进行融合音色,当然,同一性别的音色融合效果会好一点,通过音色融合,我们就可以创造出一个全新的音色包,当然,也可以利用此操作减少音色爆音的几率,比如,A音色音色好但容易爆音,B音色不太好,但胜在稳定,就可以用高权重的A模型融合低权重的B模型,融合出来的音色就能拥有两个的优点,但权重比例得自行调整,达到一个比较好的平衡,基于融合后的音色就可以做出不一样的音源素材。步骤如下: 启动模型,切换到 ckpt 部分 界面参数说明: A、B模型路径:A、B模型文件路径就是需要进行融合的两个音色模型的 pth 文件路径A 模型权重:融合哪个音源特征更多的数值化表达,也就是融合结果音色更像哪个音色保存的模型名称:此次融合结果音色的名称其他参数自行调整,简单地调整以上数据就能实现音色融合 点击融合,输出结果为 success 即可。音色包会在 weight 出现,并且,不会有对应的 index 和 npy 文件生成,但可用高权重的音色模型训练出来的结果文件。 男女伪音,也就是男女声音实时互换的操作,实现类似于变声器的效果,部分游戏、陪玩也有在使用。步骤如下: 启动模型和入梦工具:双击 RVC-beta_5\RVC-beta\go-realtime-gui.bat 和 RVC\RVC入梦小工具\RVC入梦小工具.exe GUI 界面如下: 模型运行命令行界面如下: 安装入梦工具驱动:点击入梦工具虚拟 MME,一直下一步即可安装驱动 点击系统音频,配置扬声器和麦克风 录制设备配置成入梦工具为默认使用设备 播放设备不用修改,使用电脑默认设置就行,需要修改入梦扬声器的属性配置中的采样频率和位深度与电脑默认设置的设备对应属性一致,再更改入梦麦克风的侦听属性为侦听此设备即可。不过建议为耳机类型的扬声器,公放类型会被录制设备读取,产生回音,出现杂音。
配置模型音频输入输出设备:输入设备设置为电脑默认麦克风即可,输出设备设置为入梦扬声器,实际播放声音为电脑默认音频输出设备,如下: 模型 GUI 界面加载模型参数说明: 模型 GUI 界面常规设置及其性能设置参数说明: 选择完其他设置,点击开始转化即可实现实时转换音色的效果,注意推理时间正常变化才是正常运行。 如果需要切换音色的话,就必须停止音频转换再重新修改加载模型部分的参数。 如果是游戏使用、录制时使用,就必须把对应软件的麦克风设置为入梦麦克风,注意检查一下 本章节解决了案例三的男女伪音转换效果,这也将引起我们的警觉。 AI 语音技术的进步已经带来了许多令人兴奋的结果,而 RVC 则是其中的一个重要发展方向。RVC 可以让使用者将一个人的声音样本複制并转移到另一个人身上,并可实现即时语音转换。以下是 RVC 可能带来的一些结果: 更自然的语音转换:RVC 技术可以让语音转换更加自然、逼真。这种技术可以学习一个人的语音特徵,包括音调、节奏和语速等,并将这些特徵应用到其他人的语音中,使其听起来更加自然。音频和影片后期制作:RVC 技术还可以用于音频和影片后期制作。例如,在电影和电视剧中,演员的声音可能需要进行修剪或处理,RVC 技术可以帮助制作人员快速、高效地完成这些任务。音乐创作:RVC 技术可以用于音乐创作,例如合成电子音乐或增强现有音乐。使用这种技术,音乐家可以从其他艺术家的声音中获得灵感,并将其应用到自己的创作中。虽然这技术对于娱乐、语音合成等方面有著极大的应用价值。然而,这种技术也引发了许多道德等问题,例如滥用、欺骗、侵犯隐私等问题,需要你我共同关注,使用该技术时也要特别注意这些问题,请小心别踩线。 |
CopyRight 2018-2019 实验室设备网 版权所有 |