【初音未来NT的真面目】从「音质不尽如人意」出发探究Crypton社的意图【授权译制】 您所在的位置:网站首页 初音ryon 【初音未来NT的真面目】从「音质不尽如人意」出发探究Crypton社的意图【授权译制】

【初音未来NT的真面目】从「音质不尽如人意」出发探究Crypton社的意图【授权译制】

2023-12-13 23:17| 来源: 网络整理| 查看: 265

原文地址: https://amanokei.hatenablog.com/entry/2021/12/18/103341

原文作者:天ノ螢 

(推特ID:@aman0_kei )

翻译:-清泉-  校对:-空沫-

由于文章最后拓展得比想象的广,在这里先写下主题以便读者理解。

一、 关于初音未来NT原理的探究

二、关于初音未来V4x和初音未来NT方向性差异的探究(简单来说初音未来V4x完成度更高,而初音未来NT将来有可能会更好)

三、关于Crypton社(以下简称“C社”)开发初音未来NT意图的探究

※请注意,本文所有内容均为个人研究,仅供参考

(译者注:前两部分涉及一定的专业知识,如果不感兴趣可以直接下翻到第三部分)

 

说实话,初音未来NT挺微妙的。

抛开可以自由编辑音高这一点,音质甚至都不如VOCALOID4。

初音未来NT

在这个前提下,笔者就来聊一聊“初音未来NT”的工作原理以及C社开发初音未来NT的理由吧。

 

从音频输出方面考虑

说是音频输出,但光听声音也听不出个所以然来,于是本文将基本以音频的频谱作为研究对象。

① 初音未来NT是AI音源吗?

有部分传言称“初音未来NT是初音未来V4x加以其他数据综合而成的AI音源”,笔者认为这个说法完全可以被推翻。

首先,为了确认这一点,我们试着输入一下让AI音源崩溃的内容吧。

下图是在BPM120的情况下,对CeVIO AI的可不输入了一个横跨三个小节的音符。

图中显示的参数是VOL(音量),可以看到参数显而易见的崩坏。

对CeVIO AI的实验

另一边是初音未来NT在BPM120的情况下输入的横跨29小节的音符。

从下面的波形就可以看得出来,没有任何异常。

对初音未来NT的实验

 输入了远超AI预想的内容,却得到了正常的音频输出,足以说明这应该不是AI。

(万一在设计AI的时候考虑到了这个情况那另当别论,但输入将近30小节的无音内容这种情况应该不可能被考虑在内吧)

 

② 初音未来NT是波形合成软件吗?

那初音未来NT果真是VOCALOID那样的波形合成软件吗?

在排除AI之后,应该大家都会这么想吧。

关于这一点,笔者个人认为既对,又不对。

 

首先,大部分的波形合成软件都像VOCALOID或UTAU那样,采用一种通过直接运用未经处理的声音波形,或是将声音波形采样后再还原成声音加以运用,从而实现合成歌声的,名为“corpus-based(语料库)合成法/ Unit Selction(单元选择) ”的合成手段。

初音未来NT是否采用这种合成手段……笔者要打一个大大的问号。

 

理由是,在聆听UTAU在默认引擎下的声音就可以很清楚的知道,(尽管声音有些嘶哑、带电)UTAU的声音与人声相比并没有任何奇怪的地方。(参考下面这个视频)

相对之下,初音未来NT的声音“不像人声”的地方数不胜数。

举出具体的例子可能有些困难,但可以明显感觉到辅音与元音之间的过渡音尤其不自然。(参考下面这个视频)

也就是说,初音未来NT很可能不是“单纯用人声拼接合成音频的波形合成软件”或者“将人声采样后再高品质还原合成音频的波形合成软件”。

 

那初音未来NT的真面目究竟是什么?

其实有关初音未来NT究竟是什么的小提示随处都有,只是很少有人注意到。

先从官方网站开始阅读理解吧。首先来解读这段文字。

“由新开发的resynthesis(再合成)技术制作而成的,高品位的声库。”

“resynthesis(再合成)技术”我们之后再说,这段文字最让我在意的是使用了“高品位”而非“高品质”这个词形容声库。

通过查询词典我们得知,“高品位”可以等同于“high quality ”,也可以是指“人格上的高尚或是矿石中有用成分的含量高”。

NT确实称不上“高品质”,而这段话没有这个词也完全是通顺的。那特意使用“品位”这个词应该有它的理由。

 

接下来是这段话。

“并且在各个数据库中,multi-sample point与发音得到了调整,将比以往的版本收录更多的样本”

“multi-sample point(多重采样点)”这个词引起了笔者的注意。

通常会认为这个词的意思是“初音未来NT进行了多音阶分层采样”,但这样的话只要说“multi-sample(多重采样)”就够了。为什么还要多此一举加个“point”呢?经过一番调查,笔者意外地发现了这个词语的由来。

sample point (采样点):指由用作计算waveform point(波形点)的AD转换器输出而来的未经处理的数据

这居然是被用在示波器等仪器上的专业术语,笔者着实吃了一惊。但重点不在这里,而是词语的解释。在这里把关于“waveform point”的解释也写在下面。

waveform point(波形点):指信号在某一时间点上电压的分贝值。waveform point由sample point计算而来,并存储在存储器中。

 虽然看起来挺绕的,但说白了就是从样本中提取“sample point”,再计算出“waveform point”从而使用。

把它套进初音未来NT的“multi-sample point”里,我们就可以这样理解:“从数个音高的声音样本计算出音频波形”。

也就是说,初音未来NT并不是直接对音频波形进行加工,而是“从声音中抽取特定数据,再以此为基础还原成声音”。

 

如果您对音声合成有过一定了解,您可能会问“那不就是vocoder(声码器)吗?”,但我十分确信,那不是vocoder。

 

Resynthesis技术的真面目是什么?

先说结论,我觉得就是一种“原始的synthesizer(音响合成器)”。

没错,就是通过处理正弦波从而生成各种声音的那个synthesizer。

synthesizer的例图

再说深一点,我认为就是以YAMAHA开发的synthesizer“PLG100-SG”上搭载的“formant thinking (构形思维)音源”作为基础概念。

※详情请参照《VOCALOID技术论》的20~23页

恐怕初音未来NT的大概原理是,以被设置的参数为基准,抽象地分别算出“整数次倍音(声音的核心)构成的包络”与“非周期成分(气声)的包络”,并在输出后将二者合成。

 ※关于这些术语可以参照笔者之前的文章

https://amanokei.hatenablog.com/entry/2019/08/24/230829(暂无翻译)

证据有很多,笔者在这里只举最有说服力的证据。

     

首先,第一张图是抽取初音未来V4x的“整数次倍音/有声音”得到的。(译者注:“有声音”的断句是“有声 音”,指需要声带振动发出的声音。元音毫无疑问都是有声音。辅音中b、g等也是有声音,f、k等则是无声音)

一般在未经处理的人声中,高音域的气声成分混入较多,很难抽取出倍音。

初音未来V4x的有声音

 第二张图则是抽取初音未来NT的“整数次倍音/有声音”得到的。

显而易见,就连高音域的倍音也被抽取了出来,并且规整得可怕。对于人声来讲这是不可能的。

初音未来NT的有声音

第三张图是分别抽取了初音未来NT和初音未来V4x的“非周期成分(气声)”得到的。

初音未来V4x这边看起来像是把原本样本中“整数次倍音/有声音”去除后,通过增大音量来营造耳语的效果。

另一边初音未来NT则完全看不出样本的原貌,更像是模拟各个音阶上“非周期成分(气声)”的变化。

两版初音未来的气声

由此可见,初音未来NT并不是单纯将人声或是模仿人声的素材进行拼接的合成软件。

假设上述都是事实,笔者猜测初音未来NT的工作原理是这样的:

输入参数(歌词、音高、音量)

由参数生成由“整数次倍音/有声音”构成的共振峰(包络)

以2.为基础,以时间为横轴进行模拟演算(启动或衰减的音色)从而得到声音素材

拼接声音素材

模拟演算并生成“非周期成分(气声)”的包络,并与4.组合在一起

 想到这里,初音未来NT的元辅音连接不畅问题就很好理解了。

如果是synthesizer的话,想要还原long tone(长音)等元音不在话下,但要计算出元辅音连接时那一刹那的复杂声音就很有难度了。

C社几度推迟NT的发售,然而现在却以这种形式发售了初音未来NT,其原因大概是技术力暂时支撑不了想要探索的方向,只好把这块“倾注了心血却又饱含妥协与放弃的结石”丢了出来。

相比之下,VOCALOID虽然将声音模型化了,但也是将最初的人声还原了出来;UTAU则直接使用了未经处理的人声波形。所以二者元辅音转换都非常自然。

 

初音未来NT是新技术吗?

初音未来NT宣传语提到“新技术”

一言蔽之,初音未来NT所使用的技术基础与所谓“新技术”相去甚远。

笔者认为C社所说的新技术是指“以各种现存技术、想法整合而成的一个综合概念”。

其证据就是“新技术”一词只有这里出现,别处则用“新开发”作为替代。

 

在笔者看来,这里说的“新技术”就是前文提到过的YAMAHA“PLG100-SG” 上搭载的“formant thinking音源”作为基础,由产业技术综合研究所提升了音质后的成果。

在魔法未来上提到的“会继续开展与YAMAHA的合作”应该就是这个意思,“VOCALOID的音色也是可以再现的”则可能是指会以VOCALOID的音色为基础构筑一个formant thinking音源。

 

为什么要开发初音未来NT?

归根结底,为什么放弃更稳妥的VOCALOID5声库制作,反而要开发NT呢?

我从魔法未来上有关初音未来NT的发表中找到了一点线索。

记得当时佐佐木涉(wat)先生说过类似“VOCALOID5声库会混入真人的声音,那就不是初音未来,而是藤田咲了”这样的话。

笔者认为这句话可以信一半。

(接下来的内容含有大量猜测,仅供参考。)

 

YAMAHA可能打算在VOCALOID5上面追加一个AI功能。

这个视频与原来VOCALOID4之类的广告不同,给人一种很强的“未来感”。而且这些功能组和操作方法,都是在声库AI化之后才能发挥真正威力的东西。(尤其是1:04“I sing for you”的“you”相当不自然)

 

只不过这一主张有个矛盾之处,就是VOCALOID5发售于2018年,而美空云雀VOCALOID:AI则是在2019年发表……这是事实没错,但其实早在2017年,与YAMAHA合作开发歌声合成技术的庞培法布拉大学就已经发表了一篇名为《A Neural Parametric Singing Synthesizer(对一种神经参量歌声合成器的研究)》的论文。这篇文章被视为“AI歌声合成技术的先驱”。

美空云雀AI正是在那个基础上被制作而成的。

(https://mtg.github.io/singing-synthesis-demos/)

只是YAMAHA当时遵循三年更新一代的传统,而AI声库则因为实用化研究尚未跟上进度,才诞生了“没有AI的VOCALOID5”这一扭曲的产品。

 

在这个前提下,我们再回过头来看看wat先生的发言。

“VOCALOID5声库会混入真人的声音,那就不是初音未来,而是藤田咲了”

没错,这句话针对的并不是VOCALOID5,而是针对整个AI歌声合成技术。

他的意思应该是,如果要把初音未来AI化,那直接请藤田咲来唱歌不就好了吗?这与其说是初音未来AI,倒不如说是“藤田咲AI”吧。

话虽如此,单用从VOCALOID输出的音频进行AI化,那又只是对当初VOCALOID版初音未来声库的劣化。

 

这里稍微换一下话题。人们常说初音未来NT的完成度不如初音未来V4x,这或许是没有办法的事。

因为V4x很可能是C社认真针对VOCALOID特化处理的“(佐佐木涉制作的)VOCALOID版初音未来的最高杰作”。

※AHS社(译者注:最近以开发了多款Synthesizer V的AI声库而闻名,早期也开发过结月缘等VOCALOID声库)的直播中有提到过“半吊子的处理会导致报错音响起”,所以特化处理应该是必须的。

官方网站对于这方面的努力没有过多言及,但显然不是“用心”二字就能概况的。    

“对藤田咲小姐的声音进行了各种处理,使其含有多种音色变化,是我们的用心之作”

于是C社既没有选择AI,也没有选择“仿制初音未来V4x这一最高杰作”,而是转向研究“以波形合成为基础,能更加自由地表现歌唱的歌声合成技术”。

有说法称AHS社并没有得知VOCALOID5的详细情况,很可能就是在NPSS(译者注:就是前文提到的那篇论文)发表的时间点看到了AI化的未来,直接就下定决心转型了。

这么说是因为,在VOCALOID5发表的那个时间点要计划推出新型初音未来的话,还需要数年的研究。 

初音未来有可能回到VOCALOID吗?

笔者个人认为“不排除这种可能性”。

说到底C社为什么不选择更简单地开放一个名为“初音未来AI”的“藤田咲AI”,还是因为他们“深爱着初音未来这一存在”。

简单来说“藤田咲AI”不是他们想要的。

 

在魔法未来的发表上wat先生潸然泪下,那应该是因为“初音未来的诞生离不开YAMAHA,但是为了初音未来能保持最纯粹的样子,又不得不脱离VOCALOID”这一现实摆在了他面前。

 

在“初音未来NT是新技术吗?”的部分也有提到过,技术部分虽然主要是由产业技术综合研究所开发,但技术基础和UI之类的专利在YAMAHA手上,YAMAHA没提供技术帮助是说不通的。从这个角度来看,目前C社和YAMAHA还保持着良好关系应该并不是假象。

 

笔者认为C社开发初音未来NT原因,是在探求“初音未来到底是什么?”这个问题。而初音未来NT则是在这个过程中的一个产物。

如果真是这样,C社要是有一天能在“初音未来到底是个啥?”这一究极问题上能得出结论的话……那个时候说不定我们就能看到“VOCALOID:AI 初音未来”了。

 

成为了“高品位”的初音未来

曾有过一个问卷调查,提问“如果有一天初音未来不再是初音未来了,那将会是什么时候?”,得到最多的答案是“其中之人不再是藤田咲的时候”。

 

而现在,初音未来又进一步从“用人声拼接而成的产物”变成了“还原人声的synthesizer”。

到这里,初音未来NT被称为“高品位”的理由就呼之欲出了。

“纯度高、人格高”

 

笔者认为初音未来NT通过将初音未来的声音抽象化,使得初音未来的纯度进一步提高,从而让她彻底成为了和现实世界相距一个次元的存在,也就是提升到了所谓人格的高度。

 

原为sampler,现为synthesizer。

 

总结

“初音未来NT”是从她的生母“藤田咲”这一现实存在的人类剥离而来的,与人类相距一个次元的NewType:虚拟存在(本质相同,外表不同,却又能相互替代的存在)……有可能是这样!

多么触动人心啊!

 

※这篇研究文(主要在后半篇)可能蕴含大量妄想,仅供参考。因为不喜欢听到大家把初音未来NT说得一无是处,所以才好好思考了“她为什么诞生”,于是才有了这篇文章。如果与真相相去甚远,那请允许我向YAMAHA、Crypton还有wat先生致以最诚挚的歉意!!!!!!(叩首)



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有