【初音未来NT的真面目】从「音质不尽如人意」出发探究Crypton社的意图【授权译制】

您所在的位置：网站首页 › 初音ryon › 【初音未来NT的真面目】从「音质不尽如人意」出发探究Crypton社的意图【授权译制】

【初音未来NT的真面目】从「音质不尽如人意」出发探究Crypton社的意图【授权译制】

2023-12-13 23:17| 来源: 网络整理| 查看: 265

原文地址: https://amanokei.hatenablog.com/entry/2021/12/18/103341

原文作者：天ノ螢

(推特ID：@aman0_kei )

翻译：-清泉- 校对：-空沫-

由于文章最后拓展得比想象的广，在这里先写下主题以便读者理解。

一、关于初音未来NT原理的探究

二、关于初音未来V4x和初音未来NT方向性差异的探究(简单来说初音未来V4x完成度更高，而初音未来NT将来有可能会更好)

三、关于Crypton社(以下简称“C社”)开发初音未来NT意图的探究

※请注意，本文所有内容均为个人研究，仅供参考

（译者注：前两部分涉及一定的专业知识，如果不感兴趣可以直接下翻到第三部分）

说实话，初音未来NT挺微妙的。

抛开可以自由编辑音高这一点，音质甚至都不如VOCALOID4。

初音未来NT

在这个前提下，笔者就来聊一聊“初音未来NT”的工作原理以及C社开发初音未来NT的理由吧。

从音频输出方面考虑

说是音频输出，但光听声音也听不出个所以然来，于是本文将基本以音频的频谱作为研究对象。

① 初音未来NT是AI音源吗？

有部分传言称“初音未来NT是初音未来V4x加以其他数据综合而成的AI音源”，笔者认为这个说法完全可以被推翻。

首先，为了确认这一点，我们试着输入一下让AI音源崩溃的内容吧。

下图是在BPM120的情况下，对CeVIO AI的可不输入了一个横跨三个小节的音符。

图中显示的参数是VOL(音量)，可以看到参数显而易见的崩坏。

对CeVIO AI的实验

另一边是初音未来NT在BPM120的情况下输入的横跨29小节的音符。

从下面的波形就可以看得出来，没有任何异常。

对初音未来NT的实验

输入了远超AI预想的内容，却得到了正常的音频输出，足以说明这应该不是AI。

(万一在设计AI的时候考虑到了这个情况那另当别论，但输入将近30小节的无音内容这种情况应该不可能被考虑在内吧)

② 初音未来NT是波形合成软件吗？

那初音未来NT果真是VOCALOID那样的波形合成软件吗？

在排除AI之后，应该大家都会这么想吧。

关于这一点，笔者个人认为既对，又不对。

首先，大部分的波形合成软件都像VOCALOID或UTAU那样，采用一种通过直接运用未经处理的声音波形，或是将声音波形采样后再还原成声音加以运用，从而实现合成歌声的，名为“corpus-based(语料库)合成法/ Unit Selction(单元选择) ”的合成手段。

初音未来NT是否采用这种合成手段……笔者要打一个大大的问号。

理由是，在聆听UTAU在默认引擎下的声音就可以很清楚的知道，(尽管声音有些嘶哑、带电)UTAU的声音与人声相比并没有任何奇怪的地方。(参考下面这个视频)

相对之下，初音未来NT的声音“不像人声”的地方数不胜数。

举出具体的例子可能有些困难，但可以明显感觉到辅音与元音之间的过渡音尤其不自然。(参考下面这个视频)

也就是说，初音未来NT很可能不是“单纯用人声拼接合成音频的波形合成软件”或者“将人声采样后再高品质还原合成音频的波形合成软件”。

那初音未来NT的真面目究竟是什么？

其实有关初音未来NT究竟是什么的小提示随处都有，只是很少有人注意到。

先从官方网站开始阅读理解吧。首先来解读这段文字。

“由新开发的resynthesis(再合成)技术制作而成的，高品位的声库。”

“resynthesis(再合成)技术”我们之后再说，这段文字最让我在意的是使用了“高品位”而非“高品质”这个词形容声库。

通过查询词典我们得知，“高品位”可以等同于“high quality ”，也可以是指“人格上的高尚或是矿石中有用成分的含量高”。

NT确实称不上“高品质”，而这段话没有这个词也完全是通顺的。那特意使用“品位”这个词应该有它的理由。

接下来是这段话。

“并且在各个数据库中，multi-sample point与发音得到了调整，将比以往的版本收录更多的样本”

“multi-sample point(多重采样点)”这个词引起了笔者的注意。

通常会认为这个词的意思是“初音未来NT进行了多音阶分层采样”，但这样的话只要说“multi-sample(多重采样)”就够了。为什么还要多此一举加个“point”呢？经过一番调查，笔者意外地发现了这个词语的由来。

sample point (采样点)：指由用作计算waveform point(波形点)的AD转换器输出而来的未经处理的数据

这居然是被用在示波器等仪器上的专业术语，笔者着实吃了一惊。但重点不在这里，而是词语的解释。在这里把关于“waveform point”的解释也写在下面。

waveform point(波形点)：指信号在某一时间点上电压的分贝值。waveform point由sample point计算而来，并存储在存储器中。

虽然看起来挺绕的，但说白了就是从样本中提取“sample point”，再计算出“waveform point”从而使用。

把它套进初音未来NT的“multi-sample point”里，我们就可以这样理解：“从数个音高的声音样本计算出音频波形”。

也就是说，初音未来NT并不是直接对音频波形进行加工，而是“从声音中抽取特定数据，再以此为基础还原成声音”。

如果您对音声合成有过一定了解，您可能会问“那不就是vocoder(声码器)吗？”，但我十分确信，那不是vocoder。

Resynthesis技术的真面目是什么？

先说结论，我觉得就是一种“原始的synthesizer(音响合成器)”。

没错，就是通过处理正弦波从而生成各种声音的那个synthesizer。

synthesizer的例图

再说深一点，我认为就是以YAMAHA开发的synthesizer“PLG100-SG”上搭载的“formant thinking (构形思维)音源”作为基础概念。

※详情请参照《VOCALOID技术论》的20~23页

恐怕初音未来NT的大概原理是，以被设置的参数为基准，抽象地分别算出“整数次倍音(声音的核心)构成的包络”与“非周期成分(气声)的包络”，并在输出后将二者合成。

※关于这些术语可以参照笔者之前的文章

https://amanokei.hatenablog.com/entry/2019/08/24/230829（暂无翻译）

证据有很多，笔者在这里只举最有说服力的证据。

首先，第一张图是抽取初音未来V4x的“整数次倍音/有声音”得到的。（译者注：“有声音”的断句是“有声音”，指需要声带振动发出的声音。元音毫无疑问都是有声音。辅音中b、g等也是有声音，f、k等则是无声音）

一般在未经处理的人声中，高音域的气声成分混入较多，很难抽取出倍音。

初音未来V4x的有声音

第二张图则是抽取初音未来NT的“整数次倍音/有声音”得到的。

显而易见，就连高音域的倍音也被抽取了出来，并且规整得可怕。对于人声来讲这是不可能的。

初音未来NT的有声音

第三张图是分别抽取了初音未来NT和初音未来V4x的“非周期成分(气声)”得到的。

初音未来V4x这边看起来像是把原本样本中“整数次倍音/有声音”去除后，通过增大音量来营造耳语的效果。

另一边初音未来NT则完全看不出样本的原貌，更像是模拟各个音阶上“非周期成分(气声)”的变化。

两版初音未来的气声

由此可见，初音未来NT并不是单纯将人声或是模仿人声的素材进行拼接的合成软件。

假设上述都是事实，笔者猜测初音未来NT的工作原理是这样的：

输入参数(歌词、音高、音量)

由参数生成由“整数次倍音/有声音”构成的共振峰(包络)

以2.为基础，以时间为横轴进行模拟演算(启动或衰减的音色)从而得到声音素材

拼接声音素材

模拟演算并生成“非周期成分(气声)”的包络，并与4.组合在一起

想到这里，初音未来NT的元辅音连接不畅问题就很好理解了。

如果是synthesizer的话，想要还原long tone(长音)等元音不在话下，但要计算出元辅音连接时那一刹那的复杂声音就很有难度了。

C社几度推迟NT的发售，然而现在却以这种形式发售了初音未来NT，其原因大概是技术力暂时支撑不了想要探索的方向，只好把这块“倾注了心血却又饱含妥协与放弃的结石”丢了出来。

相比之下，VOCALOID虽然将声音模型化了，但也是将最初的人声还原了出来；UTAU则直接使用了未经处理的人声波形。所以二者元辅音转换都非常自然。

初音未来NT是新技术吗？

初音未来NT宣传语提到“新技术”

一言蔽之，初音未来NT所使用的技术基础与所谓“新技术”相去甚远。

笔者认为C社所说的新技术是指“以各种现存技术、想法整合而成的一个综合概念”。

其证据就是“新技术”一词只有这里出现，别处则用“新开发”作为替代。

在笔者看来，这里说的“新技术”就是前文提到过的YAMAHA“PLG100-SG” 上搭载的“formant thinking音源”作为基础，由产业技术综合研究所提升了音质后的成果。

在魔法未来上提到的“会继续开展与YAMAHA的合作”应该就是这个意思，“VOCALOID的音色也是可以再现的”则可能是指会以VOCALOID的音色为基础构筑一个formant thinking音源。

为什么要开发初音未来NT？

归根结底，为什么放弃更稳妥的VOCALOID5声库制作，反而要开发NT呢？

我从魔法未来上有关初音未来NT的发表中找到了一点线索。

记得当时佐佐木涉(wat)先生说过类似“VOCALOID5声库会混入真人的声音，那就不是初音未来，而是藤田咲了”这样的话。

笔者认为这句话可以信一半。

(接下来的内容含有大量猜测，仅供参考。)

YAMAHA可能打算在VOCALOID5上面追加一个AI功能。

这个视频与原来VOCALOID4之类的广告不同，给人一种很强的“未来感”。而且这些功能组和操作方法，都是在声库AI化之后才能发挥真正威力的东西。(尤其是1:04“I sing for you”的“you”相当不自然)

只不过这一主张有个矛盾之处，就是VOCALOID5发售于2018年，而美空云雀VOCALOID:AI则是在2019年发表……这是事实没错，但其实早在2017年，与YAMAHA合作开发歌声合成技术的庞培法布拉大学就已经发表了一篇名为《A Neural Parametric Singing Synthesizer(对一种神经参量歌声合成器的研究)》的论文。这篇文章被视为“AI歌声合成技术的先驱”。

美空云雀AI正是在那个基础上被制作而成的。

（https://mtg.github.io/singing-synthesis-demos/）

只是YAMAHA当时遵循三年更新一代的传统，而AI声库则因为实用化研究尚未跟上进度，才诞生了“没有AI的VOCALOID5”这一扭曲的产品。

在这个前提下，我们再回过头来看看wat先生的发言。

“VOCALOID5声库会混入真人的声音，那就不是初音未来，而是藤田咲了”

没错，这句话针对的并不是VOCALOID5，而是针对整个AI歌声合成技术。

他的意思应该是，如果要把初音未来AI化，那直接请藤田咲来唱歌不就好了吗？这与其说是初音未来AI，倒不如说是“藤田咲AI”吧。

话虽如此，单用从VOCALOID输出的音频进行AI化，那又只是对当初VOCALOID版初音未来声库的劣化。

这里稍微换一下话题。人们常说初音未来NT的完成度不如初音未来V4x，这或许是没有办法的事。

因为V4x很可能是C社认真针对VOCALOID特化处理的“(佐佐木涉制作的)VOCALOID版初音未来的最高杰作”。

※AHS社(译者注：最近以开发了多款Synthesizer V的AI声库而闻名，早期也开发过结月缘等VOCALOID声库)的直播中有提到过“半吊子的处理会导致报错音响起”，所以特化处理应该是必须的。

官方网站对于这方面的努力没有过多言及，但显然不是“用心”二字就能概况的。

“对藤田咲小姐的声音进行了各种处理，使其含有多种音色变化，是我们的用心之作”

于是C社既没有选择AI，也没有选择“仿制初音未来V4x这一最高杰作”，而是转向研究“以波形合成为基础，能更加自由地表现歌唱的歌声合成技术”。

有说法称AHS社并没有得知VOCALOID5的详细情况，很可能就是在NPSS(译者注：就是前文提到的那篇论文)发表的时间点看到了AI化的未来，直接就下定决心转型了。

这么说是因为，在VOCALOID5发表的那个时间点要计划推出新型初音未来的话，还需要数年的研究。

初音未来有可能回到VOCALOID吗？

笔者个人认为“不排除这种可能性”。

说到底C社为什么不选择更简单地开放一个名为“初音未来AI”的“藤田咲AI”，还是因为他们“深爱着初音未来这一存在”。

简单来说“藤田咲AI”不是他们想要的。

在魔法未来的发表上wat先生潸然泪下，那应该是因为“初音未来的诞生离不开YAMAHA，但是为了初音未来能保持最纯粹的样子，又不得不脱离VOCALOID”这一现实摆在了他面前。

在“初音未来NT是新技术吗？”的部分也有提到过，技术部分虽然主要是由产业技术综合研究所开发，但技术基础和UI之类的专利在YAMAHA手上，YAMAHA没提供技术帮助是说不通的。从这个角度来看，目前C社和YAMAHA还保持着良好关系应该并不是假象。

笔者认为C社开发初音未来NT原因，是在探求“初音未来到底是什么？”这个问题。而初音未来NT则是在这个过程中的一个产物。

如果真是这样，C社要是有一天能在“初音未来到底是个啥？”这一究极问题上能得出结论的话……那个时候说不定我们就能看到“VOCALOID:AI 初音未来”了。

成为了“高品位”的初音未来

曾有过一个问卷调查，提问“如果有一天初音未来不再是初音未来了，那将会是什么时候？”，得到最多的答案是“其中之人不再是藤田咲的时候”。

而现在，初音未来又进一步从“用人声拼接而成的产物”变成了“还原人声的synthesizer”。

到这里，初音未来NT被称为“高品位”的理由就呼之欲出了。

“纯度高、人格高”

笔者认为初音未来NT通过将初音未来的声音抽象化，使得初音未来的纯度进一步提高，从而让她彻底成为了和现实世界相距一个次元的存在，也就是提升到了所谓人格的高度。

原为sampler，现为synthesizer。

总结

“初音未来NT”是从她的生母“藤田咲”这一现实存在的人类剥离而来的，与人类相距一个次元的NewType：虚拟存在(本质相同，外表不同，却又能相互替代的存在)……有可能是这样！

多么触动人心啊！

※这篇研究文(主要在后半篇)可能蕴含大量妄想，仅供参考。因为不喜欢听到大家把初音未来NT说得一无是处，所以才好好思考了“她为什么诞生”，于是才有了这篇文章。如果与真相相去甚远，那请允许我向YAMAHA、Crypton还有wat先生致以最诚挚的歉意！！！！！！(叩首)

【本文地址】

公司简介

联系我们