杜比Atmos全景声/DTS:X临境音/IMAX 12声道/空间音频……？【电影院特效影厅·声效篇】

您所在的位置：网站首页 › ain音箱 › 杜比Atmos全景声/DTS:X临境音/IMAX 12声道/空间音频……？【电影院特效影厅·声效篇】

杜比Atmos全景声/DTS:X临境音/IMAX 12声道/空间音频……？【电影院特效影厅·声效篇】

#杜比Atmos全景声/DTS:X临境音/IMAX 12声道/空间音频……？【电影院特效影厅·声效篇】| 来源: 网络整理| 查看: 265

战争片中的枪林弹雨、爱情片中的耳边呢喃、科幻片中的时空坍缩、……很多时候，声音效果在影片观赏中所占据的地位，并不亚于画面（没有看过画面篇的朋友可以看下面这期视频）。

在以前，5.1、7.1环绕声听得比较多。而近些年来，杜比全景声、DTS:X等基于对象的沉浸式音频系统不断普及。除了环绕格式，一些影院还有THX认证等其他的高端音频标准。

本期专栏，将作为较长时间内无法兑现原视频更新计划的弥补，试图向大家大概说说：

有声电影的历史究竟有多久？

各种特殊声音格式的主要区别是什么？

从录音和混音角度来看，立体声和环绕声区别多大？

从环绕声到沉浸声，又有什么区别？

基于对象的沉浸式音频又是什么？

最新款手机上的观影体验和电影院还差多远？

由于取材精力有限，内容可能存在谬误，敬请参与/留意评论区的讨论！

被视为向默片时代道别的《爵士歌手》名场面有声片崛起的开始

别急着鼓掌别急（Wait a minute, wait a minute）真正的好戏还没开始呢（You ain't heard nothing yet!）

1927年老片《爵士歌手》中的这几句台词，算是最早在长篇电影中出现的有声台词。在《爵士歌手》之前的其他有声电影，要不片长过短，要不就是在录音中缺了器乐、声效、演唱、对白中的某种要素。

其实整部影片里，大多数台词还是以默片字幕形式呈现的。而让“You ain't heard nothing yet”这句台词随着歌声一起被记录下来，更多是因为演员 Al Jolson 在片场一时兴起。

作为当年人见人爱花见花开的当红流量明星，Jolson 的这句话，引燃了观众席，让对话不再只是字幕的“Talkie”片瞬间爆红，吸引人们纷至沓来，帮助《爵士歌手》成为第一部在商业上取得显著优势的带对话声电影长片。

影片采用的Vitaphone声音系统一开始只是想要替代伴奏，没考虑对白的事。在《爵士歌手》之前，有音乐伴奏的影片也并不算少。但“You ain't heard nothing yet”这句角色口中漫不经心的台词，做到了之前所有影片精妙构思的歌词所没能做到的事——成为送别默片时代最有力的悼词。

彩色电视竞争下的“自救”

数字信号处理技术的大范围普及，基本要等到20世纪80年代了。

而面对1927年开始正式登上历史舞台的有声电影，在必须依赖模拟存储介质和模拟电路进行录音和还音（播放）的年代，不得不面对一大堆问题：塑料感满满的音质、信号干扰、音画同步、设备兼容性、拷贝寿命……

许多棘手的技术问题，单靠电影工业自发自觉地去解决，整个进度完全快不起来。在不成体系的技术框架下，往往要解决一个问题，就要投入不可计量的研发成本——同样的投资，放在请更好的演员、更好的编剧上，往往能获得更高的票房，那为什么还要去投资更高的画质/音质呢？

但在1954年，电影工业迎来了有史以来最强有力替代品的竞争：彩色电视。

在电影工业中，彩色画面的普及，大约比广播电视领先了七到八年。但当电视也能收看彩色画面时，许多小电影院的账本开始变得有些难看了。为了逆势赢得客流，终于有人开始投资技术、折腾更好的画质和音质了。

其中，最早具有显著环绕声特征的先进声音格式是迪士尼的Fantasound，其与5.1环绕声的布置基本一致，但是没有做重低音分频。

5个声道的同步播放，在当年是个非常困难的事

在1954年做到多声道的成本大概是多少？拿Fantasound来说，一套放映设备当时就要价85000美元（https://www.mouseplanet.com/12667/What_Was_Fantasound，相当于如今的约179万美元），到最后全世界装了这套系统的电影院也没超过20家。

最普遍的 5.1 声道布置 LFE常被称为低音炮

不过论当时的影响力，声画两开花的Cinerama，要强上不少。

1952年正式问世的Cinerama在播放每一帧画面时，需要同时使用4条介质——其中，3条是图像胶片，记录着超宽视野的画面，还有1条磁带上记录着6条音轨。

Cinerama需要在特地建造的影院才能播放，6条音轨分别对应左、中偏左、中置、中偏右、右这5条声道，以及一条人工在放映室按时间切换左壁环/左壁环的墙壁环绕声道。

和家庭影院不同，大多数商业影院都采用透声幕，扬声器置于银幕后方

据很多有幸亲身在场看过 Cinerama 放映的人说，就算是 IMAX 巨幕，也未必比得上真正的 Cinerama。

Cinerama 在经历了大约10年左右的辉煌期后就归于平庸。

一方面，要用这种同时滚动3条胶片拍摄的格式只适合拍一条过的风光纪录片，但一旦有人参演、需要NG、后期剪辑，处理起来就要人命了。

另一方面，1955年前后，另一些大画幅多声道格式也逐渐成熟了起来，尽管比不上Cinerama，但也算花小钱办大事，有比看电视震撼得多的效果。不少 Cinerama 影院后期也开始放映以 Todd-AO、Ultra Panavision 70 等格式拍摄的“假”Cinerama影片。

但不管怎样，Cinerama 在沉浸式观影体验的历史上，有着不可替代的作用。

这种独特的魅力也使得今日，世界上还有3个地方依旧保留着放映 Cinerama 影片的条件，分别是英国布拉德福德的英国国立媒体博物馆、美国西雅图的Cinerama Cinema（因疫情停业），以及美国洛杉矶的Cinerama Dome（因疫情歇业，有重新开放计划）。

录音和混音

对于家庭录像而言，不少厂商曾经在消费级产品线（如索尼Handycam）推出过直接录制5.1声道环绕声的机型或者配件。不过把目光放到近些年时，不难发现，大多数新机型都不再具备机内直接录制5.1声道的功能。

佳能的外置环绕声麦克风索尼的内置环绕声麦克风

这个趋势，在佳能、索尼、松下的消费级产品上都能得到印证。具体原因如今也无从问起，但在消费级市场，立体声监听设备的普及度是显著高于环绕声监听设备的。另外，这种小体积的环绕声麦克风，其录出的环绕效果，是做不到特别出色的。

再者，对于记录家庭生活，很多用户对设备的录音能力感知并不明显。就算是iPhone和iPad，也是从2018年起才开始支持机内麦克风立体声录制——是的，iPhone XS/iPhone XR之前，排除外接麦克风的情况，拍出来的视频，其音频部分都是单声道的！

（诺基亚808PureView倒是在2012年就做到了）

而严肃电影制作流程之中的声音处理，和家庭录像完全是两码事。

你在电影院听到的某一刹那的声音，往往是好几段不同时间、不同地点录制的声音混音之后的产物。电影声效团队中常见的声音分类包括但不限于：

Dialogue 对白（有现场录制的，也有后期ADR补录的）

Crowd 群杂

Foley 拟音声效

Ambient 环境

Effects 其他声效

Music 配乐

很多成片中环绕的效果，往往是后期将一些单声道的音轨的pan到不同声道上而形成的。

这个过程有点像：从一盒崭新的橡皮泥盒子里拿出几坨单色的泥块（主角A对白、主角B对白、环境声……），然后根据各种元素在画面中位置或者剧情需要，揉成好几条颜色混杂在一起的声道。

声道工作流：搅在一起容易再分开就难了

而如果真的要在片场就录制环绕声，后期要把已经揉在一起的橡皮团彻底分离回单色泥块，就比较麻烦了。

如果对片场录音到成片变化感兴趣的话，可以看看下面这段电影《社交网络》的幕后纪录片中的相关片段（精准空降点：49:15）。

当然，面对一些特殊的氛围场景，比如交响乐现场，现场录制时确实会录制一些环绕声素材，作为基本的环境”声床“。

就像立体声录音有XY、AB、ORTF、Mid/Side等麦克风摆放模式一样，环绕声也有许多既定的摆放模式，而且其多样性和复杂度更是远超立体声。

现场直出环绕声需要因地制宜摆阵

除了多麦克风阵列外，一些知名的麦克风厂家也有集成式的解决方案，比如DPA 5100，就被广泛用于自然风光纪录片、体育赛事转播、重大节庆录像之中。和前面那些家用摄像机拇指大的体积不同，这支麦克风和人脸差不多大。

但更多情况下，在大制作的电影中，混音团队才是“环绕”效果的真正缔造者。

迈入基于对象的沉浸式音频时代

出于各种限制，5.1声道至今依旧是主流的环绕声格式。不少电影也曾尝试制作7.1声道混音版本，进一步提升后侧环绕物体运动时位置变化的方位感。

一般的 7.1 布置将后方环绕和侧方环绕分离

而索尼也曾推出SDDS格式，采用与Cinerama类似的布局，增强前方声音的定位。

和 Cinerama 很像

如果你有幸购买或者收集到近些年来发行电影的拷贝，你应该可以在画面帧一旁看到如下四种以光学格式印在胶片上的声轨。

喜欢这种图案可以去某鱼上淘一点拷贝切片

经过时间的沉淀，杜比5.1、索尼SDDS和DTS都成为了主流的环绕声系统。所谓主流，就是从制片厂出厂时，在最基础的立体声混音版本外，常会标配这4种版本的混音拷贝。

不过，上面提到所有环绕声系统都有一个共同缺陷，都是将扬声器基本放置在同一个平面以内——也就是说，一个物体可能可以从你的前面或者后面穿过，但很难从你的头顶穿过。

在 Grand Theater 规格的 IMAX 影厅中，就有一个专属于 IMAX GT 的声道设计——Upper Center（Center Height，高位中置，又被称为“Voice of God”）。

Kanga 是 IMAX 对旗舰级音箱的爱称

不过，大多数 IMAX 影厅并不是 GT 厅，而是数字 IMAX 厅。普通的数字 IMAX 厅和一般的 5.1 厅没有太大的区别，但往往会采用 IMAX 的专利 Proportional Point Source 技术，左后环绕与右后环绕各自只由一支音箱出声，能做到更精准的点声源定位。而在一般的影厅，左后环和右后环都是一排扬声器同时出一个声。

一言难尽的数字 IMAX

而目前流行的各种沉浸式音频系统，最关键的核心区别，往往也都聚焦于提供纵向信息的天空声道。在最新的 IMAX GT 影厅以及部分激光 IMAX 影厅中，已经部署了 IMAX 向沉浸式音频时代交出的答卷：12 声道系统。

许多新开业的激光 IMAX 也都用上了 12 声道系统

然而，假设你是混音师，在5.1声道时代，原本你只需要“搓”出6条橡皮泥，在12声道时代，就要搓出12条橡皮泥了，这种工作强度直接翻番的体验估计并不好受。

为了解决传统“声道”工作流的这种问题，基于对象的沉浸式音频系统应运而生。其中应用最广，牌子最响的，莫过于杜比的Dolby Atmos杜比全景声方案。

和传统工作流下“搓”12条橡皮泥不同，全景声工作流把“搓橡皮泥”这个工作交给了安装在电影院和混音棚里的专用处理器。混音师在混音棚中甚至连橡皮泥的包装都不用拆，只需要在橡皮泥上贴上标签：这块橡皮泥在X分Y秒开始从A点往B点跑，一共要跑Z秒。

基于对象的沉浸式音频工作流

之后，专用处理器就会根据这个信息，实时将每个音箱所需的“橡皮泥”给“搓”出来。

与 IMAX 采用固定扬声器布局不同，杜比全景声由于是现场实时处理，可以允许影院在合理范围内适当增加/减少音箱的数量，兼容更多的放映厅格局。

同时，得益于实时渲染处理算法，全景声混音拷贝“降级”为立体声/5.1/7.1混音拷贝也并不困难。混音团队也因此得到了解放，只要制作一份全景声拷贝，也能轻松导出支持传统影院的“降级”拷贝。（制作一份杜比视界HDR拷贝后trim为其他不支持动态元数据的HDR拷贝/导出trim后的SDR拷贝也有些类似）

不再拘泥于声道的杜比全景声影厅

当然，除了杜比全景声外，也有许多本土厂家推出了自己的沉浸式音频解决方案。其中有基于声道工作流的，也有基于对象工作流的，但都有各自配套的音频处理器。

负责现场“捏泥”的音频处理器

在国内，杜比全景声厅以及DTS:X临境音都较为普及。两者都是基于对象的空间音频解决方案，从原理上来说，是非常接近的。DTS:X选择的是拥抱社区的开源之路，而杜比全景声则相对封闭。在实际影厅建设过程中，杜比全景声对扬声器数量、功率、频率响应等指标的要求更为严苛，而DTS:X则较为宽松。

何时能真正拥有手机上的电影院？

在2022年的当下，“杜比视界”、“杜比全景声”已经不再是电影院专享的规格了。在B站，甚至就能看到双杜比的电影，比如飞驰人生。

在佩戴耳机，或是使用具有对称双扬声器的设备（如 iPad Pro、小米10S）时，杜比全景声的效果也很明显。

那这是不是说明，在不久的将来，“手机上的电影院”观影效果并不会比正经影院特效厅差多少呢？这个答案，大概率是“不”。

目前，流媒体（包括奈飞、B站）上的杜比全景声都是采用 Dolby Digital Plus with Joint Object Coding 编码，与影院所采用的 Dolby TrueHD 数据码流和封装格式都不一样。

这种编码格式的好处是节省带宽，而且对于人耳渲染或是回音壁渲染来说，效果已经十分不错了。但是，当接入带全景声功放的物理多音箱系统后，差距是非常明显的。不直接比较其实效果已经很让人满意，但一旦仔细比较，就会发现流媒体版本中，声源定位糊作一团。

但是话说回来，相比传统的立体声流媒体观影，能在移动设备上享受杜比全景声已经是非常大的进步了。而目前各大平台，也在逐渐推进对空间音频的支持。

在 Windows 系统中可以安装 Dolby Access 解码杜比全景声文件

所谓“面向耳机的空间音效”，都是基于实时HRTF解算的。HRTF常被翻译为头相关传递函数。

拿欧姆定律作个比方，在电阻两边施加电压U，电阻上面通过的电流I=U/R，那我们也可以说U到I的传输函数就是I=U/R，输入的是U，输出的是I。

而头相关传递函数，则能刻画距离相对我们头部某位置处以某频率某响度发声源分别到达我们左耳、右耳时，被我们所感知到的传播时间延迟、频率和响度。

微软也有 Windows Sonic 进行 HRTF 解算

当我们获得带有对象位置信息的沉浸式音频文件时，电脑就可以调用HRTF解算，让原本普通平凡的立体声耳机骗过我们的大脑，“模拟”出广阔的声场。HRTF数据的精度以及解算算法的许多实现细节，会显著影响最终的“欺骗效果”，这也是各个不同阵营的竞争焦点所在。

大名鼎鼎的 Dio3 人头麦

在实时HRTF解算之前，其实也有能达到类似效果的方式，那就是人头录音。

笔者第一次接触到人头录音，是上海科技馆内一个已经被拆除的互动展览设施——视听乐园内的全息音响，在大众点评等网站上海科技馆相关点评中，搜“鬼屋”俩字就能看到不少游客的相关回忆。

人头录音由于直接把麦克风放在耳道位置，HRTF解算就被实际空气中声音的传播所替代了。但一个显著缺点就和上文所提及的现场录制环绕声一样，“搓出来”的橡皮泥没法分离回单色的泥块了。另外的缺点，就是每个人的耳朵特性都不一样，每个人的HRTF都是不一样的，而大多数的HRTF解算用的都是“平均数据”，没法把空间中物体位置精准还原。

不过，随着基于照片的三维重建技术慢慢成熟，使用摄像头拍摄耳廓，然后利用机器学习方法来近似个性化HRTF的功能，已经被越来越多的厂商所普及了。最早商业化应用的应该是索尼，WH-1000XM3及后续型号耳机都可以通过手机端的App进行个性化HRTF的生成。

而在前不久iPhone 14、新款AirPods Pro的发布会（空降点42:56）上，苹果也宣布新版iOS也将借助深感摄像头支持个性化HRTF的生成。

需要注意的是，苹果所列出的几个功能名词很容易被混淆。支持杜比全景声的苹果设备，只需要具备HRTF实时解算功能，就足够了。

而苹果设备上的“空间音频”，则是独立于杜比全景声支持的一个功能。在不支持“空间音频”、但是支持杜比全景声的苹果设备上收听杜比全景声时，当你左右转头时，整个杜比全景声的空间都会和你一起转动；而在支持“空间音频”的苹果设备上收听杜比全景声时，杜比全景声的空间还是原地不动的。

上面这个说法可能还是有些抽象了，最后再来打个具体的例子。

比如你把iPhone架在桌子上看一段杜比全景声的演唱会，插着EarPods，当有人来拍你肩膀，你回过头去的时候，演唱会的舞台也会跟着你“回过头”。而你换上AirPods Pro，开启空间音频之后，你就好像在现场转过头一样，舞台依旧停留在了iPhone屏幕上所显示的位置。

结语

除了花里胡哨的“环绕”、“沉浸”外，电影院音响和影厅的声学条件还有许多基本的“硬指标”，比如音响的频响性能、声压动态范围、影厅环境中的混响时间等。THX认证关注的就是这些“硬指标”。不过，建设影院影厅时，投资方的预算总是有限的，很难面面俱到。

所有认真、用心、按照科学体系建设的声音特效厅，都是值得亲身体验其不同凡响之处的。如果喜欢一部影片，不如换着厅多刷几遍，才能更好地体会个中差别。

最后，电影的核心还是故事。即使没有环绕声加持，动人的故事往往也动人依旧。不要因对技术细节的执念，阻碍了观赏电影的本心。

【本文地址】

公司简介

联系我们