小议网络直播音频设置基本原理（WDM，跳线等）

您所在的位置：网站首页 › presonus驱动 › 小议网络直播音频设置基本原理（WDM，跳线等）

小议网络直播音频设置基本原理（WDM，跳线等）

2023-06-16 23:01| 来源: 网络整理| 查看: 265

架盾

为了避免任何形式的争议，开头先架个盾：

本人严重缺乏直播设置实战经验，因而本文很多地方只能顾及理论知识，实践起来可能会碰到很多考虑不到的问题。如参考本文后遇到问题造成各种损失，本人概不负责

本人到现在为止没接过任何付费的咨询、设备调试等

本人不提供付费服务，不想接任何的付费咨询或者设备调试，只接受一些简单的讨论之类的

本人没有接过任何厂商的赞助，到现在我为止从厂商处拿到的唯一回报是羚羊的一个dsp/fpga效果器，因为之前写过一次Zen Go SC的使用体验（凡是用户在非赞助的情况下主动写产品的测评、体验之类，羚羊都会赠送自家的效果器，很不错的政策）

前言

现在网上随处可见各种售卖“直播机架调试”的广告。笔者认识一些直播从业者，也深知里面有不少坑：

各家的机架调试水平严重地参差不齐。除了对于效果器、跳线的知识储备的差异以外，网上的机架调试服务一般都是远程桌面操作而非上门服务，而远程调试本身就会带来不小的音频路由问题。毫不意外地，笔者所看到、网上兜售的机架调试服务，翻车案例数不胜数，一位主播往往要找好多商家才能最终得到令自己满意的设置。

多数商家在调试时都会使用某些“整合包”。这些整合包显然是专门为机架调试而制作的，为了便于店家一步调试到位，一般会一股脑地打包一堆软件和预设，里面还有一些质量严重参差不齐的汉化。但是这些“整合包”不仅臃肿不堪，而且一般都非常高度定制化（比如千奇百怪的安装路径），一时使用可能没有太大问题，后续一旦需要改变点设置，调试起来难度极大（笔者自己反正每次看到这样的情况，血压都会当场拉满，一般都是情理干净以后再往上一个个打软件）。

机架调试的实际难度要远远低于很大一部分人的想象（至少对笔者而言，理清相关的理论知识没有感觉有太大压力），某些店家开出天价的调试服务实在显得有些“智商税”

关于机架调试的具体设置思路，现有的视频大多数讲得并不清晰。笔者有充足的信心认为，本文是全网到笔者写作为止，将相关问题讲得最为透彻的一篇文章。

除了作为自己某种意义上的笔记/阶段性知识整理以外，笔者也希望这篇略显硬核的文章能帮到一些希望“自己动手，丰衣足食”的人。好好学习，天天向上，共勉。

必看材料

笔者之前写过一则小短文。小白想要读懂下文的内容，肯定要先看过这篇文章（其中卡麦的部分笔者会在下文以更加直观的形式再解释一遍）：

为了简洁明了地说明问题，笔者整理了一张架构图架构图，展示了一套常见的、比较基础但功能全面的、可用于职业主播的网络直播音频路由设置：

直播间需要听见主播的声音，且声音需要经过效果器处理

直播间内需要播放伴奏（唱歌）/常规背景音乐

直播间可能会播单机/网络游戏

可能需要在直播同时与他人语音通话

笔者专门采访了几位平时接单机架调音的老师，反复确认该图准确无误。如果懒得看下文，可以直接参考此图配置。

为什么需要WDM

有很多人可能会感觉很疑惑：我明明没有买什么独立声卡，更没听说过这些什么WDM之类的设置，为什么我拿自己手头现有的设备，就能够直接在B站之类的专业平台直播？

以桌面平台最常见的OBS为例，笔者画了一张图来说明这样的设置情境（使用电脑集成声卡或仅支持ASIO的外置声卡）。因为设备的构成极其简单，这里的设置基本都是默认的，用户很可能根本不需要改任何选项就可以顺利开播：

注：如果没有使用独立声卡，图中的“硬件直通输出”就不存在

这样的设置尽管能够直接开播，但显然没有办法达到商业级的要求：

各个软件的回放声音没有办法集中控制，更难以调整输入直播间的比例

更加关键地，人声是在没有经过任何效果器的情况下进入直播间的。就算没有任何唱歌需求、外围硬件设备达标，门限、降噪、压缩、EQ、混响、最大化、限制等效果器的缺失也会严重影响直播间观众的体验

对比一下可用于可用于职业主播的设置，WDM不可或缺的关键地位一目了然。用最大白话的方式来说：

WDM为软硬件音频信号提供了进出软件机架的“出入口”，使得软件机架充分处理、路由相关信号成为可能。

为什么3组WDM是底线

不只是笔者，之前专业调试声卡的老师也多次提及“直播声卡应当具备至少3组WDM”，提到这样的做法很容易引起“卡麦”。这又是为什么呢？笔者继续拿图说事。下面展示的是一个只提供了系统内显示2组WDM的情境。千万注意：

不要这样做！

那么这样一套系统为什么会导致卡麦呢？

首先，声卡的硬件通道很可能会和软件通道部分/全部重合（甚至可能绑死）。比如一个具有2进2出硬件通道的声卡，如果在系统内显示有2组WDM设备，在DAW/声卡控制面板里面就一般会显示4通道，每个对应2组WDM设备的左右通道，但是第一组WDM的左右通道会同时对应硬件通道（二者重合）；此时如果在麦克风已经被使用的情况下将第一组WDM作为某软件的输出设备，那样两个声音信号在进入软件机架前就会被混合，完全无法分离；换句话而言，这种情况下的声卡可以说只“虚拟”出了1组WDM设备

第二，主播的监听（硬件模拟信号输出）决不能从系统接收到来自于自己的声音信号。特别强调一下这里的前提：“从系统（方面）”。这是因为，经过系统路由一圈后的信号会有一个明显的延迟（数十甚至数百毫秒）；如果主播监听的是如此路由了一大圈的信号，这一出自自己但带有明显延迟的声音会显著干扰正常直播（如果想体验一下的话，可以在Windows内的声音控制面板）。

“返听延迟”的问题其实同样出现在录音中。为了解决录音时的这一问题，几乎所有外置声卡都提供了延迟极低的硬件直通输出作为返听信号。驱动相对完善声卡的可能会在声卡控制面板里面有相应旋钮/推子，驱动比较简陋的则一般会在声卡上有一个悬念，用来调节系统声音可实时返听信号的比例，最差也会有一个开启实时返听信号的开关，只有极少数独立声卡会完全不考虑这方面。

把话题扯回来继续谈问题。基于第一和第二点原因，系统内显示的两组WDM设备会分别被用于直播和主播自己的监听，前者包括麦克风+他人语音+伴奏+游戏背景音，后者包括他人语音+伴奏+游戏背景音（之后由声卡硬件而非软件，将信号和声卡的硬件直通返听信号相加，最终反馈给主播）；无论聊天软件选择两组WDM中的哪一个作为输入，最后得到的都是会包含聊天软件中他人讲话声音的信号

如此下来，只要给到聊天软件的输入信号包含他人的讲话声音，聊天频道另一方就会在频道内听到自己声音的极大回音/混响，形成极大的干扰，造成所谓的“卡麦”。

综上所述，系统内显示2组WDM设备，尽管可以满足职业主播杂谈（可设置背景音乐）、唱歌（带伴奏）、游戏（可设置背景音乐），但一旦出现需要连麦的情况，主播或者连麦方必有一方会受到严重干扰。

凑齐3组WDM设备是以上问题最根本的解决办法。在系统内显示3组WDM设备的情况下，我们就得到了对职业主播来说堪用的一套设置：

这套配置其实并不算完美，比如伴奏和游戏背景音在采集进软件机架前并不是分离的，导致在软件机架中无法调节二者的信号比例。每个软件对应一个WDM虚拟设备自然是最理想的状况（可以在软件机架内不受任何限制地路由、调节信号大小比例之类），不过一般来说，4组WDM设备就已经足以应对大量职业主播绝大部分使用情境。

WDM数量不够怎么办

市面上有一些专业声卡本身就已经提供了足够数量的WDM：

RME、Antelope（羚羊）、Motu、ESI 的大部分产品，以及SSL 12等，都在系统中提供了4组或以上WDM设备，这些产品日常使用基本不需要担心WDM不够用的问题

黑狮声卡在内的设备能在系统中提供3组WDM设备，这些产品已经到达了“不卡麦”的及格线

然而大概是由于对于网络直播的实际情况不够了解，市面上有很多号称支持直播的声卡并没有提供足够的WDM设备（个别的甚至根本没提供WDM设备，这些暂且不论）。像Arturia Minifuse 1/2，Audient id4/14 mk2等只提供了2组WDM设备的声卡，是不是就没有办法不卡麦直播了？

如果硬跳线解决不了问题，那就该使用软件方案了。首先介绍第一位：O Desu Audio wdm2vst。

wdm2vst截图

笔者并没有使用过这一插件，但知道其大致功能。简单来说：

wdm2vst可以在系统内增加一组（仅限一组！）WDM设备

在DAW内输入通道的推子前效果器最前插入作为VST插件的输入端

在DAW内输出通道的推子后效果器最后插入作为VST插件的输出端

如此下来，系统内就多出了一组wdm设备，可以保证不卡麦了。

理论上来说，由于结构并不复杂，wdm2vst要比其他的软跳线方案更加稳定；但是开发该软件（以及asio link pro，另一款常见的直播用软跳线方案）的公司最后一次更新他们的软件还是在2016年（据说是负责开发这玩意的老哥去世了，R.I.P），如今该厂商官网已经关停，软件也已经从第三方正版软件商店下架（理论上大概可能也许，我们从包括某俄罗斯网站在内获取的学习版软件都可以合法地用于营利？）。一直没有人维护更新，就带来了一些值得注意的小毛病：

面对各种新设备、新环境（尤其考虑到现在很多电脑已经搭载了Windows11系统）可能的兼容性、稳定性问题

只提供了VST2，没有VST3新标准版本的插件，导致一些DAW无法兼容（国内网络直播最常见的Presonus Studio One不存在该问题）

那么更大的问题来了：对于那些只在系统内显示一组WDM设备，或者根本不提供WDM驱动，只在系统内显示一组DS（Direct Sound）设备的声卡，又该怎么办呢？

针对这样的问题，网上已经有多套解决方案。这些方案无一例外都会在软件层面提供多组虚拟设备（WDM？），但具体的实现细节差异不小：

O Deus Audio ASIO Link Pro截图

O Deus Audio ASIO Link Pro：如果是找网店请调音师，那样这无疑会是你最大概率能见到的方案

ASIO Link Pro和上文的wdm2vst出自同一作者，因而同样已经超过6年没得到任何维护。

该方案需要搭配DAW使用（一般配合Presonus Studio One食用，也有见SAM、Reaper的例子），但也因此完全兼容VST2效果器

方案的延迟一般被认为比较低，应用范围很广

但该方案已知和一些环境不适配（部分的声卡，可能包括AMD处理器；笔者也不确定该软件对Windows11适配如何），稳定性上也有争议（笔者同时看到有用户指责稳定性问题，以及另一些专业老师坚称不存在任何稳定性问题）

VB-Audio Voicemeeter UI

VB-Audio Voicemeeter：纯软跳线解决方案中知名度仅次于ASIO Link Pro。笔者并没有真正上手使用过，因而以下概括可能存在偏差：

Voicemeeter不需要搭配DAW使用，但Voicemeeter本身应该算不上是一个DAW，本身并不兼容VST效果器

相对应地，Voicemeeter内置了比较丰富的效果器。看了下网上的视频，好像能调出来很不错的效果

有说法称该方案延迟偏大（有看到强烈反对意见；没使用过的笔者只能选择骑墙）

Voicemeeter本身是一款免费软件（开发者接受捐款），笔者强烈建议走官网渠道下载。

Synchronous Audio Router（SAR）（此处不放图和链接）：SAR无疑是一个知名度很低、小众而发烧的方案。和绝大部分针对Reaper开发的软件一样，SAR本身是开源的，Github上有完整的源码。由于搭配DAW使用，所以SAR自然保证对VST效果器的兼容。但是SAR是完全针对Reaper来打造的，基本没有考虑到对其他DAW的适配，貌似在Studio One上都会有不小的问题（因而笔者也没有对SAR进行过测试）。

小怪兽截图

Monster Audio（小怪兽）：如果笔者只能为小白推荐一个解决方案，那样笔者一定会毫不犹豫地推荐小怪兽；就现在笔者已有的了解，这很可能是小白最容易设置、实现的方案

软件由国人开发，免费下载使用，但需要注册账号，且每次使用时要先登录；专业版好像会有更多一点的功能，但免费版已经完全够用

软件本身就已经是一个功能较为完善的DAW，因而在本身高度集成了和WDM的配合的同时，还能够完整兼容VST效果器

只能兼容VST3效果器，导致部分较老的、只提供老格式的VST效果器无法使用

有专业老师声称该软件会造成音色损失（笔者表示怀疑，但到现在为止没进行过详细测试）

关于以上的各个软件的配置，笔者本身实战经验比较匮乏；相比笔者硬扯，去看其他UP主的、比较详细的设置教程大概要靠谱得多。

“无机架直播”为啥不靠谱

前面谈了一大堆都是实用性相对高一些的内容。笔者在最后想来扯一下业内的生态以及今后的一些展望。

如图所示，各个通道的声音经由WDM集中导入到一个“虚拟混音台”，信号在“虚拟混音台”中经过处理，再经由WDM输出到各个位置。这里所提到的“虚拟调音台”无非是两种：

DAW

声卡控制面板中提供的控制台

如果说后者中能拿出可以称得上“成熟”的厂商，那笔者自然只能想到两个答案：RME，Antelope（羚羊）。

RME Fireface 802的TotalMix FX 控制台Antelope Zen Tour提供的控制台

不使用DAW，完全靠声卡自身的控制台来完成直播，从理论上来讲好处多多：

少开一个软件，增强系统稳定性

声卡驱动直接提供的WDM驱动理论上来说比第三方软件更加稳定

由于使用声卡内XMOS芯片来进行“硬跳线”（而非由CPU进行“软跳线”），稳定性理论上来说更高

使用搭载的DSP（羚羊主要依赖FPGA，但同样提供了DSP）来进行运算，不仅减轻了直播时CPU的负载，同样增强了稳定性

然而现实却是：在真正以直播为职业的主播中，几乎清一色都是走DAW的方案。

为什么所有人宁可牺牲系统稳定性（直播时声卡崩掉的管人不在少数，甚至能被拿来当作切片笑料），也要使用DAW方案？答案很简单：RME、羚羊的效果器对直播来说不够用。

关于效果器，RME的态度近乎于摆烂：你觉得不好用是你的事，我只管走我自己的路。甚至极端点说，RME的一堆产品之所以成为网络直播的毕业选择，几乎就不是因为RME做了针对直播市场的产品，而是自己在卖的产品恰好撞上了网络直播的需求。这帮德国人的固执几乎刻在了骨子里。RME确实提供了压缩（可以当门限用）、EQ、混响、回声，但没有提供最大化效果器（或者可作为类似作用的选项）和限制器，更难以将这些效果器组合使用；这样的设计完全针对的是现场扩音，用于职业直播则是毫无疑问的不合格。

AFX2DAW在Logic Pro。需要注意的是，AFX2DAW，即“把羚羊效果器在DAW加载（像VST效果器那样）”这一功能，需要单独购买

相比之下，羚羊搞定无机架直播的希望无疑要大得多。尽管品质仍然和深耕多年的Universal Audio有明显差距，但羚羊Synergy Core体系下多种多样的效果器一应俱全，包括诸多对模拟硬件的建模软件；效果器也可以自由调整前后顺序（不包括混响，也搞不了侧链）；DSP+FPGA方案的算力组合也明显强于RME，更远远强于UA的SHARC DSP（比装上Outel CPU的Apogee Symphony Desktop自然差一些，但Desktop的代价就是烫烫烫烫烫）。

然而作为业内最有希望搞定“无机架直播”的厂商，羚羊却恰恰缺了那么临门两脚：

唯一的混响效果器AuraVerb效果稀烂，别说比上UA的224、480这样混音界广受好评的经典产品了，对比RME都有差距，更没有混响方面的建模效果器

缺少一款像是UAD2旗下C-State这样的降噪效果器，声音过了门限以后就可能听到明显底噪，影响直播质量

除了以上两点，笔者也看到有老师声称AFX2DAW在DAW中使用出现UI显示不全和杂音问题，且羚羊软件商店使用体验糟糕等等。笔者自己则并没有在羚羊商店购买插件，或使用AFX2DAW的经历（如果购买的时候没有赠送，那么AFX2DAW，即“把羚羊效果器在DAW加载（像VST效果器那样）”这一功能，需要单独购买），因而无法给出更多意见。视频参见：

那么肯定有人要问了：既然UA的效果器那么强，那么为啥你对于UA Apollo声卡用于直播只字不提呢？

答案自然很简单：UA声卡根本没有提供WDM驱动，“无机架直播”也就无从谈起。

除此以外，UA Apollo的DSP算力（万年SHARC DSP没性能提升，很容易不够用）和兼容性（貌似对AMD CPU的电脑容易有严重兼容性问题）也是被不知道多少人长期诟病的老问题。

最后的最后，作为一个对羚羊又爱又恨的“前”用户，我真的，真的，很想对羚羊说：

赶紧给你家声卡搞个靠谱点的混响吧！（可以的话，降噪效果器最好也能安排上）

如果自己搞不定效果器，完全可以邀请第三方厂商来一起搞。君不见，UAD直接从其他厂商那里移植了多少插件？羚羊既然能争取到和Autotune合作，为什么其他的不行？

你家硬件已经很IMBA了，匀一点给软件生态吧！现在的羚羊空有业内算力（大概是）最强的DSP+FPGA方案，却有力没处使。水桶效应懂的吧？与其继续盲目堆料硬件，把软件生态做好更能有效提升用户体验。

羚羊你要争口气啊！！！多少人可都是指望着你成为音频行业的AMD，去把那些行业巨头挑落马下的！不要停下来啊啊啊啊啊啊（雾）

本文首发于某乎（因B站不便在发表后修改文章校正错误，所以我一般会先在某乎发），为笔者原创。

另：因B站貌似不便于添加站外链接，本文中删除了原版中的大部分链接。需要者请善用搜索引擎。

【本文地址】

公司简介

联系我们