【弹幕姬】支持微软免费语音引擎的魔改版RE: TTSCat插件使用指南 | 您所在的位置:网站首页 › 斗鱼弹幕暂时不能打开 › 【弹幕姬】支持微软免费语音引擎的魔改版RE: TTSCat插件使用指南 |
(本来想做视频的,但不想花那么多时间了,直接发一期专栏。反正估计视频也没人看,乐观估计播放量最多1000 今天来 (不) 务正业,介绍一款由我魔改的Re: TTSCat插件,也就是弹幕姬读弹幕的插件。这款魔改版插件支持微软Azure的TTS引擎,有多达36多种音源可选,每月都有50万字符免费,完全满足我们这种小主播的直播需求。实际使用效果可以去我的视频里看。 实际效果但也先把前提条件说清楚,要使用它,你需要有个一张Visa或者MasterCard的信用卡来注册微软的azure账户。 感谢原作者Elepover开源了这款插件,所以我才能来修改。当然根据开源协议,我修改后的版本也是开源的。 我都来写专栏了,废话肯定不能少(视频废话多了难做)。不想看废话可以直接拉到怎么用章节。按照惯例,本文依然分为以下几部分。 目录: 1. 什么是弹幕姬以及Re: TTSCat? 2. 我为什么要魔改Re: TTSCat插件? 3. 怎么使用我魔改版的Re: TTSCat插件? 3.1 注册微软Azure云服务账号 3.2 在Azure上创建语音服务 3.3 下载并配置魔改版插件 3.4 字符计算相关 4. 顺便提一下Speech studio自由合成语音 1. 什么是弹幕姬以及Re: TTSCat? [弹幕姬](https://www.danmuji.org/),是一款可以让弹幕显示在电脑屏幕上的工具。但弹幕姬这个工具默认是不会读弹幕的,他只会为主播把弹幕以悬浮框或者弹幕的形式展示在桌面上,这样主播就不用去自己直播间看弹幕了。同时弹幕姬支持安装插件来扩展功能,比如点歌,弹幕日志,礼物统计等等。 所以Re: TTSCat就是专门用来读弹幕的插件,作者是Elepover(再次感谢。其名字里的TTS就是text to speech的缩写,意思就是文本转语音。 https://www.danmuji.org/plugins/Re-TTSCat有了这款插件,弹幕姬就有了灵魂,可以读出弹幕。像我们这种游戏主播不方便随时看弹幕,这款插件简直是不可或缺。它不但可以让主播知道观众发了什么弹幕,还可以欢迎观众进入直播间和答谢礼物。甚至有观众姥爷会专门发弹幕调戏弹幕姬,对直播效果很有帮助。 2. 为什么要魔改Re: TTSCat? 这插件用的好好的,为什么要魔改呢? 相信很多刚开始用弹幕姬的小伙伴经常遇到弹幕姬不读弹幕的情况,刚开始我也摸不着头脑,为啥会间歇性划水不读弹幕呢?后来经过一番查资料,终于知道了原因。原来弹幕姬默认不是调用本地资源来生成语音的,而是调用百度的API。也就是说每当观众发来一条弹幕,我们的直播主机就会像上网一样,去访问百度的服务器。由百度的服务器生成语音,再回传给我们的电脑,播放出来。 那弹幕姬不读弹幕的原因就很清晰了,百度没有义务为我们免费合成语音。所以在Re: TTSCat的高级选项里提供了很多TTS引擎,其中就有百度高级版,这是一个需要付费的引擎。顾客就是上帝,你给百度交了钱,当然就可以获得优质的服务。优质不仅体现在弹幕姬不偷懒了,还有更多的音源可选。 百度高级版的功能那我既不想花钱又想让弹幕姬勤劳一点怎么办呢?B站上随便一搜,解决方案也很简单,选择.Net框架引擎。这个引擎就是每个人电脑里自带的了,只需要占用自己电脑的资源,万事不求人。自己的电脑当然任你压榨,所以它非常的勤劳。后来我就一直用这个引擎用了很久, 也看到很多熟识的主播在用。 .Net框架引擎但是,天下可能有免费的午餐,但肯定不会好吃。没错,这个引擎的缺点就是,不好听! 不用跟百度高级版引擎的丰富音源比较,比默认的百度免费引擎也差了一大截。随便一听就知道是机器合成的,毫无感情可言,瞬间从“弹幕姬”变成了“真•弹幕机”。面对一个没有感情的读弹幕机器,观众姥爷们也提不起兴趣。 分析上面提到过的三种引擎,各有优缺点。百度免费版不勤劳,百度高级版不免费,.Net框架引擎不好听。那么有没有一种既免费,又好听,又勤劳的引擎呢?有的!微软的Azure云语音服务,好听又免费。每个月有50字符免费,36种汉语音源可选(还有海量外语音源,但我也用不到) 唯一的问题就是Re: TTSCat默认不支持微软的语音引擎。但我作为一个程序员,动动手让他支持支持不就可以了? 并且,非常幸运的是这款插件也是开源的,也托管在Github上(链接不放了,有兴趣可以自己搜。如果不是开源,我也就没法做修改了。而且,由于它的GPL开源协议,我修改过后的代码也必须是开源的(当然其实我也没打算闭源哈。修改后的代码我也不放了,毕竟作为一个微软的软件工程师,不会写C#是很不合常理的一件事情。 3. 怎么使用我魔改版的Re: TTSCat插件? 废话讲完,开始正文 3.1 注册微软Azure云服务账号 (如果你有了可以直接看下一步 首先你需要有一个微软账号,这个的注册方法这里不讲了。 然后去微软Azure云计算官网(https://azure.microsoft.com/zh-cn/)开通Azure账号。下面截图一步步讲 点击开始使用(当然这里你可以选择免费试用,我没试过,好像只有第一个月免费给一些额度。但其实如果你只用后面提到的语音服务的f0定价层,是不会花钱的 又弹一窗口,继续开始使用然后需要登录你的微软账号,我这里没截图了。 登完微软账号,开始填写资料注册: 资料可以随便填,电话和邮箱写对就行了。填完电话,点击发短信给我填验证码,点验证填地址,随便填。填完点下一步地址无法验证,无所谓,直接使用此地址填信用卡信息填完点下一步!!!!特别注意:不要选寄术支持,选了就会花钱!!!! !!!!!!!!!!!!!!!!!!!!!!!!!!! 不需要技术支持(你已获得Microsoft顶级支持这个页面等确认然后可能会弹个错误页面,但是不重要,这时候已经注册好了。 这个错误不重要,已经注册好了稍等个2分钟,给微软一点反应时间。之后回到Azure官网(https://azure.microsoft.com/zh-cn/)点击登录: 登录如果看到这个界面,说明注册成功了。 注册成功3.2 在Azure上创建语音服务 点击创建资源AI + 机器学习 -> 语音新建一个资源组!!!定价层选Free F0!!!不然会花钱!!! 选完点击下一页按步骤走,其实下面几页都默认就好了,或者直接直接点击“审阅并创建” 最后点击创建 点击创建创建完成! 创建完成,点击转到资源下滑一点之后可以看到密钥和位置/区域,这两个东西后面会用到。 获得密钥和位置/区域至此,Azure上的配置就全部完成了。 3.3 下载并配置魔改版插件 (默认你用过弹幕姬啊,如果弹幕姬都没下的话,去搜一下弹幕姬的教程。 首先去网盘下载我的插件压缩包(写专栏时还没传啊,后面会更新地址,也放在评论区置顶) 下好之后把压缩包里的文件全部解压到弹幕姬的插件文件夹。不知道插件文件夹在哪可以打开弹幕姬,点到外挂程式tab页,点击“打开外挂程式资料夹”: 找到插件文件夹解压后的效果:(原谅我不懂.Net,只能把微软语音服务的DLL放在这里了 解压后的效果解压完成后,重启弹幕姬。在外挂程式的Re: TTSCat这一行右键,点击管理 打开插件管理页点击高级选项tab,在TTS引擎栏下拉选择微软。填入微软服务接入点和微软服务密钥: 选择微软TTS引擎接入点和密钥在前面一步的Azure云服务上看。可以直接点击复制按钮,然后粘贴到弹幕姬里: 填入接入点和密钥这样最基本的配置就完成了。启用插件之后,就可以连接到自己(或者别人的房间)开始测试了。 启用外挂程式还有几个功能: 1. 选择音源 喜欢哪个用哪个。晓开头的是女声,云开头的是男声。特殊音源也做了标注 喜欢哪个用哪个还有多种方言2. 朗读速度 朗读速度,1 = 1.1倍速,2=1.2倍速,10 = 2倍速。负数就是变慢速度,但好像变慢有极限。使用此功能会大幅增加计费字符数量(后面单独讲字符。 调整朗读速度3. 朗读语调 类似朗读速度,越大音调越高,越小声音越低沉。比如选女声音源,调低语调可以变男声。选男声音源,调高语调,听起来就是女声。使用此功能也会大幅增加计费字符数量(后面单独讲字符。 调整朗读语调3.4 字符计算相关 使用Free F0的定价层,每个月有50w字符免费额度。 定价3.4.1 那这50w字符是如何计算的呢? 一般来说,一个数字算1字符,一个汉字算2字符。但是使用朗读速度(选项不是0的话)每条弹幕+30计费字符数量。使用朗读语调也一样,每条弹幕+30字符。(所以同时使用语速和语调可以为每句弹幕增加约60字符的计费字符量,大幅消耗50万个免费字符的额度,建议慎重使用。 此外还需注意,弹幕姬读弹幕都是XXX说,这个发弹幕的人的ID和“说”字也是要算字符数量的。 3.4.2 所以大概能读多少条弹幕呢? B站一条弹幕最多20字,那就是40字符。加上ID,一条弹幕可能有六七十个字符。如果你的朗读速度不是0的话,每条弹幕要加约30字符。如果语调也不是默认的0的话,每条要再加30字符。这样一条弹幕花费100字符轻轻松松,一个月就只能免费读5千条弹幕了。 但是如果省着点用,语速语调都是默认值0,一条弹幕可能也就50字符左右,一个月可以免费读约1万条弹幕,我觉得对我来说是完全够用了。 3.4.3 怎么查看已经用了多少字符额度呢? 还是来到Azure官网,登录之后选择创建好的语音服务,来到语音服务主页。点击指标: 度量值选择Synthesized Characters: 选择时间范围和时间粒度: 可以得到字符计数的折线图: 鼠标不放到折线图上,左下角显示的就是使用的字符总量。(我这里已经到了60w,超过50w了。因为在暴力测试,所以不是我正常的使用水平。 鼠标放到折线图上,可以看到选定的时间粒度里使用了多少字符: 3.4.3 超过50w额度会怎么样? 我也迫切的想知道这个问题,说一下我的亲身经历。 其实我刚超过50w的时候,是自动不能用了的,弹幕姬就不说话了。但是两天之后,又能用了。。。所以就造成了现在30天内用了60w字符的情况。 但我怀疑这可能也跟计费周期有关。每月50w字符免费,会不会是我已经开始第二个月了?但我并不知道我的一个月是从什么时候开始算的。。。 我建议到了50w字符还是先不要用了,等我再用一阵子看看能不能30天内用到100w字符,再来更新结果吧。 3.4.4 字符额度不够用怎么办? 这不是很明显吗?有几个选项摆在你面前: 不用了。 加钱,选择S0定价层,但是这个就贵了。每100w字符16美刀。 (或者再注册一个账号,再薅50w免费字符?我没试过,别问我 4. Speech Studio功能 到这里,这个教程基本上就结束了。但是还没完 这个语音服务的功能很强大,不只有文本转语音功能。但就算我们仅仅用文本转语音的功能,用途也很多,用来读弹幕真是大材小用。比如,很自然的想到,可以为视频配音吧。 既然都已经开通了微软的语音服务,来介绍一下自由合成语音的最简单的办法。 来到你的语音服务界面,点击speech studio: 在新页面里下拉,找到启动有声内容创作项目: 创建一个项目之后,里面有各种各样的功能和选项,供你使用各种音源,创作你想要的各种内容。我感觉甚至可以做个鬼畜。。。 如果有兴趣,就自行探索吧。(已经超出这期弹幕姬的内容太多了。 好的,这期专栏的内容终于写完啦!希望能对你有所帮助。(虽然感觉大部分人不会用到。如果对你有帮助,就点个赞吧! 也欢迎来我的直播间调戏弹幕姬。 如果有问题可以评论区提出,我会尽量解答。 有bug也可以找我反馈,我会维护一阵子。 以上 |
CopyRight 2018-2019 实验室设备网 版权所有 |