实时语音转写

2024-04-24 02:53| 来源: 网络整理| 查看: 265

1、 “已录制音频转写”和“实时音频流转写”的区别是？

实时音频流（real-time streaming）转写：在采集音频的同时，连续上传音频流至云端，转写服务将实时返回文字结果，实现文字和声音的同步展现；

已录制音频（recorded audio）转写：将预先录制完毕的完整音频文件传输至云端，转写服务处理完成后将输出此音频对应的完整文字结果。该流程为异步&非实时。

非实时语音转写已上线，欢迎使用。

2、实时语音转写支持什么语言？

默认支持中文、英文、中英混合识别；中文包括普通话、天津话、河北话、东北话、甘肃话、山东话、太原话；其他方言/语种需购买套餐或语种授权。目前可支持：

l 方言：广东话、河南话、西南官话（云南话、贵州话、重庆话、四川话）

l 语种：中文、英语、日语、韩语、法语、俄语、越南语、西班牙语

l 民族语言：藏语、维语

3、实时语音转写支持的音频时长有什么限制？

实时语音转写可以实时识别持续的音频流，结果是实时返回，音频流长度理论上不做限制，典型的应用场景是要求展示实时字幕的会议或直播。

4、实时语音转写支持并发吗？

支持，默认10路并发。

5、实时语音转写的分片时长40ms是什么意思？

可以理解为上传的间隔为40ms，建议音频流每40ms向服务器发送1280字节，发送过快可能导致引擎出错，音频发送间隔超时时间为15s，超时服务端报错并主动断开连接。

【本文地址】

公司简介

联系我们