什么是智能语音交互

2023-11-30 03:06| 来源: 网络整理| 查看: 265

说明

全新的智能语音交互2.0版本现已发布。您可以使用自学习平台等工具改善语音识别效果，而且我们为您提供了功能更丰富的管理控制台和更易用的SDK，欢迎开通体验。

从0到1入门视频一句话识别

对时长较短（一分钟以内）的语音进行识别，适用于较短的语音交互场景，如语音搜索、语音指令、语音短消息等，可集成在各类App、智能家电、智能助手等产品中。更多信息，请参见一句话识别接口说明。

实时语音识别

对不限时长的音频流做实时识别，达到“边说边出文字”的效果，内置智能断句，可提供每句话开始结束时间。可用于视频实时直播字幕、实时会议记录、实时法庭庭审记录、智能语音助手等场景。更多信息，请参见实时语音识别接口说明。

录音文件识别

对用户上传的录音文件进行识别，可用于呼叫中心语音质检、庭审数据库录入、会议记录总结、医院病历录入等场景。更多信息，请参见录音文件识别接口说明。

重要

针对免费用户，系统可在24小时内完成识别并返回识别文本；针对付费客户，系统可在3小时之内完成识别并返回识别文本，一次性上传大规模数据（半小时内上传超过500小时时长的录音）的除外。有大规模数据转写需求的客户，可与售前专家另行沟通。

语音合成

通过先进的深度学习技术，将文本转换成自然流畅的语音。目前有多种音色可供选择，并提供调节语速、语调、音量等功能。适用于智能客服、语音交互、文学有声阅读和无障碍播报等场景。更多信息，请参见语音合成接口说明。

离线语音合成

在弱网或无网状态下，通过设备本地的语音合成模型，将文本转换成自然流畅的语音。

目前有多种音色可供选择，并提供调节语速、语调、音量等功能。适用于车载导航、智能硬件、文学有声阅读和无障碍播报等场景。以SDK的方式集成，支持多种不同硬件平台。按照设备激活数量收费，收费更加灵活可控。更多信息，请参见离线语音合成接口说明。

语音合成声音定制（企业版）

为您提供深度定制的TTS（Text to Speech）声音功能：使用先进的深度学习技术，用更少的数据量，更快速高效地定制高表现力的TTS声音，将自然流畅的声音输出到服务或设备上。

如果您想体验定制的声音、了解定制流程，请查看语音合成声音定制（企业版）。如有任何需求和疑问，请联系：[email protected]。

灵积语音模型服务

灵积模型服务平台中的语音服务——Paraformer语音识别API是基于达摩院新一代非自回归端到端模型，提供对输入的各类音视频文件进行语音识别的能力，可被应用于客服质检、内容理解分析、字幕生成等。

自学习平台

您可以使用自学习平台提升识别效果，它提供了训练热词和自学习语言模型两种方式。语音识别服务中，通过添加热词和使用热词模型来改善识别结果。在司法、金融等领域，利用语言模型定制进行优化，提高该业务场景下的识别准确率，更多信息，请参见自学习平台。

个性化人声定制

随着语音交互技术的普及，越来越多场景需要语音合成的能力，如讲故事、读新闻、导航播报和智能设备语音交互等。

个性化人声定制服务帮助用户通过少量录音，得到自己的声音模型，从而快速“克隆”个性化的声音。更多信息，请参见通过控制台界面定制。

学习路线

快速入门：快速体验智能语音交互服务，掌握相关术语、获取Access Token等内容。

产品计费：了解智能语音交互服务的计费情况。

接口参考选择需要的服务：一句话识别、实时语音识别、录音文件识别、语音合成等。

自学习平台：通过自学习平台的热词、语言模型定制提升识别效果。

个性化人声定制：提供快速“克隆”个性化声音的功能。

最佳实践：了解智能语音交互服务的最佳实现方式。

常见问题：查询常见问题的解决方案。

【本文地址】

公司简介

联系我们