语音识别 |
您所在的位置:网站首页 › 方言音频 › 语音识别 |
语音识别如今已经走过了漫长的道路,尽管通过机器学习实现了技术上的突飞猛进,如今的语音识别系统仍然有许多不完美的地方,其中一点就是带有歧视性。在最近报道出的《华盛顿邮报》委托进行的一项研究中,谷歌和亚马逊生产的智能音箱,它能够听懂非美国口音的可能性比本土用户低30%。方言识别成为了语音识别技术的一大待突破的障碍。 论方言识别率的必要性 “十里不同音,百里不同俗”是中国的语言现状。中国共有56个民族,除了回族没有自己的语言之外,其他所有民族都有自己的语言,在各个方言区中又分布着多种土语。据不完全统计,中国至少有80种以上的语言。除此之外,由于受到方言的影响,很多人的普通话会有一定的口音存在。无论是目前的智能家居产品还是未来某些语音识别产品的应用,方言的识别是不可或缺的。 训练数据越多越好 语音识别的专业基础包括了算法基础、数据知识和开源平台,其中算法基础是语音识别系统的核心知识,包括了声学机理、信号处理、声学模型、语言模型和解码搜索等。训练数据是语音识别准确率不断提升的关键。语音识别中的口音差异是一个数据问题。语料库中语音样本的数量和多样性越高,得到的模型就越精确。随着越来越多不同方言说话的语音数据做训练,语音识别能力就会不断提高。 数据堂自有版权各地区方言语音系列数据产品包含: 1000小时 武汉方言录音数据 1000小时 昆明方言录音数据 1000小时 长沙方言录音数据 1032小时 上海方言手机采集语音数据 738小时 维语手机采集语音数据 1652小时 粤语手机采集语音数据 1044小时 闽南语手机采集语音数据 312人 东北方言手机采集语音数据 463人 河南方言手机采集语音数据 370人 杭州方言手机语音采集数据 250人 苏州方言手机语音采集数据 |
今日新闻 |
点击排行 |
|
推荐新闻 |
图片新闻 |
|
专题文章 |
CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭 |