语音识别中的CTC算法的基本原理解释

您所在的位置：网站首页 › CTC原理图 › 语音识别中的CTC算法的基本原理解释

语音识别中的CTC算法的基本原理解释

2023-03-25 10:50| 来源: 网络整理| 查看: 265

语音识别中的CTC算法的基本原理解释

目前主流的语音识别都大致分为特征提取，声学模型，语音模型几个部分。目前结合神经网络的端到端的声学模型训练方法主要CTC和基于Attention两种。

本文主要介绍CTC算法的基本概念，可能应用的领域，以及在结合神经网络进行CTC算法的计算细节。

CTC算法概念

CTC算法全称叫：Connectionist temporal classification。从字面上理解它是用来解决时序类数据的分类问题。

传统的语音识别的声学模型训练，对于每一帧的数据，需要知道对应的label才能进行有效的训练，在训练数据之前需要做语音对齐的预处理。而语音对齐的过程本身就需要进行反复多次的迭代，来确保对齐更准确，这本身就是一个比较耗时的工作。

语音识别中的CTC算法的基本原理解释_神经网络图1 “你好”发音的波形示意图

如图1所示，是“你好”这句话的声音的波形示意图，每个红色的框代表一帧数据，传统的方法需要知道每一帧的数据是对应哪个发音音素。比如第1,2,3,4帧对应n的发音，第5,6,7帧对应i的音素，第8,9帧对应h的音素，第10,11帧对应a的音素，第12帧对应o的音素。（这里暂且将每个字母作为一个发音音素）

与传统的声学模型训练相比，采用CTC作为损失函数的声学模型训练，是一种完全端到端的声学模型训练，不需要预先对数据做对齐，只需要一个输入序列和一个输出序列即可以训练。这样就不需要对数据对齐和一一标注，并且CTC直接输出序列预测的概率，不需要外部的后处理。

既然CTC的方法是关心一个输入序列到一个输出序列的结果，那么它只会关心预测输出的序列是否和真实的序列是否接近（相同），而不会关心预测输出序列中每个结果在时间点上是否和输入的序列正好对齐。

语音识别中的CTC算法的基本原理解释_声学模型_02 图2 ctc预测结果示意图

CTC引入了blank（该帧没有预测值），每个预测的分类对应的一整段语音中的一个spike（尖峰），其他不是尖峰的位置认为是blank。对于一段语音，CTC最后的输出是spike（尖峰）的序列，并不关心每一个音素持续了多长时间。

如图2所示，拿前面的nihao的发音为例，进过CTC预测的序列结果在时间上可能会稍微延迟于真实发音对应的时间点，其他时间点都会被标记会blank。

这种神经网络+CTC的结构除了可以应用到语音识别的声学模型训练上以外，也可以用到任何一个输入序列到一个输出序列的训练上（要求：输入序列的长度大于输出序列）。

比如，OCR识别也可以采用RNN+CTC的模型来做，将包含文字的图片每一列的数据作为一个序列输入给RNN+CTC模型，输出是对应的汉字，因为要好多列才组成一个汉字，所以输入的序列的长度远大于输出序列的长度。而且这种实现方式的OCR识别，也不需要事先准确的检测到文字的位置，只要这个序列中包含这些文字就好了。

RNN+CTC模型的训练

下面介绍在语音识别中，RNN+CTC模型的训练详细过程，到底RNN+CTC是如何不用事先对齐数据来训练序列数据的。

首先，CTC是一种损失函数，它用来衡量输入的序列数据经过神经网络之后，和真实的输出相差有多少。

比如输入一个200帧的音频数据，真实的输出是长度为5的结果。经过神经网络处理之后，出来的还是序列长度是200的数据。比如有两个人都说了一句nihao这句话，他们的真实输出结果都是nihao这5个有序的音素，但是因为每个人的发音特点不一样，比如，有的人说的快有的人说的慢，原始的音频数据在经过神经网络计算之后，第一个人得到的结果可能是：nnnniiiiii…hhhhhaaaaaooo(长度是200)，第二个人说的话得到的结果可能是：niiiiii…hhhhhaaaaaooo(长度是200)。这两种结果都是属于正确的计算结果，可以想象，长度为200的数据，最后可以对应上nihao这个发音顺序的结果是非常多的。CTC就是用在这种序列有多种可能性的情况下，计算和最后真实序列值的损失值的方法。

详细描述如下：

训练集合为语音识别中的CTC算法的基本原理解释_语音识别_03 , 表示有语音识别中的CTC算法的基本原理解释_语音识别_04 个训练样本，语音识别中的CTC算法的基本原理解释_神经网络_05 是输入样本，语音识别中的CTC算法的基本原理解释_神经网络_06 是对应的真实输出的label。一个样本的输入是一个序列，输出的label也是一个序列，输入的序列长度大于输出的序列长度。

对于其中一个样本语音识别中的CTC算法的基本原理解释_神经网络_07 ，语音识别中的CTC算法的基本原理解释_语音识别_08 表示一个长度为T帧的数据，每一帧的数据是一个维度为m的向量，即每个语音识别中的CTC算法的基本原理解释_数据_09 。语音识别中的CTC算法的基本原理解释_语音识别_10 可以理解为对于一段语音，每25ms作为一帧，其中第语音识别中的CTC算法的基本原理解释_声学模型_11 帧的数据经过MFCC计算后得到的结果。

语音识别中的CTC算法的基本原理解释_声学模型_12 表示这段样本语音对应的正确的音素。比如，一段发音“你好”的声音，经过MFCC计算后，得到特征语音识别中的CTC算法的基本原理解释_语音识别_13 ，它的文本信息是“你好”，对应的音素信息是语音识别中的CTC算法的基本原理解释_语音识别_14 (这里暂且将每个拼音的字母当做一个音素)。

特征语音识别中的CTC算法的基本原理解释_后验概率_15 在经过RNN的计算之后，在经过一个语音识别中的CTC算法的基本原理解释_神经网络_16 层，得到音素的后验概率语音识别中的CTC算法的基本原理解释_后验概率_17 。语音识别中的CTC算法的基本原理解释_神经网络_18 表示在语音识别中的CTC算法的基本原理解释_后验概率_19 时刻，发音为音素语音识别中的CTC算法的基本原理解释_数据_20 的概率，其中音素的种类个数一共语音识别中的CTC算法的基本原理解释_语音识别_21 个，语音识别中的CTC算法的基本原理解释_数据_22 表示第语音识别中的CTC算法的基本原理解释_后验概率_23 个音素，在一帧的数据上所有的音素概率加起来为1。即：语音识别中的CTC算法的基本原理解释_数据_24

这个过程可以看做是对输入的特征数据语音识别中的CTC算法的基本原理解释_语音识别_25 做了变换语音识别中的CTC算法的基本原理解释_语音识别_26 ，其中语音识别中的CTC算法的基本原理解释_语音识别_27 表示RNN的变换，语音识别中的CTC算法的基本原理解释_神经网络_28 表示RNN中的参数集合。

过程入下图所示：

语音识别中的CTC算法的基本原理解释_数据_29

以一段“你好”的语音为例，经过MFCC特征提取后产生了30帧，每帧含有12个特征，即语音识别中的CTC算法的基本原理解释_神经网络_30 (这里以14个音素为例，实际上音素有200个左右)，矩阵里的每一列之和为1。后面的基于CTC-loss的训练就是基于后验概率语音识别中的CTC算法的基本原理解释_神经网络_31 计算得到的。

路径π和B变换

在实际训练中并不知道每一帧对应的音素，因此进行训练比较困难。可以先考虑一种简单的情况，已知每一帧的音素的标签语音识别中的CTC算法的基本原理解释_神经网络_32 ，即训练样本为语音识别中的CTC算法的基本原理解释_后验概率_33 和语音识别中的CTC算法的基本原理解释_后验概率_34 ，其中语音识别中的CTC算法的基本原理解释_声学模型_35 不再是简单的语音识别中的CTC算法的基本原理解释_语音识别_36 标签，而是：

语音识别中的CTC算法的基本原理解释_神经网络_37

语音识别中的CTC算法的基本原理解释_声学模型_38

在我们的例子中，语音识别中的CTC算法的基本原理解释_声学模型_39 ，语音识别中的CTC算法的基本原理解释_神经网络_40 包含了每一帧的标签。在这种情况下有：

语音识别中的CTC算法的基本原理解释_后验概率_41 (1)

该值即为后验概率图中用黑线圈起来的部分相乘。我们希望相乘的值越大越好，因此，数学规划可以写为：

语音识别中的CTC算法的基本原理解释_后验概率_42 (2)

subject to: 语音识别中的CTC算法的基本原理解释_语音识别_43 (3)

目标函数对于后验概率矩阵语音识别中的CTC算法的基本原理解释_语音识别_44 中的每个元素语音识别中的CTC算法的基本原理解释_语音识别_45 的偏导数为：

语音识别中的CTC算法的基本原理解释_语音识别_46

也就是说，在每个时刻语音识别中的CTC算法的基本原理解释_数据_47 (对应矩阵的一列）,目标只与语音识别中的CTC算法的基本原理解释_声学模型_48 是相关的，在这个例子中是与被框起来的元素相关。

其中语音识别中的CTC算法的基本原理解释_数据_49 可以看做是RNN模型，如果训练数据的每一帧都标记了正确的音素，那么训练过程就很简单了，但实际上这样的标记过的数据非常稀少，而没有逐帧标记的数据很多，CTC可以做到用未逐帧标记的数据做训练。

首先定义几个符号：

语音识别中的CTC算法的基本原理解释_数据_50 表示所有音素的集合

语音识别中的CTC算法的基本原理解释_声学模型_51 表示一条由语音识别中的CTC算法的基本原理解释_数据_52 中元素组成的长度为语音识别中的CTC算法的基本原理解释_声学模型_53 的路径，比如语音识别中的CTC算法的基本原理解释_语音识别_54 就是一条路径，以下为几个路径的例子：语音识别中的CTC算法的基本原理解释_语音识别_55

语音识别中的CTC算法的基本原理解释_语音识别_56

语音识别中的CTC算法的基本原理解释_数据_57 语音识别中的CTC算法的基本原理解释_声学模型_58

语音识别中的CTC算法的基本原理解释_声学模型_59

语音识别中的CTC算法的基本原理解释_声学模型_60

这6条路径中，语音识别中的CTC算法的基本原理解释_语音识别_61 可以被认为是“今夜无人入睡”，语音识别中的CTC算法的基本原理解释_后验概率_62 可以被认为是在说“你好”，语音识别中的CTC算法的基本原理解释_数据_63 可以被认为是在说“好你”，语音识别中的CTC算法的基本原理解释_数据_64 都可以认为是在说“你好”。

定义B变换，表示简单的压缩，例如：语音识别中的CTC算法的基本原理解释_神经网络_65

以上6条路径为例：

语音识别中的CTC算法的基本原理解释_数据_66

语音识别中的CTC算法的基本原理解释_数据_67

语音识别中的CTC算法的基本原理解释_数据_68

语音识别中的CTC算法的基本原理解释_语音识别_69

语音识别中的CTC算法的基本原理解释_后验概率_70

语音识别中的CTC算法的基本原理解释_声学模型_71

因此，如果有一条路径语音识别中的CTC算法的基本原理解释_数据_72 有语音识别中的CTC算法的基本原理解释_后验概率_73 ，则可以认为语音识别中的CTC算法的基本原理解释_语音识别_74 是在说“你好”。即使它是如语音识别中的CTC算法的基本原理解释_数据_75 所示，有很多“o”的音素，而其他音素很少。路径语音识别中的CTC算法的基本原理解释_后验概率_76 的概率为它所经过的矩阵y上的元素相乘：

语音识别中的CTC算法的基本原理解释_神经网络_77

因此在没有对齐的情况下，目标函数应该为语音识别中的CTC算法的基本原理解释_神经网络_78 中所有元素概率之和。即：

语音识别中的CTC算法的基本原理解释_神经网络_79 语音识别中的CTC算法的基本原理解释_声学模型_80 (4)

在T=30，音素为语音识别中的CTC算法的基本原理解释_声学模型_81 的情况下，共有语音识别中的CTC算法的基本原理解释_后验概率_82 条路径可以被压缩为语音识别中的CTC算法的基本原理解释_声学模型_83 。路径数目的计算公式为语音识别中的CTC算法的基本原理解释_声学模型_84 ，量级大约为语音识别中的CTC算法的基本原理解释_神经网络_85 。一段30秒包含50个汉字的语音，其可能的路径数目可以高达语音识别中的CTC算法的基本原理解释_神经网络_86 ，显然这么大的路径数目是无法直接计算的。因此CTC方法中借用了HMM中的向前向后算法来计算。

训练实施方法

CTC的训练过程是通过$\frac {\partial p(z|x)}{\partial w} $调整w的值使得4中的目标值最大，而计算的过程如下：

因此，只要得到语音识别中的CTC算法的基本原理解释_神经网络_87 ，即可根据反向传播，得到语音识别中的CTC算法的基本原理解释_语音识别_88 。下面以“你好”为例，介绍该值的计算方法。

首先，根据前面的例子，找到所有可能被压缩为语音识别中的CTC算法的基本原理解释_声学模型_89 的路径，记为语音识别中的CTC算法的基本原理解释_数据_90 。可知所有语音识别中的CTC算法的基本原理解释_语音识别_91 均有语音识别中的CTC算法的基本原理解释_后验概率_92 的形式，即目标函数只与后验概率矩阵y中表示语音识别中的CTC算法的基本原理解释_后验概率_93 的5行相关，因此为了简便，我们将这5行提取出来，如下图所示。

在每一个点上，路径只能向右或者向下转移，画出两条路径，分别用q和r表示，这两条路径都经过$y^{14}_h$这点，表示这两点路径均在第14帧的时候在发“h”音。因为在目标函数4的连加项中，有的项与$y^{14}_h$无关，因此可以剔除这一部分，只留下与语音识别中的CTC算法的基本原理解释_声学模型_94 有关的部分，记为语音识别中的CTC算法的基本原理解释_声学模型_95

语音识别中的CTC算法的基本原理解释_后验概率_96

= 语音识别中的CTC算法的基本原理解释_神经网络_97

= 语音识别中的CTC算法的基本原理解释_声学模型_98

= 语音识别中的CTC算法的基本原理解释_声学模型_99

= 语音识别中的CTC算法的基本原理解释_语音识别_100

这里的q和r就是与语音识别中的CTC算法的基本原理解释_后验概率_101 相关的两条路径。用语音识别中的CTC算法的基本原理解释_语音识别_102 和语音识别中的CTC算法的基本原理解释_声学模型_103 分别表示语音识别中的CTC算法的基本原理解释_语音识别_104 在语音识别中的CTC算法的基本原理解释_神经网络_105 之前和之后的部分，同样的，用语音识别中的CTC算法的基本原理解释_声学模型_106 和语音识别中的CTC算法的基本原理解释_数据_107 分别表示语音识别中的CTC算法的基本原理解释_神经网络_108 在语音识别中的CTC算法的基本原理解释_后验概率_109 之前和之后的部分.。可以发现，语音识别中的CTC算法的基本原理解释_声学模型_110 与语音识别中的CTC算法的基本原理解释_神经网络_111 同样也是两条可行的路径。语音识别中的CTC算法的基本原理解释_语音识别_112 、语音识别中的CTC算法的基本原理解释_声学模型_113 、语音识别中的CTC算法的基本原理解释_神经网络_114 、语音识别中的CTC算法的基本原理解释_声学模型_115 这四条路径的概率之和为：

语音识别中的CTC算法的基本原理解释_语音识别_116 + 语音识别中的CTC算法的基本原理解释_数据_117

+ 语音识别中的CTC算法的基本原理解释_语音识别_118 + 语音识别中的CTC算法的基本原理解释_数据_119

= 语音识别中的CTC算法的基本原理解释_数据_120

可以发现，该值可以总结为：（前置项）语音识别中的CTC算法的基本原理解释_后验概率_121 (后置项)。由此，对于所有的经过语音识别中的CTC算法的基本原理解释_数据_122 的路径，有：语音识别中的CTC算法的基本原理解释_数据_123

定义：语音识别中的CTC算法的基本原理解释_声学模型_124

该值可以理解为从初始到语音识别中的CTC算法的基本原理解释_声学模型_125 这一段里，所有正向路径的概率之和。并且发现，语音识别中的CTC算法的基本原理解释_神经网络_126 可以由语音识别中的CTC算法的基本原理解释_语音识别_127 和语音识别中的CTC算法的基本原理解释_神经网络_128 递推得到，即：语音识别中的CTC算法的基本原理解释_后验概率_129

该递推公式的含义是，只是在语音识别中的CTC算法的基本原理解释_语音识别_130 时发音是“h”或“i”，在语音识别中的CTC算法的基本原理解释_后验概率_131 时才有可能发音是“h”。那么在语音识别中的CTC算法的基本原理解释_声学模型_132 时刻发音是“h”的所有正向路径概率语音识别中的CTC算法的基本原理解释_语音识别_133 就等于在语音识别中的CTC算法的基本原理解释_数据_134 时刻，发音为“h”的正向概率语音识别中的CTC算法的基本原理解释_声学模型_135 加上发音为“i”的正向概率语音识别中的CTC算法的基本原理解释_声学模型_136 ，再乘以当前音素被判断为“h”的概率语音识别中的CTC算法的基本原理解释_后验概率_137 。由此可知，每个语音识别中的CTC算法的基本原理解释_神经网络_138 都可以由语音识别中的CTC算法的基本原理解释_声学模型_139 和语音识别中的CTC算法的基本原理解释_语音识别_140 两个值得到。语音识别中的CTC算法的基本原理解释_数据_141 的递推流程如下图所示：

即每个值都由上一个时刻的一个或者两个值得到，总计算量大约为语音识别中的CTC算法的基本原理解释_声学模型_142 。类似的，定义语音识别中的CTC算法的基本原理解释_神经网络_143 ，递推公式为：语音识别中的CTC算法的基本原理解释_后验概率_144

因此有：语音识别中的CTC算法的基本原理解释_后验概率_145

= 语音识别中的CTC算法的基本原理解释_声学模型_146

= 语音识别中的CTC算法的基本原理解释_声学模型_147

然后：

语音识别中的CTC算法的基本原理解释_神经网络_148 = 语音识别中的CTC算法的基本原理解释_语音识别_149 = 语音识别中的CTC算法的基本原理解释_声学模型_150 = 语音识别中的CTC算法的基本原理解释_神经网络_151

得到此值后，就可以根据反向传播算法进行训练了。

可以看到，这里总的计算量非常小，计算语音识别中的CTC算法的基本原理解释_语音识别_152 和语音识别中的CTC算法的基本原理解释_后验概率_153 的计算量均大约为语音识别中的CTC算法的基本原理解释_声学模型_154 ，（加法乘法各一次），得到语音识别中的CTC算法的基本原理解释_数据_155 和语音识别中的CTC算法的基本原理解释_数据_156 之后，在计算对每个语音识别中的CTC算法的基本原理解释_声学模型_157 的偏导值的计算量为语音识别中的CTC算法的基本原理解释_神经网络_158 ，因此总计算量大约为语音识别中的CTC算法的基本原理解释_语音识别_159 ，这是非常小的，便于计算。

目前，深度学习的算法已经大规模应用于腾讯云的语音识别产品中。腾讯云拥有业内最先进的语音识别技术，基于海量的语音数据，积累了数十万小时的标注语音数据，采用LSTM，CNN，LFMMI，CTC等多种建模技术，结合超大规模语料的语言模型，对标准普通话的识别效果超过了97%的准确率。腾讯云的语音技术，应用涵盖范围广泛，具备出色的语音识别、语音合成、关键词检索、静音检测、语速检测、情绪识别等能力。并且针对游戏，娱乐，政务等几十个垂直做特殊定制的语音识别方案，让语音识别的效果更精准，更高效，全面满足电话客服质检、语音听写、实时语音识别和直播字幕等多种场景的应用。

【本文地址】

公司简介

联系我们