BYR Achieve · 镜像论坛

最近在学习语音识别，阶段性总结下经验，大家可以康康。最近学习时发现了一个比较不错的经典论文集也一并分享给大家，网盘链接放到最下面了（种种树），先给你们放个目录： 1.基于HMM的方法： 1.1 Review（4篇）； 1.2 GMM-HMM-AM（3篇）； 1.3 DNN-HMM-AM（7篇）； 1.4 LM（3篇）； 1.5 Decoder（5篇）； 1.6 Discriminative Training（3篇）； 1.7 Robust（5篇）； 1.8 SpeakerAdaptation（2篇）； 1.9 System（2篇） 2.端到端的方法： 2.1 Review（2篇）； 2.2 CTC（5篇）； 2.3 RNN-T（3篇）； 2.4 Attention（7篇）学习总结语音识别大体上就是将人类的语音信号输入系统，识别出对应的文字。过程大体分为两个阶段，前一阶段主要是语音信号的处理，后一阶段主要是模型训练和语音识别过程总结： 1、语音信号预处理语音信号是一个连续的信号，首先对语音信号进行预处理，比如预加重处理，分帧加窗处理等，目的则是为了提高信号信噪比，便于后续处理。 2、语音信号分析语音信号输入需要进行一系列处理，不是一个简单的输入语音并直接输入文本的系统，包括了时域分析、时频域分析，倒谱域分析；这里处理的目的为了得到语音信号的时域或时频域特征，便于画出功率谱，用于下一步特征提取（MFCCs）时域分析：能够提取到的特征包括短时平均能量，短时平均过零率，短时自相关函数。这些特征倾向于短时信号特征，在端点检测、静音判断、清浊音切分方面应用广泛时频域分析：语音处理过程中，二者结合起来的时频特征对后续工作也很重要，这一部分用到傅里叶变换。傅里叶变换可以很好的表现出信号的频率域特征，但是丢失了时间信息，因此，对傅里叶变换进行优化，提出了短时傅里叶变换（STFT），在傅里叶变换的基础上，对信号分帧加窗，逐个处理，能够得到比较好的时域和频域特征信息。 3、特征提取语音信号的特征参数能够很好的表达语音信号这种复杂的连续信号，能很好的表达语音信号所携带的信息，特征参数主要学了MCFF参数提取，MCFF频率和人类听觉相符。 4、模型训练模型训练中吧语音信号经过处理，得到指定的N维特征参数并输入到模型中，多次迭代优化模型参数，识别阶段，识别语音信号处理后得到N维参数，输入模型中得到结果。语音识别模型很多，包括经典的HM、GMM；人工神经网络兴起使得DNN、CNN应用广泛，通过给出初始模型，不断优化参数，得到满意模型。这是我近一段时间的学习心得，看回复情况日后吐血再更，先刨个坑，日后资料也会分享给大家。语音识别的论文集是深蓝NPL教研室联合中科院自动化所整理，百度网盘链接https://pan.baidu.com/s/1geBLnrl g0tu 链接易被删，如果失效了，你们就添加微信『深蓝学院-子书（微信号：shenlan-zishu）』，回复【1-语音识别】就能领取

【论文分享】 语音识别学习日记（一）

【论文分享】语音识别学习日记（一）