返回信息流最近在学习语音识别,阶段性总结下经验,大家可以康康。最近学习时发现了一个比较不错的经典论文集也一并分享给大家,网盘链接放到最下面了(种种树),先给你们放个目录:
1.基于HMM的方法:
1.1 Review(4篇);
1.2 GMM-HMM-AM(3篇);
1.3 DNN-HMM-AM(7篇);
1.4 LM(3篇);
1.5 Decoder(5篇);
1.6 Discriminative Training(3篇);
1.7 Robust(5篇);
1.8 SpeakerAdaptation(2篇);
1.9 System(2篇)
2.端到端的方法:
2.1 Review(2篇);
2.2 CTC(5篇);
2.3 RNN-T(3篇);
2.4 Attention(7篇)
学习总结
语音识别大体上就是将人类的语音信号输入系统,识别出对应的文字。过程大体分为两个阶段,前一阶段主要是语音信号的处理,后一阶段主要是模型训练和语音识别
过程总结:
1、语音信号预处理
语音信号是一个连续的信号,首先对语音信号进行预处理,比如预加重处理,分帧加窗处理等,目的则是为了提高信号信噪比,便于后续处理。
2、语音信号分析
语音信号输入需要进行一系列处理,不是一个简单的输入语音并直接输入文本的系统,包括了时域分析、时频域分析,倒谱域分析;这里处理的目的为了得到语音信号的时域或时频域特征,便于画出功率谱,用于下一步特征提取(MFCCs)
时域分析:能够提取到的特征包括短时平均能量,短时平均过零率,短时自相关函数。这些特征倾向于短时信号特征,在端点检测、静音判断、清浊音切分方面应用广泛
时频域分析:语音处理过程中,二者结合起来的时频特征对后续工作也很重要,这一部分用到傅里叶变换。傅里叶变换可以很好的表现出信号的频率域特征,但是丢失了时间信息,因此,对傅里叶变换进行优化,提出了短时傅里叶变换(STFT),在傅里叶变换的基础上,对信号分帧加窗,逐个处理,能够得到比较好的时域和频域特征信息。
3、特征提取
语音信号的特征参数能够很好的表达语音信号这种复杂的连续信号,能很好的表达语音信号所携带的信息,特征参数主要学了MCFF参数提取,MCFF频率和人类听觉相符。
4、模型训练
模型训练中吧语音信号经过处理,得到指定的N维特征参数并输入到模型中,多次迭代优化模型参数,
识别阶段,识别语音信号处理后得到N维参数,输入模型中得到结果。
语音识别模型很多,包括经典的HM、GMM;人工神经网络兴起使得DNN、CNN应用广泛,通过给出初始模型,不断优化参数,得到满意模型。
这是我近一段时间的学习心得,看回复情况日后吐血再更,先刨个坑,日后资料也会分享给大家。
语音识别的论文集是深蓝NPL教研室联合中科院自动化所整理,百度网盘链接https://pan.baidu.com/s/1geBLnrl g0tu
链接易被删,如果失效了,你们就添加微信『深蓝学院-子书(微信号:shenlan-zishu)』,回复
【1-语音识别】就能领取
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #35998同步于 2019/12/27
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
【论文分享】 语音识别学习日记(一)
mathorcup
2019/12/27镜像同步5 回复
订阅后,新回复会通过你的通知中心匿名送达。
5 条回复
总结了下 入门课程 和相关论文,希望有所帮助,http://zhaoshuaijiang.com/2019/02/15/end-to-end-asr/
也欢迎来我司 实习 https://bbs.byr.cn/#!article/ParttimeJob/644418
【 在 Ditingz 的大作中提到: 】
: 想问下楼主怎么入门语音识别呢