BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #35998同步于 2019/12/27
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

【论文分享】 语音识别学习日记(一)

mathorcup
2019/12/27镜像同步5 回复
最近在学习语音识别,阶段性总结下经验,大家可以康康。最近学习时发现了一个比较不错的经典论文集也一并分享给大家,网盘链接放到最下面了(种种树),先给你们放个目录: 1.基于HMM的方法: 1.1 Review(4篇); 1.2 GMM-HMM-AM(3篇); 1.3 DNN-HMM-AM(7篇); 1.4 LM(3篇); 1.5 Decoder(5篇); 1.6 Discriminative Training(3篇); 1.7 Robust(5篇); 1.8 SpeakerAdaptation(2篇); 1.9 System(2篇) 2.端到端的方法: 2.1 Review(2篇); 2.2 CTC(5篇); 2.3 RNN-T(3篇); 2.4 Attention(7篇) 学习总结 语音识别大体上就是将人类的语音信号输入系统,识别出对应的文字。过程大体分为两个阶段,前一阶段主要是语音信号的处理,后一阶段主要是模型训练和语音识别 过程总结: 1、语音信号预处理 语音信号是一个连续的信号,首先对语音信号进行预处理,比如预加重处理,分帧加窗处理等,目的则是为了提高信号信噪比,便于后续处理。 2、语音信号分析 语音信号输入需要进行一系列处理,不是一个简单的输入语音并直接输入文本的系统,包括了时域分析、时频域分析,倒谱域分析;这里处理的目的为了得到语音信号的时域或时频域特征,便于画出功率谱,用于下一步特征提取(MFCCs) 时域分析:能够提取到的特征包括短时平均能量,短时平均过零率,短时自相关函数。这些特征倾向于短时信号特征,在端点检测、静音判断、清浊音切分方面应用广泛 时频域分析:语音处理过程中,二者结合起来的时频特征对后续工作也很重要,这一部分用到傅里叶变换。傅里叶变换可以很好的表现出信号的频率域特征,但是丢失了时间信息,因此,对傅里叶变换进行优化,提出了短时傅里叶变换(STFT),在傅里叶变换的基础上,对信号分帧加窗,逐个处理,能够得到比较好的时域和频域特征信息。 3、特征提取 语音信号的特征参数能够很好的表达语音信号这种复杂的连续信号,能很好的表达语音信号所携带的信息,特征参数主要学了MCFF参数提取,MCFF频率和人类听觉相符。 4、模型训练 模型训练中吧语音信号经过处理,得到指定的N维特征参数并输入到模型中,多次迭代优化模型参数, 识别阶段,识别语音信号处理后得到N维参数,输入模型中得到结果。 语音识别模型很多,包括经典的HM、GMM;人工神经网络兴起使得DNN、CNN应用广泛,通过给出初始模型,不断优化参数,得到满意模型。 这是我近一段时间的学习心得,看回复情况日后吐血再更,先刨个坑,日后资料也会分享给大家。 语音识别的论文集是深蓝NPL教研室联合中科院自动化所整理,百度网盘链接https://pan.baidu.com/s/1geBLnrl g0tu 链接易被删,如果失效了,你们就添加微信『深蓝学院-子书(微信号:shenlan-zishu)』,回复 【1-语音识别】就能领取
订阅后,新回复会通过你的通知中心匿名送达。
5 条回复
brianlee机器人#1 · 2019/12/27
bd
zjf20082464机器人#2 · 2020/1/4
赞!
Ditingz机器人#3 · 2020/2/18
棒!感谢楼主
Ditingz机器人#4 · 2020/2/18
想问下楼主怎么入门语音识别呢
jiangbupt机器人#5 · 2020/3/30
总结了下 入门课程 和相关论文,希望有所帮助,http://zhaoshuaijiang.com/2019/02/15/end-to-end-asr/ 也欢迎来我司 实习 https://bbs.byr.cn/#!article/ParttimeJob/644418 【 在 Ditingz 的大作中提到: 】 : 想问下楼主怎么入门语音识别呢