BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #19204同步于 2016/4/5
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

[有偿求助] 基于mfcc和神经网络的说话人识别问题

RiceGrad
2016/4/5镜像同步10 回复
语音库选的是TIMIT,用网上一个代码提取了每个frame(大概10多毫秒)的24维的MFCC参数,目前只取了4个人共6000组MFCC做训练和测试(每个人1500组),想对这些数据按说话人简单分4类,自己搭了一个24-12-4的神经网络用来训练这个数据集,结果分类正确率才不到60%。。 这两天做了ufldl上的稀疏自编码器的练习,想拿过来(24个visible unit,12个hidden unit)看看我的MFCC数据有没有内在关系,然而优化后这个网络的cost高达300+,试了很多不同的hidden unit个数然而并没有用。。 所以MFCC是不是没法用来做说话人分类呢,还是说我打开的方式不对,求对说话人识别和神经网络这方面有经验的前辈指导[ema12]
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
silvermoon机器人#1 · 2016/4/5
不知道你的label是什么,我们之前把一个个frame辨识成48音节,用了4层2048的NN,准确略能到77%左右。你这个unit数量也太少了。
RiceGrad机器人#2 · 2016/4/6
因为是说话人识别,所以label就是一个四维向量,a是[1,0,0,0],b是[0,1,0,0]这样的,能请问一下你们frame识别成48音节是提取的什么参数呢? 【 在 silvermoon 的大作中提到: 】 : 不知道你的label是什么,我们之前把一个个frame辨识成48音节,用了4层2048的NN,准确略能到77%左右。你这个unit数量也太少了。
silvermoon机器人#3 · 2016/4/7
mfcc和fbank,我記得。我們是直接拿到feature做的,所以對這部分也不是很清楚
RiceGrad机器人#4 · 2016/4/7
好的,谢谢你哈,你方便留一下qq吗,关于你们的网络和训练方法不知道能否进一步请教一下? 【 在 silvermoon 的大作中提到: 】 : mfcc和fbank,我記得。我們是直接拿到feature做的,所以對這部分也不是很清楚
bugyu机器人#5 · 2016/4/13
神经网络是不适合直接拿来做说话人是别的, 确切的说 语句级别的语音识别都不适合 神经网络来直接做,在我看的文献的中,语音方面的NN分类器都是使用在 语素/音节 级别的。 说话人识别的可以用 GMM的方法 或者 ivector的方法,这个是现在 state of the art 的方法 下载MSR, 一个微软的语音工具包里面有现成的例子, 就是针对TIMIT数据库的
bugyu机器人#6 · 2016/4/13
准确率 77% 是比较低的 在TIMIT的数据集上 说话人识别的错误率 不应该超过 5%的
bugyu机器人#7 · 2016/4/13
也可以利用kaldi 工具包 里面也有 说话人识别的例子
RiceGrad机器人#8 · 2016/4/13
我之前看了一篇Recent Advances in Deep Learning for Speech Research at Microsoft,虽然不是说话人识别,但里面的语音识别正确率也才80%,可能神经网络确实有我不清楚的局限性。 另外关于你推荐的工具包,当初就是嫌麻烦所以才自己写的,没想到有这么多问题,我觉得也算走了很多弯路吧,我一会儿就去看看怎么用哈,总之非常谢谢你有价值的建议! 【 在 bugyu 的大作中提到: 】 : 神经网络是不适合直接拿来做说话人是别的, 确切的说 语句级别的语音识别都不适合 神经网络来直接做,在我看的文献的中,语音方面的NN分类器都是使用在 语素/音节 级别的。 说话人识别的可以用 GMM的方法 或者 ivector的方法,这个是现在 state of the art 的方法 下载MSR, 一个微软的语音工具包里面有现成的例子, 就是针对TIMIT数据库的
bugyu机器人#9 · 2016/4/13
【 在 RiceGrad 的大作中提到: 】 : 我之前看了一篇Recent Advances in Deep Learning for Speech Research at Microsoft,虽然不是说话人识别,但里面的语音识别正确率也才80%,可能神经网络确实有我不清楚的局限性。 : 另外关于你推荐的工具包,当初就是嫌麻烦所以才自己写的,没想到有这么多问题,我觉得也算走了很多弯路吧,我一会儿就去看看怎么用哈,总之非常谢谢你有价值的建议! : 语音识别准确率确实80% 已经很高了,因为加上一些语言规则限制就能很好的识别语言内容了 但是关于说人识别的方面 现在在nist 上 eer 大体 3-5% TIMIT 上我以前做过实验 基本上没有错误了 ivector + PLDA 这个是主流的方法。 MSR 上都是matlab实现的 可以参考一下,还是比较简单的。