[有偿求助] 基于mfcc和神经网络的说话人识别问题

2016/4/5镜像同步10 回复

语音库选的是TIMIT,用网上一个代码提取了每个frame(大概10多毫秒)的24维的MFCC参数，目前只取了4个人共6000组MFCC做训练和测试(每个人1500组)，想对这些数据按说话人简单分4类，自己搭了一个24-12-4的神经网络用来训练这个数据集，结果分类正确率才不到60%。。这两天做了ufldl上的稀疏自编码器的练习，想拿过来(24个visible unit，12个hidden unit)看看我的MFCC数据有没有内在关系，然而优化后这个网络的cost高达300+，试了很多不同的hidden unit个数然而并没有用。。所以MFCC是不是没法用来做说话人分类呢，还是说我打开的方式不对，求对说话人识别和神经网络这方面有经验的前辈指导[ema12]

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

silvermoon机器人#1 · 2016/4/5

不知道你的label是什么，我们之前把一个个frame辨识成48音节，用了4层2048的NN，准确略能到77%左右。你这个unit数量也太少了。

RiceGrad机器人#2 · 2016/4/6

因为是说话人识别，所以label就是一个四维向量，a是[1,0,0,0]，b是[0,1,0,0]这样的，能请问一下你们frame识别成48音节是提取的什么参数呢？【在 silvermoon 的大作中提到: 】 : 不知道你的label是什么，我们之前把一个个frame辨识成48音节，用了4层2048的NN，准确略能到77%左右。你这个unit数量也太少了。

silvermoon机器人#3 · 2016/4/7

mfcc和fbank，我記得。我們是直接拿到feature做的，所以對這部分也不是很清楚

RiceGrad机器人#4 · 2016/4/7

好的，谢谢你哈，你方便留一下qq吗，关于你们的网络和训练方法不知道能否进一步请教一下？【在 silvermoon 的大作中提到: 】 : mfcc和fbank，我記得。我們是直接拿到feature做的，所以對這部分也不是很清楚

bugyu机器人#5 · 2016/4/13

神经网络是不适合直接拿来做说话人是别的，确切的说语句级别的语音识别都不适合神经网络来直接做，在我看的文献的中，语音方面的NN分类器都是使用在语素/音节级别的。说话人识别的可以用 GMM的方法或者 ivector的方法，这个是现在 state of the art 的方法下载MSR，一个微软的语音工具包里面有现成的例子，就是针对TIMIT数据库的

bugyu机器人#6 · 2016/4/13

准确率 77% 是比较低的在TIMIT的数据集上说话人识别的错误率不应该超过 5%的

bugyu机器人#7 · 2016/4/13

也可以利用kaldi 工具包里面也有说话人识别的例子

RiceGrad机器人#8 · 2016/4/13

我之前看了一篇Recent Advances in Deep Learning for Speech Research at Microsoft，虽然不是说话人识别，但里面的语音识别正确率也才80%，可能神经网络确实有我不清楚的局限性。另外关于你推荐的工具包，当初就是嫌麻烦所以才自己写的，没想到有这么多问题，我觉得也算走了很多弯路吧，我一会儿就去看看怎么用哈，总之非常谢谢你有价值的建议！【在 bugyu 的大作中提到: 】 : 神经网络是不适合直接拿来做说话人是别的，确切的说语句级别的语音识别都不适合神经网络来直接做，在我看的文献的中，语音方面的NN分类器都是使用在语素/音节级别的。说话人识别的可以用 GMM的方法或者 ivector的方法，这个是现在 state of the art 的方法下载MSR，一个微软的语音工具包里面有现成的例子，就是针对TIMIT数据库的

bugyu机器人#9 · 2016/4/13

【在 RiceGrad 的大作中提到: 】 : 我之前看了一篇Recent Advances in Deep Learning for Speech Research at Microsoft，虽然不是说话人识别，但里面的语音识别正确率也才80%，可能神经网络确实有我不清楚的局限性。 : 另外关于你推荐的工具包，当初就是嫌麻烦所以才自己写的，没想到有这么多问题，我觉得也算走了很多弯路吧，我一会儿就去看看怎么用哈，总之非常谢谢你有价值的建议！ : 语音识别准确率确实80% 已经很高了，因为加上一些语言规则限制就能很好的识别语言内容了但是关于说人识别的方面现在在nist 上 eer 大体 3-5% TIMIT 上我以前做过实验基本上没有错误了 ivector + PLDA 这个是主流的方法。 MSR 上都是matlab实现的可以参考一下，还是比较简单的。