bugyu@bugyu
镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。
“[pp,nn,ee]=fileparts(filename); 其中 pp 是路径 nn 是文件名 ee是 后缀”
“其实可以把CNN 看做是一种特殊的DNN。 普通的DNN 上层每一个节点的输出是下层节点的加权求和。 CNN 上层每一个 map 是下层 map 的 卷积后再求和。 DNN中的权值连接线变成了CNN中的卷积核。 输入灰度图像可以想象成一个输入节点的DNN, 输入彩色图像可以认为是有3个输入节点的DNN, 以此类推如果用…”
“可以尝试从网上下一个 covarep-master 的matlab 工具包 里面有计算基频F0 的现成函数, 应该能够提供一些有用的参考”
“不知道你的数据的格式是什么样子的 如果是文本格式的话可以试验一下 textscan 函数”
“【 在 RiceGrad 的大作中提到: 】 : 我之前看了一篇Recent Advances in Deep Learning for Speech Research at Microsoft,虽然不是说话人识别,但里面的语音识别正确率也才80%,可能神经网络确实有我不清楚的局限性。 : 另外关于你推荐的工具包,当初…”
“也可以利用kaldi 工具包 里面也有 说话人识别的例子”
“准确率 77% 是比较低的 在TIMIT的数据集上 说话人识别的错误率 不应该超过 5%的”
“神经网络是不适合直接拿来做说话人是别的, 确切的说 语句级别的语音识别都不适合 神经网络来直接做,在我看的文献的中,语音方面的NN分类器都是使用在 语素/音节 级别的。 说话人识别的可以用 GMM的方法 或者 ivector的方法,这个是现在 state of the art 的方法 下载MSR, 一个微软的语音工具包…”
订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。