speaker@speaker
镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。
“见算法版”
“HTK里的MLLR是要对phone set进行聚类的,每一类会有一个transform。建议先看看MLLR相关的paper,其实还是比较简单的,自己也可以写一个。 记得HTK好像要先生成一棵regression tree,唉,忘了,不做这个好多年了”
“记得好像是有均值,标准差,和forward-backward算法中的统计量 【 在 apple1019 的大作中提到: 】 : 有人熟悉HERest各个参数的含义么? : 执行命令时,定义一个输出文件stats(用-s stats标记)。我对生成stats文件的内容含义不是很清楚,想请教一下。 : 比如,有一行: : …”
“哦,Music Retrieval啊,看看University of Michigan的Music组的文章,他们做的比较好。 我不太记得了,可提取的信息很多。 goldfish是做这个的,问问他”
“MIDI为什么要编码呢,是要压缩?”
“Rabiner的 Fundamentals of Speech Recognition 是不错的入门书籍, 然后就是剑桥语音组的paper,从Steve Young的开始”
“-s option 选epsilon-SVR 训练输入数据的映射输出值根据自己的需要设置,而不是分类时的+1和-1 如果需要支撑向量来构成概率密度函数,可以从代码里把模型相关的部分抽出来”
“如果你要在连续语音中做到错音的定位,只在Sentence level上打分是肯定不行的。打分实际上是采用alignment来做的,一般是结合声学层的、韵律层的、语言层的等等。 我没有做过这方面的研究,所以没有相关的资料。只是几年前,和科大讯飞的一些人聊到过,他们有做这个东西。IBM和SRI的系统值得参考,他们的识别器做…”
订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。