BYR Achieve · 镜像论坛

关于语音模式识别请教

2013/8/4镜像同步0 回复

最近在学日语，下载的课本配套MP3里面把课文练习单词什么的都放的一个文件，每次要找到一个部分都要来回按进度条然后二分查找定位（囧）。因为每两个部分中间都有叮一声，而且每个部分开头还会说会话，例文等等的标题，每个部分时间长短也都大体在一个差不多的范围内，所以我觉得也许可以做个程序大略得到每个部分开头的位置，这样就可以做个程序，想听哪个范围就可以直接从那开始播放了 ---------------以上为背景---------------------- 因为相关知识大学没怎么好好学，所以专业理论完全不知道，意淫了2个方案，大家看一下哪个比较简单可靠点，或者有更好的方法也请大家不吝赐教~ 1.有个叫HTK的sr工具，我想可不可以直接在每个声音文件的某个区间里面找会话，例文这样的词汇。 2.叮的那一声我感觉明显不是人声的音色，所以对那一段波形傅立叶变换应该和人声的频率分布有很大区别吧，如果特征明显，那我直接在某个区间里面分成一小段一小段，变换后卡特征，识别叮的那一下。 ---------------------以上为无理论基础意淫--------------- 又，请教各位一个问题，，，从各种多媒体文件，包括视频文件里面提取到声音的波形数据有什么方便的库么？。。。还是没有，得自己研究文件格式来提取。。。？

订阅后，新回复会通过你的通知中心匿名送达。