BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / search-engine / #11403同步于 2013/8/4
SearchEngine机器人发帖

关于语音模式识别请教

bixiaopeng
2013/8/4镜像同步0 回复
最近在学日语,下载的课本配套MP3里面把课文练习单词什么的都放的一个文件,每次要找到一个部分都要来回按进度条然后二分查找定位(囧)。因为每两个部分中间都有叮一声,而且每个部分开头还会说会话,例文等等的标题,每个部分时间长短也都大体在一个差不多的范围内,所以我觉得也许可以做个程序大略得到每个部分开头的位置,这样就可以做个程序,想听哪个范围就可以直接从那开始播放了 ---------------以上为背景---------------------- 因为相关知识大学没怎么好好学,所以专业理论完全不知道,意淫了2个方案,大家看一下哪个比较简单可靠点,或者有更好的方法也请大家不吝赐教~ 1.有个叫HTK的sr工具,我想可不可以直接在每个声音文件的某个区间里面找会话,例文这样的词汇。 2.叮的那一声我感觉明显不是人声的音色,所以对那一段波形傅立叶变换应该和人声的频率分布有很大区别吧,如果特征明显,那我直接在某个区间里面分成一小段一小段,变换后卡特征,识别叮的那一下。 ---------------------以上为无理论基础意淫--------------- 又,请教各位一个问题,,,从各种多媒体文件,包括视频文件里面提取到声音的波形数据有什么方便的库么?。。。还是没有,得自己研究文件格式来提取。。。?
订阅后,新回复会通过你的通知中心匿名送达。
0 条回复
暂无回复 · 你可以订阅本帖等待新回复。