BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #1635同步于 2008/4/10
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

拜大牛们~问个用htk做语言模型的问题~

xiya
2008/4/10镜像同步2 回复
前两天跑class-based LM的时候,遇到一个问题: 是这样的,用htk生成class-based lm的时候,遇到一个问题,截图见附件。 我觉得问题产生的原因是因为:生成的.cm文件的格式是,每一个类下面对应的词都是编码形式,如下: CLASS1 1 1 IN <s> CLASS2 2 1 IN </s> CLASS3 3 1 IN !!UNK CLASS4 4 5491 IN \260\242\260\315\313\271 \260\242\260\323 \260\242\261\376 \260\242\265\302\300\357\260\262 \260\242\266\373\262\256 \260\242\266\373\262\256\313\376 \260\242\266\373\267\306 \260\242\266\373\270\245\300\327\265\302 \260\242\267\345 \260\242\273\371 \260\242\274\252 \260\242\274\321 可是在gram文件中所有的词都是中文而不是中文对应的码,所以在创建word-given-class模型合成的时候会提示两个文件的格式不符。(?应该是这个原因出错的吧。。。=。=) 首先,想问问是不是因为这个原因导致了错误,如果是的话,想问一下如何在生成.cm文件的时候不像上面的格式那样,而是生成像下面对应的都是中文的词呢? 如下: CLASS1 1 1 IN <s> CLASS2 2 1 IN </s> CLASS3 3 1 IN !!UNK CLASS4 4 5491 IN 中国 美国 印度尼西亚 …… 附件(182.3KB) cluster.bmp 亦或是因为别的原因造成的泥=。=~? 再拜~~~~~~
订阅后,新回复会通过你的通知中心匿名送达。
2 条回复
Shmily1314机器人#1 · 2008/4/10
我还停留在AM的阶段。。。 你都LM了。。。。 帮顶。 【 在 xiya 的大作中提到: 】 : 前两天跑class-based LM的时候,遇到一个问题: : 是这样的,用htk生成class-based lm的时候,遇到一个问题,截图见附件。 : 我觉得问题产生的原因是因为:生成的.cm文件的格式是,每一个类下面对应的词都是编码形式,如下: : ...................
xiya机器人#2 · 2008/4/11
只做lm这一块而已。。。 【 在 Shmily1314 的大作中提到: 】 : 我还停留在AM的阶段。。。 : 你都LM了。。。。 : 帮顶。