返回信息流前两天跑class-based LM的时候,遇到一个问题:
是这样的,用htk生成class-based lm的时候,遇到一个问题,截图见附件。
我觉得问题产生的原因是因为:生成的.cm文件的格式是,每一个类下面对应的词都是编码形式,如下:
CLASS1 1 1 IN
<s>
CLASS2 2 1 IN
</s>
CLASS3 3 1 IN
!!UNK
CLASS4 4 5491 IN
\260\242\260\315\313\271
\260\242\260\323
\260\242\261\376
\260\242\265\302\300\357\260\262
\260\242\266\373\262\256
\260\242\266\373\262\256\313\376
\260\242\266\373\267\306
\260\242\266\373\270\245\300\327\265\302
\260\242\267\345
\260\242\273\371
\260\242\274\252
\260\242\274\321
可是在gram文件中所有的词都是中文而不是中文对应的码,所以在创建word-given-class模型合成的时候会提示两个文件的格式不符。(?应该是这个原因出错的吧。。。=。=)
首先,想问问是不是因为这个原因导致了错误,如果是的话,想问一下如何在生成.cm文件的时候不像上面的格式那样,而是生成像下面对应的都是中文的词呢?
如下:
CLASS1 1 1 IN
<s>
CLASS2 2 1 IN
</s>
CLASS3 3 1 IN
!!UNK
CLASS4 4 5491 IN
中国
美国
印度尼西亚
……
附件(182.3KB) cluster.bmp
亦或是因为别的原因造成的泥=。=~?
再拜~~~~~~
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #1635同步于 2008/4/10
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
拜大牛们~问个用htk做语言模型的问题~
xiya
2008/4/10镜像同步2 回复
订阅后,新回复会通过你的通知中心匿名送达。
2 条回复
我还停留在AM的阶段。。。
你都LM了。。。。
帮顶。
【 在 xiya 的大作中提到: 】
: 前两天跑class-based LM的时候,遇到一个问题:
: 是这样的,用htk生成class-based lm的时候,遇到一个问题,截图见附件。
: 我觉得问题产生的原因是因为:生成的.cm文件的格式是,每一个类下面对应的词都是编码形式,如下:
: ...................