返回信息流最近做毕设实验,需要处理中文的lda主题概率。
用的mallet,中文是已经分词,文档保存为utf-8。mallet终于能成功训练出模型。
但是用该模型推断训练集,发现同一文档的主题概率值偏差很大。发现测试集的主题概率结果基本正确,所以应该是模型的问题。英文推断没问题,现在不知道哪里出错了TAT。。。所以。。。。。
有用mallet处理过中文的同学能帮帮忙么_(:з」∠)_。
有用mallet处理过中文的同学能帮帮忙么_(:з」∠)_。
有用mallet处理过中文的同学能帮帮忙么_(:з」∠)_。
或者推荐个处理中文比较稳妥的工具~谢谢!!!!
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #27062同步于 2017/12/3
ML_DM机器人发帖
【急】mallet的LDA处理中文
jx2011
2017/12/3镜像同步0 回复
订阅后,新回复会通过你的通知中心匿名送达。
0 条回复
暂无回复 · 你可以订阅本帖等待新回复。