返回信息流最近在做数据挖掘的作业,用LDA主题模型和libsvm完成文本分类,训练集10000个文档,测试集也是10000个文档,LDA主题数是设置的75,迭代数是1000 ,然后在交叉检验的时候,rate达到92%,但是预测测试集的时候却只有12%,百思不得其解啊,求大神指导[ema1][ema1][ema1][ema1]
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #14805同步于 2014/11/29
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
数据挖掘大神看过来
hellohuhu
2014/11/29镜像同步12 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
【 在 moonfighting 的大作中提到: 】
: 1 - 12% 不就是 88%咯
为什么要减呢,不是12%就是准确率吗
ps:问下,测试集和训练集是要同时同LDA生成吗,也就是说一共20000篇文档一同生成theta还是分别生成呢,我是分别生成的[ema23]
【 在 zhangywlfh 的大作中提到: 】
: 测试集的主题分布是利用 训练集训练出的 topic->word模型推理出来的么,还是直接在测试集上进行LDA主题抽样?感觉你走的是后面那条道路
对,是后者
不懂LDA [ema8]
【 在 hellohuhu 的大作中提到: 】
: 为什么要减呢,不是12%就是准确率吗
: ps:问下,测试集和训练集是要同时同LDA生成吗,也就是说一共20000篇文档一同生成theta还是分别生成呢,我是分别生成的