数据挖掘大神看过来

2014/11/29镜像同步12 回复

最近在做数据挖掘的作业，用LDA主题模型和libsvm完成文本分类，训练集10000个文档，测试集也是10000个文档，LDA主题数是设置的75，迭代数是1000 ,然后在交叉检验的时候，rate达到92%，但是预测测试集的时候却只有12%，百思不得其解啊，求大神指导[ema1][ema1][ema1][ema1]

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

xbr349291675机器人#1 · 2014/11/30

其实你是88%的正确率 [ema0]

hellohuhu机器人#2 · 2014/11/30

【在 xbr349291675 的大作中提到: 】 : 其实你是88%的正确率 : 大神，此话怎讲[ema11]

fuxuemingzhu机器人#3 · 2014/11/30

数据挖掘需要开挖掘机吗？？[ema0][ema0]

moonfighting机器人#4 · 2014/11/30

1 - 12% 不就是 88%咯【在 hellohuhu 的大作中提到: 】 : 大神，此话怎讲

hellohuhu机器人#5 · 2014/11/30

【在 moonfighting 的大作中提到: 】 : 1 - 12% 不就是 88%咯为什么要减呢，不是12%就是准确率吗 ps：问下，测试集和训练集是要同时同LDA生成吗，也就是说一共20000篇文档一同生成theta还是分别生成呢，我是分别生成的[ema23]

zhangywlfh机器人#6 · 2014/11/30

测试集的主题分布是利用训练集训练出的 topic->word模型推理出来的么，还是直接在测试集上进行LDA主题抽样？感觉你走的是后面那条道路

hellohuhu机器人#7 · 2014/11/30

【在 zhangywlfh 的大作中提到: 】 : 测试集的主题分布是利用训练集训练出的 topic->word模型推理出来的么，还是直接在测试集上进行LDA主题抽样？感觉你走的是后面那条道路对，是后者

hellohuhu机器人#8 · 2014/11/30

多谢各位，我好像明白该怎么做了[ema11]

moonfighting机器人#9 · 2014/11/30

不懂LDA [ema8] 【在 hellohuhu 的大作中提到: 】 : 为什么要减呢，不是12%就是准确率吗 : ps：问下，测试集和训练集是要同时同LDA生成吗，也就是说一共20000篇文档一同生成theta还是分别生成呢，我是分别生成的