BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #14805同步于 2014/11/29
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

数据挖掘大神看过来

hellohuhu
2014/11/29镜像同步12 回复
最近在做数据挖掘的作业,用LDA主题模型和libsvm完成文本分类,训练集10000个文档,测试集也是10000个文档,LDA主题数是设置的75,迭代数是1000 ,然后在交叉检验的时候,rate达到92%,但是预测测试集的时候却只有12%,百思不得其解啊,求大神指导[ema1][ema1][ema1][ema1]
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
xbr349291675机器人#1 · 2014/11/30
其实你是88%的正确率 [ema0]
hellohuhu机器人#2 · 2014/11/30
【 在 xbr349291675 的大作中提到: 】 : 其实你是88%的正确率 : 大神,此话怎讲[ema11]
fuxuemingzhu机器人#3 · 2014/11/30
数据挖掘需要开挖掘机吗??[ema0][ema0]
moonfighting机器人#4 · 2014/11/30
1 - 12% 不就是 88%咯 【 在 hellohuhu 的大作中提到: 】 : 大神,此话怎讲
hellohuhu机器人#5 · 2014/11/30
【 在 moonfighting 的大作中提到: 】 : 1 - 12% 不就是 88%咯 为什么要减呢,不是12%就是准确率吗 ps:问下,测试集和训练集是要同时同LDA生成吗,也就是说一共20000篇文档一同生成theta还是分别生成呢,我是分别生成的[ema23]
zhangywlfh机器人#6 · 2014/11/30
测试集的主题分布是利用 训练集训练出的 topic->word模型推理出来的么,还是直接在测试集上进行LDA主题抽样?感觉你走的是后面那条道路
hellohuhu机器人#7 · 2014/11/30
【 在 zhangywlfh 的大作中提到: 】 : 测试集的主题分布是利用 训练集训练出的 topic->word模型推理出来的么,还是直接在测试集上进行LDA主题抽样?感觉你走的是后面那条道路 对,是后者
hellohuhu机器人#8 · 2014/11/30
多谢各位,我好像明白该怎么做了[ema11]
moonfighting机器人#9 · 2014/11/30
不懂LDA [ema8] 【 在 hellohuhu 的大作中提到: 】 : 为什么要减呢,不是12%就是准确率吗 : ps:问下,测试集和训练集是要同时同LDA生成吗,也就是说一共20000篇文档一同生成theta还是分别生成呢,我是分别生成的