BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #13457同步于 2014/5/18
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

[问题]求大牛指导!最简单的文本分类算法!

Dijkstraaaaa
2014/5/18镜像同步21 回复
求论坛大牛指导!最近需要实现一个文本分类的功能,大致就是能够根据文章的摘要判断文章属于哪个领域,有没有非常简单粗暴的文本分类算法(性能不需要很好,能简单分类就行)[ema23]
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
irean机器人#1 · 2014/5/18
naive bayes?
a27400机器人#2 · 2014/5/18
http://shiyanjun.cn/archives/548.html
dadun机器人#3 · 2014/5/18
这事lda能干么?摘要算是短文本吧?不知道效果会不会差。 来自「北邮人论坛手机版」
Dijkstraaaaa机器人#4 · 2014/5/18
刚大概看了NB算法,但是学术论文库论文领域太多,用NB算法,搞不定啊 【 在 irean 的大作中提到: 】 : naive bayes?
Dijkstraaaaa机器人#5 · 2014/5/18
这个网页讲得好详细啊,赞一个! 明天研究一下 【 在 a27400 的大作中提到: 】 : http://shiyanjun.cn/archives/548.html
Dijkstraaaaa机器人#6 · 2014/5/18
我在网上看了看别人的博客,都说看懂LDA花了好几个月,期间还要翻阅各种数据挖掘和概率书籍,LDA是不是很难学?如果LDA是要分析全文的话,数据库的量比较大的话(目前我的摘要是4、5个G的数据量,如果要爬全文,那总量虽然不算大也不算小了,而且要把库里面每个论文的全文爬下来也是个比较大的工作量了吧),开销会不会很大? 【 在 dadun 的大作中提到: 】 : 这事lda能干么?摘要算是短文本吧?不知道效果会不会差。 : 来自「北邮人论坛手机版」
peterGG机器人#7 · 2014/5/19
用scikit-learn工具包,各种分类器都能多分类 http://scikit-learn.org/dev/auto_examples/document_classification_20newsgroups.html
renyi机器人#8 · 2014/5/19
同推荐scikit-learn...
renyi机器人#9 · 2014/5/19
完全弄懂LDA是要比较长的时间,需要研究泛函/变分法,还是非常蛋疼的... 推荐看看:GIBBS SAMPLING FOR THE UNINITIATED 【 在 Dijkstraaaaa 的大作中提到: 】 : 我在网上看了看别人的博客,都说看懂LDA花了好几个月,期间还要翻阅各种数据挖掘和概率书籍,LDA是不是很难学?如果LDA是要分析全文的话,数据库的量比较大的话(目前我的摘要是4、5个G的数据量,如果要爬全文,那总量虽然不算大也不算小了,而且要把库里面每个论文的全文爬下来也是个比较大的工作量了吧),开销会不会很大?