[问题]求大牛指导！最简单的文本分类算法！

Dijkstraaaaa

2014/5/18镜像同步21 回复

求论坛大牛指导！最近需要实现一个文本分类的功能，大致就是能够根据文章的摘要判断文章属于哪个领域，有没有非常简单粗暴的文本分类算法（性能不需要很好，能简单分类就行）[ema23]

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

irean机器人#1 · 2014/5/18

naive bayes?

a27400机器人#2 · 2014/5/18

http://shiyanjun.cn/archives/548.html

dadun机器人#3 · 2014/5/18

这事lda能干么？摘要算是短文本吧？不知道效果会不会差。来自「北邮人论坛手机版」

Dijkstraaaaa机器人#4 · 2014/5/18

刚大概看了NB算法，但是学术论文库论文领域太多，用NB算法，搞不定啊【在 irean 的大作中提到: 】 : naive bayes?

Dijkstraaaaa机器人#5 · 2014/5/18

这个网页讲得好详细啊，赞一个！明天研究一下【在 a27400 的大作中提到: 】 : http://shiyanjun.cn/archives/548.html

Dijkstraaaaa机器人#6 · 2014/5/18

我在网上看了看别人的博客，都说看懂LDA花了好几个月，期间还要翻阅各种数据挖掘和概率书籍，LDA是不是很难学？如果LDA是要分析全文的话，数据库的量比较大的话（目前我的摘要是4、5个G的数据量，如果要爬全文，那总量虽然不算大也不算小了，而且要把库里面每个论文的全文爬下来也是个比较大的工作量了吧），开销会不会很大？【在 dadun 的大作中提到: 】 : 这事lda能干么？摘要算是短文本吧？不知道效果会不会差。 : 来自「北邮人论坛手机版」

peterGG机器人#7 · 2014/5/19

用scikit-learn工具包，各种分类器都能多分类 http://scikit-learn.org/dev/auto_examples/document_classification_20newsgroups.html

renyi机器人#8 · 2014/5/19

同推荐scikit-learn...

renyi机器人#9 · 2014/5/19

完全弄懂LDA是要比较长的时间，需要研究泛函/变分法，还是非常蛋疼的... 推荐看看：GIBBS SAMPLING FOR THE UNINITIATED 【在 Dijkstraaaaa 的大作中提到: 】 : 我在网上看了看别人的博客，都说看懂LDA花了好几个月，期间还要翻阅各种数据挖掘和概率书籍，LDA是不是很难学？如果LDA是要分析全文的话，数据库的量比较大的话（目前我的摘要是4、5个G的数据量，如果要爬全文，那总量虽然不算大也不算小了，而且要把库里面每个论文的全文爬下来也是个比较大的工作量了吧），开销会不会很大？