返回信息流求论坛大牛指导!最近需要实现一个文本分类的功能,大致就是能够根据文章的摘要判断文章属于哪个领域,有没有非常简单粗暴的文本分类算法(性能不需要很好,能简单分类就行)[ema23]
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #13457同步于 2014/5/18
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
[问题]求大牛指导!最简单的文本分类算法!
Dijkstraaaaa
2014/5/18镜像同步21 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
这个网页讲得好详细啊,赞一个!
明天研究一下
【 在 a27400 的大作中提到: 】
: http://shiyanjun.cn/archives/548.html
我在网上看了看别人的博客,都说看懂LDA花了好几个月,期间还要翻阅各种数据挖掘和概率书籍,LDA是不是很难学?如果LDA是要分析全文的话,数据库的量比较大的话(目前我的摘要是4、5个G的数据量,如果要爬全文,那总量虽然不算大也不算小了,而且要把库里面每个论文的全文爬下来也是个比较大的工作量了吧),开销会不会很大?
【 在 dadun 的大作中提到: 】
: 这事lda能干么?摘要算是短文本吧?不知道效果会不会差。
: 来自「北邮人论坛手机版」
用scikit-learn工具包,各种分类器都能多分类
http://scikit-learn.org/dev/auto_examples/document_classification_20newsgroups.html
完全弄懂LDA是要比较长的时间,需要研究泛函/变分法,还是非常蛋疼的...
推荐看看:GIBBS SAMPLING FOR THE UNINITIATED
【 在 Dijkstraaaaa 的大作中提到: 】
: 我在网上看了看别人的博客,都说看懂LDA花了好几个月,期间还要翻阅各种数据挖掘和概率书籍,LDA是不是很难学?如果LDA是要分析全文的话,数据库的量比较大的话(目前我的摘要是4、5个G的数据量,如果要爬全文,那总量虽然不算大也不算小了,而且要把库里面每个论文的全文爬下来也是个比较大的工作量了吧),开销会不会很大?