BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #10443同步于 2013/4/24
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

跪求做过文本分类的前辈进!

jmxdj
2013/4/24镜像同步6 回复
小女子最忌在做毕设,需要根据一个微博用户的微博内容判断其性别,其实就是文本分类问题,会涉及分词、TF-IDF特征选取计算权重,最后用朴素贝叶斯或SVM分类,不知道版内有没有前辈做过相关内容,最好有完整代码能够参考,跪谢~
订阅后,新回复会通过你的通知中心匿名送达。
6 条回复
jasonchi机器人#1 · 2013/4/25
“最好有完整代码能够参考” 这个亮瞎了我的眼睛, 那这还要你做毕设干嘛?????? 【 在 jmxdj 的大作中提到: 】 : 小女子最忌在做毕设,需要根据一个微博用户的微博内容判断其性别,其实就是文本分类问题,会涉及分词、TF-IDF特征选取计算权重,最后用朴素贝叶斯或SVM分类,不知道版内有没有前辈做过相关内容,最好有完整代码能够参考,跪谢~
jmxdj机器人#2 · 2013/4/25
【 在 jasonchi 的大作中提到: 】 : “最好有完整代码能够参考” 这个亮瞎了我的眼睛, 那这还要你做毕设干嘛?????? 我也想做个好码农,可惜真心看不懂。老师让我拿别人的程序跑一下然后把精力放在改进优化上……
chentingpc机器人#3 · 2013/4/25
哎。。TRY MALLET。。
liusword机器人#4 · 2013/4/25
【 在 jmxdj 的大作中提到: 】 : 小女子最忌在做毕设,需要根据一个微博用户的微博内容判断其性别,其实就是文本分类问题,会涉及分词、TF-IDF特征选取计算权重,最后用朴素贝叶斯或SVM分类,不知道版内有没有前辈做过相关内容,最好有完整代码能够参考,跪谢~ 本科生么,根据内容判断性别的话,还真没往这方面想过。能代表性别的特征。。网上挺多聚类分类的例子的,自己找找吧。 文本预处理阶段可以采用lucene,里面涉及了分词,还有tf-idf的特征都可以求出来。
homeless271机器人#5 · 2013/4/25
中科院开发了一套分词系统 ICTCLAS 参考下吧,SVM直接用libsvm开发包即可,C/C++或者java 什么版本的都有。觉得这个毕设难度不小呀,祝好运
jasonchi机器人#6 · 2013/4/26
个人觉得你有以下几步要做: 1: 找一个分词系统, 可以实现每一个微博的分词, 很早的时候听他们说中科院的不错。。。 2: 不管你使用的是SVM, 还是naive bayes, 作为supervised learning, 你都要知道一定数量的用户, 包括他/她的性别, 和他发过的所有微博。 你可以简单的认为女性微博有一个使用词的模式, 男性微博有一个使用词的模式。 你可以把每一个人的所有微博的用词构成一个直方图。 这样的话, 如果你有1000个男性, 1000个女性用户, 你就有2000个直方图, 那么你可以训练的你的模型了。 3: 作为分类, 你可以给每一个微博分一个类别, 猜一下他/她的性别, 也可以把这个人发过的所有微博用来分类。 当然个人觉得, 在采集微博的时候, 最好是只用原创的, 不要用转发的。。。。 训练不是问题的难度所在,而采集数据时问题的关键。。。。 【 在 jmxdj 的大作中提到: 】 : 小女子最忌在做毕设,需要根据一个微博用户的微博内容判断其性别,其实就是文本分类问题,会涉及分词、TF-IDF特征选取计算权重,最后用朴素贝叶斯或SVM分类,不知道版内有没有前辈做过相关内容,最好有完整代码能够参考,跪谢~