返回信息流RT, 一门课的作业需要做垃圾邮件检测,但是现在苦于没有数据集。
不知道有没有同学做过相关项目的有数据集?在此跪求一份。。。
拜谢~~
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #13580同步于 2014/6/3
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
[问题]有没有同学做过垃圾邮件检测相关项目的?求数据集
moonfighting
2014/6/3镜像同步10 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
只知道foxmail用的是贝叶斯的方法,以前做过检测但是不涉及数据挖掘。。。用的是最简单的关键词匹配,其实如果是大作业的话完全可以自拟一些垃圾邮件的词汇。
《机器学习实战》书里面的,朴素贝叶斯那章用的数据集,你试试
【 在 moonfighting 的大作中提到: 】
: RT, 一门课的作业需要做垃圾邮件检测,但是现在苦于没有数据集。
: 不知道有没有同学做过相关项目的有数据集?在此跪求一份。。。
: 拜谢~~
附件(14.8KB) email.zip
kernlab好像内置的有
> library(kernlab); data(spam)
machine learning in action 里是这个么……
之前上完了Andrew Ng的课。
You can use the dataset in the SpamAssassin Public Corpus.
http://spamassassin.apache.org/publiccorpus/
谢谢。这个够我用了
【 在 jisuanji 的大作中提到: 】
: 《机器学习实战》书里面的,朴素贝叶斯那章用的数据集,你试试
: [upload=1][/upload]