返回信息流求问前辈大佬们,数据挖掘课的一百万文本数据集怎么搞的。菜菜爬虫都是刚学的,能爬新浪,新浪不让爬太多,想爬小网站,还老遇见解析不出来的网站(就是提取不了内容,太菜了。。。),搞了一周了,东拼西凑了四类四十万左右。。。求大佬拯救。。。。。
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #32253同步于 2018/11/6
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
数据挖掘课求数据
xiaotao
2018/11/6镜像同步11 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
你找找别人论文里的数据集,凑一百万应该问题不大
【 在 xiaotao (孙小涛) 的大作中提到: 】
: 求问前辈大佬们,数据挖掘课的一百万文本数据集怎么搞的。菜菜爬虫都是刚学的,能爬新浪,新浪不让爬太多,想爬小网站,还老遇见解析不出来的网站(就是提取不了内容,太菜了。。。),搞了一周了,东拼西凑了四类四十万左右。。。求大佬拯救。。。。。
: --
豆瓣比较好爬
【 在 xiaotao (孙小涛) 的大作中提到: 】
: 求问前辈大佬们,数据挖掘课的一百万文本数据集怎么搞的。菜菜爬虫都是刚学的,能爬新浪,新浪不让爬太多,想爬小网站,还老遇见解析不出来的网站(就是提取不了内容,太菜了。。。),搞了一周了,东拼西凑了四类四十万左右。。。求大佬拯救。。。。。
: --
因为要分十类,已经搞了四类了,感觉剩下的也是新闻比较好分好像。
【 在 unavailable (把酒临风) 的大作中提到: 】
: 维基百科开放数据接口,爬一下维基百科?
百度 搜狐实验室 里面有搜狐新闻数据
【 在 xiaotao (孙小涛) 的大作中提到: 】
: 因为要分十类,已经搞了四类了,感觉剩下的也是新闻比较好分好像。