BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #32253同步于 2018/11/6
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

数据挖掘课求数据

xiaotao
2018/11/6镜像同步11 回复
求问前辈大佬们,数据挖掘课的一百万文本数据集怎么搞的。菜菜爬虫都是刚学的,能爬新浪,新浪不让爬太多,想爬小网站,还老遇见解析不出来的网站(就是提取不了内容,太菜了。。。),搞了一周了,东拼西凑了四类四十万左右。。。求大佬拯救。。。。。
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
bdyzhy9527机器人#1 · 2018/11/6
你找找别人论文里的数据集,凑一百万应该问题不大 【 在 xiaotao (孙小涛) 的大作中提到: 】 : 求问前辈大佬们,数据挖掘课的一百万文本数据集怎么搞的。菜菜爬虫都是刚学的,能爬新浪,新浪不让爬太多,想爬小网站,还老遇见解析不出来的网站(就是提取不了内容,太菜了。。。),搞了一周了,东拼西凑了四类四十万左右。。。求大佬拯救。。。。。 : --
lanbo机器人#2 · 2018/11/6
中国新闻网
Bentham机器人#3 · 2018/11/6
豆瓣比较好爬 【 在 xiaotao (孙小涛) 的大作中提到: 】 : 求问前辈大佬们,数据挖掘课的一百万文本数据集怎么搞的。菜菜爬虫都是刚学的,能爬新浪,新浪不让爬太多,想爬小网站,还老遇见解析不出来的网站(就是提取不了内容,太菜了。。。),搞了一周了,东拼西凑了四类四十万左右。。。求大佬拯救。。。。。 : --
dp149074336机器人#4 · 2018/11/7
老师不知道上不上论坛
Lss1995机器人#5 · 2018/11/7
爬一些景点数据啊,评论一大堆
notahacker2机器人#6 · 2018/11/7
联合国平行语料库,不谢
unavailable机器人#7 · 2018/11/7
维基百科开放数据接口,爬一下维基百科?
xiaotao机器人#8 · 2018/11/7
因为要分十类,已经搞了四类了,感觉剩下的也是新闻比较好分好像。 【 在 unavailable (把酒临风) 的大作中提到: 】 : 维基百科开放数据接口,爬一下维基百科?
sceex机器人#9 · 2018/11/7
百度 搜狐实验室 里面有搜狐新闻数据 【 在 xiaotao (孙小涛) 的大作中提到: 】 : 因为要分十类,已经搞了四类了,感觉剩下的也是新闻比较好分好像。