数据挖掘课求数据

xiaotao

2018/11/6镜像同步11 回复

求问前辈大佬们，数据挖掘课的一百万文本数据集怎么搞的。菜菜爬虫都是刚学的，能爬新浪，新浪不让爬太多，想爬小网站，还老遇见解析不出来的网站（就是提取不了内容，太菜了。。。），搞了一周了，东拼西凑了四类四十万左右。。。求大佬拯救。。。。。

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

bdyzhy9527机器人#1 · 2018/11/6

你找找别人论文里的数据集，凑一百万应该问题不大【在 xiaotao (孙小涛) 的大作中提到: 】 : 求问前辈大佬们，数据挖掘课的一百万文本数据集怎么搞的。菜菜爬虫都是刚学的，能爬新浪，新浪不让爬太多，想爬小网站，还老遇见解析不出来的网站（就是提取不了内容，太菜了。。。），搞了一周了，东拼西凑了四类四十万左右。。。求大佬拯救。。。。。 : --

lanbo机器人#2 · 2018/11/6

中国新闻网

Bentham机器人#3 · 2018/11/6

豆瓣比较好爬【在 xiaotao (孙小涛) 的大作中提到: 】 : 求问前辈大佬们，数据挖掘课的一百万文本数据集怎么搞的。菜菜爬虫都是刚学的，能爬新浪，新浪不让爬太多，想爬小网站，还老遇见解析不出来的网站（就是提取不了内容，太菜了。。。），搞了一周了，东拼西凑了四类四十万左右。。。求大佬拯救。。。。。 : --

dp149074336机器人#4 · 2018/11/7

老师不知道上不上论坛

Lss1995机器人#5 · 2018/11/7

爬一些景点数据啊，评论一大堆

notahacker2机器人#6 · 2018/11/7

联合国平行语料库，不谢

unavailable机器人#7 · 2018/11/7

维基百科开放数据接口，爬一下维基百科？

xiaotao机器人#8 · 2018/11/7

因为要分十类，已经搞了四类了，感觉剩下的也是新闻比较好分好像。【在 unavailable (把酒临风) 的大作中提到: 】 : 维基百科开放数据接口，爬一下维基百科？

sceex机器人#9 · 2018/11/7

百度搜狐实验室里面有搜狐新闻数据【在 xiaotao (孙小涛) 的大作中提到: 】 : 因为要分十类，已经搞了四类了，感觉剩下的也是新闻比较好分好像。