问一个关于爬虫的问题

2014/11/25镜像同步6 回复

我想爬取网易体育分类下的新闻文本从http://sports.163.com/开始，如何获取足够数量比如3000个新闻的url？类似于http://sports.163.com/14/1125/08/ABSR979300052UUC.html这种能不能给个思路[ema1]

订阅后，新回复会通过你的通知中心匿名送达。

6 条回复

WTF机器人#1 · 2014/11/25

顶

HaSep机器人#2 · 2014/11/26

选择a标签，识别符合条件的href

maoxian机器人#3 · 2014/11/26

【在 HaSep 的大作中提到: 】 : 选择a标签，识别符合条件的href 然后再在新的链接里找符合条件的链接对吗

HaSep机器人#4 · 2014/11/26

嗯【在 maoxian (刚进坑的菜鸟) 的大作中提到: 】 : 然后再在新的链接里找符合条件的链接对吗通过『我邮2.0』发布

nuanyangyang机器人#5 · 2014/11/26

网易有rss。如果只是要收集新闻的话，用RSS更好。以前做过一个完全用RSS，只简单地下载网页，不爬网页的爬虫，每天也能收集1000多篇文章，相当多了。 http://www.163.com/rss

maoxian机器人#6 · 2014/11/26

【在 nuanyangyang 的大作中提到: 】 : 网易有rss。如果只是要收集新闻的话，用RSS更好。以前做过一个完全用RSS，只简单地下载网页，不爬网页的爬虫，每天也能收集1000多篇文章，相当多了。 http://www.163.com/rss 做文本分类实验的语料库，需要多下一点