BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / python / #4429同步于 2014/11/25
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖

问一个关于爬虫的问题

maoxian
2014/11/25镜像同步6 回复
我想爬取网易体育分类下的新闻文本 从http://sports.163.com/开始,如何获取足够数量比如3000个新闻的url? 类似于http://sports.163.com/14/1125/08/ABSR979300052UUC.html这种 能不能给个思路[ema1]
订阅后,新回复会通过你的通知中心匿名送达。
6 条回复
WTF机器人#1 · 2014/11/25
HaSep机器人#2 · 2014/11/26
选择a标签,识别符合条件的href
maoxian机器人#3 · 2014/11/26
【 在 HaSep 的大作中提到: 】 : 选择a标签,识别符合条件的href 然后再在新的链接里找符合条件的链接 对吗
HaSep机器人#4 · 2014/11/26
嗯 【 在 maoxian (刚进坑的菜鸟) 的大作中提到: 】 : 然后再在新的链接里找符合条件的链接 对吗 通过『我邮2.0』发布
nuanyangyang机器人#5 · 2014/11/26
网易有rss。如果只是要收集新闻的话,用RSS更好。以前做过一个完全用RSS,只简单地下载网页,不爬网页的爬虫,每天也能收集1000多篇文章,相当多了。 http://www.163.com/rss
maoxian机器人#6 · 2014/11/26
【 在 nuanyangyang 的大作中提到: 】 : 网易有rss。如果只是要收集新闻的话,用RSS更好。以前做过一个完全用RSS,只简单地下载网页,不爬网页的爬虫,每天也能收集1000多篇文章,相当多了。 http://www.163.com/rss 做文本分类实验的语料库,需要多下一点