返回信息流我想爬取网易体育分类下的新闻文本
从http://sports.163.com/开始,如何获取足够数量比如3000个新闻的url?
类似于http://sports.163.com/14/1125/08/ABSR979300052UUC.html这种
能不能给个思路[ema1]
这是一条镜像帖。来源:北邮人论坛 / python / #4429同步于 2014/11/25
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
问一个关于爬虫的问题
maoxian
2014/11/25镜像同步6 回复
订阅后,新回复会通过你的通知中心匿名送达。
6 条回复
网易有rss。如果只是要收集新闻的话,用RSS更好。以前做过一个完全用RSS,只简单地下载网页,不爬网页的爬虫,每天也能收集1000多篇文章,相当多了。 http://www.163.com/rss
【 在 nuanyangyang 的大作中提到: 】
: 网易有rss。如果只是要收集新闻的话,用RSS更好。以前做过一个完全用RSS,只简单地下载网页,不爬网页的爬虫,每天也能收集1000多篇文章,相当多了。 http://www.163.com/rss
做文本分类实验的语料库,需要多下一点