返回信息流好吧,就是爬取北邮人论坛的一个版面,用scrapy,可是北邮人论坛的url都自带叹号(!),这个!在scrapy中被定义为escaped_fragement的。我试过在前边加上转译符号,但是并没有用,难道要重写scrapy对start_urls的处理?
这是一条镜像帖。来源:北邮人论坛 / python / #13266同步于 2016/4/10
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
scrapy爬取url中带!的网页
y120141447
2016/4/10镜像同步9 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
我要把这个重写了吗。。。
【 在 y120141447 的大作中提到: 】
: 好吧,就是爬取北邮人论坛的一个版面,用scrapy,可是北邮人论坛的url都自带叹号(!),这个!在scrapy中被定义为escaped_fragement的。我试过在前边加上转译符号,但是并没有用,难道要重写scrapy对start_urls的处理?
https://developers.google.com/webmasters/ajax-crawling/docs/getting-started?csw=1#1-indicate-to-the-crawler-that-your-site-supports-the-ajax-crawling-scheme
这是标准
这个问题根本真的在感叹号么?真的不是#号么……为什么我觉得感叹号一脸蒙蔽……
额,我找到了,真正的含每个链接的url不在整个页面,在bbs.byr.cn/board/python?_uid=xxxxx里边,我被迷惑了。。看来第一步不是F12,而是查看网页源代码。。。看看内容是怎么来的。。囧
【 在 Chon 的大作中提到: 】
: lz你确定是!的问题?
第一步不应该是如6楼所说的按F12看network吗。。。
【 在 y120141447 的大作中提到: 】
: 额,我找到了,真正的含每个链接的url不在整个页面,在bbs.byr.cn/board/python?_uid=xxxxx里边,我被迷惑了。。看来第一步不是F12,而是查看网页源代码。。。看看内容是怎么来的。。囧