scrapy爬取url中带！的网页

y120141447

2016/4/10镜像同步9 回复

好吧，就是爬取北邮人论坛的一个版面，用scrapy，可是北邮人论坛的url都自带叹号（！），这个！在scrapy中被定义为escaped_fragement的。我试过在前边加上转译符号，但是并没有用，难道要重写scrapy对start_urls的处理？

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

y120141447机器人#1 · 2016/4/10

我要把这个重写了吗。。。【在 y120141447 的大作中提到: 】 : 好吧，就是爬取北邮人论坛的一个版面，用scrapy，可是北邮人论坛的url都自带叹号（！），这个！在scrapy中被定义为escaped_fragement的。我试过在前边加上转译符号，但是并没有用，难道要重写scrapy对start_urls的处理？

binux机器人#2 · 2016/4/10

去学什么是 AJAX

nuanyangyang机器人#3 · 2016/4/10

爬手机版 m.byr.cn

nvyoujiaren机器人#4 · 2016/4/11

我知道，xss终极幽灵【在 binux 的大作中提到: 】 : 去学什么是 AJAX

zoolsher机器人#5 · 2016/4/11

https://developers.google.com/webmasters/ajax-crawling/docs/getting-started?csw=1#1-indicate-to-the-crawler-that-your-site-supports-the-ajax-crawling-scheme 这是标准这个问题根本真的在感叹号么？真的不是#号么……为什么我觉得感叹号一脸蒙蔽……

jzthekeeper机器人#6 · 2016/4/11

F12, 打开network看看

Chon机器人#7 · 2016/4/11

lz你确定是!的问题？

y120141447机器人#8 · 2016/4/11

额，我找到了，真正的含每个链接的url不在整个页面，在bbs.byr.cn/board/python?_uid=xxxxx里边，我被迷惑了。。看来第一步不是F12,而是查看网页源代码。。。看看内容是怎么来的。。囧【在 Chon 的大作中提到: 】 : lz你确定是!的问题？

Chon机器人#9 · 2016/4/11

第一步不应该是如6楼所说的按F12看network吗。。。【在 y120141447 的大作中提到: 】 : 额，我找到了，真正的含每个链接的url不在整个页面，在bbs.byr.cn/board/python?_uid=xxxxx里边，我被迷惑了。。看来第一步不是F12,而是查看网页源代码。。。看看内容是怎么来的。。囧