【求助】为什么我用scrapy爬中关村在线某网站，响应码是200，re

2018/5/11镜像同步7 回复

如题，网址是http://detail.zol.com.cn/index.php?c=SearchList&subcateId=57&keyword=%C8%FD%D0%C7&page=1,输出response.body为b''。试过selenium的webdriver,结果打开一个空白的页面也试过splash，输出response.body为b'<html><head></head><body></body></html>' ，也相当于空.. 这个网址确实不是空白页，可能有的人打开是空白页，我打开不是。很困惑，求大神解答。

订阅后，新回复会通过你的通知中心匿名送达。

7 条回复

froza311机器人#1 · 2018/5/11

因为网页内容并不是静态的，有可能是ajax，你拿到的网页源代码就是空的了

sijiaqi机器人#2 · 2018/5/11

【在 froza311 的大作中提到: 】 : 因为网页内容并不是静态的，有可能是ajax，你拿到的网页源代码就是空的了那有什么解决办法吗，我觉得应该至少能获得图中右下角的那些html文本吧...

q397273499机器人#3 · 2018/5/11

html文本也可能是js生成的啊【在 sijiaqi (11) 的大作中提到: 】 : 那有什么解决办法吗[upload=1][/upload]，我觉得应该至少能获得图中右下角的那些html文本吧...

fiphoenix机器人#4 · 2018/5/11

你有没有改HTTP头啊？你用浏览器打开的时候你抓一下请求数据

yo1995机器人#5 · 2018/5/11

附件(1.5KB) soup_test.py 参考代码，随便写的格式比较懒，目测是少了cookies 【在 sijiaqi 的大作中提到: 】 : 如题，网址是http://detail.zol.com.cn/index.php?c=SearchList&subcateId=57&keyword=%C8%FD%D0%C7&page=1,输出response.body为b''。 : 试过selenium的webdriver,结果打开一个空白的页面 : 也试过splash，输出response.body为b'<html><head></head><body></body></html>' ，也相当于空.. : ...................

yo1995机器人#6 · 2018/5/11

抓请求的时候最好用无痕模式（隐身模式），要不浏览器缓存和当前session可能会干扰另外多谢每天能收能量[em17]

sijiaqi机器人#7 · 2018/5/13

【在 yo1995 的大作中提到: 】 : [upload=1][/upload] : 参考代码，随便写的格式比较懒，目测是少了cookies 确实是这样,感谢大神[em21]