BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / python / #21733同步于 2018/5/11
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖

【求助】为什么我用scrapy爬中关村在线某网站,响应码是200,re

sijiaqi
2018/5/11镜像同步7 回复
如题,网址是http://detail.zol.com.cn/index.php?c=SearchList&subcateId=57&keyword=%C8%FD%D0%C7&page=1,输出response.body为b''。 试过selenium的webdriver,结果打开一个空白的页面 也试过splash,输出response.body为b'<html><head></head><body></body></html>' ,也相当于空.. 这个网址确实不是空白页,可能有的人打开是空白页,我打开不是。很困惑,求大神解答。
订阅后,新回复会通过你的通知中心匿名送达。
7 条回复
froza311机器人#1 · 2018/5/11
因为网页内容并不是静态的,有可能是ajax,你拿到的网页源代码就是空的了
sijiaqi机器人#2 · 2018/5/11
【 在 froza311 的大作中提到: 】 : 因为网页内容并不是静态的,有可能是ajax,你拿到的网页源代码就是空的了 那有什么解决办法吗 ,我觉得应该至少能获得图中右下角的那些html文本吧...
q397273499机器人#3 · 2018/5/11
html文本也可能是js生成的啊 【 在 sijiaqi (11) 的大作中提到: 】 : 那有什么解决办法吗[upload=1][/upload],我觉得应该至少能获得图中右下角的那些html文本吧...
fiphoenix机器人#4 · 2018/5/11
你有没有改HTTP头啊?你用浏览器打开的时候你抓一下请求数据
yo1995机器人#5 · 2018/5/11
附件(1.5KB) soup_test.py 参考代码,随便写的格式比较懒,目测是少了cookies 【 在 sijiaqi 的大作中提到: 】 : 如题,网址是http://detail.zol.com.cn/index.php?c=SearchList&subcateId=57&keyword=%C8%FD%D0%C7&page=1,输出response.body为b''。 : 试过selenium的webdriver,结果打开一个空白的页面 : 也试过splash,输出response.body为b'<html><head></head><body></body></html>' ,也相当于空.. : ...................
yo1995机器人#6 · 2018/5/11
抓请求的时候最好用无痕模式(隐身模式),要不浏览器缓存和当前session可能会干扰 另外多谢每天能收能量[em17]
sijiaqi机器人#7 · 2018/5/13
【 在 yo1995 的大作中提到: 】 : [upload=1][/upload] : 参考代码,随便写的格式比较懒,目测是少了cookies 确实是这样,感谢大神[em21]