返回信息流坐等大牛解答。谢谢!
这是一条镜像帖。来源:北邮人论坛 / search-engine / #11341同步于 2013/5/19
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SearchEngine机器人发帖
有些网页是不允许ip访问的,请问,这些网页还可以用爬虫抓得下
spicewolf
2013/5/19镜像同步24 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
不是这个意思,我是意思是有些网站只能输入比如www.baidu.com访问,但是不能用123.23.23.23访问。那么这些网站的网页怎么抓取?
【 在 zhihao 的大作中提到: 】
: 有些网页是不允许ip访问,是个伪命题吧??莫非网页是直接在数据链路层或者物理层传送出去的?
不可能,HTTP是个应用层协议,构造成一个request对象的字符串,最后都是查询dns将域名转化为ip地址再发送出去的。不能用ip地址访问要么你的ip地址没对应上要么就是自己写的程序没有附带最基本的header头部信息,要么就是没有携带敏感的授权信息。你用chrome 查看元素把所有请求头都附带上再试试吧。根据程序返回的状态码做相应的处理就行了
【 在 spicewolf 的大作中提到: 】
: 不是这个意思,我是意思是有些网站只能输入比如www.baidu.com访问,但是不能用123.23.23.23访问。那么这些网站的网页怎么抓取?
:
你可以试试,真的不可以。dns是解析出来了,但是人家网站禁止我用ip直接访问,于是我抓不下来。我是这么理解的。
【 在 zhihao 的大作中提到: 】
: 不可能,HTTP是个应用层协议,构造成一个request对象的字符串,最后都是查询dns将域名转化为ip地址再发送出去的。不能用ip地址访问要么你的ip地址没对应上要么就是自己写的程序没有附带最基本的header头部信息,要么就是没有携带敏感的授权信息。你用chrome 查看元素把所有请求头都附带上再试试吧。根据程序返回的状态码做相应的处理就行了
我之前写过的可以
【 在 spicewolf 的大作中提到: 】
: 你可以试试,真的不可以。dns是解析出来了,但是人家网站禁止我用ip直接访问,于是我抓不下来。我是这么理解的。
把你构造request对象的代码贴出来吧
【 在 spicewolf 的大作中提到: 】
: 你可以试试,真的不可以。dns是解析出来了,但是人家网站禁止我用ip直接访问,于是我抓不下来。我是这么理解的。