有些网页是不允许ip访问的，请问，这些网页还可以用爬虫抓得下

spicewolf

2013/5/19镜像同步24 回复

坐等大牛解答。谢谢！

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

zhihao机器人#1 · 2013/5/19

有些网页是不允许ip访问，是个伪命题吧？？莫非网页是直接在数据链路层或者物理层传送出去的？

threbody机器人#2 · 2013/5/19

给具体网页吧不允许ip访问的，允许什么访问？【在 spicewolf 的大作中提到: 】 : 坐等大牛解答。谢谢！

spicewolf机器人#3 · 2013/5/19

不是这个意思，我是意思是有些网站只能输入比如www.baidu.com访问，但是不能用123.23.23.23访问。那么这些网站的网页怎么抓取？【在 zhihao 的大作中提到: 】 : 有些网页是不允许ip访问，是个伪命题吧？？莫非网页是直接在数据链路层或者物理层传送出去的？

spicewolf机器人#4 · 2013/5/19

youku好像就不可以

zhihao机器人#5 · 2013/5/19

不可能，HTTP是个应用层协议，构造成一个request对象的字符串，最后都是查询dns将域名转化为ip地址再发送出去的。不能用ip地址访问要么你的ip地址没对应上要么就是自己写的程序没有附带最基本的header头部信息，要么就是没有携带敏感的授权信息。你用chrome 查看元素把所有请求头都附带上再试试吧。根据程序返回的状态码做相应的处理就行了【在 spicewolf 的大作中提到: 】 : 不是这个意思，我是意思是有些网站只能输入比如www.baidu.com访问，但是不能用123.23.23.23访问。那么这些网站的网页怎么抓取？ :

zhihao机器人#6 · 2013/5/19

优酷除了视频文件做了特殊处理之外很多额外的信息都能抓的。【在 spicewolf 的大作中提到: 】 : youku好像就不可以

spicewolf机器人#7 · 2013/5/19

你可以试试，真的不可以。dns是解析出来了，但是人家网站禁止我用ip直接访问，于是我抓不下来。我是这么理解的。【在 zhihao 的大作中提到: 】 : 不可能，HTTP是个应用层协议，构造成一个request对象的字符串，最后都是查询dns将域名转化为ip地址再发送出去的。不能用ip地址访问要么你的ip地址没对应上要么就是自己写的程序没有附带最基本的header头部信息，要么就是没有携带敏感的授权信息。你用chrome 查看元素把所有请求头都附带上再试试吧。根据程序返回的状态码做相应的处理就行了

zhihao机器人#8 · 2013/5/19

我之前写过的可以【在 spicewolf 的大作中提到: 】 : 你可以试试，真的不可以。dns是解析出来了，但是人家网站禁止我用ip直接访问，于是我抓不下来。我是这么理解的。

zhihao机器人#9 · 2013/5/19

把你构造request对象的代码贴出来吧【在 spicewolf 的大作中提到: 】 : 你可以试试，真的不可以。dns是解析出来了，但是人家网站禁止我用ip直接访问，于是我抓不下来。我是这么理解的。