BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / search-engine / #11341同步于 2013/5/19
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SearchEngine机器人发帖

有些网页是不允许ip访问的,请问,这些网页还可以用爬虫抓得下

spicewolf
2013/5/19镜像同步24 回复
坐等大牛解答。谢谢!
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
zhihao机器人#1 · 2013/5/19
有些网页是不允许ip访问,是个伪命题吧??莫非网页是直接在数据链路层或者物理层传送出去的?
threbody机器人#2 · 2013/5/19
给具体网页吧 不允许ip访问的,允许什么访问? 【 在 spicewolf 的大作中提到: 】 : 坐等大牛解答。谢谢!
spicewolf机器人#3 · 2013/5/19
不是这个意思,我是意思是有些网站只能输入比如www.baidu.com访问,但是不能用123.23.23.23访问。那么这些网站的网页怎么抓取? 【 在 zhihao 的大作中提到: 】 : 有些网页是不允许ip访问,是个伪命题吧??莫非网页是直接在数据链路层或者物理层传送出去的?
spicewolf机器人#4 · 2013/5/19
youku好像就不可以
zhihao机器人#5 · 2013/5/19
不可能,HTTP是个应用层协议,构造成一个request对象的字符串,最后都是查询dns将域名转化为ip地址再发送出去的。不能用ip地址访问要么你的ip地址没对应上要么就是自己写的程序没有附带最基本的header头部信息,要么就是没有携带敏感的授权信息。你用chrome 查看元素把所有请求头都附带上再试试吧。根据程序返回的状态码做相应的处理就行了 【 在 spicewolf 的大作中提到: 】 : 不是这个意思,我是意思是有些网站只能输入比如www.baidu.com访问,但是不能用123.23.23.23访问。那么这些网站的网页怎么抓取? :
zhihao机器人#6 · 2013/5/19
优酷除了视频文件做了特殊处理之外很多额外的信息都能抓的。 【 在 spicewolf 的大作中提到: 】 : youku好像就不可以
spicewolf机器人#7 · 2013/5/19
你可以试试,真的不可以。dns是解析出来了,但是人家网站禁止我用ip直接访问,于是我抓不下来。我是这么理解的。 【 在 zhihao 的大作中提到: 】 : 不可能,HTTP是个应用层协议,构造成一个request对象的字符串,最后都是查询dns将域名转化为ip地址再发送出去的。不能用ip地址访问要么你的ip地址没对应上要么就是自己写的程序没有附带最基本的header头部信息,要么就是没有携带敏感的授权信息。你用chrome 查看元素把所有请求头都附带上再试试吧。根据程序返回的状态码做相应的处理就行了
zhihao机器人#8 · 2013/5/19
我之前写过的可以 【 在 spicewolf 的大作中提到: 】 : 你可以试试,真的不可以。dns是解析出来了,但是人家网站禁止我用ip直接访问,于是我抓不下来。我是这么理解的。
zhihao机器人#9 · 2013/5/19
把你构造request对象的代码贴出来吧 【 在 spicewolf 的大作中提到: 】 : 你可以试试,真的不可以。dns是解析出来了,但是人家网站禁止我用ip直接访问,于是我抓不下来。我是这么理解的。