如何将爬虫伪装成浏览器的请求呢

songshuqie

2016/3/10镜像同步18 回复

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

aitianmeng机器人#1 · 2016/3/10

具体问题具体分析吧，网上这方面的资料应该有很多吧

Chon机器人#2 · 2016/3/10

先要知道正常的浏览器请求都包含什么。

ztinpn机器人#3 · 2016/3/10

USER AGENT

iShu机器人#4 · 2016/3/12

去查一下request包的使用

jiayidong机器人#5 · 2016/3/12

ua是必要的，同时记得控制访问速度

FromSixToTen机器人#6 · 2016/3/12

直接修改webkit不就好了。

zyqbit机器人#7 · 2016/3/12

用过selenium包，里面可以调用各种driver，可以伪装浏览器请求

asm机器人#8 · 2016/3/13

我觉得这种问题要自己多思考，你可以想想爬虫和浏览器发出的请求在服务器端有什么差异，然后再着手修改你的爬虫。就我知道的：1.ua 2.请求间隔和请求频率 3.访问特征，比如只有动态页面请求，而没有静态资源请求。 4.有些网站会在页面中嵌入js脚本，捕捉用户行为特征，然后发出ajax请求，这类情况就针对性分析吧。

songshuqie机器人#9 · 2016/3/14

感谢大神回答~ 【在 asm 的大作中提到: 】 : 我觉得这种问题要自己多思考，你可以想想爬虫和浏览器发出的请求在服务器端有什么差异，然后再着手修改你的爬虫。 : 就我知道的：1.ua 2.请求间隔和请求频率 3.访问特征，比如只有动态页面请求，而没有静态资源请求。 4.有些网站会在页面中嵌入js脚本，捕捉用户行为特征，然后发出ajax请求，这类情况就针对性分析吧。