返回信息流小白真心求教,我在用selenium控制chrome爬某论坛的时候,利用page_source查看网页源码的时候老是报错说‘gbk’ codec can't encode什么的,有大神知道怎么改吗,还有怎么用selenium大规模的爬取啊,[em9]渣渣真是伤不起[em9]
这是一条镜像帖。来源:北邮人论坛 / python / #6565同步于 2015/4/28
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
利用selenium爬网页源码有问题
silencemin
2015/4/28镜像同步10 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
求问怎么分析http请求的参数? 比如有的网页需要下拉才会出现新的内容,不用selenium的话,该怎么办? 先谢了~
【 在 heamon7 的大作中提到: 】
: 用selenium等模拟浏览器貌似有点慢,可以考虑直接分析http请求的参数,大部分js问题都可以解决
【 在 ccy 的大作中提到: 】
: 求问怎么分析http请求的参数? 比如有的网页需要下拉才会出现新的内容,不用selenium的话,该怎么办? 先谢了~
不知道你说的是哪个网站
一般是post请求里有一个next方法,pagesize参数,offset参数之类的
chrome network requestheader
有没有相关的教程啊?层主给推荐一个呗?我没查到具体的内容,就是分析post之后,怎么写在python里去实现。多谢~
ps.我想爬quora。
【 在 heamon7 的大作中提到: 】
:
: 不知道你说的是哪个网站
: 一般是post请求里有一个next方法,pagesize参数,offset参数之类的
: ...................
【 在 ccy 的大作中提到: 】
: 有没有相关的教程啊?层主给推荐一个呗?我没查到具体的内容,就是分析post之后,怎么写在python里去实现。多谢~
: ps.我想爬quora。
IP是南洋理工[ema17]
哦,教程我没有看到过啊。quora我没有爬过,你参考一下别人代码怎么实现的吧
https://github.com/search?utf8=%E2%9C%93&q=crawler+quora