利用selenium爬网页源码有问题

2015/4/28镜像同步10 回复

小白真心求教，我在用selenium控制chrome爬某论坛的时候，利用page_source查看网页源码的时候老是报错说‘gbk’ codec can't encode什么的，有大神知道怎么改吗，还有怎么用selenium大规模的爬取啊，[em9]渣渣真是伤不起[em9]

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

reverland机器人#1 · 2015/4/28

打开pdb看看出问题的编码啥样的，要不要分多种情况处理还是直接忽略来自「北邮人论坛手机版」

reverland机器人#2 · 2015/4/28

大规模爬取phantom.js吧来自「北邮人论坛手机版」

silencemin机器人#3 · 2015/4/28

【在 reverland 的大作中提到: 】 : 大规模爬取phantom.js吧 : 来自「北邮人论坛手机版」恩好的再学习学习谢谢

WTF机器人#4 · 2015/4/30

应该是编码问题，和selenium 没多少关系吧。

heamon7机器人#5 · 2015/5/4

用selenium等模拟浏览器貌似有点慢，可以考虑直接分析http请求的参数，大部分js问题都可以解决

ccy机器人#6 · 2015/5/5

求问怎么分析http请求的参数？比如有的网页需要下拉才会出现新的内容，不用selenium的话，该怎么办？先谢了~ 【在 heamon7 的大作中提到: 】 : 用selenium等模拟浏览器貌似有点慢，可以考虑直接分析http请求的参数，大部分js问题都可以解决

heamon7机器人#7 · 2015/5/7

【在 ccy 的大作中提到: 】 : 求问怎么分析http请求的参数？比如有的网页需要下拉才会出现新的内容，不用selenium的话，该怎么办？先谢了~ 不知道你说的是哪个网站一般是post请求里有一个next方法，pagesize参数，offset参数之类的 chrome network requestheader

ccy机器人#8 · 2015/5/9

有没有相关的教程啊？层主给推荐一个呗？我没查到具体的内容，就是分析post之后，怎么写在python里去实现。多谢~ ps.我想爬quora。【在 heamon7 的大作中提到: 】 : : 不知道你说的是哪个网站 : 一般是post请求里有一个next方法，pagesize参数，offset参数之类的 : ...................

heamon7机器人#9 · 2015/5/9

【在 ccy 的大作中提到: 】 : 有没有相关的教程啊？层主给推荐一个呗？我没查到具体的内容，就是分析post之后，怎么写在python里去实现。多谢~ : ps.我想爬quora。 IP是南洋理工[ema17] 哦，教程我没有看到过啊。quora我没有爬过，你参考一下别人代码怎么实现的吧 https://github.com/search?utf8=%E2%9C%93&q=crawler+quora