BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / python / #12080同步于 2016/1/27
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖

[问题]下载人人网日志后,本地网页会自动跳转

changjiang
2016/1/27镜像同步9 回复
最近用python爬人人网的日志,保存网页到本地。 内容全部爬下来了,但是一打开本地保存的网页1s内就会跳转到人人网的首页。 怎样才能让它不跳转呢? 我用浏览器登陆,再保存日志网页到本地。本地打开时同样会跳出“服务器请求错误,请刷新后重试”的对话框。 请问这个问题怎么解决? 谢谢。
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
ztinpn机器人#1 · 2016/1/27
看下源码,改改JS
changjiang机器人#2 · 2016/1/27
请能具体说说吗? 源码我看了看,没看懂要改哪里。修改JS哪个地方就可以让它不再跳转? 刚开始学,问的问题很小白。 多谢。 【 在 ztinpn 的大作中提到: 】 : 看下源码,改改JS
ztinpn机器人#3 · 2016/1/27
把JS文件都注释掉试试
icybee机器人#4 · 2016/1/27
摸摸头,逃 【 在 changjiang (白马啸西风) 的大作中提到: 】 : 最近用python爬人人网的日志,保存网页到本地。 : 内容全部爬下来了,但是一打开本地保存的网页1s内就会跳转到人人网的首页。 : 怎样才能让它不跳转呢? : ...................
changjiang机器人#5 · 2016/1/27
非常感谢。 我找到问题了,代码里用到了iframe跳转。 但是我不知道怎么删掉它。因为我用了soup=beautifulsoup(),删除soup唯一的标签容易,但是查找指定标签并删除制里面的内容就不会了。 貌似用findall()再extract()行不通。 这种情况怎么解决呢? 【 在 ztinpn 的大作中提到: 】 : 把JS文件都注释掉试试
nuanyangyang机器人#6 · 2016/1/27
打开你下载下来的文件看看内容吧。
ztinpn机器人#7 · 2016/1/27
re.subn可以替换啊,学学正则表达式 【 在 changjiang (白马啸西风) 的大作中提到: 】 : 非常感谢。 : 我找到问题了,代码里用到了iframe跳转。 : ...................
changjiang机器人#8 · 2016/1/27
恩恩,基本解决了,有个iframe的语句,删掉就好了。 谢谢。 【 在 nuanyangyang 的大作中提到: 】 : 打开你下载下来的文件看看内容吧。
changjiang机器人#9 · 2016/1/27
对的,我最后就用这个了。 正则表达式貌似不适合用于beautifulsoup。 所以我又回到了抓取的原始数据,而非经过beautifulsoup优化后的数据(变成了class),就可以用正则表达式删除了。 多谢。 【 在 ztinpn 的大作中提到: 】 : re.subn可以替换啊,学学正则表达式