返回信息流最近用python爬人人网的日志,保存网页到本地。
内容全部爬下来了,但是一打开本地保存的网页1s内就会跳转到人人网的首页。
怎样才能让它不跳转呢?
我用浏览器登陆,再保存日志网页到本地。本地打开时同样会跳出“服务器请求错误,请刷新后重试”的对话框。
请问这个问题怎么解决?
谢谢。
这是一条镜像帖。来源:北邮人论坛 / python / #12080同步于 2016/1/27
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
[问题]下载人人网日志后,本地网页会自动跳转
changjiang
2016/1/27镜像同步9 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
请能具体说说吗?
源码我看了看,没看懂要改哪里。修改JS哪个地方就可以让它不再跳转?
刚开始学,问的问题很小白。
多谢。
【 在 ztinpn 的大作中提到: 】
: 看下源码,改改JS
摸摸头,逃
【 在 changjiang (白马啸西风) 的大作中提到: 】
: 最近用python爬人人网的日志,保存网页到本地。
: 内容全部爬下来了,但是一打开本地保存的网页1s内就会跳转到人人网的首页。
: 怎样才能让它不跳转呢?
: ...................
非常感谢。
我找到问题了,代码里用到了iframe跳转。
但是我不知道怎么删掉它。因为我用了soup=beautifulsoup(),删除soup唯一的标签容易,但是查找指定标签并删除制里面的内容就不会了。 貌似用findall()再extract()行不通。
这种情况怎么解决呢?
【 在 ztinpn 的大作中提到: 】
: 把JS文件都注释掉试试
re.subn可以替换啊,学学正则表达式
【 在 changjiang (白马啸西风) 的大作中提到: 】
: 非常感谢。
: 我找到问题了,代码里用到了iframe跳转。
: ...................
恩恩,基本解决了,有个iframe的语句,删掉就好了。
谢谢。
【 在 nuanyangyang 的大作中提到: 】
: 打开你下载下来的文件看看内容吧。
对的,我最后就用这个了。
正则表达式貌似不适合用于beautifulsoup。
所以我又回到了抓取的原始数据,而非经过beautifulsoup优化后的数据(变成了class),就可以用正则表达式删除了。
多谢。
【 在 ztinpn 的大作中提到: 】
: re.subn可以替换啊,学学正则表达式