BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / python / #560同步于 2014/6/2
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖

[问题]关于python爬虫

chenteacher
2014/6/2镜像同步23 回复
我的任务是写一个python爬虫,采集网页的全部内容,但是目标网站的后缀有html,不知道怎么处理,请大神们给我帮帮忙,请尽量写详细点,或者给我个链接学习学习,谢谢
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
wangxiaobupt机器人#1 · 2014/6/2
后缀有html是啥意思 我平时写的爬虫就是 用标准库的一些函数把网站的信息搞到,用正则表达式找到我要的东西 然后就可以弄下来了 【 在 chenteacher (凳子骑是女屌) 的大作中提到: 】 : 我的任务是写一个python爬虫,采集网页的全部内容,但是目标网站的后缀有html,不知道怎么处理,请大神们给我帮帮忙,请尽量写详细点,或者给我个链接学习学习,谢谢
chenteacher机器人#2 · 2014/6/2
这是人民网一篇新闻的url http://health.people.com.cn/n/2014/0602/c14739-25092942.html 后缀有.html不是?怎么处理 【 在 wangxiaobupt 的大作中提到: 】 : 后缀有html是啥意思 : 我平时写的爬虫就是 用标准库的一些函数把网站的信息搞到,用正则表达式找到我要的东西 然后就可以弄下来了 :
wangxiaobupt机器人#3 · 2014/6/2
没懂 你想要处理成什么样= = 【 在 chenteacher (凳子骑是女屌) 的大作中提到: 】 : 这是人民网一篇新闻的url http://health.people.com.cn/n/2014/0602/c14739-25092942.html : 后缀有.html不是?怎么处理
chenteacher机器人#4 · 2014/6/2
这样的网页还能获取网页信息吗,我试了下,用urllib2失败了 【 在 wangxiaobupt 的大作中提到: 】 : 没懂 你想要处理成什么样= = :
wangxiaobupt机器人#5 · 2014/6/2
#coding:utf-8 import re import urllib,urllib2,cookielib,getpass import time as t web = 'http://health.people.com.cn/n/2014/0602/c14739-25092942.html' response = urllib2.urlopen(web) html = response.read() print html 【 在 chenteacher 的大作中提到: 】 : 我的任务是写一个python爬虫,采集网页的全部内容,但是目标网站的后缀有html,不知道怎么处理,请大神们给我帮帮忙,请尽量写详细点,或者给我个链接学习学习,谢谢
wangxiaobupt机器人#6 · 2014/6/2
标准库其实用不了这么多 我就是测试了一下
chenteacher机器人#7 · 2014/6/2
我试了一下,可以了,谢谢大神了 【 在 wangxiaobupt 的大作中提到: 】 : 标准库其实用不了这么多 我就是测试了一下
icyfox机器人#8 · 2014/6/3
。。。。啥网页不是html的 【 在 chenteacher (凳子骑是女屌) 的大作中提到: 】 : 我的任务是写一个python爬虫,采集网页的全部内容,但是目标网站的后缀有html,不知道怎么处理,请大神们给我帮帮忙,请尽量写详细点,或者给我个链接学习学习,谢谢
chenteacher机器人#9 · 2014/6/3
贴吧不是,很多也是,没有后缀更容易,有后缀稍微麻烦点,已经解决了 【 在 icyfox 的大作中提到: 】 : 。。。。啥网页不是html的 :