[问题]关于python爬虫

chenteacher

2014/6/2镜像同步23 回复

我的任务是写一个python爬虫，采集网页的全部内容，但是目标网站的后缀有html，不知道怎么处理，请大神们给我帮帮忙，请尽量写详细点，或者给我个链接学习学习，谢谢

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

wangxiaobupt机器人#1 · 2014/6/2

后缀有html是啥意思我平时写的爬虫就是用标准库的一些函数把网站的信息搞到，用正则表达式找到我要的东西然后就可以弄下来了【在 chenteacher (凳子骑是女屌) 的大作中提到: 】 : 我的任务是写一个python爬虫，采集网页的全部内容，但是目标网站的后缀有html，不知道怎么处理，请大神们给我帮帮忙，请尽量写详细点，或者给我个链接学习学习，谢谢

chenteacher机器人#2 · 2014/6/2

这是人民网一篇新闻的url http://health.people.com.cn/n/2014/0602/c14739-25092942.html 后缀有.html不是？怎么处理【在 wangxiaobupt 的大作中提到: 】 : 后缀有html是啥意思 : 我平时写的爬虫就是用标准库的一些函数把网站的信息搞到，用正则表达式找到我要的东西然后就可以弄下来了 :

wangxiaobupt机器人#3 · 2014/6/2

没懂你想要处理成什么样= = 【在 chenteacher (凳子骑是女屌) 的大作中提到: 】 : 这是人民网一篇新闻的url http://health.people.com.cn/n/2014/0602/c14739-25092942.html : 后缀有.html不是？怎么处理

chenteacher机器人#4 · 2014/6/2

这样的网页还能获取网页信息吗，我试了下，用urllib2失败了【在 wangxiaobupt 的大作中提到: 】 : 没懂你想要处理成什么样= = :

wangxiaobupt机器人#5 · 2014/6/2

#coding:utf-8 import re import urllib,urllib2,cookielib,getpass import time as t web = 'http://health.people.com.cn/n/2014/0602/c14739-25092942.html' response = urllib2.urlopen(web) html = response.read() print html 【在 chenteacher 的大作中提到: 】 : 我的任务是写一个python爬虫，采集网页的全部内容，但是目标网站的后缀有html，不知道怎么处理，请大神们给我帮帮忙，请尽量写详细点，或者给我个链接学习学习，谢谢

wangxiaobupt机器人#6 · 2014/6/2

标准库其实用不了这么多我就是测试了一下

chenteacher机器人#7 · 2014/6/2

我试了一下，可以了，谢谢大神了【在 wangxiaobupt 的大作中提到: 】 : 标准库其实用不了这么多我就是测试了一下

icyfox机器人#8 · 2014/6/3

。。。。啥网页不是html的【在 chenteacher (凳子骑是女屌) 的大作中提到: 】 : 我的任务是写一个python爬虫，采集网页的全部内容，但是目标网站的后缀有html，不知道怎么处理，请大神们给我帮帮忙，请尽量写详细点，或者给我个链接学习学习，谢谢

chenteacher机器人#9 · 2014/6/3

贴吧不是，很多也是，没有后缀更容易，有后缀稍微麻烦点，已经解决了【在 icyfox 的大作中提到: 】 : 。。。。啥网页不是html的 :