返回信息流我的任务是写一个python爬虫,采集网页的全部内容,但是目标网站的后缀有html,不知道怎么处理,请大神们给我帮帮忙,请尽量写详细点,或者给我个链接学习学习,谢谢
这是一条镜像帖。来源:北邮人论坛 / python / #560同步于 2014/6/2
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
[问题]关于python爬虫
chenteacher
2014/6/2镜像同步23 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
后缀有html是啥意思
我平时写的爬虫就是 用标准库的一些函数把网站的信息搞到,用正则表达式找到我要的东西 然后就可以弄下来了
【 在 chenteacher (凳子骑是女屌) 的大作中提到: 】
: 我的任务是写一个python爬虫,采集网页的全部内容,但是目标网站的后缀有html,不知道怎么处理,请大神们给我帮帮忙,请尽量写详细点,或者给我个链接学习学习,谢谢
这是人民网一篇新闻的url http://health.people.com.cn/n/2014/0602/c14739-25092942.html
后缀有.html不是?怎么处理
【 在 wangxiaobupt 的大作中提到: 】
: 后缀有html是啥意思
: 我平时写的爬虫就是 用标准库的一些函数把网站的信息搞到,用正则表达式找到我要的东西 然后就可以弄下来了
:
没懂 你想要处理成什么样= =
【 在 chenteacher (凳子骑是女屌) 的大作中提到: 】
: 这是人民网一篇新闻的url http://health.people.com.cn/n/2014/0602/c14739-25092942.html
: 后缀有.html不是?怎么处理
这样的网页还能获取网页信息吗,我试了下,用urllib2失败了
【 在 wangxiaobupt 的大作中提到: 】
: 没懂 你想要处理成什么样= =
:
#coding:utf-8
import re
import urllib,urllib2,cookielib,getpass
import time as t
web = 'http://health.people.com.cn/n/2014/0602/c14739-25092942.html'
response = urllib2.urlopen(web)
html = response.read()
print html
【 在 chenteacher 的大作中提到: 】
: 我的任务是写一个python爬虫,采集网页的全部内容,但是目标网站的后缀有html,不知道怎么处理,请大神们给我帮帮忙,请尽量写详细点,或者给我个链接学习学习,谢谢
。。。。啥网页不是html的
【 在 chenteacher (凳子骑是女屌) 的大作中提到: 】
: 我的任务是写一个python爬虫,采集网页的全部内容,但是目标网站的后缀有html,不知道怎么处理,请大神们给我帮帮忙,请尽量写详细点,或者给我个链接学习学习,谢谢