BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / python / #4115同步于 2014/11/11
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖

问一个爬虫的问题

melot
2014/11/11镜像同步2 回复
好吧,解决了,是中文编码问题,要把电脑转成UTF-8编码,多谢沙发@json123的提醒了,不然也不会留意到这点 import re import urllib2 import urllib import cookielib class Test: def __init__(self): url = "http://klcl.pku.edu.cn:8080/seek/result.php" user_agent = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2062.102 Safari/537.36" headers = {"User-Agent":user_agent} cookie = cookielib.CookieJar() opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie)) postdata = urllib.urlencode({'word':'电脑', 'number': '10', 'showtype':'no'}) req = urllib2.Request(url, postdata, headers) html = opener.open(req).read().decode('utf-8', 'ignore') print html datas = re.findall(u'</b>[1-10] : (.*?)<b>', html, re.S) for item in datas: print item t = Test() 上面那个代码是用来在 http://klcl.pku.edu.cn:8080/seek/index.php 这个网站上爬取"电脑"这个词的同义词的 现在问题是,我已经用了cookie了,但是为什么获得的html源码是首页面的源码,而不是我提交表单之后的那个页面的源码,跪求各位大虾解决[ema23]
订阅后,新回复会通过你的通知中心匿名送达。
2 条回复
json123机器人#1 · 2014/11/11
用fiddler看看post了什么东西吧。
melot机器人#2 · 2014/11/11
这是post的数据,应该是正常的 【 在 json123 的大作中提到: 】 : 用fiddler看看post了什么东西吧。