BYR Achieve · 镜像论坛

问一个爬虫的问题

2014/11/11镜像同步2 回复

好吧，解决了，是中文编码问题，要把电脑转成UTF-8编码，多谢沙发@json123的提醒了，不然也不会留意到这点 import re import urllib2 import urllib import cookielib class Test: def __init__(self): url = "http://klcl.pku.edu.cn:8080/seek/result.php" user_agent = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2062.102 Safari/537.36" headers = {"User-Agent":user_agent} cookie = cookielib.CookieJar() opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie)) postdata = urllib.urlencode({'word':'电脑', 'number': '10', 'showtype':'no'}) req = urllib2.Request(url, postdata, headers) html = opener.open(req).read().decode('utf-8', 'ignore') print html datas = re.findall(u'</b>[1-10] : (.*?)<b>', html, re.S) for item in datas: print item t = Test() 上面那个代码是用来在 http://klcl.pku.edu.cn:8080/seek/index.php 这个网站上爬取"电脑"这个词的同义词的现在问题是，我已经用了cookie了，但是为什么获得的html源码是首页面的源码，而不是我提交表单之后的那个页面的源码，跪求各位大虾解决[ema23]

订阅后，新回复会通过你的通知中心匿名送达。