返回信息流好吧,解决了,是中文编码问题,要把电脑转成UTF-8编码,多谢沙发@json123的提醒了,不然也不会留意到这点
import re
import urllib2
import urllib
import cookielib
class Test:
def __init__(self):
url = "http://klcl.pku.edu.cn:8080/seek/result.php"
user_agent = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2062.102 Safari/537.36"
headers = {"User-Agent":user_agent}
cookie = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))
postdata = urllib.urlencode({'word':'电脑', 'number': '10', 'showtype':'no'})
req = urllib2.Request(url, postdata, headers)
html = opener.open(req).read().decode('utf-8', 'ignore')
print html
datas = re.findall(u'</b>[1-10] : (.*?)<b>', html, re.S)
for item in datas:
print item
t = Test()
上面那个代码是用来在 http://klcl.pku.edu.cn:8080/seek/index.php
这个网站上爬取"电脑"这个词的同义词的
现在问题是,我已经用了cookie了,但是为什么获得的html源码是首页面的源码,而不是我提交表单之后的那个页面的源码,跪求各位大虾解决[ema23]
这是一条镜像帖。来源:北邮人论坛 / python / #4115同步于 2014/11/11
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
问一个爬虫的问题
melot
2014/11/11镜像同步2 回复
订阅后,新回复会通过你的通知中心匿名送达。