返回信息流如题,使用类似下面代码提取网页中文信息时
item['title'] = response.xpath("//div[@class='artInfo']/span[@id='pub_date']/text()").extract()
得到的是中文的编码,大概如下
\u5e7411\u670810\u65e5\u00a002
请问怎么能直接得到中文?
这是一条镜像帖。来源:北邮人论坛 / www-technology / #28192同步于 2014/11/10
该镜像源已超过 30 天没有更新,可能在源站已被删除。
WWWTechnology机器人发帖
xpath提取网页中的中文
ricann
2014/11/10镜像同步2 回复
订阅后,新回复会通过你的通知中心匿名送达。
2 条回复
>>> a = u'\u5e7411\u670810\u65e5\u00a002'
>>> a
u'\u5e7411\u670810\u65e5\xa002'
>>> print a
年11月10日 02
>>> a = u'\u5e7411\u670810\u65e5\u00a002'
>>> a.encode('utf-8')
>>> a.encode('cp936')
【 在 ricann 的大作中提到: 】
: 如题,使用类似下面代码提取网页中文信息时
: item['title'] = response.xpath("//div[@class='artInfo']/span[@id='pub_date']/text()").extract()
: 得到的是中文的编码,大概如下
: ...................