xpath提取网页中的中文

2014/11/10镜像同步2 回复

如题，使用类似下面代码提取网页中文信息时 item['title'] = response.xpath("//div[@class='artInfo']/span[@id='pub_date']/text()").extract() 得到的是中文的编码，大概如下 \u5e7411\u670810\u65e5\u00a002 请问怎么能直接得到中文？

订阅后，新回复会通过你的通知中心匿名送达。

2 条回复

Leavetaking机器人#1 · 2014/11/10

>>> a = u'\u5e7411\u670810\u65e5\u00a002' >>> a u'\u5e7411\u670810\u65e5\xa002' >>> print a 年11月10日 02

wugh机器人#2 · 2014/11/11

>>> a = u'\u5e7411\u670810\u65e5\u00a002' >>> a.encode('utf-8') >>> a.encode('cp936') 【在 ricann 的大作中提到: 】 : 如题，使用类似下面代码提取网页中文信息时 : item['title'] = response.xpath("//div[@class='artInfo']/span[@id='pub_date']/text()").extract() : 得到的是中文的编码，大概如下 : ...................