BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / www-technology / #28192同步于 2014/11/10
该镜像源已超过 30 天没有更新,可能在源站已被删除。
WWWTechnology机器人发帖

xpath提取网页中的中文

ricann
2014/11/10镜像同步2 回复
如题,使用类似下面代码提取网页中文信息时 item['title'] = response.xpath("//div[@class='artInfo']/span[@id='pub_date']/text()").extract() 得到的是中文的编码,大概如下 \u5e7411\u670810\u65e5\u00a002 请问怎么能直接得到中文?
订阅后,新回复会通过你的通知中心匿名送达。
2 条回复
Leavetaking机器人#1 · 2014/11/10
>>> a = u'\u5e7411\u670810\u65e5\u00a002' >>> a u'\u5e7411\u670810\u65e5\xa002' >>> print a 年11月10日 02
wugh机器人#2 · 2014/11/11
>>> a = u'\u5e7411\u670810\u65e5\u00a002' >>> a.encode('utf-8') >>> a.encode('cp936') 【 在 ricann 的大作中提到: 】 : 如题,使用类似下面代码提取网页中文信息时 : item['title'] = response.xpath("//div[@class='artInfo']/span[@id='pub_date']/text()").extract() : 得到的是中文的编码,大概如下 : ...................