lxml无法解析head标签？

2016/7/21镜像同步19 回复

最新学习lxml解析，发现无法解析出head标签，代码如下：输出为空列表！哪位大神解释一下？[ema1] # coding=utf-8 from lxml import etree html = ''' <html> <head> <meta name="content-type" content="text/html; charset=utf-8" />[ema1] <title>友情链接查询 - 站长工具</title> <meta name="Keywords" content="友情链接查询" /> <meta name="Description" content="友情链接查询" /> </head> <body> <a href="http://www.91wan.com/" target="_blank">91wan游戏</a> </body> </html> ''' html = etree.HTML(html) head = html.xpath(u'/html/head') print head [ema1]

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

asif12机器人#1 · 2016/7/21

'\n\n<html>\n\u3000\u3000<head>\n\u3000\u3000\u3000\u3000<meta name="content-type" content="text/html; charset=utf-8" />\n\u3000\u3000\u3000\u3000<title>友情链接查询 - 站长工具</title>\n\u3000\u3000\u3000\u3000<meta name="Keywords" content="友情链接查询" />\n\u3000\u3000\u3000\u3000<meta name="Description" content="友情链接查询" />\n\u3000\u3000</head>\n\n\u3000\u3000<body>\n\u3000\u3000\u3000\u3000<a href="http://www.91wan.com/" target="_blank">91wan游戏</a>\n\n\u3000\u3000</body>\n</html>\n\n' 不要直接从网页拷

ytinrete机器人#2 · 2016/7/21

同意ls的观点，lz<html>和<head>之间有奇怪的东西混进去了导致解析不了。你把所有空白的地方删了试试

xiaohuiji机器人#3 · 2016/7/22

哦哦，原来是这样，懂了[ema11] 【在 asif12 的大作中提到: 】 : '\n\n<html>\n\u3000\u3000<head>\n\u3000\u3000\u3000\u3000<meta name="content-type" content="text/html; charset=utf-8" />\n\u3000\u3000\u3000\u3000<title>友情链接查询 - 站长工具</title>\n\u3000\u3000\u3000\u3000<meta name="Keywords" content="友情链接查询" />\n\u3000\u3000\u3000\u3000<meta name="Description" content="友情链接查询" />\n\u3000\u3000</head>\n\n\u3000\u3000<body>\n\u3000\u3000\u3000\u3000<a href="http://www.91wan.com/" target="_blank">91wan游戏</a>\n\n\u3000\u3000</body>\n</html>\n\n' : 不要直接从网页拷

nuanyangyang机器人#4 · 2016/7/22

全角空格……https://www.w3.org/TR/REC-xml/#NT-S xml不认为全角空格是空格……

xiaohuiji机器人#5 · 2016/7/22

传说中的暖神！果然专业！【在 nuanyangyang 的大作中提到: 】 : 全角空格……https://www.w3.org/TR/REC-xml/#NT-S xml不认为全角空格是空格……

xiaohuiji机器人#6 · 2016/7/22

为啥存在全角空格只影响head的解析，不影响其他标签的解析，比如：body。【在 nuanyangyang 的大作中提到: 】 : 全角空格……https://www.w3.org/TR/REC-xml/#NT-S xml不认为全角空格是空格……

nuanyangyang机器人#7 · 2016/7/22

body里有一两个不是空格的字符也没错吧【在 xiaohuiji 的大作中提到: 】 : 为啥存在全角空格只影响head的解析，不影响其他标签的解析，比如：body。

xiaohuiji机器人#8 · 2016/7/22

head标签中有全角空格，body标签中也有全角空格，不应该都无法解析吗？可事实上只有head标签无法解析？把head标签和html标签之间的空格去掉head标签就可以解析了。【在 nuanyangyang 的大作中提到: 】 : body里有一两个不是空格的字符也没错吧

nuanyangyang机器人#9 · 2016/7/22

【在 xiaohuiji 的大作中提到: 】 : head标签中有全角空格，body标签中也有全角空格，不应该都无法解析吗？可事实上只有head标签无法解析？把head标签和html标签之间的空格去掉head标签就可以解析了。你觉得在body里加上字符串hello world有错吗？在head里呢？比如 <html> <head>hello world</head> <body>hello world</body> </html>