返回信息流最新学习lxml解析,发现无法解析出head标签,代码如下:输出为空列表!哪位大神解释一下?[ema1]
# coding=utf-8
from lxml import etree
html = '''
<html>
<head>
<meta name="content-type" content="text/html; charset=utf-8" />[ema1]
<title>友情链接查询 - 站长工具</title>
<meta name="Keywords" content="友情链接查询" />
<meta name="Description" content="友情链接查询" />
</head>
<body>
<a href="http://www.91wan.com/" target="_blank">91wan游戏</a>
</body>
</html>
'''
html = etree.HTML(html)
head = html.xpath(u'/html/head')
print head
[ema1]
这是一条镜像帖。来源:北邮人论坛 / python / #15039同步于 2016/7/21
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
lxml无法解析head标签?
xiaohuiji
2016/7/21镜像同步19 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
'\n\n<html>\n\u3000\u3000<head>\n\u3000\u3000\u3000\u3000<meta name="content-type" content="text/html; charset=utf-8" />\n\u3000\u3000\u3000\u3000<title>友情链接查询 - 站长工具</title>\n\u3000\u3000\u3000\u3000<meta name="Keywords" content="友情链接查询" />\n\u3000\u3000\u3000\u3000<meta name="Description" content="友情链接查询" />\n\u3000\u3000</head>\n\n\u3000\u3000<body>\n\u3000\u3000\u3000\u3000<a href="http://www.91wan.com/" target="_blank">91wan游戏</a>\n\n\u3000\u3000</body>\n</html>\n\n'
不要直接从网页拷
哦哦,原来是这样,懂了[ema11]
【 在 asif12 的大作中提到: 】
: '\n\n<html>\n\u3000\u3000<head>\n\u3000\u3000\u3000\u3000<meta name="content-type" content="text/html; charset=utf-8" />\n\u3000\u3000\u3000\u3000<title>友情链接查询 - 站长工具</title>\n\u3000\u3000\u3000\u3000<meta name="Keywords" content="友情链接查询" />\n\u3000\u3000\u3000\u3000<meta name="Description" content="友情链接查询" />\n\u3000\u3000</head>\n\n\u3000\u3000<body>\n\u3000\u3000\u3000\u3000<a href="http://www.91wan.com/" target="_blank">91wan游戏</a>\n\n\u3000\u3000</body>\n</html>\n\n'
: 不要直接从网页拷
传说中的暖神!果然专业!
【 在 nuanyangyang 的大作中提到: 】
: 全角空格……https://www.w3.org/TR/REC-xml/#NT-S xml不认为全角空格是空格……
为啥存在全角空格只影响head的解析,不影响其他标签的解析,比如:body。
【 在 nuanyangyang 的大作中提到: 】
: 全角空格……https://www.w3.org/TR/REC-xml/#NT-S xml不认为全角空格是空格……
body里有一两个不是空格的字符也没错吧
【 在 xiaohuiji 的大作中提到: 】
: 为啥存在全角空格只影响head的解析,不影响其他标签的解析,比如:body。
head标签中有全角空格,body标签中也有全角空格,不应该都无法解析吗?可事实上只有head标签无法解析?把head标签和html标签之间的空格去掉head标签就可以解析了。
【 在 nuanyangyang 的大作中提到: 】
: body里有一两个不是空格的字符也没错吧
【 在 xiaohuiji 的大作中提到: 】
: head标签中有全角空格,body标签中也有全角空格,不应该都无法解析吗?可事实上只有head标签无法解析?把head标签和html标签之间的空格去掉head标签就可以解析了。
你觉得在body里加上字符串hello world有错吗?在head里呢?比如
<html>
<head>hello world</head>
<body>hello world</body>
</html>