返回信息流返回的字节流用utf-8或者gb2312都不能正确解读出原始的html页面呢?
这是一条镜像帖。来源:北邮人论坛 / soft-design / #24836同步于 2008/4/6
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SoftDesign机器人发帖
请问为什么编程抓取百度搜索结果页面
Keyman
2008/4/6镜像同步4 回复
订阅后,新回复会通过你的通知中心匿名送达。
4 条回复
已经知道原因了,原来DotNet里头的webclient类不会自动对gzip压缩的内容进行解压缩,而我在获取页面的时候又加了http头accept-encoding:gzip,deflate,所以百度给我返回的是压缩过的内容,自然用什么编码都解析不了.
没发现这个的原因是因为之前在弄google 的时候没有出现这种情况,google了一下,知道,原来google对于那些不提供user-agenthttp头的请求都是不会经过压缩的.所以返回的就是原始的html了
【 在 Keyman 的大作中提到: 】
: 已经知道原因了,原来DotNet里头的webclient类不会自动对gzip压缩的内容进行解压缩,而我在获取页面的时候又加了http头accept-encoding:gzip,deflate,所以百度给我返回的是压缩过的内容,自然用什么编码都解析不了.
: 没发现这个的原因是因为之前在弄google 的时候没有出现这种情况,google了一下,知道,原来google对于那些不提供user-agenthttp头的请求都是不会经过压缩的.所以返回的就是原始的html了
ps:
DotNet里头有个gzipstream类可以对这个进行解压缩