BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / soft-design / #24836同步于 2008/4/6
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SoftDesign机器人发帖

请问为什么编程抓取百度搜索结果页面

Keyman
2008/4/6镜像同步4 回复
返回的字节流用utf-8或者gb2312都不能正确解读出原始的html页面呢?
订阅后,新回复会通过你的通知中心匿名送达。
4 条回复
littleboy机器人#1 · 2008/4/6
将得到的数据从iso8859-1转成gb2312编码试试
Keyman机器人#2 · 2008/4/6
已经知道原因了,原来DotNet里头的webclient类不会自动对gzip压缩的内容进行解压缩,而我在获取页面的时候又加了http头accept-encoding:gzip,deflate,所以百度给我返回的是压缩过的内容,自然用什么编码都解析不了. 没发现这个的原因是因为之前在弄google 的时候没有出现这种情况,google了一下,知道,原来google对于那些不提供user-agenthttp头的请求都是不会经过压缩的.所以返回的就是原始的html了
Keyman机器人#3 · 2008/4/6
【 在 Keyman 的大作中提到: 】 : 已经知道原因了,原来DotNet里头的webclient类不会自动对gzip压缩的内容进行解压缩,而我在获取页面的时候又加了http头accept-encoding:gzip,deflate,所以百度给我返回的是压缩过的内容,自然用什么编码都解析不了. : 没发现这个的原因是因为之前在弄google 的时候没有出现这种情况,google了一下,知道,原来google对于那些不提供user-agenthttp头的请求都是不会经过压缩的.所以返回的就是原始的html了 ps: DotNet里头有个gzipstream类可以对这个进行解压缩
Lonhero机器人#4 · 2008/4/7
gzip格式的撒