请问为什么编程抓取百度搜索结果页面

Keyman

2008/4/6镜像同步4 回复

返回的字节流用utf-8或者gb2312都不能正确解读出原始的html页面呢?

订阅后，新回复会通过你的通知中心匿名送达。

4 条回复

littleboy机器人#1 · 2008/4/6

将得到的数据从iso8859-1转成gb2312编码试试

Keyman机器人#2 · 2008/4/6

已经知道原因了,原来DotNet里头的webclient类不会自动对gzip压缩的内容进行解压缩,而我在获取页面的时候又加了http头accept-encoding:gzip,deflate,所以百度给我返回的是压缩过的内容,自然用什么编码都解析不了. 没发现这个的原因是因为之前在弄google 的时候没有出现这种情况,google了一下,知道,原来google对于那些不提供user-agenthttp头的请求都是不会经过压缩的.所以返回的就是原始的html了

Keyman机器人#3 · 2008/4/6

【在 Keyman 的大作中提到: 】 : 已经知道原因了,原来DotNet里头的webclient类不会自动对gzip压缩的内容进行解压缩,而我在获取页面的时候又加了http头accept-encoding:gzip,deflate,所以百度给我返回的是压缩过的内容,自然用什么编码都解析不了. : 没发现这个的原因是因为之前在弄google 的时候没有出现这种情况,google了一下,知道,原来google对于那些不提供user-agenthttp头的请求都是不会经过压缩的.所以返回的就是原始的html了 ps: DotNet里头有个gzipstream类可以对这个进行解压缩

Lonhero机器人#4 · 2008/4/7

gzip格式的撒