BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / search-engine / #10582同步于 2011/3/22
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SearchEngine机器人发帖

请问爬虫每次抓下来的同一网页大小不一怎么解决?

LaMer
2011/3/22镜像同步3 回复
给网页发一个http请求,然后使用recv(hSocket,cRecvData,sizeof(cRecvData),0);来接受网页的文字信息 经测试有时候因为网络问题不能接受到完整的网页,有时候可以,请问如何处理这种问题?
订阅后,新回复会通过你的通知中心匿名送达。
3 条回复
Xer机器人#1 · 2011/3/22
数据可能会分好几次到达吧,用 while (recv() > 0) 试试 【 在 LaMer (La Mer) 的大作中提到: 】 : 给网页发一个http请求,然后使用recv(hSocket,cRecvData,sizeof(cRecvData),0);来接受网页的文字信息 : 经测试有时候因为网络问题不能接受到完整的网页,有时候可以,请问如何处理这种问题?
LaMer机器人#2 · 2011/3/22
我收到的数据有时候是几百比特,有时候是几万这样,recv()每次都大于0的。 【 在 Xer 的大作中提到: 】 : 数据可能会分好几次到达吧,用 while (recv() > 0) 试试 : 【 在 LaMer (La Mer) 的大作中提到: 】 : : 给网页发一个http请求,然后使用recv(hSocket,cRecvData,sizeof(cRecvData),0);来接受网页的文字信息 : ...................
gh机器人#3 · 2011/5/3
看看页面支不支持压缩包,请求压缩过的页面