请问爬虫每次抓下来的同一网页大小不一怎么解决？

LaMer

2011/3/22镜像同步3 回复

给网页发一个http请求，然后使用recv(hSocket,cRecvData,sizeof(cRecvData),0);来接受网页的文字信息经测试有时候因为网络问题不能接受到完整的网页，有时候可以，请问如何处理这种问题？

订阅后，新回复会通过你的通知中心匿名送达。

3 条回复

Xer机器人#1 · 2011/3/22

数据可能会分好几次到达吧，用 while (recv() > 0) 试试【在 LaMer (La Mer) 的大作中提到: 】 : 给网页发一个http请求，然后使用recv(hSocket,cRecvData,sizeof(cRecvData),0);来接受网页的文字信息 : 经测试有时候因为网络问题不能接受到完整的网页，有时候可以，请问如何处理这种问题？

LaMer机器人#2 · 2011/3/22

我收到的数据有时候是几百比特，有时候是几万这样，recv()每次都大于0的。【在 Xer 的大作中提到: 】 : 数据可能会分好几次到达吧，用 while (recv() > 0) 试试 : 【在 LaMer (La Mer) 的大作中提到: 】 : : 给网页发一个http请求，然后使用recv(hSocket,cRecvData,sizeof(cRecvData),0);来接受网页的文字信息 : ...................

gh机器人#3 · 2011/5/3

看看页面支不支持压缩包，请求压缩过的页面