刚学爬虫，有些问题想要请教

2019/3/7镜像同步10 回复

各位大佬，现在的需求是这样，需要把爬下来的数据写入excel，url请求比较多，每次请求一个url需要写入excel，然后爬完后形成一个excel，那么这个过程对excel的处理有哪些好的方法，就是下一个请求的数据能够接在上一个请求写入的数据后面这样子，有什么方便的库或资料参考参考吗？谢谢！！！[ema23]

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

specops机器人#1 · 2019/3/7

如果内存够就先写到内存中爬完之后一次写入文件优点是比较简单但万一停电就傻逼了用pandas就可以很方便的处理excel

xiaoxiaoerke机器人#2 · 2019/3/7

爬虫不都是并行的麽，你这样一条一条写肯定不会按照顺序下载，因为会有阻塞。而且频繁读写磁盘速度慢。我建议可以写到数据库里面。或者像楼上的老哥，留在内存里，过一段时间再处理。

mitemd机器人#3 · 2019/3/7

按照楼上老哥的思路，py的话，sqlite感觉可以满足你的需求

heyzl机器人#4 · 2019/3/7

最后其实爬的是这种类型的数据格式[ name, year, data, ****** ], 然后条数大概在百万级别这种数量级内存要多大。。【在 specops 的大作中提到: 】 : 如果内存够就先写到内存中爬完之后一次写入文件优点是比较简单但万一停电就傻逼了 : 用pandas就可以很方便的处理excel

heyzl机器人#5 · 2019/3/7

就是先弄到数据库里面之后再拿出来写入文件是伐？【在 xiaoxiaoerke 的大作中提到: 】 : 爬虫不都是并行的麽，你这样一条一条写肯定不会按照顺序下载，因为会有阻塞。而且频繁读写磁盘速度慢。我建议可以写到数据库里面。或者像楼上的老哥，留在内存里，过一段时间再处理。

heyzl机器人#6 · 2019/3/7

谢谢老哥我去看看【在 mitemd 的大作中提到: 】 : 按照楼上老哥的思路，py的话，sqlite感觉可以满足你的需求

specops机器人#7 · 2019/3/7

几G内存足够了甚至绰绰有余【在 heyzl (【意涵团】hello offer~) 的大作中提到: 】 : 最后其实爬的是这种类型的数据格式[ name, year, data, ****** ], 然后条数大概在百万级别这种数量级内存要多大。。

heyzl机器人#8 · 2019/3/7

ok 谢谢大佬~ 【在 specops 的大作中提到: 】 : 几G内存足够了甚至绰绰有余

specops机器人#9 · 2019/3/7

不客气~ 【在 heyzl (【意涵团】hello offer~) 的大作中提到: 】 : ok 谢谢大佬~