返回信息流各位大佬,现在的需求是这样,需要把爬下来的数据写入excel,url请求比较多,每次请求一个url需要写入excel,然后爬完后形成一个excel,那么这个过程对excel的处理有哪些好的方法,就是下一个请求的数据能够接在上一个请求写入的数据后面这样子,有什么方便的库或资料参考参考吗? 谢谢!!![ema23]
这是一条镜像帖。来源:北邮人论坛 / python / #23465同步于 2019/3/7
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
刚学爬虫,有些问题想要请教
heyzl
2019/3/7镜像同步10 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
爬虫不都是并行的麽,你这样一条一条写肯定不会按照顺序下载,因为会有阻塞。而且频繁读写磁盘速度慢。我建议可以写到数据库里面。或者像楼上的老哥,留在内存里,过一段时间再处理。
最后其实爬的是这种类型的数据格式[ name, year, data, ****** ], 然后条数大概在百万级别 这种数量级内存要多大。。
【 在 specops 的大作中提到: 】
: 如果内存够就先写到内存中 爬完之后一次写入文件 优点是比较简单 但万一停电就傻逼了
: 用pandas就可以很方便的处理excel
就是先弄到数据库 里面 之后再拿出来写入文件是伐?
【 在 xiaoxiaoerke 的大作中提到: 】
: 爬虫不都是并行的麽,你这样一条一条写肯定不会按照顺序下载,因为会有阻塞。而且频繁读写磁盘速度慢。我建议可以写到数据库里面。或者像楼上的老哥,留在内存里,过一段时间再处理。
几G内存足够了 甚至绰绰有余
【 在 heyzl (【意涵团】hello offer~) 的大作中提到: 】
: 最后其实爬的是这种类型的数据格式[ name, year, data, ****** ], 然后条数大概在百万级别 这种数量级内存要多大。。