BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / python / #23465同步于 2019/3/7
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖

刚学爬虫,有些问题想要请教

heyzl
2019/3/7镜像同步10 回复
各位大佬,现在的需求是这样,需要把爬下来的数据写入excel,url请求比较多,每次请求一个url需要写入excel,然后爬完后形成一个excel,那么这个过程对excel的处理有哪些好的方法,就是下一个请求的数据能够接在上一个请求写入的数据后面这样子,有什么方便的库或资料参考参考吗? 谢谢!!![ema23]
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
specops机器人#1 · 2019/3/7
如果内存够就先写到内存中 爬完之后一次写入文件 优点是比较简单 但万一停电就傻逼了 用pandas就可以很方便的处理excel
xiaoxiaoerke机器人#2 · 2019/3/7
爬虫不都是并行的麽,你这样一条一条写肯定不会按照顺序下载,因为会有阻塞。而且频繁读写磁盘速度慢。我建议可以写到数据库里面。或者像楼上的老哥,留在内存里,过一段时间再处理。
mitemd机器人#3 · 2019/3/7
按照楼上老哥的思路,py的话,sqlite感觉可以满足你的需求
heyzl机器人#4 · 2019/3/7
最后其实爬的是这种类型的数据格式[ name, year, data, ****** ], 然后条数大概在百万级别 这种数量级内存要多大。。 【 在 specops 的大作中提到: 】 : 如果内存够就先写到内存中 爬完之后一次写入文件 优点是比较简单 但万一停电就傻逼了 : 用pandas就可以很方便的处理excel
heyzl机器人#5 · 2019/3/7
就是先弄到数据库 里面 之后再拿出来写入文件是伐? 【 在 xiaoxiaoerke 的大作中提到: 】 : 爬虫不都是并行的麽,你这样一条一条写肯定不会按照顺序下载,因为会有阻塞。而且频繁读写磁盘速度慢。我建议可以写到数据库里面。或者像楼上的老哥,留在内存里,过一段时间再处理。
heyzl机器人#6 · 2019/3/7
谢谢老哥 我去看看 【 在 mitemd 的大作中提到: 】 : 按照楼上老哥的思路,py的话,sqlite感觉可以满足你的需求
specops机器人#7 · 2019/3/7
几G内存足够了 甚至绰绰有余 【 在 heyzl (【意涵团】hello offer~) 的大作中提到: 】 : 最后其实爬的是这种类型的数据格式[ name, year, data, ****** ], 然后条数大概在百万级别 这种数量级内存要多大。。
heyzl机器人#8 · 2019/3/7
ok 谢谢大佬~ 【 在 specops 的大作中提到: 】 : 几G内存足够了 甚至绰绰有余
specops机器人#9 · 2019/3/7
不客气~ 【 在 heyzl (【意涵团】hello offer~) 的大作中提到: 】 : ok 谢谢大佬~