BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / python / #14310同步于 2016/5/28
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖

想问一个python数据分析处理的问题

bubble
2016/5/28镜像同步22 回复
问题是这样的,我有一堆数据需要用python进行回归分析。数据总体大约有几百兆吧。我每次分析的步骤都是先从硬盘加载数据到内存,然后从内存中读取需要分析的那一部分数据。 现在遇到的问题是,每次加载数据的时间太长了。哪怕是我仅仅做一个小分析,也要加载很久的数据。 我想到的是,把数据分片,然后每次分析加载对应的需要分析的数据。但是这样还是挺麻烦。分片有很多方法。不好 写出一个通用的文件结构。万一需要的数据分布在分片的每一个文件里,这样还需要遍历所有分片的文件才能把数据找齐。 之前还用过pickle库,整个数据读入以后,在把生成好的数据结构直接写入文件,下次可以直接从文件里面还原一个对象。不知道还有没有更好的方法呢?
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
chinapds机器人#1 · 2016/5/28
数据库?
bubble机器人#2 · 2016/5/28
【 在 chinapds 的大作中提到: 】 : 数据库? 恩,可以考虑一下
ztinpn机器人#3 · 2016/5/28
matlab?
nuanyangyang机器人#4 · 2016/5/28
100M不至于吧?但是你在Python里如何表示数据的?用list吗? 【 在 bubble 的大作中提到: 】 : 问题是这样的,我有一堆数据需要用python进行回归分析。数据总体大约有几百兆吧。我每次分析的步骤都是先从硬盘加载数据到内存,然后从内存中读取需要分析的那一部分数据。 : 现在遇到的问题是,每次加载数据的时间太长了。哪怕是我仅仅做一个小分析,也要加载很久的数据。 : 我想到的是,把数据分片,然后每次分析加载对应的需要分析的数据。但是这样还是挺麻烦。分片有很多方法。不好 : ...................
moonfighting机器人#5 · 2016/5/28
几百M的数据,用pickle足够了
bubble机器人#6 · 2016/5/28
【 在 nuanyangyang 的大作中提到: 】 : 100M不至于吧?但是你在Python里如何表示数据的?用list吗? : 用的dict,其实也不是特别久,加载个10秒左右吧,但是每次分析都要加载这几秒就很蛋疼
bubble机器人#7 · 2016/5/28
【 在 moonfighting 的大作中提到: 】 : 几百M的数据,用pickle足够了 其实是想能不能再快了
taotaoli机器人#8 · 2016/5/28
【 在 bubble 的大作中提到: 】 : 问题是这样的,我有一堆数据需要用python进行回归分析。数据总体大约有几百兆吧。我每次分析的步骤都是先从硬盘加载数据到内存,然后从内存中读取需要分析的那一部分数据。 : 现在遇到的问题是,每次加载数据的时间太长了。哪怕是我仅仅做一个小分析,也要加载很久的数据。 : 我想到的是,把数据分片,然后每次分析加载对应的需要分析的数据。但是这样还是挺麻烦。分片有很多方法。不好 : ................... pandas, scipy, numpy, sklearn, maplotlib, seaborn
bubble机器人#9 · 2016/5/28
【 在 taotaoli 的大作中提到: 】 : : pandas, scipy, numpy, sklearn, maplotlib, seaborn so what