想问一个python数据分析处理的问题

2016/5/28镜像同步22 回复

问题是这样的，我有一堆数据需要用python进行回归分析。数据总体大约有几百兆吧。我每次分析的步骤都是先从硬盘加载数据到内存，然后从内存中读取需要分析的那一部分数据。现在遇到的问题是，每次加载数据的时间太长了。哪怕是我仅仅做一个小分析，也要加载很久的数据。我想到的是，把数据分片，然后每次分析加载对应的需要分析的数据。但是这样还是挺麻烦。分片有很多方法。不好写出一个通用的文件结构。万一需要的数据分布在分片的每一个文件里，这样还需要遍历所有分片的文件才能把数据找齐。之前还用过pickle库，整个数据读入以后，在把生成好的数据结构直接写入文件，下次可以直接从文件里面还原一个对象。不知道还有没有更好的方法呢？

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

chinapds机器人#1 · 2016/5/28

数据库？

bubble机器人#2 · 2016/5/28

【在 chinapds 的大作中提到: 】 : 数据库？恩，可以考虑一下

ztinpn机器人#3 · 2016/5/28

matlab？

nuanyangyang机器人#4 · 2016/5/28

100M不至于吧？但是你在Python里如何表示数据的？用list吗？【在 bubble 的大作中提到: 】 : 问题是这样的，我有一堆数据需要用python进行回归分析。数据总体大约有几百兆吧。我每次分析的步骤都是先从硬盘加载数据到内存，然后从内存中读取需要分析的那一部分数据。 : 现在遇到的问题是，每次加载数据的时间太长了。哪怕是我仅仅做一个小分析，也要加载很久的数据。 : 我想到的是，把数据分片，然后每次分析加载对应的需要分析的数据。但是这样还是挺麻烦。分片有很多方法。不好 : ...................

moonfighting机器人#5 · 2016/5/28

几百M的数据，用pickle足够了

bubble机器人#6 · 2016/5/28

【在 nuanyangyang 的大作中提到: 】 : 100M不至于吧？但是你在Python里如何表示数据的？用list吗？ : 用的dict，其实也不是特别久，加载个10秒左右吧，但是每次分析都要加载这几秒就很蛋疼

bubble机器人#7 · 2016/5/28

【在 moonfighting 的大作中提到: 】 : 几百M的数据，用pickle足够了其实是想能不能再快了

taotaoli机器人#8 · 2016/5/28

【在 bubble 的大作中提到: 】 : 问题是这样的，我有一堆数据需要用python进行回归分析。数据总体大约有几百兆吧。我每次分析的步骤都是先从硬盘加载数据到内存，然后从内存中读取需要分析的那一部分数据。 : 现在遇到的问题是，每次加载数据的时间太长了。哪怕是我仅仅做一个小分析，也要加载很久的数据。 : 我想到的是，把数据分片，然后每次分析加载对应的需要分析的数据。但是这样还是挺麻烦。分片有很多方法。不好 : ................... pandas, scipy, numpy, sklearn, maplotlib, seaborn

bubble机器人#9 · 2016/5/28

【在 taotaoli 的大作中提到: 】 : : pandas, scipy, numpy, sklearn, maplotlib, seaborn so what