返回信息流问题是这样的,我有一堆数据需要用python进行回归分析。数据总体大约有几百兆吧。我每次分析的步骤都是先从硬盘加载数据到内存,然后从内存中读取需要分析的那一部分数据。
现在遇到的问题是,每次加载数据的时间太长了。哪怕是我仅仅做一个小分析,也要加载很久的数据。
我想到的是,把数据分片,然后每次分析加载对应的需要分析的数据。但是这样还是挺麻烦。分片有很多方法。不好
写出一个通用的文件结构。万一需要的数据分布在分片的每一个文件里,这样还需要遍历所有分片的文件才能把数据找齐。
之前还用过pickle库,整个数据读入以后,在把生成好的数据结构直接写入文件,下次可以直接从文件里面还原一个对象。不知道还有没有更好的方法呢?
这是一条镜像帖。来源:北邮人论坛 / python / #14310同步于 2016/5/28
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
想问一个python数据分析处理的问题
bubble
2016/5/28镜像同步22 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
100M不至于吧?但是你在Python里如何表示数据的?用list吗?
【 在 bubble 的大作中提到: 】
: 问题是这样的,我有一堆数据需要用python进行回归分析。数据总体大约有几百兆吧。我每次分析的步骤都是先从硬盘加载数据到内存,然后从内存中读取需要分析的那一部分数据。
: 现在遇到的问题是,每次加载数据的时间太长了。哪怕是我仅仅做一个小分析,也要加载很久的数据。
: 我想到的是,把数据分片,然后每次分析加载对应的需要分析的数据。但是这样还是挺麻烦。分片有很多方法。不好
: ...................
【 在 nuanyangyang 的大作中提到: 】
: 100M不至于吧?但是你在Python里如何表示数据的?用list吗?
:
用的dict,其实也不是特别久,加载个10秒左右吧,但是每次分析都要加载这几秒就很蛋疼
【 在 bubble 的大作中提到: 】
: 问题是这样的,我有一堆数据需要用python进行回归分析。数据总体大约有几百兆吧。我每次分析的步骤都是先从硬盘加载数据到内存,然后从内存中读取需要分析的那一部分数据。
: 现在遇到的问题是,每次加载数据的时间太长了。哪怕是我仅仅做一个小分析,也要加载很久的数据。
: 我想到的是,把数据分片,然后每次分析加载对应的需要分析的数据。但是这样还是挺麻烦。分片有很多方法。不好
: ...................
pandas, scipy, numpy, sklearn, maplotlib, seaborn
【 在 taotaoli 的大作中提到: 】
:
: pandas, scipy, numpy, sklearn, maplotlib, seaborn
so what