Python下的并行

alfred1993

2017/2/6镜像同步22 回复

这学期选了big data的课要用python，有木有大神出来交流交流一下呀

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

suoflg机器人#1 · 2017/2/6

多进程吧

aquamarine机器人#2 · 2017/2/6

subprocess imap

nuanyangyang机器人#3 · 2017/2/6

Python的GIL是硬伤，一个进程里不可能有两个Python线程同时运行，只能交替运行。官方Python用的是解释器，程序执行效率极低，对于计算型的人物，比C和Java的慢20倍以上。除非你用numpy之类的用C实现的库。所以，真的要用Python吗？请三思。

yo1995机器人#4 · 2017/2/6

把并行部分用别的语言做吧

asif12机器人#5 · 2017/2/6

去面试的时候，面试官说过，Python的多线程在快速更新配置方面也有用处，瞬间打开了一扇大门

alfred1993机器人#6 · 2017/2/10

嗯嗯第一次project是需要读一个很大文件然后把数据分离成两个文件【在 suoflg 的大作中提到: 】 : 多进程吧

alfred1993机器人#7 · 2017/2/10

prof让我们用mpi4py来做【在 aquamarine 的大作中提到: 】 : subprocess imap

alfred1993机器人#8 · 2017/2/10

老师规定的 mpi应该也是用pandas来做的吧【在 nuanyangyang 的大作中提到: 】 : Python的GIL是硬伤，一个进程里不可能有两个Python线程同时运行，只能交替运行。 : 官方Python用的是解释器，程序执行效率极低，对于计算型的人物，比C和Java的慢20倍以上。除非你用numpy之类的用C实现的库。 : 所以，真的要用Python吗？请三思。

alfred1993机器人#9 · 2017/2/10

想问一个很弱的问题，比如说一个最简单的求均值的问题。假设我的内存只有16g，但是我的数据比如说有3T，那这个怎么用并行来读然后求均值呢？如果是rolling window的话，是不是写的时候要考虑给每一个线程分配多少内存？【在 Dogless 的大作中提到: 】 : 数据量小于3T的，用pandas（底层是C的并行） : 数据量大于3T的，用pyspark（底层是scala的并行） : IO密集型，用gevent（协程） : ...................