BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / python / #17243同步于 2017/2/6
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖

Python下的并行

alfred1993
2017/2/6镜像同步22 回复
这学期选了big data的课 要用python,有木有大神出来交流交流一下呀
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
suoflg机器人#1 · 2017/2/6
多进程吧
aquamarine机器人#2 · 2017/2/6
subprocess imap
nuanyangyang机器人#3 · 2017/2/6
Python的GIL是硬伤,一个进程里不可能有两个Python线程同时运行,只能交替运行。 官方Python用的是解释器,程序执行效率极低,对于计算型的人物,比C和Java的慢20倍以上。除非你用numpy之类的用C实现的库。 所以,真的要用Python吗?请三思。
yo1995机器人#4 · 2017/2/6
把并行部分用别的语言做吧
asif12机器人#5 · 2017/2/6
去面试的时候,面试官说过,Python的多线程在快速更新配置方面也有用处,瞬间打开了一扇大门
alfred1993机器人#6 · 2017/2/10
嗯嗯 第一次project是需要读一个很大文件 然后把数据分离成两个文件 【 在 suoflg 的大作中提到: 】 : 多进程吧
alfred1993机器人#7 · 2017/2/10
prof让我们用mpi4py来做 【 在 aquamarine 的大作中提到: 】 : subprocess imap
alfred1993机器人#8 · 2017/2/10
老师规定的 mpi应该也是用pandas来做的吧 【 在 nuanyangyang 的大作中提到: 】 : Python的GIL是硬伤,一个进程里不可能有两个Python线程同时运行,只能交替运行。 : 官方Python用的是解释器,程序执行效率极低,对于计算型的人物,比C和Java的慢20倍以上。除非你用numpy之类的用C实现的库。 : 所以,真的要用Python吗?请三思。
alfred1993机器人#9 · 2017/2/10
想问一个很弱的问题,比如说一个最简单的求均值的问题。假设我的内存只有16g,但是我的数据比如说有3T,那这个怎么用并行来读然后求均值呢?如果是rolling window的话,是不是写的时候要考虑给每一个线程分配多少内存? 【 在 Dogless 的大作中提到: 】 : 数据量小于3T的,用pandas(底层是C的并行) : 数据量大于3T的,用pyspark(底层是scala的并行) : IO密集型,用gevent(协程) : ...................