返回信息流这学期选了big data的课 要用python,有木有大神出来交流交流一下呀
这是一条镜像帖。来源:北邮人论坛 / python / #17243同步于 2017/2/6
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
Python下的并行
alfred1993
2017/2/6镜像同步22 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
Python的GIL是硬伤,一个进程里不可能有两个Python线程同时运行,只能交替运行。
官方Python用的是解释器,程序执行效率极低,对于计算型的人物,比C和Java的慢20倍以上。除非你用numpy之类的用C实现的库。
所以,真的要用Python吗?请三思。
老师规定的 mpi应该也是用pandas来做的吧
【 在 nuanyangyang 的大作中提到: 】
: Python的GIL是硬伤,一个进程里不可能有两个Python线程同时运行,只能交替运行。
: 官方Python用的是解释器,程序执行效率极低,对于计算型的人物,比C和Java的慢20倍以上。除非你用numpy之类的用C实现的库。
: 所以,真的要用Python吗?请三思。
想问一个很弱的问题,比如说一个最简单的求均值的问题。假设我的内存只有16g,但是我的数据比如说有3T,那这个怎么用并行来读然后求均值呢?如果是rolling window的话,是不是写的时候要考虑给每一个线程分配多少内存?
【 在 Dogless 的大作中提到: 】
: 数据量小于3T的,用pandas(底层是C的并行)
: 数据量大于3T的,用pyspark(底层是scala的并行)
: IO密集型,用gevent(协程)
: ...................