BYR Achieve · 镜像论坛

Spark 的binaryFile 撑爆内存

2020/3/4镜像同步15 回复

我用spark的binaryFile读取一个16g的.zip压缩包(解压缩后160G)，我分配了28g的executor，结果在binarFile这个job就显示内存不够用了。我想不明白为什么 ---------------------------- 更新：我刚才去查了下日志，是一个executor挂掉后被remove,然后加上另一个executor，又Out-of-memory挂掉，又remove,又Out-of-memory挂掉，又remove... 简直是葫芦娃救爷爷，一个一个送啊错误信息是： java.lang.OutOfMemoryError at java.io.ByteArrayOutputStream.hugeCapacity(ByteArrayOutputStream.java:123) at java.io.ByteArrayOutputStream.grow(ByteArrayOutputStream.java:117) at java.io.ByteArrayOutputStream.ensureCapacity(ByteArrayOutputStream.java:93) at java.io.ByteArrayOutputStream.write(ByteArrayOutputStream.java:153) at org.spark_project.guava.io.ByteStreams.copy(ByteStreams.java:211) at org.spark_project.guava.io.ByteStreams.toByteArray(ByteStreams.java:252) at org.apache.spark.input.PortableDataStream.toArray(PortableDataStream.scala:193) at org.apache.spark.api.python.PythonRDD$.org$apache$spark$api$python$PythonRDD$write$1(PythonRDD.scala:216) at org.apache.spark.api.python.PythonRDD$anonfun$writeIteratorToStream$1.apply(PythonRDD.scala:224) at org.apache.spark.api.python.PythonRDD$anonfun$writeIteratorToStream$1.apply(PythonRDD.scala:224) at scala.collection.Iterator$class.foreach(Iterator.scala:891) at org.apache.spark.InterruptibleIterator.foreach(InterruptibleIterator.scala:28) at org.apache.spark.api.python.PythonRDD$.writeIteratorToStream(PythonRDD.scala:224) at org.apache.spark.api.python.PythonRunner$anon$2.writeIteratorToStream(PythonRunner.scala:557) at org.apache.spark.api.python.BasePythonRunner$WriterThread$anonfun$run$1.apply(PythonRunner.scala:345) at org.apache.spark.util.Utils$.logUncaughtExceptions(Utils.scala:1990) at org.apache.spark.api.python.BasePythonRunner$WriterThread.run(PythonRunner.scala:194)

订阅后，新回复会通过你的通知中心匿名送达。