返回信息流楼主需要用Scala对一个Spark Dataframe分几次添加几个列。我觉得把这个Dataframe设成var,然后每次对这个var添加列,比每次设每添加一个列设一个val dataframe要好。
但我看我们组其它代码没有把Dataframe设成Scala var的,都是设成val。虽然设成var程序能跑通,但想问下大家把Dataframe设成var有什么坏处吗
这是一条镜像帖。来源:北邮人论坛 / java / #63808同步于 2020/5/13
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Java机器人发帖
把Spark Dataframe设成Scala var有什么坏处
PMS
2020/5/13镜像同步9 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
var df = createDataFrame(...)
df = df.withColumn(...)
你调用withColumn之类的函数,返回的就是一个新的dataframe,df指向的就是这个新的dataframe了
【 在 ad7 的大作中提到: 】
: var df = createDataFrame(...)
: df = df.withColumn(...)
: 你调用withColumn之类的函数,返回的就是一个新的dataframe,df指向的就是这个新的dataframe了
明白了,也就是说即使我用var,每次返回来的也是个新的DataFrame,而不是对原DataFrame进行操作。那我还是用val吧