返回信息流35.25 37.50 45.00 ? 6555600 8.70 1
38.00 28.00 37.50 37.50 7444400 8.76 -2
38.25 38.75 37.25 37.63 7928800 8.79 1
37.75 18.25 37.00 ? 4406400 8.82 0
37.50 ? 37.00 38.00 3643200 8.88 5
37.50 ? 37.00 38.00 3643200 8.88 5
老师布置了个任务要对一个csv文件进行数据预处理。我将文件读成dataframe形式,数据与数据之间用空格分离,这里的“?”指的是空缺值。
我设定数据上界为500,下界为0,任务是要将不满足条件的数据都改为“?”,想问下懂spark的大佬们,这该怎么写。
使用的软件是spark,语言是scala。
//这里写下代码开头
val spark = SparkSession
.builder
.appName("OutlierProcess")
.master("local")
.getOrCreate()
val df = spark.read.format("csv")
.option("sep", " ")
//.option("inferSchema", "true")
.option("nullValue", "?")
//.option("header", true)
.load("D:\\WorkSpace\\database\\data3.csv")
val max = 500
val min = 0
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #34586同步于 2019/6/18
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
【问题】spark数据预处理
Kazuto
2019/6/18镜像同步4 回复
订阅后,新回复会通过你的通知中心匿名送达。
4 条回复