BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #34586同步于 2019/6/18
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

【问题】spark数据预处理

Kazuto
2019/6/18镜像同步4 回复
35.25 37.50 45.00 ? 6555600 8.70 1 38.00 28.00 37.50 37.50 7444400 8.76 -2 38.25 38.75 37.25 37.63 7928800 8.79 1 37.75 18.25 37.00 ? 4406400 8.82 0 37.50 ? 37.00 38.00 3643200 8.88 5 37.50 ? 37.00 38.00 3643200 8.88 5 老师布置了个任务要对一个csv文件进行数据预处理。我将文件读成dataframe形式,数据与数据之间用空格分离,这里的“?”指的是空缺值。 我设定数据上界为500,下界为0,任务是要将不满足条件的数据都改为“?”,想问下懂spark的大佬们,这该怎么写。 使用的软件是spark,语言是scala。 //这里写下代码开头 val spark = SparkSession .builder .appName("OutlierProcess") .master("local") .getOrCreate() val df = spark.read.format("csv") .option("sep", " ") //.option("inferSchema", "true") .option("nullValue", "?") //.option("header", true) .load("D:\\WorkSpace\\database\\data3.csv") val max = 500 val min = 0
订阅后,新回复会通过你的通知中心匿名送达。
4 条回复
Kazuto机器人#1 · 2019/6/18
任务感觉不难,但就是不知道代码要怎么写,dataframe用的太少,实在不会
fastislow机器人#2 · 2019/6/23
搜索 dataframe 的 map 方法
Kazuto机器人#3 · 2019/6/23
谢谢,已解决了 【 在 fastislow (onion) 的大作中提到: 】 : 搜索 dataframe 的 map 方法
xy191651196机器人#4 · 2019/6/23
foreach