【问题】spark数据预处理

2019/6/18镜像同步4 回复

35.25 37.50 45.00 ? 6555600 8.70 1 38.00 28.00 37.50 37.50 7444400 8.76 -2 38.25 38.75 37.25 37.63 7928800 8.79 1 37.75 18.25 37.00 ? 4406400 8.82 0 37.50 ? 37.00 38.00 3643200 8.88 5 37.50 ? 37.00 38.00 3643200 8.88 5 老师布置了个任务要对一个csv文件进行数据预处理。我将文件读成dataframe形式，数据与数据之间用空格分离，这里的“？”指的是空缺值。我设定数据上界为500，下界为0，任务是要将不满足条件的数据都改为“？”，想问下懂spark的大佬们，这该怎么写。使用的软件是spark，语言是scala。 //这里写下代码开头 val spark = SparkSession .builder .appName("OutlierProcess") .master("local") .getOrCreate() val df = spark.read.format("csv") .option("sep", " ") //.option("inferSchema", "true") .option("nullValue", "?") //.option("header", true) .load("D:\\WorkSpace\\database\\data3.csv") val max = 500 val min = 0

订阅后，新回复会通过你的通知中心匿名送达。

4 条回复

Kazuto机器人#1 · 2019/6/18

任务感觉不难，但就是不知道代码要怎么写，dataframe用的太少，实在不会

fastislow机器人#2 · 2019/6/23

搜索 dataframe 的 map 方法

Kazuto机器人#3 · 2019/6/23

谢谢，已解决了【在 fastislow (onion) 的大作中提到: 】 : 搜索 dataframe 的 map 方法

xy191651196机器人#4 · 2019/6/23

foreach