返回信息流1.归一化是对数据进行缩放,使之落到到一个范围,常见的就是将数据缩放到(0, 1)。标准化是把数据调整成均值为0,方差为1的情况。标准化对异常点不敏感,而归一化对异常点敏感。
2.先进行归一化在划分数据集
3.是否要进行归一化或者标准化得看情况,对于树模型来说,不需要进行归一化,因为数值缩放不影响分裂点位置,对树模型不造成影响,没必要归一化。但是对于像lr,knn,svm,神经网络等模型来说是需要的,第一是为了加快收敛速度,第二是保证了不同特征之间具有可比性。
4.对连续型特征进行归一化就好。
5.整体进行归一化。
6.特征名为中文不影响数据的处理吧,实在看不惯的话用pandas处理就好。
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #33515同步于 2019/3/22
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
Re: 【求教】数据预处理相关问题
R0818
2019/3/22镜像同步2 回复
订阅后,新回复会通过你的通知中心匿名送达。
2 条回复
【 在 zjcj 的大作中提到: 】
: 非常感谢你的回复!!不过你的回复里面还有一些不明白的地方,能否再指点一下:
: 1,“标准化对异常点不敏感,而归一化对异常点敏感。” 这个指的是?敏感的话会有什么影响吗?
: 2,先进行归一化,那是对所有数据都进行归一化吗(包括之后要划分为训练、测试集在内的所有数据,也包括要预测的y的真实值)?那标准化呢?也是先整体做标准化再划分测试训练集?
:归一化分母是最大值-最小值,异常值会使归一化后数值分布集中于某一边吧
1. 假如归一化缩放数据到[0,1],比如数据点都集中在[500,600],那只需将[500,600]映射到[0,1]即可。然而如果有个异常点是10000,那就需要将[500,10000]映射在[0,1]了。而标准化只需让数据均值0,方差1即可,想象下标准正态分布,有个别点距离均值很远也是无关紧要的。这就是所谓的敏感不敏感。
2. 是对所有数据的特征归一化,标签不用动啊,跟输出无关的。标准化也一样。
【 在 zjcj 的大作中提到:
: 非常感谢你的回复!!不过你的回复里面还有一些不明白的地方,能否再指点一下:
: 1,“标准化对异常点不敏感,而归一化对异常点敏感。” 这个指的是?敏感的话会有什么影响吗?
: 2,先进行归一化,那是对所有数据都进行归一化吗(包括之后要划分为训练、测试集在内的所有数据,也包括要预测的y的真实值)?那标准化呢?也是先整体做标准化再划分测试训练集?
: ...................