Re: 【求教】数据预处理相关问题

2019/3/22镜像同步2 回复

1.归一化是对数据进行缩放，使之落到到一个范围，常见的就是将数据缩放到(0, 1)。标准化是把数据调整成均值为0，方差为1的情况。标准化对异常点不敏感，而归一化对异常点敏感。 2.先进行归一化在划分数据集 3.是否要进行归一化或者标准化得看情况，对于树模型来说，不需要进行归一化，因为数值缩放不影响分裂点位置，对树模型不造成影响，没必要归一化。但是对于像lr，knn，svm，神经网络等模型来说是需要的，第一是为了加快收敛速度，第二是保证了不同特征之间具有可比性。 4.对连续型特征进行归一化就好。 5.整体进行归一化。 6.特征名为中文不影响数据的处理吧，实在看不惯的话用pandas处理就好。

订阅后，新回复会通过你的通知中心匿名送达。

2 条回复

Icerblue机器人#1 · 2019/5/14

【在 zjcj 的大作中提到: 】 : 非常感谢你的回复！！不过你的回复里面还有一些不明白的地方，能否再指点一下： : 1，“标准化对异常点不敏感，而归一化对异常点敏感。” 这个指的是？敏感的话会有什么影响吗？ : 2，先进行归一化，那是对所有数据都进行归一化吗（包括之后要划分为训练、测试集在内的所有数据，也包括要预测的y的真实值）？那标准化呢？也是先整体做标准化再划分测试训练集？ :归一化分母是最大值-最小值，异常值会使归一化后数值分布集中于某一边吧

chuanshanjia机器人#2 · 2019/5/14

1. 假如归一化缩放数据到[0,1]，比如数据点都集中在[500，600]，那只需将[500，600]映射到[0,1]即可。然而如果有个异常点是10000，那就需要将[500,10000]映射在[0,1]了。而标准化只需让数据均值0，方差1即可，想象下标准正态分布，有个别点距离均值很远也是无关紧要的。这就是所谓的敏感不敏感。 2. 是对所有数据的特征归一化，标签不用动啊，跟输出无关的。标准化也一样。【在 zjcj 的大作中提到: : 非常感谢你的回复！！不过你的回复里面还有一些不明白的地方，能否再指点一下： : 1，“标准化对异常点不敏感，而归一化对异常点敏感。” 这个指的是？敏感的话会有什么影响吗？ : 2，先进行归一化，那是对所有数据都进行归一化吗（包括之后要划分为训练、测试集在内的所有数据，也包括要预测的y的真实值）？那标准化呢？也是先整体做标准化再划分测试训练集？ : ...................