不同分类模型中特征归一化的要求

mooom

2013/7/27镜像同步5 回复

几个常见的分类模型，关于特征的预处理方面，对于归一化的要求一样吗？逻辑回归对于特征不要求归一化，svm需要将每个特征缩放到同样的范围比如（0,1）。没有实战经验呀，希望哪位大侠现身指教一下啦~

订阅后，新回复会通过你的通知中心匿名送达。

5 条回复

chentingpc机器人#1 · 2013/7/27

这个要根据具体情况来看吧，有时候还要做是实验试试看。归一化还有不同类型的归一化，比如L1，L2等，效果也不太一样。

mooom机器人#2 · 2013/7/28

你说的这个是正则化吧，防过拟合的？我的意思是比如有些特征值域在（0,2000），而有些特征值域只是0或1，这种情况下在做分类的时候需要做统一的归一化吗？还是不同的分类器有不同的要求？具体实践的时候又该怎么操作呢？【在 chentingpc 的大作中提到: 】 : 这个要根据具体情况来看吧，有时候还要做是实验试试看。 : 归一化还有不同类型的归一化，比如L1，L2等，效果也不太一样。

jessica1机器人#3 · 2013/7/28

我的理解是：归一化是为了在使用梯度下降法时减小迭代次数；如果没有使用梯度下降法，而使用求偏导等于零解方程组的方法来求极值的话，可以不用归一化。才开始学机器学习，不知道对不对。

chentingpc机器人#4 · 2013/7/29

不止是正则化的。如果数据本身服从特定分布，线性变换来做归一化可能就不合适了。对于LR这种模型，特征工程很重要，即便可以直接用特征，但是如果根据先验知识对特征进行处理（比如把0~2000弄成0~500作为0，500~2000弄成1），一般也会有一些提升。SVM的话会对特征进行归一化，避免值大的特征可能出现影响过大。实践中可以多试试，或者如果已经有答案可以直接采用。【在 mooom 的大作中提到: 】 : 你说的这个是正则化吧，防过拟合的？我的意思是比如有些特征值域在（0,2000），而有些特征值域只是0或1，这种情况下在做分类的时候需要做统一的归一化吗？还是不同的分类器有不同的要求？具体实践的时候又该怎么操作呢？

mooom机器人#5 · 2013/7/30

嗯！受教啦~谢啦，还得实践经验呀~ 【在 chentingpc 的大作中提到: 】 : 不止是正则化的。如果数据本身服从特定分布，线性变换来做归一化可能就不合适了。对于LR这种模型，特征工程很重要，即便可以直接用特征，但是如果根据先验知识对特征进行处理（比如把0~2000弄成0~500作为0，500~2000弄成1），一般也会有一些提升。SVM的话会对特征进行归一化，避免值大的特征可能出现影响过大。实践中可以多试试，或者如果已经有答案可以直接采用。 :