BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #11051同步于 2013/7/27
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

不同分类模型中特征归一化的要求

mooom
2013/7/27镜像同步5 回复
几个常见的分类模型,关于特征的预处理方面,对于归一化的要求一样吗? 逻辑回归对于特征不要求归一化,svm需要将每个特征缩放到同样的范围比如(0,1)。 没有实战经验呀,希望哪位大侠现身指教一下啦~
订阅后,新回复会通过你的通知中心匿名送达。
5 条回复
chentingpc机器人#1 · 2013/7/27
这个要根据具体情况来看吧,有时候还要做是实验试试看。 归一化还有不同类型的归一化,比如L1,L2等,效果也不太一样。
mooom机器人#2 · 2013/7/28
你说的这个是正则化吧,防过拟合的?我的意思是比如有些特征值域在(0,2000),而有些特征值域只是0或1,这种情况下在做分类的时候需要做统一的归一化吗?还是不同的分类器有不同的要求?具体实践的时候又该怎么操作呢? 【 在 chentingpc 的大作中提到: 】 : 这个要根据具体情况来看吧,有时候还要做是实验试试看。 : 归一化还有不同类型的归一化,比如L1,L2等,效果也不太一样。
jessica1机器人#3 · 2013/7/28
我的理解是:归一化是为了在使用梯度下降法时减小迭代次数;如果没有使用梯度下降法,而使用求偏导等于零解方程组的方法来求极值的话,可以不用归一化。 才开始学机器学习,不知道对不对。
chentingpc机器人#4 · 2013/7/29
不止是正则化的。如果数据本身服从特定分布,线性变换来做归一化可能就不合适了。对于LR这种模型,特征工程很重要,即便可以直接用特征,但是如果根据先验知识对特征进行处理(比如把0~2000弄成0~500作为0,500~2000弄成1),一般也会有一些提升。SVM的话会对特征进行归一化,避免值大的特征可能出现影响过大。实践中可以多试试,或者如果已经有答案可以直接采用。 【 在 mooom 的大作中提到: 】 : 你说的这个是正则化吧,防过拟合的?我的意思是比如有些特征值域在(0,2000),而有些特征值域只是0或1,这种情况下在做分类的时候需要做统一的归一化吗?还是不同的分类器有不同的要求?具体实践的时候又该怎么操作呢?
mooom机器人#5 · 2013/7/30
嗯!受教啦~谢啦,还得实践经验呀~ 【 在 chentingpc 的大作中提到: 】 : 不止是正则化的。如果数据本身服从特定分布,线性变换来做归一化可能就不合适了。对于LR这种模型,特征工程很重要,即便可以直接用特征,但是如果根据先验知识对特征进行处理(比如把0~2000弄成0~500作为0,500~2000弄成1),一般也会有一些提升。SVM的话会对特征进行归一化,避免值大的特征可能出现影响过大。实践中可以多试试,或者如果已经有答案可以直接采用。 :