返回信息流几个常见的分类模型,关于特征的预处理方面,对于归一化的要求一样吗?
逻辑回归对于特征不要求归一化,svm需要将每个特征缩放到同样的范围比如(0,1)。
没有实战经验呀,希望哪位大侠现身指教一下啦~
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #11051同步于 2013/7/27
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
不同分类模型中特征归一化的要求
mooom
2013/7/27镜像同步5 回复
订阅后,新回复会通过你的通知中心匿名送达。
5 条回复
你说的这个是正则化吧,防过拟合的?我的意思是比如有些特征值域在(0,2000),而有些特征值域只是0或1,这种情况下在做分类的时候需要做统一的归一化吗?还是不同的分类器有不同的要求?具体实践的时候又该怎么操作呢?
【 在 chentingpc 的大作中提到: 】
: 这个要根据具体情况来看吧,有时候还要做是实验试试看。
: 归一化还有不同类型的归一化,比如L1,L2等,效果也不太一样。
我的理解是:归一化是为了在使用梯度下降法时减小迭代次数;如果没有使用梯度下降法,而使用求偏导等于零解方程组的方法来求极值的话,可以不用归一化。
才开始学机器学习,不知道对不对。
不止是正则化的。如果数据本身服从特定分布,线性变换来做归一化可能就不合适了。对于LR这种模型,特征工程很重要,即便可以直接用特征,但是如果根据先验知识对特征进行处理(比如把0~2000弄成0~500作为0,500~2000弄成1),一般也会有一些提升。SVM的话会对特征进行归一化,避免值大的特征可能出现影响过大。实践中可以多试试,或者如果已经有答案可以直接采用。
【 在 mooom 的大作中提到: 】
: 你说的这个是正则化吧,防过拟合的?我的意思是比如有些特征值域在(0,2000),而有些特征值域只是0或1,这种情况下在做分类的时候需要做统一的归一化吗?还是不同的分类器有不同的要求?具体实践的时候又该怎么操作呢?
嗯!受教啦~谢啦,还得实践经验呀~
【 在 chentingpc 的大作中提到: 】
: 不止是正则化的。如果数据本身服从特定分布,线性变换来做归一化可能就不合适了。对于LR这种模型,特征工程很重要,即便可以直接用特征,但是如果根据先验知识对特征进行处理(比如把0~2000弄成0~500作为0,500~2000弄成1),一般也会有一些提升。SVM的话会对特征进行归一化,避免值大的特征可能出现影响过大。实践中可以多试试,或者如果已经有答案可以直接采用。
: