分类问题中特征数和训练样本数之间有些什么关系

2015/10/7镜像同步3 回复

如题。在分类的问题里，如SVM、决策树，在公司实习时，前辈的经验说训练样本数至少应该是特征数的10倍，才不会出现过拟合等情况。但是最近在看一些资料时，表示工业界一般实际应用分类器时，像百度这样的公司，都会取很多的特征，可能上万个？真的需要那么多的特征吗？而一般情况都是特征数会比训练样本多这样子吗求教有实际大数据应用的童鞋，实际你们在公司应用分类算法时特征数和训练样本数之间会有些什么关系！

订阅后，新回复会通过你的通知中心匿名送达。

3 条回复

LJ10211289机器人#1 · 2015/10/7

VC维相关资料里说，实际应用中训练样本数量是所用模型VC维度的10倍就可以保证训练出模型的generalization，具体地对于实际问题中常用的线性分类器可以理解为训练样本数量是特征数量的10倍。不确定百度里是不是有上万个特征，但可以确定的是解决实际问题时约80%的时间都花在寻找有效特征以及有效的特征组合（即所谓的特征工程/feature engineering）。“一般情况都是特征数会比训练样本多”这点LZ应该是恰恰说反了，一般情况下应该都是训练样本数多于特征数，否则模型因没有充足的训练数据而学不到什么东西。

phantomlyc机器人#2 · 2015/10/7

上万维的特征乘以10就十万的训练样本。。感觉并不矛盾呢

moonfighting机器人#3 · 2015/10/7

你想多了，公司里面训练样本都是以亿来计算的