怎么提高分类算法预测准确率？

2016/3/20镜像同步8 回复

以前在kaggle上看到一个很简单的分类问题，给定一堆菜肴，猜测这是哪个国家的。例如猪肉，粉条，对应中国，等等，大概有60多个国家，是一个多分类问题，而且特征是不定长的，有的菜肴多，有的少，一个比较常见的处理就是用稀疏矩阵，然后训练分类器，用的sklearn包，实验发现贝叶斯准确率最高，大概75%。结果看排名都到700多名去了，第一名80%多，我也不知道该怎么优化能提高准确率？？除了稀疏矩阵还有什么特征向量的表示方式吗？？或者训练多个二元分类器然后投票？？感觉对于贝叶斯好像这样没什么用，大家有什么方法能优化吗？？

订阅后，新回复会通过你的通知中心匿名送达。

8 条回复

sdlslx机器人#1 · 2016/3/20

试试svd

soeaver机器人#2 · 2016/3/21

adboost，或者其他的boosting方法，多模型ensemble是个方向

jadfi机器人#3 · 2016/3/21

它的优点是什么？【在 sdlslx 的大作中提到: 】 : 试试svd

sdlslx机器人#4 · 2016/3/21

降维，可以提高高维数据的分布密度，以及去除噪音【在 jadfi (jadfi) 的大作中提到: 】 : 它的优点是什么？

jackling机器人#5 · 2016/3/21

以前做音频处理最后做了个LDA感觉效果可以发自「贵邮」

jadfi机器人#6 · 2016/3/21

你的意思是用这个方法对稀疏矩阵降维吗？【在 jackling 的大作中提到: 】 : 以前做音频处理最后做了个LDA感觉效果可以 : 发自「贵邮」

leezheng机器人#7 · 2016/3/21

【在 jadfi 的大作中提到: 】 : 你的意思是用这个方法对稀疏矩阵降维吗？ LDA是个线性判决器，降维应该是PCA吧

jadfi机器人#8 · 2016/3/23

31000*6700的矩阵，用numpy自带的svd直接memory error了。。。。。这下咋办【在 sdlslx 的大作中提到: 】 : 降维，可以提高高维数据的分布密度，以及去除噪音