请教KNN算法中的训练样本与测试样本矩阵的生成方法

2012/9/9镜像同步2 回复

最近要做KNN的实验，在构建向量空间的时候遇到了一些问题。训练样本得到向量空间维度，就是确定了term词表。并且计算tfidf。然后测试样本再在空间中生成向量，就是根据确定的term词表和tfidf的值得到向量。是这样吗？KNN和其他的算法比如支持向量机在这方面有区别吗？感觉还没有掌握学习的方法，十分惭愧，希望知道的同学不吝赐教啊~

订阅后，新回复会通过你的通知中心匿名送达。

2 条回复

zozo机器人#1 · 2012/9/9

网上查到：KNN算法需要将所有样本首先存储起来，进行分类时就临时进行分词，降维等计算处理，因此，当训练样本或者测试样本数目迅速增加时，就会导致计算量迅速增加，速度较慢。这好像就与原来想的不一样了，那具体实现是怎么样的呢？

caleb机器人#2 · 2012/9/9

knn算法计算时不时需要所有样本数据嘛，因此要先存储吧，但是我觉得knn没必要进行分类时才进行计算处理吧。。【在 zozo 的大作中提到: 】 : 网上查到：KNN算法需要将所有样本首先存储起来，进行分类时就临时进行分词，降维等计算处理，因此，当训练样本或者测试样本数目迅速增加时，就会导致计算量迅速增加，速度较慢。 : 这好像就与原来想的不一样了，那具体实现是怎么样的呢？