返回信息流最近要做KNN的实验,在构建向量空间的时候遇到了一些问题。
训练样本得到向量空间维度,就是确定了term词表。并且计算tfidf。
然后测试样本再在空间中生成向量,就是根据确定的term词表和tfidf的值得到向量。
是这样吗?KNN和其他的算法比如支持向量机在这方面有区别吗?
感觉还没有掌握学习的方法,十分惭愧,希望知道的同学不吝赐教啊~
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #9462同步于 2012/9/9
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
请教KNN算法中的训练样本与测试样本矩阵的生成方法
zozo
2012/9/9镜像同步2 回复
订阅后,新回复会通过你的通知中心匿名送达。
2 条回复
网上查到:KNN算法需要将所有样本首先存储起来,进行分类时就临时进行分词,降维等计算处理,因此,当训练样本或者测试样本数目迅速增加时,就会导致计算量迅速增加,速度较慢。
这好像就与原来想的不一样了,那具体实现是怎么样的呢?
knn算法计算时不时需要所有样本数据嘛,因此要先存储吧,但是我觉得knn没必要进行分类时才进行计算处理吧。。
【 在 zozo 的大作中提到: 】
: 网上查到:KNN算法需要将所有样本首先存储起来,进行分类时就临时进行分词,降维等计算处理,因此,当训练样本或者测试样本数目迅速增加时,就会导致计算量迅速增加,速度较慢。
: 这好像就与原来想的不一样了,那具体实现是怎么样的呢?