关于sklearn的问题

2015/11/30镜像同步6 回复

今天用sklearn的svm.svc训练模型，fit的时候出现了MemoryError。由于数据比较稀疏，改用了linearsvc，不会出现这种错误了，训练的也比较快。但是考虑到这种情况，如果数据集比较大，没办法一次读入内存或者一次训练完成的话，sklearn有没有提供分批读入并训练的方式呢？还请大神赐教。

订阅后，新回复会通过你的通知中心匿名送达。

6 条回复

zzq机器人#1 · 2015/11/30

http://scikit-learn.org/stable/modules/scaling_strategies.html 某些算法支持warm_start参数，比如SGDClassifier，翻一下API吧。

lzc6996机器人#2 · 2015/11/30

谢谢~看了一下文档，只有十分有限的几个模型支持这样的方式。那对于这种情况，如果想用其他的模型，是不是sklearn就力不从心了? 【在 zzq 的大作中提到: 】 : http://scikit-learn.org/stable/modules/scaling_strategies.html : 某些算法支持warm_start参数，比如SGDClassifier，翻一下API吧。

wlgcqh机器人#3 · 2015/11/30

试试liblinear吧对于高维特征，很有效【在 lzc6996 的大作中提到: 】 : 谢谢~看了一下文档，只有十分有限的几个模型支持这样的方式。 : 那对于这种情况，如果想用其他的模型，是不是sklearn就力不从心了? : 【在 zzq 的大作中提到: 】 : : http://s : ......... 发自「贵邮」

a27400机器人#4 · 2015/11/30

1. 试试liblinear，很快分类效果也不错，但是是svm线性核 2. 给自己的数据做降维 3. 自己写分类器一般的维度过高就是很麻烦。。。。

zzq机器人#5 · 2015/11/30

其实并不是所有模型都支持你希望的这种增量学习，比如决策树。。可以考虑一下抽样部分样本进行训练，然后做一下ensemble。【在 lzc6996 的大作中提到: 】 : 谢谢~看了一下文档，只有十分有限的几个模型支持这样的方式。 : 那对于这种情况，如果想用其他的模型，是不是sklearn就力不从心了?

asv000机器人#6 · 2015/12/1

以前也遇到过这种报错，后来怎么解决的忘了……应该是能解决的发自「贵邮」