返回信息流今天用sklearn的svm.svc训练模型,fit的时候出现了MemoryError。
由于数据比较稀疏,改用了linearsvc,不会出现这种错误了,训练的也比较快。
但是考虑到这种情况,如果数据集比较大,没办法一次读入内存或者一次训练完成的话,sklearn有没有提供分批读入并训练的方式呢?
还请大神赐教。
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #17463同步于 2015/11/30
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
关于sklearn的问题
lzc6996
2015/11/30镜像同步6 回复
订阅后,新回复会通过你的通知中心匿名送达。
6 条回复
http://scikit-learn.org/stable/modules/scaling_strategies.html
某些算法支持warm_start参数,比如SGDClassifier,翻一下API吧。
谢谢~看了一下文档,只有十分有限的几个模型支持这样的方式。
那对于这种情况,如果想用其他的模型,是不是sklearn就力不从心了?
【 在 zzq 的大作中提到: 】
: http://scikit-learn.org/stable/modules/scaling_strategies.html
: 某些算法支持warm_start参数,比如SGDClassifier,翻一下API吧。
试试liblinear吧 对于高维特征,很有效
【 在 lzc6996 的大作中提到: 】
: 谢谢~看了一下文档,只有十分有限的几个模型支持这样的方式。
: 那对于这种情况,如果想用其他的模型,是不是sklearn就力不从心了?
: 【 在 zzq 的大作中提到: 】
: : http://s
: .........
发自「贵邮」
其实并不是所有模型都支持你希望的这种增量学习,比如决策树。。
可以考虑一下抽样部分样本进行训练,然后做一下ensemble。
【 在 lzc6996 的大作中提到: 】
: 谢谢~看了一下文档,只有十分有限的几个模型支持这样的方式。
: 那对于这种情况,如果想用其他的模型,是不是sklearn就力不从心了?