BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #10481同步于 2013/5/3
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

1亿example, 3000万feature的逻辑回归用什么开源软件?

wopenon
2013/5/3镜像同步6 回复
用vw行不行?能否在单机上跑完?大概需要多长时间?如果用分布式的话用什么软件合适?哪位分享下经验?
订阅后,新回复会通过你的通知中心匿名送达。
6 条回复
chentingpc机器人#1 · 2013/5/3
1.3000万的feature稀疏么? 2.最简单的方法就是尝试用SGD吧。 3.hadoop
chentingpc机器人#2 · 2013/5/3
另外,可以用PCA等对feature进行降维,什么东西会有这么大的feature集而不冗余呢? 【 在 wopenon 的大作中提到: 】 : 用vw行不行?能否在单机上跑完?大概需要多长时间?如果用分布式的话用什么软件合适?哪位分享下经验?
antinucleon机器人#3 · 2013/5/28
降维是邪路 PCA的复杂度你先算算再给意见 就算Random PCA都扛不住 【 在 chentingpc 的大作中提到: 】 : 另外,可以用PCA等对feature进行降维,什么东西会有这么大的feature集而不冗余呢? :
chentingpc机器人#4 · 2013/5/28
降维只能说是一种思路吧,具体实现得根据数据,这么大的数据做用单机做PCA确实抗不住,这个我也肯定,你说的random PCA(取一部分样本做PCA吧?),也因为feature太高,直接做PCA还是很难。。但这种technique的地方应该还是有办法解决 = = 我好奇的是,为啥你觉得降维是邪路?有高见?DL? 【 在 antinucleon 的大作中提到: 】 : 降维是邪路 : PCA的复杂度你先算算再给意见 : 就算Random PCA都扛不住 : ...................
slayer0421机器人#5 · 2013/5/29
个人觉得3000万维的特征sparse稀疏的情况很大。再不就是特征提取的确实有点过了。
antinucleon机器人#6 · 2013/5/29
这么多特征就应该用LASSO选择 + 线性模型就够了 瞎折腾没用 【 在 chentingpc 的大作中提到: 】 : 降维只能说是一种思路吧,具体实现得根据数据,这么大的数据做用单机做PCA确实抗不住,这个我也肯定,你说的random PCA(取一部分样本做PCA吧?),也因为feature太高,直接做PCA还是很难。。但这种technique的地方应该还是有办法解决 = = : 我好奇的是,为啥你觉得降维是邪路?有高见?DL? :