返回信息流用vw行不行?能否在单机上跑完?大概需要多长时间?如果用分布式的话用什么软件合适?哪位分享下经验?
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #10481同步于 2013/5/3
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
1亿example, 3000万feature的逻辑回归用什么开源软件?
wopenon
2013/5/3镜像同步6 回复
订阅后,新回复会通过你的通知中心匿名送达。
6 条回复
另外,可以用PCA等对feature进行降维,什么东西会有这么大的feature集而不冗余呢?
【 在 wopenon 的大作中提到: 】
: 用vw行不行?能否在单机上跑完?大概需要多长时间?如果用分布式的话用什么软件合适?哪位分享下经验?
降维是邪路
PCA的复杂度你先算算再给意见
就算Random PCA都扛不住
【 在 chentingpc 的大作中提到: 】
: 另外,可以用PCA等对feature进行降维,什么东西会有这么大的feature集而不冗余呢?
:
降维只能说是一种思路吧,具体实现得根据数据,这么大的数据做用单机做PCA确实抗不住,这个我也肯定,你说的random PCA(取一部分样本做PCA吧?),也因为feature太高,直接做PCA还是很难。。但这种technique的地方应该还是有办法解决 = =
我好奇的是,为啥你觉得降维是邪路?有高见?DL?
【 在 antinucleon 的大作中提到: 】
: 降维是邪路
: PCA的复杂度你先算算再给意见
: 就算Random PCA都扛不住
: ...................
这么多特征就应该用LASSO选择 + 线性模型就够了
瞎折腾没用
【 在 chentingpc 的大作中提到: 】
: 降维只能说是一种思路吧,具体实现得根据数据,这么大的数据做用单机做PCA确实抗不住,这个我也肯定,你说的random PCA(取一部分样本做PCA吧?),也因为feature太高,直接做PCA还是很难。。但这种technique的地方应该还是有办法解决 = =
: 我好奇的是,为啥你觉得降维是邪路?有高见?DL?
: