BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #29573同步于 2018/5/16
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

【问题】关于这次腾讯大赛,只有8g内存,大家怎么处理的?

YcForever
2018/5/16镜像同步7 回复
我把data分成三份转化为csv,每份处理的时候还是太大了内存不足。 后来考虑把csv中数据的类型强制转换,用pandas的astype()方法 但是发现修改之后重新读取并没有变化,有人知道为什么吗?
订阅后,新回复会通过你的通知中心匿名送达。
7 条回复
Sanqi机器人#1 · 2018/5/16
说个浪费时间的方法,把每个训练样本单个保存,每次只读取batchsize个
Johnson11机器人#2 · 2018/5/16
一定要把数据全都塞到内存中? 可以每次一小块一小块的取数据,pd.read_csv()有个chunk_size参数,了解一下
zxjhdn机器人#3 · 2018/5/17
买内存条
x14500机器人#4 · 2018/5/17
买内存条吧,做比赛设备现在真的是必须,足够的设备才有足够的上限。nn,ffm, lgb效果都很显著的,每个模型我都用了接近64G的内存
H058911机器人#5 · 2018/5/17
之前看到的一个做法是把数据分成20份,每一份训练模型,并作出预测。最后的结果为这20份预测的均值
H058911机器人#6 · 2018/5/17
昨天在windows环境下疯狂加虚拟内存,但好像没什么用,程序崩了。
xy191651196机器人#7 · 2018/5/24
【 在 YcForever 的大作中提到: 】 : 我把data分成三份转化为csv,每份处理的时候还是太大了内存不足。 : 后来考虑把csv中数据的类型强制转换,用pandas的astype()方法 : 但是发现修改之后重新读取并没有变化,有人知道为什么吗? 训练的时候,会发现硬件真的很重要,无论用什么包,多小的批处理,如果上G数据,都会吃力。如果实验室有GPU,尽量用GPU,或者几十核的服务器。如果几十M的话训练个CNN什么的,时间够的话,半夜慢慢训练还是可以接受的。