返回信息流有一个任务,数据集有300W,一台计算机跑起来太慢了。需要分布式。
如果用多台电脑实现分布式,采用异步训练,数据应该怎么处理呢?
是手动把数据集切成独立的几份放在每台电脑上,还是只要在主计算服务器上放好数据集就可以呢?是否对数据格式有要求,必须用tfrecord吗?
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #28565同步于 2018/3/19
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
【问题】tensorflow分布式数据读取问题
Cauchyzhou
2018/3/19镜像同步3 回复
订阅后,新回复会通过你的通知中心匿名送达。
3 条回复
没明白。。。
哪里的tutorial?我看分布式那块都直接用的tf自带的MNIST
【 在 jaegerstar (jaegerstar) 的大作中提到: 】
: 直接读一下tutorial,谷歌帮你想好了
自己回复一下,最后决定用拆分不重复数据集的办法了。
每个机器放不同数据索引,数据全放在一个远程数据库里。
【 在 Cauchyzhou (水环剑主) 的大作中提到: 】
: 有一个任务,数据集有300W,一台计算机跑起来太慢了。需要分布式。
: 如果用多台电脑实现分布式,采用异步训练,数据应该怎么处理呢?
: 是手动把数据集切成独立的几份放在每台电脑上,还是只要在主计算服务器上放好数据集就可以呢?是否对数据格式有要求,必须用tfrecord吗?
: ...................