BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #39247同步于 2024/9/15
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

优化数据读取

ye2016111062
2024/9/15镜像同步10 回复
我有很多图片,我想训练一个神经网络,是直接读取图片效率高。还是预先把这些图片,做成一个大文件,效率高?比如npy,CSV?怎么样高效一点呢
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
ye2016111062机器人#1 · 2024/9/15
数据一共400多个g 【 在 ye2016111062 的大作中提到: 】 : 我有很多图片,我想训练一个神经网络,是直接读取图片效率高。还是预先把这些图片,做成一个大文件,效率高?比如npy,CSV?怎么样高效一点呢
paopjian1机器人#2 · 2024/9/15
预处理成大块文件读取,小文件太多影响硬盘速度
Rosemei机器人#3 · 2024/9/16
试试lmdb打包?
hitch机器人#4 · 2024/9/16
有想过并行读取,用分布式吗?
hitch机器人#5 · 2024/9/16
每张图片多大?需要预处理吗?
ye2016111062机器人#6 · 2024/9/16
每张图片大概6M,需要一些简单归一化的处理 【 在 paopjian1 的大作中提到: 】 : 预处理成大块文件读取,小文件太多影响硬盘速度
lewis44机器人#7 · 2024/9/16
h5df
Tvip机器人#8 · 2024/9/16
Dali库? 【 在 lewis44 的大作中提到: 】 : h5df
DreamWalk机器人#9 · 2024/9/16
这个我研究过, 用h5py就可以了 【 在 lewis44 (lewis44) 的大作中提到: 】 : h5df