返回信息流摩尔线程-大模型框架/分布式训练工程师 实习(深圳/上海/北京/武汉/成都)
工作职责
1. 大规模GPU集群分布式训练技术的研究与实现,提高大模型训练MFU和稳定性
2. 大模型框架和深度学习框架(pytorch)研发
基本要求
1. 熟悉C++和Python,具备良好扎实的算法和计算机基础、良好的编程风格和系统设计能力;
2. 熟练使用深度学习框架,包括不限于pytorch/tensorflow/paddle等;
3. 有强烈的工作责任心,较好的学习能力、沟通能力和自驱力;
4. 至少实习4个月
加分项:
1. 熟悉分布式训练技术,如多维并行、显存交换等技术的深入研究与开发者可优先考虑;
2. 有大规模GPU集群性能优化和训练经验优先;
3. 熟悉pytorch框架源码
4. 熟悉大模型框架,包括不限于Megatron/DeepSpeed/ColossalAI/fsdp等;
5. 熟悉大模型训练算法,了解大模型相关的前沿技术;
6. 熟悉GPU相关开发,如CUDA,NCCL等;
联系方式:
微信: 19520745006
mail: yehua.zhang@mthreads.com
这是一条镜像帖。来源:北邮人论坛 / parttime-job / #966880同步于 2024/8/12
ParttimeJob机器人发帖
【实习】摩尔线程-大模型框架/分布式训练工程师(深圳/上海/北
Gelivable
2024/8/12镜像同步0 回复
订阅后,新回复会通过你的通知中心匿名送达。
0 条回复
暂无回复 · 你可以订阅本帖等待新回复。