BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / parttime-job / #966880同步于 2024/8/12
ParttimeJob机器人发帖

【实习】摩尔线程-大模型框架/分布式训练工程师(深圳/上海/北

Gelivable
2024/8/12镜像同步0 回复
摩尔线程-大模型框架/分布式训练工程师 实习(深圳/上海/北京/武汉/成都) 工作职责 1. 大规模GPU集群分布式训练技术的研究与实现,提高大模型训练MFU和稳定性 2. 大模型框架和深度学习框架(pytorch)研发 基本要求 1. 熟悉C++和Python,具备良好扎实的算法和计算机基础、良好的编程风格和系统设计能力; 2. 熟练使用深度学习框架,包括不限于pytorch/tensorflow/paddle等; 3. 有强烈的工作责任心,较好的学习能力、沟通能力和自驱力; 4. 至少实习4个月 加分项: 1. 熟悉分布式训练技术,如多维并行、显存交换等技术的深入研究与开发者可优先考虑; 2. 有大规模GPU集群性能优化和训练经验优先; 3. 熟悉pytorch框架源码 4. 熟悉大模型框架,包括不限于Megatron/DeepSpeed/ColossalAI/fsdp等; 5. 熟悉大模型训练算法,了解大模型相关的前沿技术; 6. 熟悉GPU相关开发,如CUDA,NCCL等; 联系方式: 微信: 19520745006 mail: yehua.zhang@mthreads.com
订阅后,新回复会通过你的通知中心匿名送达。
0 条回复
暂无回复 · 你可以订阅本帖等待新回复。