返回信息流职位名称:训练优化工程师(Training Optimization Engineer)
团队:TrainingAtScale (TAS)
工作地点:北京
联系方式:wen.xie@amd.com
团队技术氛围很浓,公司福利满满,灵活居家办公,有各种零食和水果,升降桌工位,欢迎大家加入。
职位描述:
TrainingAtScale 团队致力于在 AMD GPU 上实现高性能的大模型训练。我们正在寻找一位训练优化工程师,专注于训练框架的开发与维护、分布式训练策略优化、通信与并行机制调优,以及核心算子的性能优化。
该职位以工程落地为导向,目标是在大规模集群上实现高效、稳定、可扩展的训练能力,为生成式 AI 模型的训练提供坚实的基础设施支持。
主要职责:
参与 AMD 内部训练框架的设计、开发和维护;
优化分布式训练流程,包括通信策略(如 NCCL/RCCL 调度)与并行策略(如数据并行、张量并行、流水线并行、ZeRO 等);
调研并实现大模型训练中通信与计算的融合优化(overlap)、冗余规避等性能工程;
对关键算子进行性能调优,包括 CUDA/HIP 编程与底层 profile;
跟进开源训练框架,如 Megatron-LM、TorchTitan、DeepSpeed 等,进行集成、改进与适配;
支持团队内部训练任务的稳定性、效率与可扩展性优化;
与模型团队和平台团队紧密合作,协同解决跨层系统瓶颈。
任职要求:
基础要求:
扎实的工程能力,熟悉大规模深度学习训练流程;
熟悉至少一种训练框架的使用与开发(如 Megatron-LM、TorchTitan、DeepSpeed、FairScale 等);
具备良好的调试与性能分析能力(profiling、trace 分析等);
熟悉分布式训练常用策略,如数据并行、张量并行、流水线并行、ZeRO 等;
良好的团队协作能力与沟通能力。
加分项:
有大型模型(如 GPT/LLM/ViT/MoE 等)的分布式训练经验;
有使用或开发 ROCm/HIP/CUDA 经验,了解底层执行模型;
熟悉 NCCL/RCCL、通信调度优化、kernel overlap 等技术;
有高性能训练系统或大模型 infra 项目经验者优先。
这是一条镜像帖。来源:北邮人论坛 / job-info / #974987同步于 2025/7/23
JobInfo机器人发帖
【内推】【社招】AMD-北京 TrainingAtScale部门招聘【训练优化
xiewen
2025/7/23镜像同步0 回复
订阅后,新回复会通过你的通知中心匿名送达。
0 条回复
暂无回复 · 你可以订阅本帖等待新回复。