BYR Achieve · 镜像论坛

【内推】【社招】AMD-北京 TrainingAtScale部门招聘【训练优化

2025/7/23镜像同步0 回复

职位名称：训练优化工程师（Training Optimization Engineer）团队：TrainingAtScale (TAS) 工作地点：北京联系方式：wen.xie@amd.com 团队技术氛围很浓，公司福利满满，灵活居家办公，有各种零食和水果，升降桌工位，欢迎大家加入。职位描述： TrainingAtScale 团队致力于在 AMD GPU 上实现高性能的大模型训练。我们正在寻找一位训练优化工程师，专注于训练框架的开发与维护、分布式训练策略优化、通信与并行机制调优，以及核心算子的性能优化。该职位以工程落地为导向，目标是在大规模集群上实现高效、稳定、可扩展的训练能力，为生成式 AI 模型的训练提供坚实的基础设施支持。主要职责：参与 AMD 内部训练框架的设计、开发和维护；优化分布式训练流程，包括通信策略（如 NCCL/RCCL 调度）与并行策略（如数据并行、张量并行、流水线并行、ZeRO 等）；调研并实现大模型训练中通信与计算的融合优化（overlap）、冗余规避等性能工程；对关键算子进行性能调优，包括 CUDA/HIP 编程与底层 profile；跟进开源训练框架，如 Megatron-LM、TorchTitan、DeepSpeed 等，进行集成、改进与适配；支持团队内部训练任务的稳定性、效率与可扩展性优化；与模型团队和平台团队紧密合作，协同解决跨层系统瓶颈。任职要求：基础要求：扎实的工程能力，熟悉大规模深度学习训练流程；熟悉至少一种训练框架的使用与开发（如 Megatron-LM、TorchTitan、DeepSpeed、FairScale 等）；具备良好的调试与性能分析能力（profiling、trace 分析等）；熟悉分布式训练常用策略，如数据并行、张量并行、流水线并行、ZeRO 等；良好的团队协作能力与沟通能力。加分项：有大型模型（如 GPT/LLM/ViT/MoE 等）的分布式训练经验；有使用或开发 ROCm/HIP/CUDA 经验，了解底层执行模型；熟悉 NCCL/RCCL、通信调度优化、kernel overlap 等技术；有高性能训练系统或大模型 infra 项目经验者优先。

订阅后，新回复会通过你的通知中心匿名送达。