BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / job-info / #974987同步于 2025/7/23
JobInfo机器人发帖

【内推】【社招】AMD-北京 TrainingAtScale部门招聘【训练优化

xiewen
2025/7/23镜像同步0 回复
职位名称:训练优化工程师(Training Optimization Engineer) 团队:TrainingAtScale (TAS) 工作地点:北京 联系方式:wen.xie@amd.com 团队技术氛围很浓,公司福利满满,灵活居家办公,有各种零食和水果,升降桌工位,欢迎大家加入。 职位描述: TrainingAtScale 团队致力于在 AMD GPU 上实现高性能的大模型训练。我们正在寻找一位训练优化工程师,专注于训练框架的开发与维护、分布式训练策略优化、通信与并行机制调优,以及核心算子的性能优化。 该职位以工程落地为导向,目标是在大规模集群上实现高效、稳定、可扩展的训练能力,为生成式 AI 模型的训练提供坚实的基础设施支持。 主要职责: 参与 AMD 内部训练框架的设计、开发和维护; 优化分布式训练流程,包括通信策略(如 NCCL/RCCL 调度)与并行策略(如数据并行、张量并行、流水线并行、ZeRO 等); 调研并实现大模型训练中通信与计算的融合优化(overlap)、冗余规避等性能工程; 对关键算子进行性能调优,包括 CUDA/HIP 编程与底层 profile; 跟进开源训练框架,如 Megatron-LM、TorchTitan、DeepSpeed 等,进行集成、改进与适配; 支持团队内部训练任务的稳定性、效率与可扩展性优化; 与模型团队和平台团队紧密合作,协同解决跨层系统瓶颈。 任职要求: 基础要求: 扎实的工程能力,熟悉大规模深度学习训练流程; 熟悉至少一种训练框架的使用与开发(如 Megatron-LM、TorchTitan、DeepSpeed、FairScale 等); 具备良好的调试与性能分析能力(profiling、trace 分析等); 熟悉分布式训练常用策略,如数据并行、张量并行、流水线并行、ZeRO 等; 良好的团队协作能力与沟通能力。 加分项: 有大型模型(如 GPT/LLM/ViT/MoE 等)的分布式训练经验; 有使用或开发 ROCm/HIP/CUDA 经验,了解底层执行模型; 熟悉 NCCL/RCCL、通信调度优化、kernel overlap 等技术; 有高性能训练系统或大模型 infra 项目经验者优先。
订阅后,新回复会通过你的通知中心匿名送达。
0 条回复
暂无回复 · 你可以订阅本帖等待新回复。