BYR Achieve · 镜像论坛

【社招】【蚂蚁】训练推理框架工程师

2026/3/10镜像同步0 回复

上海杭州成都均可有生成式推荐的经历更好可站内信联系职位概述我们正在寻找一位在深度学习训推框架领域有深厚背景的专家。您将致力于设计、构建和优化下一代高性能、高可用的训练与推理框架，以同时支撑前沿的生成式推荐系统和大语言模型的海量数据训练、后训练及强化学习任务。核心职责 ● 设计并实现统一的训推框架，支持生成式推荐模型（如基于LLM的序列推荐、多模态推荐）与大语言模型的后训练（包括指令微调、领域适配、偏好对齐等）； ● 构建强化学习训练基础设施，支持PPO、DPO、GRPO等主流对齐算法，集成奖励模型（Reward Model）训练与评估流程； ● 优化大规模分布式训练性能，包括数据并行、模型并行、流水线并行、ZeRO等策略，提升GPU资源利用率与训练吞吐； ● 参与开发高效推理引擎，支持动态批处理、KV Cache优化、量化压缩、模型蒸馏等技术，降低延迟与成本； ● 构建端到端的模型监控、A/B测试与自动回滚机制，保障线上服务稳定性与效果可衡量性； ● 探索训推一体（Train-Inference Co-design）新范式，减少训练与推理之间的性能鸿沟。任职要求 ● 计算机科学、人工智能或相关专业，3年以上AI系统或算法工程经验； ● 精通Python，熟悉PyTorch / DeepSpeed / Megatron-LM / vLLM / TGI 等主流训练与推理框架； ● 有主流推理框架的经验，如 TensorRT, Triton, ONNX Runtime 等; ● 深入理解大语言模型后训练技术（SFT、RLHF、DPO等）及推荐系统生成式建模范式（如RecLLM、TALLRec等）； ● 具备分布式系统开发经验，熟悉NCCL、RDMA、混合精度训练、梯度压缩等关键技术； ● 有实际部署过百亿级以上参数模型的训练或推理系统经验. 加分项 ● 参与过搜索/推荐场景的生成式模型落地，理解用户行为序列建模、负反馈建模等。 ● 熟悉 Transformer、MoE 等现代模型架构的底层实现和优化技巧。

订阅后，新回复会通过你的通知中心匿名送达。