BYR Achieve · 镜像论坛

【实习】【小红书】招募RL Infra 引擎研发工程师

2026/1/19镜像同步2 回复

实习岗位名称: RL Infra 引擎研发工程师所需人数: 1 招募公司: 小红书所属部门组: 小红书AI中台大模型后训练infra组联系方式: zhangliujie@xiaohongshu.com 答复时间(如每日8点答复email等): 工作地点: 北四环城奥大厦（安贞门地铁站）交通情况(北邮为出发点,包括公交,地铁,达到时间): 任职资格 -- 基本条件: 1、优秀的代码能力、数据结构和基础算法功底，熟悉C++/Python开发，熟悉 Linux/Git开发环境； 2、熟悉至少一种主流基础深度学习训练框架（TensorFlow/PyTorch/PaddlePaddle等）的使用和实现； 3、熟悉主流LLM模型结构，熟悉至少一种主流LLM训练框架（Megatron-LM/DeepSpeed等）的使用和实现； 4、熟悉GPU硬件架构，了解GPU 软件栈（CUDA，cuDNN)，具备 GPU 性能分析的能力； 5、有强烈的工作责任心，较好的学习能力、沟通协作能力和自驱力，能和团队一起探索新技术，推进技术进步。任职资格 -- 优先条件: 1、熟悉DP/TP/PP/ZeRO等分布式训练策略原理，有大模型训练调优分析经验者优先； 2、熟悉至少一种AI编译加速组件者优先，包含但不限与TorchInductor/TVM/Triton/XLA等； 5、了解并行计算、网络通信、系统优化和集群硬件架构等相关知识者优先； 6、熟悉NCCL/RDMA/IB/RoCE相关知识者优先； 7、有优秀开源项目经历者优先。工资情况: 实习时间(包括实习期的长度,每日实习的时间): 三个月以上（每周实习不少于4天）福利情况(包括是否包吃住等): 工作职责: 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架，优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline； 2、研发支持多机多卡 RL 的分布式训练框架，开发TP/PP/ZeRO-3与RL流程的动态协同机制，解决 RL 算法在超长时序下的显存/通信瓶颈； 3、构建端到端后训练工具链，主导框架与 MLOps 平台集成，提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作，参与大语言模型 LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代； 5、参与分析各业务 GPU 利用率与饱和度等指标，结合业务场景持续优化训练框架能力，提升框架领先性。职业资料(这里介绍职业的相关资料,如前景等): 补充:

订阅后，新回复会通过你的通知中心匿名送达。