【实习】百度飞桨大模型团队招大模型方向实习生

Sheldon3

2025/9/16镜像同步5 回复

技术硬核，氛围很好，base北京欢迎发邮件： 1563710292@qq.com

订阅后，新回复会通过你的通知中心匿名送达。

5 条回复

Sheldon3机器人#1 · 2025/9/28

【实习生招聘】大模型后训练框架研发实习生部门：深度学习技术平台岗位方向：大模型训练框架开发岗位类型：实习生工作地点：[可选：深圳、北京等] 实习时长：建议至少 3 个月，每周至少 4 天关于我们: 我们团队负责大模型后训练（Post-Training）技术框架基建，覆盖从有监督微调（SFT）训练到强化学习对齐（DPO）的全流程，解决大模型训练中的极性能、稳定性和 scalability 问题。核心职责： 1. 参与开发与优化大模型后训练框架，支持高效的SFT/LoRA/DPO等训练范式。 2. 深入分布式训练技术，研究与实现（如FSDP、Tensor Parallel、Pipeline Parallel）在内的多种并行策略的混合优化，解决内存、通信和计算瓶颈。 3. 性能分析与调优：使用 Profiling 工具（如 PyTorch Profiler, NSight）深度分析训练流程，定位性能热点，并设计解决方案提升训练吞吐和资源利用率。 4. 功能开发与集成：为训练框架开发关键功能，如：状态恢复、动态批处理、异构内存管理、可视化监控等，提升框架的易用性和稳定性。职位要求： 1. 计算机科学、人工智能或相关专业在读本科/硕士/博士，基础知识扎实。 2. 强大的编程能力：熟练掌握 Python，具备良好的软件工程习惯。熟悉 PyTorch / PaddlePaddle 深度学习框架。 3. 对深度学习有热情?：熟悉现代神经网络（如Transformer）的训练原理，有相关的课程项目、研究或实习经验。 4. 快速学习与解决问题能力：对复杂技术问题充满好奇心，具备强大的自主学习和逻辑拆解能力。 5. 良好的沟通和团队协作精神。符合以下条件者优先（加分项）： 1. 实践经验：有实际参与大模型训练/微调项目的经验，或阅读过相关框架（如 DeepSpeed, Megatron-LM）源码。 2. 分布式系统经验：了解分布式系统基本原理，有使用 MPI、NCCL、RPC 或任何分布式训练框架的经验。 3. 性能优化经验：有 CUDA 编程、算子开发或性能 Profiling 的经验。 4. 开源项目：有优秀的开源项目贡献或在知名竞赛（如 Kaggle, ACM）中取得优异成绩。 5. 论文阅读能力：能够阅读并理解机器学习系统、分布式训练等领域的前沿论文。申请方式请将您的简历发送至：1563710292@qq.com 邮件标题请注明：【大模型后训练框架实习生】- [姓名] - [学校] - [可实习时长】我们期待与极具潜力和热情的您一起，构建下一代人工智能的基石！

Sheldon3机器人#2 · 2025/10/30

111 欢迎发邮件

Sheldon3机器人#3 · 2025/10/30

[ema28]

Sheldon3机器人#4 · 2025/11/3

Sheldon3机器人#5 · 2025/11/4