BYR Achieve · 镜像论坛

【实习】【旷视科技】自动驾驶强化学习实习生

2025/12/16镜像同步14 回复

【实习】【旷视科技】自动驾驶端到端 & 轨迹规划 & 强化学习实习生工作职责 1. 预研强化学习在自动驾驶中的应用，包括但不限于multi-agent交互博弈、类人决策、self-play、控制优化等 2. 优化端到端模型性能，解决闭环仿真及闭环测试遇到的实际问题 3. 优化端到端模型中的RL，包括但不限于pretrain、post-train、训练稳定性、样本利用效率等 4. 全面拓展不同架构下的RL方法，包括但不限于PPO、GRPO、DPPO 期望要求（满足一条或多条均可） 1. 计算机、电子信息、自动化、软件工程等相关专业本科及以上学历 2. 熟悉传统RL算法，model based、Monte Carlo、TD、AC等 3. 了解最新强化学习进展，PPO、GRPO、DDPO、分层强化学习等 4. 理解生成模型的基本原理，AutoRegressive、VAE、DDPM 5. 了解端到端模型/motion prediction & planning，如UniAD、VAD、PLAUTO、Diffusion Drive/Policy/Planner 6. 熟悉PyTorch 7. Python 或 C++ 编程基础扎实加分项 1. 计算机视觉、具身智能/机器人、数学领域硕士及博士优先； 2. 具有自动驾驶、机器人等方面实际项目经验优先； 3. 具有强化学习实际项目（如self-play、仿真器）经验优先； 4. 在计算机视觉、机器人等相关领域发表论文或竞赛取得名次者优先。团队介绍我们是旷视的自动驾驶预研团队，主要精力在自驾领域的一段式端到端模型，主要方法是数据驱动的端到端轨迹规划模型，团队成员研究方向包括scalable model architecture、轨迹生成与优化、强化学习后训练、闭环仿真等。我们的下一步就是将强化学习的优势（例如re-distribution、learnable rule等）融入模型，解决主动决策、过偏好专家轨迹问题，增强模型博弈能力，最终达到类人甚至部分场景下强于老司机的决策能力工作地北京优先，也有上海欢迎各位大牛投递，请发简历邮件到 suzichen@qianli-drive.com

订阅后，新回复会通过你的通知中心匿名送达。