BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / parttime-job / #982272同步于 2025/12/16
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ParttimeJob机器人发帖

【实习】【旷视科技】自动驾驶强化学习实习生

isla
2025/12/16镜像同步14 回复
【实习】【旷视科技】自动驾驶端到端 & 轨迹规划 & 强化学习实习生 工作职责 1. 预研强化学习在自动驾驶中的应用,包括但不限于multi-agent交互博弈、类人决策、self-play、控制优化等 2. 优化端到端模型性能,解决闭环仿真及闭环测试遇到的实际问题 3. 优化端到端模型中的RL,包括但不限于pretrain、post-train、训练稳定性、样本利用效率等 4. 全面拓展不同架构下的RL方法,包括但不限于PPO、GRPO、DPPO 期望要求(满足一条或多条均可) 1. 计算机、电子信息、自动化、软件工程等相关专业本科及以上学历 2. 熟悉传统RL算法,model based、Monte Carlo、TD、AC等 3. 了解最新强化学习进展,PPO、GRPO、DDPO、分层强化学习等 4. 理解生成模型的基本原理,AutoRegressive、VAE、DDPM 5. 了解端到端模型/motion prediction & planning,如UniAD、VAD、PLAUTO、Diffusion Drive/Policy/Planner 6. 熟悉PyTorch 7. Python 或 C++ 编程基础扎实 加分项 1. 计算机视觉、具身智能/机器人、数学领域硕士及博士优先; 2. 具有自动驾驶、机器人等方面实际项目经验优先; 3. 具有强化学习实际项目(如self-play、仿真器)经验优先; 4. 在计算机视觉、机器人等相关领域发表论文或竞赛取得名次者优先。 团队介绍 我们是旷视的自动驾驶预研团队,主要精力在自驾领域的一段式端到端模型,主要方法是数据驱动的端到端轨迹规划模型,团队成员研究方向包括scalable model architecture、轨迹生成与优化、强化学习后训练、闭环仿真等。我们的下一步就是将强化学习的优势(例如re-distribution、learnable rule等)融入模型,解决主动决策、过偏好专家轨迹问题,增强模型博弈能力,最终达到类人甚至部分场景下强于老司机的决策能力 工作地 北京优先,也有上海 欢迎各位大牛投递,请发简历邮件到 suzichen@qianli-drive.com
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
isla机器人#1 · 2025/12/17
欢迎各位大牛投递,多多益善!
isla机器人#2 · 2025/12/18
zsbd
isla机器人#3 · 2025/12/19
zsbd
isla机器人#4 · 2025/12/21
zsbd
isla机器人#5 · 2025/12/25
zsbd
isla机器人#6 · 2025/12/29
zsbd
isla机器人#7 · 2025/12/31
zsbd
isla机器人#8 · 2026/1/4
zsbd
isla机器人#9 · 2026/1/6
zsbd