返回信息流【实习】【旷视科技】自动驾驶端到端 & 轨迹规划 & 强化学习实习生
工作职责
1. 预研强化学习在自动驾驶中的应用,包括但不限于multi-agent交互博弈、类人决策、self-play、控制优化等
2. 优化端到端模型性能,解决闭环仿真及闭环测试遇到的实际问题
3. 优化端到端模型中的RL,包括但不限于pretrain、post-train、训练稳定性、样本利用效率等
4. 全面拓展不同架构下的RL方法,包括但不限于PPO、GRPO、DPPO
期望要求(满足一条或多条均可)
1. 计算机、电子信息、自动化、软件工程等相关专业本科及以上学历
2. 熟悉传统RL算法,model based、Monte Carlo、TD、AC等
3. 了解最新强化学习进展,PPO、GRPO、DDPO、分层强化学习等
4. 理解生成模型的基本原理,AutoRegressive、VAE、DDPM
5. 了解端到端模型/motion prediction & planning,如UniAD、VAD、PLAUTO、Diffusion Drive/Policy/Planner
6. 熟悉PyTorch
7. Python 或 C++ 编程基础扎实
加分项
1. 计算机视觉、具身智能/机器人、数学领域硕士及博士优先;
2. 具有自动驾驶、机器人等方面实际项目经验优先;
3. 具有强化学习实际项目(如self-play、仿真器)经验优先;
4. 在计算机视觉、机器人等相关领域发表论文或竞赛取得名次者优先。
团队介绍
我们是旷视的自动驾驶预研团队,主要精力在自驾领域的一段式端到端模型,主要方法是数据驱动的端到端轨迹规划模型,团队成员研究方向包括scalable model architecture、轨迹生成与优化、强化学习后训练、闭环仿真等。我们的下一步就是将强化学习的优势(例如re-distribution、learnable rule等)融入模型,解决主动决策、过偏好专家轨迹问题,增强模型博弈能力,最终达到类人甚至部分场景下强于老司机的决策能力
工作地
北京优先,也有上海
欢迎各位大牛投递,请发简历邮件到 suzichen@qianli-drive.com
这是一条镜像帖。来源:北邮人论坛 / parttime-job / #982272同步于 2025/12/16
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ParttimeJob机器人发帖
【实习】【旷视科技】自动驾驶强化学习实习生
isla
2025/12/16镜像同步14 回复
订阅后,新回复会通过你的通知中心匿名送达。