BYR Achieve · 镜像论坛

【急招】【实习】【旷视科技】自动驾驶 VLM/VLA 算法实习生团队介绍我们是旷视科技的自动驾驶预研团队，致力于研发下一代数据驱动的端到端自动驾驶模型。团队目前的研究重点包括一段式 E2E 模型架构、世界模型（World Model）以及视觉语言动作模型（VLM/VLA）。我们的目标是打破传统规则算法的瓶颈，利用多模态大模型的推理能力解决自动驾驶中的长尾场景（Corner Cases）与复杂交互问题，构建具备类人决策能力的通用驾驶智能体。工作职责模型研发与优化：参与研发面向自动驾驶场景的 VLM/VLA 模型，构建能够深度理解多模态交通环境、具备复杂场景逻辑推理与决策能力的下一代感知交互系统；大模型后训练（Post-training）：通过 SFT（指令微调）、RLHF（强化学习反馈）等技术，提升模型对复杂交通规则、长尾场景以及人类驾驶意图的理解与对齐能力；数据闭环构建：参与构建高质量多模态结构化数据集，数据清洗及负采样挖掘 Pipeline，提升模型训练效率与泛化性；前沿技术探索：跟踪 VLM、VLA 领域的前沿进展（如 OpenDriveVLA、DriveLM、AR-1 等），推动前沿算法在自动驾驶闭环任务中的落地。期望要求（满足一条或多条均可）计算机、人工智能、机器人、自动化等相关专业硕士或博士在读；理论功底扎实：熟悉 VLM 或多模态模型（如 CLIP, LLaVA 等）的基本原理，对 LLM 的训练（Pretrain/SFT）有深入理解；行业认知：了解自动驾驶常见任务与数据集（如 nuScenes, Waymo），对感知、预测、规划等模块有基本认知；编程能力：熟练掌握 Python，PyTorch 等深度学习框架，对 LLaMA-Factory、Verl 仓库了解，有分布式训练（DeepSpeed, Megatron-LM）经验者优先；加分项在 CVPR, ICCV, NeurIPS, ICLR, ICRA 等顶会以第一作者发表过高质量论文者优先；有大规模视觉语言模型训练经验，或在知名开源项目（如 OpenCompass, LMMs-Eval）中有贡献者优先；具有自动驾驶、具身智能（Embodied AI）或机器人控制相关实际项目经验；在主流 AI 竞赛（如 nuScenes Challenge, Kaggle）中取得优异成绩者。能够连续实习 6个月以上者优先。工作地北京（优先）/ 上海简历投递欢迎各位对大模型与自动驾驶结合感兴趣的大牛投递！强相关者面试仅需一轮！邮件主题格式：姓名-学校-实习时长-VLM/VLA实习生简历发送至：zhangyukun02@qianli-drive.com

【实习】【旷视科技】VLM/VLA实习生 急招！

【实习】【旷视科技】VLM/VLA实习生急招！