BYR Achieve · 镜像论坛

【实习】智驾新程招聘VLA算法实习生

2026/5/11镜像同步1 回复

岗位职责： 1. VLA 模型研发：负责自动驾驶视觉-语言-动作端到端大模型的架构设计与实现，探索基于多模态大模型的驾驶行为决策与轨迹生成方案。 2. 多模态对齐与融合：实现视觉编码器与 LLM 的高效连接，设计适配驾驶场景的 Projector 或 Q-Former 结构，解决图像/点云特征与语言指令的深层对齐问题。 3. 动作解码与控制：设计高效的动作 Tokenizer/Decoder，将模型输出转化为自车横纵向控制信号或未来轨迹点序列，确保控制的平滑性与物理可行性。 4. 场景推理与闭环验证：构建复杂场景下的 Chain-of-Thought 推理链数据，提升模型在长尾场景的因果推理能力；搭建闭环仿真链路进行端到端模型迭代。 5. 模型轻量化与部署：联合高性能计算团队，进行模型剪枝、量化及 TensorRT/自研推理框架部署，平衡模型性能与车载芯片实时性要求。 6. 数据闭环搭建：与数据团队协作，建立面向 VLA 模型的数据挖掘、自动标注与 RLHF 反馈机制。 7. 学术研究：参与论文实验，论文发表任职要求： 1. 学历背景：计算机、自动化、模式识别等相关专业，硕士及以上学历（博士优先），具有扎实的数学与机器学习功底。 2. 技术栈： · 精通 Python，熟悉 C++，具备优秀的工程代码能力。 · 熟练使用 PyTorch，熟悉 Deepspeed/Megatron 等分布式训练框架。 · 熟悉主流视觉感知算法（BEV/Occupancy/端到端检测）或经典规划控制算法。 3. 算法经验：多模态/VLM 方向：深刻理解 Transformer 机制，熟悉 LLaVA/BLIP-2/InternVL 等多模态架构，掌握 LoRA/QLoRA 等高效微调技术。 4. 动手能力：具备将 SOTA 论文快速复现并迁移至驾驶场景的能力，习惯使用 Wandb/TensorBoard 进行系统性实验管理。加分项： · 在 CVPR / ICCV / ECCV / CoRL / ICRA / ICLR / NeurIPS 等顶会发表过端到端驾驶或多模态大模型相关论文。 · 熟悉 NVIDIA 自动驾驶全栈生态下的模型部署链路。 · 熟悉 nuScenes / Waymo Open Dataset / OpenDV 等自动驾驶数据集及评测指标。 · 热爱驾驶，对智能驾驶有极致的算法追求与好奇心。工作地点：海淀西北旺中关村壹号联系邮箱：jun.guan#neuehct.auto

订阅后，新回复会通过你的通知中心匿名送达。