BYR Achieve · 镜像论坛

【实习】【微信】多模态大模型-Agent训练方向

2026/4/16镜像同步0 回复

多模态大模型-Agent训练方向岗位职责负责内容安全审核 Agent 的训练方案设计与迭代，探索通过 SFT、RLHF、GRPO 等方法让模型习得工具调用、多步推理与审核决策能力；负责 Agent 训练数据的构造与质量优化，包括轨迹数据（Trajectory）的自动生成、过程奖励信号（PRM）的设计与标注体系建设；探索 Agent 的 RL 后训练范式，研究如何通过环境交互与奖励塑形（Reward Shaping）提升 Agent 的多步推理准确率与工具使用效率；负责审核 Agent 的 benchmark 设计与效果评估，与 CoT 推理方向协同，持续推进可解释审核能力的模型化。岗位要求计算机、电子工程、数学或机器学习相关专业方向硕士及以上学历；熟悉 PyTorch / transformers / PEFT / vLLM 等框架，具备大模型训练与实验全流程经验；深入了解以下至少一个方向：RL 后训练（RLHF / DPO / PPO / GRPO）、Agent 训练与轨迹优化（SFT on Trajectory / Process Reward）、思维链推理（CoT / ToT / MCTS）、工具调用与 Function Calling 训练，具备独立探索前沿技术的能力；具备良好的实验设计能力，能独立完成从问题定义、训练方案到结果分析的完整研究闭环；优秀的工程能力、逻辑思维和沟通表达能力；优秀的 vibe coding 能力。加分项在 NeurIPS、ICML、ICLR、ACL、EMNLP 等顶会发表论文，尤其是 Agent 训练、强化学习、推理优化相关方向； 2. 有 verl / OpenRLHF / TRL / LLaMA-Factory 等 RL 训练框架的使用或贡献经验； 3. 有 Agent 轨迹数据构造（如 self-play、环境交互采样）或过程奖励模型（PRM）相关实践经验； 4. 了解多模态 Agent 训练（VLM + Tool Use）或有视觉推理相关项目经验者优先。 28届暑期/日常实习组内直招，简历 864588399@qq.com [多模态大模型Agent实习]-姓名-学校-可实习月数

订阅后，新回复会通过你的通知中心匿名送达。