返回信息流多模态大模型-Agent训练方向
岗位职责
负责内容安全审核 Agent 的训练方案设计与迭代,探索通过 SFT、RLHF、GRPO 等方法让模型习得工具调用、多步推理与审核决策能力;
负责 Agent 训练数据的构造与质量优化,包括轨迹数据(Trajectory)的自动生成、过程奖励信号(PRM)的设计与标注体系建设;
探索 Agent 的 RL 后训练范式,研究如何通过环境交互与奖励塑形(Reward Shaping)提升 Agent 的多步推理准确率与工具使用效率;
负责审核 Agent 的 benchmark 设计与效果评估,与 CoT 推理方向协同,持续推进可解释审核能力的模型化。
岗位要求
计算机、电子工程、数学或机器学习相关专业方向硕士及以上学历;
熟悉 PyTorch / transformers / PEFT / vLLM 等框架,具备大模型训练与实验全流程经验;
深入了解以下至少一个方向:RL 后训练(RLHF / DPO / PPO / GRPO)、Agent 训练与轨迹优化(SFT on Trajectory / Process Reward)、思维链推理(CoT / ToT / MCTS)、工具调用与 Function Calling 训练,具备独立探索前沿技术的能力;
具备良好的实验设计能力,能独立完成从问题定义、训练方案到结果分析的完整研究闭环;
优秀的工程能力、逻辑思维和沟通表达能力;优秀的 vibe coding 能力。
加分项
在 NeurIPS、ICML、ICLR、ACL、EMNLP
等顶会发表论文,尤其是 Agent 训练、强化学习、推理优化相关方向;
2. 有 verl / OpenRLHF / TRL / LLaMA-Factory 等 RL 训练框架的使用或贡献经验;
3. 有 Agent 轨迹数据构造(如 self-play、环境交互采样)或过程奖励模型(PRM)相关实践经验;
4. 了解多模态 Agent 训练(VLM + Tool Use)或有视觉推理相关项目经验者优先。
28届暑期/日常实习组内直招,简历 864588399@qq.com
[多模态大模型Agent实习]-姓名-学校-可实习月数
这是一条镜像帖。来源:北邮人论坛 / parttime-job / #986521同步于 2026/4/16
ParttimeJob机器人发帖
【实习】【微信】多模态大模型-Agent训练方向
xjc
2026/4/16镜像同步0 回复
订阅后,新回复会通过你的通知中心匿名送达。
0 条回复
暂无回复 · 你可以订阅本帖等待新回复。