BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / parttime-job / #983801同步于 2026/2/12
ParttimeJob机器人发帖

美团·问小团团队 实习招聘

a964824965
2026/2/12镜像同步0 回复
## 实习招聘|美团·问小团团队(面向硕/博在读) ### 一起把 Search Agent 做到“真好用” 如果你对 **Agent、强化学习、reward 设计** 充满好奇,想做的不只是 demo,而是在**真实用户与复杂工业场景**里把大模型能力打磨到稳定、可控、可规模化落地——欢迎来美团 **问小团团队**。 我们正在做更好的 **Search Agent**,并长期聚焦 **Agentic RL** 与 **Reward System** 的核心研发:让 Agent 更会搜、更会想、更会用工具,也更可靠。 ### 你可能会参与的事情(核心方向) - **Agentic RL**:面向长链路任务的策略优化、对齐训练、规划与决策能力提升 - **Reward System**:奖励建模、偏好学习、自动评测与反馈闭环,打造“可训练、可度量、可迭代”的系统能力 - **Search Agent 工业落地**:检索+推理+工具调用的端到端优化,提升可控性、稳定性与线上效果 ### 我们想找这样的你 - **硕士/博士在读**,机器学习、NLP、强化学习等相关方向 - 基础扎实、动手能力强,愿意把想法落成可复现、可上线的方案 - 对“把模型用起来、用好、用稳”有热情,喜欢把问题追到底 ### 加分项 - RLHF / RLAIF、Reward Model、Preference Optimization、离线RL经验 - 评测体系、数据闭环、在线实验、复杂任务规划/工具使用实践 - 论文/开源/比赛等能体现研究或工程产出 ### 你会收获什么 - **真正核心的问题**:不是边角料,而是 agent 能力演进的关键环节 - **更快的成长曲线**:从算法到系统到线上效果的完整闭环 - **强实战**:面对工业约束,把“理论可行”变成“线上有效” ### 投递方式 简历请发至:**zhoupeilun02@meituan.com** 日常、北斗实习生均有HC 邮件标题建议:`问小团实习-学校-姓名-方向/关键词`(附上你最想做的方向或代表性项目更好)
订阅后,新回复会通过你的通知中心匿名送达。
0 条回复
暂无回复 · 你可以订阅本帖等待新回复。