返回信息流淘天集团AI助手算法团队承担了淘天集团新一代AI原生购物助手的开发工作,通过统一的All in One大模型解决淘宝在不同场景的用户需求。团队在大模型强化学习、Agentic训练、原生多模态训练以及Agent框架设计有着行业领先的认知和实际落地效果。
在这里,你将
全链路模型训练
深度参与购物场景统一大模型的完整训练周期:预训练退火 → SFT → RLVR → RLHF
你碰到的不是一个冻结的API,而是一个你可以从底层塑造的模型
Agent框架设计——让大模型真正"能办事"
设计大模型原生的Agent架构,通过Skill编排、Sub-agent协作等机制,将淘系搜索、推荐、交易、客服等全域能力注入AI助手
让模型不只是"能聊",而是"能买、能比、能帮你做决定"
奖励信号发现——在真实场景中定义"什么是好"
基于淘天数亿用户的真实交互行为,挖掘和设计最能提升用户体验的奖励信号
用RL的方式让模型在电商场景下持续逼近SOTA体验
无人区探索——做业界还没有答案的事
异步实时Agent:用户不等你,你怎么让Agent在真实时间约束下又快又好?
原生Any-to-Any多模态:文字、图片、视频、商品卡片……如何让模型原生理解和生成一切?
这些方向没有教科书,我们需要你带着自己的判断力走进去
为什么值得来
你会加入这样一个团队:
“师兄机制”:为你配置经验丰富的师兄,亲自带你熟悉环境,在进行实习期间进行全方位的指导。
灵活开放的技术氛围:根据你的实际研究内容,结合你感兴趣的方向,量身定制匹配的研究方向。
浓厚的技术氛围:定期记性技术分享,保持对前沿技术的敏感度。
充足的算力资源:学校的卡不够用?在这里不存在的,会有足够的资源支持实验迭代。
收获在学校无法获得的宝贵经验:
场景稀缺性:数亿级日活用户 × 极其丰富的电商意图 × 可闭环的商业验证
技术纵深:从模型训练到Agent系统到产品体验,你可以一竿子插到底,而不是只做流水线上的一环
前沿密度:团队在RLVR、Agentic Training、多模态等前沿研究方向持续投入
影响力:你训练的模型、设计的Agent,会直接服务于淘宝用户
我们期待你
在大模型预训练/SFT/RLHF/强化学习中有扎实的实战经验。对Agent/Tool-use/Multi-agent系统有深入理解。
有科研成果或在顶会发表过自己的论文,或在Github有自己的维护的小项目。
有自己的想法想要落地、通过实际场景来证明自己的科研价值。
可以加我微信帮忙看进度,18801056935
这是一条镜像帖。来源:北邮人论坛 / parttime-job / #986038同步于 2026/4/7
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ParttimeJob机器人发帖
[暑期实习内推]淘天ai助手算法
Daryl
2026/4/7镜像同步2 回复
订阅后,新回复会通过你的通知中心匿名送达。