BYR Achieve · 镜像论坛

淘天集团AI助手算法团队承担了淘天集团新一代AI原生购物助手的开发工作，通过统一的All in One大模型解决淘宝在不同场景的用户需求。团队在大模型强化学习、Agentic训练、原生多模态训练以及Agent框架设计有着行业领先的认知和实际落地效果。在这里，你将全链路模型训练深度参与购物场景统一大模型的完整训练周期：预训练退火 → SFT → RLVR → RLHF 你碰到的不是一个冻结的API，而是一个你可以从底层塑造的模型 Agent框架设计——让大模型真正"能办事" 设计大模型原生的Agent架构，通过Skill编排、Sub-agent协作等机制，将淘系搜索、推荐、交易、客服等全域能力注入AI助手让模型不只是"能聊"，而是"能买、能比、能帮你做决定" 奖励信号发现——在真实场景中定义"什么是好" 基于淘天数亿用户的真实交互行为，挖掘和设计最能提升用户体验的奖励信号用RL的方式让模型在电商场景下持续逼近SOTA体验无人区探索——做业界还没有答案的事异步实时Agent：用户不等你，你怎么让Agent在真实时间约束下又快又好？原生Any-to-Any多模态：文字、图片、视频、商品卡片……如何让模型原生理解和生成一切？这些方向没有教科书，我们需要你带着自己的判断力走进去为什么值得来你会加入这样一个团队： “师兄机制”：为你配置经验丰富的师兄，亲自带你熟悉环境，在进行实习期间进行全方位的指导。灵活开放的技术氛围：根据你的实际研究内容，结合你感兴趣的方向，量身定制匹配的研究方向。浓厚的技术氛围：定期记性技术分享，保持对前沿技术的敏感度。充足的算力资源：学校的卡不够用？在这里不存在的，会有足够的资源支持实验迭代。收获在学校无法获得的宝贵经验：场景稀缺性：数亿级日活用户 × 极其丰富的电商意图 × 可闭环的商业验证技术纵深：从模型训练到Agent系统到产品体验，你可以一竿子插到底，而不是只做流水线上的一环前沿密度：团队在RLVR、Agentic Training、多模态等前沿研究方向持续投入影响力：你训练的模型、设计的Agent，会直接服务于淘宝用户我们期待你在大模型预训练/SFT/RLHF/强化学习中有扎实的实战经验。对Agent/Tool-use/Multi-agent系统有深入理解。有科研成果或在顶会发表过自己的论文，或在Github有自己的维护的小项目。有自己的想法想要落地、通过实际场景来证明自己的科研价值。可以加我微信帮忙看进度，18801056935

[暑期实习内推]淘天ai助手算法