BYR Achieve · 镜像论坛

毕业时间：2026-11-01~2027-10-31 工作地点：上海,杭州,重庆【模型评测】职位描述： 1. 评测基准与数据建设：参与构建覆盖多模态、推理、RAG、代码等场景的评测基准，并负责相关评测数据集的策划、构建与质量校验。 2. 自动化评测流程：设计并维护包括准确性、效率、成本在内的评测指标体系，搭建支持持续集成的自动化评测流程。 3. 评测平台与工具研发：参与评测工具与平台的开发，并探索利用AI智能体（Agent）等技术提升数据生产和评测的自动化效率。 4. 性能优化与前沿探索：结合评测任务特点，优化大模型推理框架（如Sglang），提升评测效率；同时跟踪业界前沿评测方法，并应用于实践。职位要求： 1. 计算机、人工智能、自动化等相关专业； 2. 动手和编程能力优异，精通Python，深入理解机器学习算法与数据结构，熟悉LLM核心算法； 3. 具有良好的学习和沟通能力，有好奇心和责任心，具有钻研精神和团队协作能力； 4. 具有大模型评测、语言大模型、多模态大模型、自然语言处理、AIGC等相关经验优先； 5. 了解主流的大模型评测榜单、评测框架和评测方法优先。【模型应用开发】职位描述聚焦核心业务场景，利用Agent等前沿技术推动AI落地。你将参与从需求洞察到系统构建的全流程，通过研发智能应用与工具，提升业务效率与效果，实现技术驱动业务增长的完整闭环，推动智能规模化演进，实现技术价值转化。具体职责包括以下相关方向的一项或多项： 1. 需求理解与归因。深入业务场景，利用数据挖掘与特征分析完成现象归因；精准识别高价值问题，将模糊的业务痛点转化为明确的 AI 解决目标。； 2. 架构设计。面向具体业务需求，设计 AI 原生系统架构；参与 Agent 系统核心模块的规划，包括记忆管理、推理策略与工具编排，兼顾架构的灵活性、可扩展性与工程可落地性； 3. 知识与环境构建。搭建AI与现有业务系统的交互环境，涵盖 API 接入、RAG 知识库构建、记忆方案设计；持续优化召回质量与上下文注入策略，为模型提供准确、及时的执行环境与知识支撑； 4. 核心能力实现。负责Agent关键模块的工程落地，实现意图识别、任务拆解与反思纠错闭环；封装标准化SDK/API服务，构建Agent观测体系，实现全链路追踪与多维归因分析； 5. 系统迭代与演进。建立搭建自动化评测与回测机制，通过调优与Case分析不断收敛效果与性能提升的最优路径；沉淀方法论与可复用组件，推动 AI 能力从单点验证走向规模化落地； 6. 性能优化。优化高并发场景下的系统性能，通过异步处理与降级策略保障稳定性，通过低侵入性观测手段保障系统的长期稳定运行。职位要求基础条件 1. 计算机、软件工程、人工智能等相关专业优先。专业能力 1. AI编程工具重度玩家：Cursor、Claude code等AI编程工具重度或顶级玩家，具备极强的Prompt编写与调优能力，有过完整的项目级开发经验，理解如何让AI写出生产级代码。 2. 大模型能力理解与掌握：理解主流LLM的能力与局限，能够清晰拆解任务并通过LLM或确定性逻辑兜底实现；熟悉主流大模型的应用范式(Context Engineering、Prompt Engineering、Agent、工具/函数调用等等)及主流Agent框架(如LangChain等)，具备大模型幻觉、Prompt注入等风险的工程化应对思路。 3. 扎实的代码和工程能力：具备扎实的计算机基础知识，深入理解数据结构、算法、网络和操作系统等相关知识，能至少在一种主流编程语言（如 Java / Python / JS 等）上有深度的实践经验，掌握常见工程实践并具备优秀的Coding 能力，能够根据场景灵活选型并快速上手。能力特质 1. 学习能力：具备快速啃透前沿论文（Paper）的能力，并能将理论知识转化为工程代码。 2. 开放性与动手能力：拒绝纸上谈兵，有自己独立完成的小项目（开源项目或个人 Demo），展现极客精神。 3. 好奇心与想象力：面对未知事物有独特的想法，具备敏锐的问题定义能力和坚韧的解决问题能力。 4. 审美追求：技术亦有审美，鼓励你提出能提出打动人心、简洁优雅的好想法。 5. 高能动性：具备强烈的自驱力，能够主动探索边界，而不是等待被分配任务。加分项 1. 有AI应用或Agent实际落地经验：包括不限于RAG系统、多智能体编排、结合MCP、Skill等的Agent项目，有可展示的项目/实习成果者优先。 2. 开源贡献或技术影响力：在Github上有高质量AI项目、技术博客或社区影响力。 3. 对AI Infra有基本理解：了解vLLM、Ollama等推理框架原理，理解延迟优化、KV cache优化、流式输出等工程全局视角。在NLP或CV方向有扎实的理论基础，有实际业务场景模型训练(SFT、RL)等经验的优先。简历投递：nicky.ly@antgroup.com 内推码：模型评测：

【内推】【转正实习】蚂蚁消费金融-模型应用开发或模型评测岗