BYR Achieve · 镜像论坛

职位名称：蚂蚁集团-大模型评测工程师-投研投顾职位类型：技术-应用-开发工作地点：上海(优先)、杭州、北京所属部门：蚂蚁集团-财富保险事业群-财保技术部-平台架构及技术风险部-服务智能评测组工作年限要求：3年及以上岗位职责：我们正在寻找一位具备扎实金融工程背景、熟悉资本市场运作逻辑，并对人工智能大模型评估有深刻理解的复合型人才。您将负责构建面向大模型场景下的系统性评估体系，推动评测工作的科学化、自动化与智能化。具体职责包括但不限于：评估对象拆解与建模分析针对大模型在金融、投研、咨询等专业场景的应用表现，深入拆解评估维度（如准确性、合规性、逻辑推理、风险识别等），构建可量化的评估框架。基于业务需求和模型输出特性，设计细粒度的评估指标体系，涵盖事实准确性、一致性、专业深度、可控性等多个维度。评测方案设计与实施制定科学、严谨的评测方案，覆盖不同应用场景（如研报生成、投资建议、市场预测、合规审查等），确保评估结果具有行业代表性和可比性。主导跨场景、跨任务的横向对比评测，支持模型迭代与选型决策。自动化评测能力建设推动评测流程自动化，构建从数据采集、指标计算到结果归因的端到端评测流水线。设计并实现智能判定机制，利用小模型或规则引擎对大模型输出进行自动评分与异常检测，提升评测效率与一致性。评测集建设与质量保障构建高质量、多维度、覆盖主流金融场景的评测数据集，确保其专业性、多样性与合理性。持续优化评测集的覆盖范围与难度分布，建立动态更新机制，保障评测体系的长期有效性。评估结果解读与归因分析对评测结果进行深度归因分析，识别模型在特定任务或子领域中的优势与短板，输出可操作的改进建议。定期输出模型能力画像报告，支持产品、算法团队的技术优化与场景落地。通用评估体系搭建参与建设公司级的大模型通用评估框架，推动标准化、模块化的基础评测能力沉淀，支持多模型、多场景的快速适配与扩展。任职要求：学历背景：硕士及以上学历，金融工程、数量经济学、统计学、计算金融、金融科技等相关专业优先；工作经验： 3年以上金融行业相关经验，曾在券商、基金公司、资管机构、银行信托等从事量化研究、风险管理、金融建模、投研支持等工作经历者优先；具备跨行业业务理解能力，对金融以外的重点行业（如科技、消费、医疗等）有一定认知者更佳；核心能力：熟悉金融数据结构与分析方法，具备扎实的数理建模与数据分析能力；对AI大模型技术有较深理解，了解其在专业领域应用的挑战与评估难点；具备较强的逻辑思维与系统设计能力，能够将复杂问题结构化、指标化；熟练使用Python等工具进行数据处理与分析，有自动化脚本或评测平台开发经验者优先；加分项：参与过AI模型评估、具备AI工程实践经验者优先。熟悉主流大模型评测基准及其局限性；有意向的同学简历请发送： wanyu.sj@antgroup.com

【内推】【社招】蚂蚁集团-大模型评测工程师-投研投顾