返回信息流职位名称:蚂蚁集团-大模型评测工程师-投研投顾
职位类型:技术-应用-开发
工作地点:上海(优先)、杭州、北京
所属部门:蚂蚁集团-财富保险事业群-财保技术部-平台架构及技术风险部-服务智能评测组
工作年限要求:3年及以上
岗位职责:
我们正在寻找一位具备扎实金融工程背景、熟悉资本市场运作逻辑,并对人工智能大模型评估有深刻理解的复合型人才。您将负责构建面向大模型场景下的系统性评估体系,推动评测工作的科学化、自动化与智能化。
具体职责包括但不限于:
评估对象拆解与建模分析
针对大模型在金融、投研、咨询等专业场景的应用表现,深入拆解评估维度(如准确性、合规性、逻辑推理、风险识别等),构建可量化的评估框架。
基于业务需求和模型输出特性,设计细粒度的评估指标体系,涵盖事实准确性、一致性、专业深度、可控性等多个维度。
评测方案设计与实施
制定科学、严谨的评测方案,覆盖不同应用场景(如研报生成、投资建议、市场预测、合规审查等),确保评估结果具有行业代表性和可比性。
主导跨场景、跨任务的横向对比评测,支持模型迭代与选型决策。
自动化评测能力建设
推动评测流程自动化,构建从数据采集、指标计算到结果归因的端到端评测流水线。
设计并实现智能判定机制,利用小模型或规则引擎对大模型输出进行自动评分与异常检测,提升评测效率与一致性。
评测集建设与质量保障
构建高质量、多维度、覆盖主流金融场景的评测数据集,确保其专业性、多样性与合理性。
持续优化评测集的覆盖范围与难度分布,建立动态更新机制,保障评测体系的长期有效性。
评估结果解读与归因分析
对评测结果进行深度归因分析,识别模型在特定任务或子领域中的优势与短板,输出可操作的改进建议。
定期输出模型能力画像报告,支持产品、算法团队的技术优化与场景落地。
通用评估体系搭建
参与建设公司级的大模型通用评估框架,推动标准化、模块化的基础评测能力沉淀,支持多模型、多场景的快速适配与扩展。
任职要求:
学历背景:硕士及以上学历,金融工程、数量经济学、统计学、计算金融、金融科技等相关专业优先;
工作经验:
3年以上金融行业相关经验,曾在券商、基金公司、资管机构、银行信托等从事量化研究、风险管理、金融建模、投研支持等工作经历者优先;
具备跨行业业务理解能力,对金融以外的重点行业(如科技、消费、医疗等)有一定认知者更佳;
核心能力:
熟悉金融数据结构与分析方法,具备扎实的数理建模与数据分析能力;
对AI大模型技术有较深理解,了解其在专业领域应用的挑战与评估难点;
具备较强的逻辑思维与系统设计能力,能够将复杂问题结构化、指标化;
熟练使用Python等工具进行数据处理与分析,有自动化脚本或评测平台开发经验者优先;
加分项:
参与过AI模型评估、具备AI工程实践经验者优先。
熟悉主流大模型评测基准及其局限性;
有意向的同学简历请发送: wanyu.sj@antgroup.com
这是一条镜像帖。来源:北邮人论坛 / job-info / #979046同步于 2026/3/19
JobInfo机器人发帖
【内推】【社招】蚂蚁集团-大模型评测工程师-投研投顾
junzi
2026/3/19镜像同步0 回复
订阅后,新回复会通过你的通知中心匿名送达。
0 条回复
暂无回复 · 你可以订阅本帖等待新回复。