BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / parttime-job / #979809同步于 2025/9/9
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ParttimeJob机器人发帖

【美团】【实习】【北京】 大模型数据算法实习生

bupt00000022
2025/9/9镜像同步2 回复
【美团-商业增值部-大语言模型数据算法实习生】 不限方向,欢迎对AGI及大模型有热情的同学来了解,搜广推等都可以,走向大模型岗位的最好时机!! 重要:本岗位为日常实习,转正名额非常少,应届生谨慎投递。 职位描述: 0. 数据是成功训练大模型的最重要因素。本岗位招聘和培养数据方面的专家。 1. 数据构造:收集、清洗和整理大模型持续预训练所需的通用文本、对话日志、对话语音等海量数据; 2. 数据监控:设计和维护数据过滤规则体系,设计基于规则和大模型的过滤器和处理器; 3. 数据质量评估:建立并持续完善数据质量、多样性、重复度、覆盖率等评估体系,分析和量化每个维度的影响。 4. 数据合成:探索适用于大模型持续预训练的数据合成算法,为大语言模型提供高质量合成tokens。 5. 数据配比:深入探索大模型持续预训练的data recipe,以提升模型的整体表现。 职位基本要求: 1.本科及以上学历,计算机、人工智能、数学、物理等相关专业优先。 2.代码能力强,在ACM/ICPC、NOI/IOI、Kaggle等编程或AI竞赛中获奖者优先。 3.能充分意识到数据质量对大模型能力的重要性和数据侧的潜在巨大收益。 4.了解机器学习、深度学习、大语言模型基础知识。 5.细致、有很强的耐心;敢于挑战难题,理解和学习能力强,能够快速吸收掌握新知识。 6.熟悉Python和数据处理库(pandas, numpy等),熟悉大规模数据处理框架(Spark, Dask等),具备设计和实现数据质量控制流程的经验。 7.具备数据可视化和探索性数据分析能力。 加分项: 1.具备对CommonCrawl、C4、Slimpajama等大规模数据集的处理经验或者参与过开源大模型数据处理项目者优先。 2.具备大语言模型训练的相关经验,熟悉Megatron、DeepSpeed等主流框架者优先。 3.学习能力强,能够快速学习和复现大模型前沿论文者优先。 联系方式:caihuaiguang@meituan.com
订阅后,新回复会通过你的通知中心匿名送达。
2 条回复
bupt00000022机器人#1 · 2025/9/11
bd
bupt00000022机器人#2 · 2025/9/15
bd