BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / job-info / #954874同步于 2023/3/28
JobInfo机器人发帖

【社招】【美团】【内推】机器学习平台/引擎,大量岗位开放

weberxie
2023/3/28镜像同步0 回复
简历请发送邮件 xietingwen@meituan.com ,邮件标题:【社招】【岗位xxx】【姓名】 机器学习训练引擎工程师 岗位职责 1. 参与美团机器学习平台的引擎建设,支撑视觉、NLP、语音等业务场景 2. 负责美团大模型训练框架的稳定性、易用性、可观测性能力建设 3. 负责千卡规模和千亿参数的大规模训练性能优化 岗位基本需求 1. 有扎实的计算机理论基础,熟练掌握C++或Python语言 2. 深入了解PyTorch 或 TensorFlow等引擎的架构和运行原理,有深度定制经验优先 3. 有分布式系统开发经验优先,熟悉大模型训练分布式并行架构优先 4. 熟悉CUDA或NPU编程经验优先,有RDMA实践经验优先 5. 熟悉视觉或NLP 等领域常用深度学习算法优先,如ResNet、BERT、GPT 等 6. 学习能力和好奇心强,具备良好的沟通协调能力与团队协作精神 机器学习预测引擎工程师 岗位职责 1. 参与美团机器学习平台的预测引擎建设,支撑多个业务场景的模型预测需求 2. 负责建设高性能高可用的模型预测在线服务架构 3. 负责深度定制模型算子实现,提升模型预测性能 4. 负责常见的生成式大模型压缩,包括但不限于量化(QAT/PTQ)、剪枝、蒸馏(Distill)、稀疏(Sparse)、搜索(NAS)等技术 5. 负责前沿性能优化方案的调研、开发和落地 岗位基本需求 1. 有扎实的计算机理论或深度学习算法基础,熟练掌握C++或Python语言 2. 有在线服务系统开发经验优先,熟悉CUDA编程优先 3. 熟悉常用的模型压缩技术,如量化、剪枝、蒸馏、NAS等 4. 深入了解PyTorch 或 TensorFlow等引擎的架构和运行原理,有深度定制经验优先 5. 熟悉内容生成领域常见的大模型架构 BERT、MoE、StableDiffusion、GPT 以及相关的技术 6. 学习能力和好奇心强,具备良好的沟通协调能力与团队协作精神 机器学习强化学习架构工程师 岗位职责 1. 参与美团机器学习平台建设,构建强化学习架构和算法迭代Pipeline 2. 负责相关系统开发和优化,持续提升稳定性和性能 3. 紧密配合算法团队,通过强化学习落地业务效果 岗位基本需求 1. 有扎实的计算机理论基础,熟练掌握C++或Python语言 2. 精通强化学习/自然语言处理相关算法,具备较强算法实现能力 3. 有分布式系统开发经验优先,熟悉CUDA编程优先 4. 学习能力和好奇心强,具备良好的沟通协调能力与团队协作精神 机器学习编译系统工程师 岗位职责 1. 利用深度学习编译技术,结合专家级经验(算法/系统/硬件),解决搜广推、CV、NLP,以及多模态、大模型的训练和推理场景挑战。 2. 系统化分析模型,提炼/抽象优化方法,寻求解空间(包括算子调度,融合,Schedule,异构调度等)。 3. multi-framework(例如Tensorflow、Pytorch等) 计算图优化Pass开发,手段包括不限于编译IR优化,专家经验模板化等等。 4. multi-device(例如 GPU,CPU,NPU)专项 SIMT、SIMD 计算加速,包括核心 Gemm 算子,Reduce算子,以及复杂融合算子等等。 岗位基本需求 有扎实的计算机理论基础,熟练掌握C++和Python语言 具备以下者优先 1. 熟悉PyTorch 或 TensorFlow等引擎的架构和运行原理,有深度定制经验优先 2. 熟悉TVM/MLIR/XLA等DL编译器,有Cutlass技术经验,具备计算图翻译至IR并优化的经验优先 3. 在深度学习领域有丰富的模型优化经验,熟悉GPU或NPU架构,有CUDA或NPU编程经验优先 4. 学习能力和好奇心强,具备良好的问题分析和解决能力,有团队合作精神和沟通能力 机器学习平台基础架构工程师(集群管理方向) 岗位职责 1. 围绕Kubernetes生态建设参与大规模异构集群,包括调度、Operator、存储、网络、节点端优化等方面的内容; 2. 持续提升数万节点、数万GPU 卡的资源效率; 3. 参与控制面或节点端等方面的设计和实现,保证集群内外各组件的稳定性; 4. 建设日志、监控、指标等观测体系,提升系统的可观测能力。 岗位基本需求 1. 熟悉 Kubernetes 架构和原理,熟悉分布式系统原理,熟悉云原生相关技术; 2. 具备良好的问题分析和解决能力,有团队合作精神和沟通能力; 3. 熟练使用至少一门编程语言,如Go、Python 或者 Java; 具备以下者优先 1. 具备大规模集群管理和资源调度的实践经验者优先; 2. 具备大数据和机器学习相关背景者优先。
订阅后,新回复会通过你的通知中心匿名送达。
0 条回复
暂无回复 · 你可以订阅本帖等待新回复。