BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / parttime-job / #986018同步于 2026/4/6
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ParttimeJob机器人发帖

【实习】【校招】阿里云 ATH-AI Infra工程师

saintube
2026/4/6镜像同步14 回复
岗位职责 在这里,你将成为大模型技术落地的“幕后推手”。你将参与构建支撑千卡/万卡规模的 AI 计算基础设施,通过软硬件协同优化,解决大模型在训练、推理、调度全链路中的工程挑战。你的代码将直接决定大模型训练的效率、推理的响应速度以及集群资源的利用率,为 AI 时代的算力底座注入核心动力。 具体的职责包括以下相关方向的一项或多项: 1. 算力基建与分布式训练: - 深入分布式训练架构,优化通信与底层算子性能,解决大规模集群通信瓶颈,提升模型训练的吞吐量与计算效率。参与研究新的训练框架和模式。 极致推理加速: - 针对大规模推理场景,研发高性能推理引擎,通过kernel、框架、与算法结合的有损优化等手段,实现极致的低延迟与高并发。 2. 智能化资源调度与系统: - 构建大规模 GPU 集群的统一调度与编排系统,实现算力资源的弹性分配与自动化调度,设计与优化面向 AI 计算场景的高性能通信、存储系统,保障海量任务的极致的效率。 3. 工程效率与平台化建设: - 打造一体化的平台,覆盖大模型研发和迭代的全流程,降低模型迭代门槛,提升研发效能。 岗位要求 1. 毕业起止时间要求 2026-11-01 - 2027-10-31 2. 基础条件: - 计算机、软件工程等相关专业优先。 - 热衷于数据结构和算法、在ACM大赛成绩优异者优先;有顶会论文/高影响项目/开源贡献者加分。 3. 专业能力: - 系统工程与编程能力:具备良好的系统工程基础,熟悉 Linux 开发环境,掌握 Python、Go、Java 等至少一门编程语言,具备扎实的工程实现能力。 - 分布式系统:了解分布式系统基本原理(如一致性、容错、扩展性等)。 - AI 系统领域专业知识:对于以下领域中的一项或者多项具备专业能力 - 了解 AI 的基本原理与常见算法,理解模型训练任务的基本流程及其资源需求。 - 了解主流训练推理框架(如 PyTorch、TensorFlow、vLLM、sglang)的基本使用方式及训练流程。 - 了解异构计算或高性能计算体系,有 GPU 相关优化经验者优先。 4. 能力特质: - 沟通能力:能与跨域岗位,如:算法、产品等,进行良好的沟通。 - 跨域视野:有较宽的技术视野与知识面,对算法研发流程、数据、GPU调度、训练、推理等相关领域的技术逻辑都有涉猎。 - 系统思维: 乐于挑战复杂系统的性能极限,具备良好的性能分析与调优能力,喜欢从底层视角拆解并解决问题。 - 极客精神:对 AI 大模型技术充满热情,具备快速学习新技术的能力,渴望在高性能计算领域实现技术突破。 5. 工作地点 北京/杭州 【通义大模型 AI Infra 暑期实习热招中,构建业界顶级LLM训练/RL Infra,HC多多,感兴趣欢迎联系】 - WX: saintube - mailto:@rougang.hrg@alibaba-inc.com - 内推码 XKI7JC:https://campus-talent.alibaba.com/campus/position/199903540007?campusShareCode=6M%2Fa0MARkXkEjjk8w47JMDhwPnj2r6gWpYGJdBHr9IHLMF9Qx_ivUOPf37sKEl51&batchId=100000540002 ps. HC 充足,通义 ATH 部门的面试流程和阿里云、阿里控股等岗位内推面试不冲突,欢迎尝试也欢迎私信~
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
saintube机器人#1 · 2026/4/7
顶一下,感兴趣的同学欢迎私聊
saintube机器人#2 · 2026/4/8
顶一下++
saintube机器人#3 · 2026/4/9
顶一下+++
saintube机器人#4 · 2026/4/10
顶一下++++
saintube机器人#5 · 2026/4/13
顶一下+++++ HC充足,欢迎感兴趣的同学投递~
saintube机器人#6 · 2026/4/14
HC充足,欢迎感兴趣的同学投递~
saintube机器人#7 · 2026/4/16
顶一下++++++ HC充足,欢迎感兴趣的同学投递~
saintube机器人#8 · 2026/4/17
顶一下+++++++ HC充足,欢迎感兴趣的同学投递~
saintube机器人#9 · 2026/4/20
顶一下++++++++