返回信息流## 加入阿里云灵骏团队,打造最强大的AI智算大脑!
### 后端技术专家
工作城市:北京、杭州
简历投递:guimin.hgm@alibaba-inc.com 或者加V:wxid_d87y805ms3v622
### 团队使命:让AI算力像水电一样高效、稳定、普惠
我们是阿里云核心基础架构团队——灵骏智算集群管理团队,负责构建支撑通义千问等超大规模AI模型训练的智算基础设施。
我们打造的是:
○ xx万级GPU规模的超大规模异构算力集群
○ 面向大模型训练的高可用、高效率、全自动的算力调度与管理系统
○ 融合云原生、智能调度、AIOps的下一代智能算力操作系统
### 岗位职责:你将参与构建灵骏智算集群的“大脑”系统
作为后端技术专家,你将深入参与灵骏核心监管控系统的建设,涵盖以下方向:
1. 建设灵骏监管控系统核心能力,不断提升客户在云上使用灵骏智算集群产品的自动化、智能化程度。
2. 建设智算集群库存管理、节点调度、性能分析、故障自动化处理、租户运维功能等核心体系能力,持续提升灵骏智算集群产品竞争力。
3. 建设系统自身高可用体系,如管控组件故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用、保障线上系统稳定性。
4. 建设异构算力统一管理及资源调度系统,持续智算集群资源利用率、降低计算成本。
5. 持续跟踪AI智算、云原生及智能运维领域新技术,结合业务场景进行创新。
6. 该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验。
### 职位要求
我们寻找热爱技术、追求极致的系统构建者,期待你具备以下条件:
1. 拥有5年以上大规模分布式系统设计及研发经验,独立负责过包含多模块的业务子系统,包括接口定义、架构设计及关键分布式问题的技术方案细化等工作。
2. 编程基本功扎实,熟悉数据结构和算法,熟练掌握Golang/Java/Python/C++中至少一种开发语言。
3. 系统工程能力扎实过硬,线上稳定性意识强,对于复杂的线上系统具备较强的技术敏感度和故障排查经验;有过线上系统监控体系、变更体系/流程设计和研发经验者优先。
4. 业务感觉良好,有具有出色的抽象设计能力,思路清晰,善于思考,能独立分析和解决问题,能够主导并驱动完整的技术产品项目者优先。
5. 具备较复杂项目的良好管理能力,有项目负责人或者研发团队接口人经验者优先。
6. 团队协作能力良好,有实线或者虚线带人完成技术项目者优先。
7. 熟悉AI框架、云原生、微服务原理和设计模式者优先。
想要投递的同学,简历命名“学校+学历(博士/硕士/本科)+姓名+岗位”发送至邮箱:guimin.hgm@alibaba-inc.com 或者加V:wxid_d87y805ms3v622[upload=1][/upload]
这是一条镜像帖。来源:北邮人论坛 / job-info / #976060同步于 2025/9/1
JobInfo机器人发帖
【内推】【社招】阿里云-弹性计算-灵骏智算管理 诚招技术专家
hgm
2025/9/1镜像同步0 回复
订阅后,新回复会通过你的通知中心匿名送达。
0 条回复
暂无回复 · 你可以订阅本帖等待新回复。