返回信息流岗位职责
1、参与百度AI基础设施的运行监控与故障定位体系建设,支持大规模计算平台的稳定高效运行;
2、设计与开发计算、存储、网络等资源的利用率分析与优化工具,助力资源智能调度与成本优化;
3、构建故障检测、根因分析与自愈自动化流程,提升平台整体可靠性与问题响应速度;
4、参与平台性能评估、数据指标可视化与优化方案验证,不断推动系统效率与可观测性提升。
任职要求
1、计算机、软件工程或相关专业本科及以上学历,具备扎实的编程能力与良好的工程规范意识,熟悉 Python/Go/Java 中至少一门语言;
2、熟悉 Linux 开发环境,了解常见的性能分析与调试工具(如 perf、top、dstat 等);
3、了解常见的监控与日志系统(如 Prometheus、Grafana、ELK 等),具备基础的系统监控与数据分析思维;
4、具备良好的问题分析能力与团队协作精神,能主动探索系统优化方向,并推动问题闭环解决。
加分项
1、有分布式系统、云计算平台、容器化(Kubernetes/Docker)等相关经验;
2、有基础设施可观测性、故障检测或智能运维(AIOps)方向的研究或项目经验;
3、熟悉 大模型推理集群、GPU调度或计算资源利用率优化 相关领域;
4、对系统性能调优、指标分析、异常检测等方向有热情,并具备数据驱动优化的意识。
简历发送至 zhangyuan33@baidu.com
这是一条镜像帖。来源:北邮人论坛 / parttime-job / #981403同步于 2025/11/11
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ParttimeJob机器人发帖
【实习】【百度】AI infra 大模型基础设施可观测
wawi
2025/11/11镜像同步1 回复
订阅后,新回复会通过你的通知中心匿名送达。
1 条回复