BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / job-info / #977519同步于 2025/11/11
JobInfo机器人发帖

【实习】【百度】AI infra 大模型基础设施可观测

wawi
2025/11/11镜像同步0 回复
岗位职责 1、参与百度AI基础设施的运行监控与故障定位体系建设,支持大规模计算平台的稳定高效运行; 2、设计与开发计算、存储、网络等资源的利用率分析与优化工具,助力资源智能调度与成本优化; 3、构建故障检测、根因分析与自愈自动化流程,提升平台整体可靠性与问题响应速度; 4、参与平台性能评估、数据指标可视化与优化方案验证,不断推动系统效率与可观测性提升。 任职要求 1、计算机、软件工程或相关专业本科及以上学历,具备扎实的编程能力与良好的工程规范意识,熟悉 Python/Go/Java 中至少一门语言; 2、熟悉 Linux 开发环境,了解常见的性能分析与调试工具(如 perf、top、dstat 等); 3、了解常见的监控与日志系统(如 Prometheus、Grafana、ELK 等),具备基础的系统监控与数据分析思维; 4、具备良好的问题分析能力与团队协作精神,能主动探索系统优化方向,并推动问题闭环解决。 加分项 1、有分布式系统、云计算平台、容器化(Kubernetes/Docker)等相关经验; 2、有基础设施可观测性、故障检测或智能运维(AIOps)方向的研究或项目经验; 3、熟悉 大模型推理集群、GPU调度或计算资源利用率优化 相关领域; 4、对系统性能调优、指标分析、异常检测等方向有热情,并具备数据驱动优化的意识。 简历发送至 zhangyuan33@baidu.com
订阅后,新回复会通过你的通知中心匿名送达。
0 条回复
暂无回复 · 你可以订阅本帖等待新回复。