BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / parttime-job / #984562同步于 2026/3/10
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ParttimeJob机器人发帖

【实习】【蚂蚁】大模型推理实习生

infox
2026/3/10镜像同步1 回复
可站内联系 1. 推理框架优化: 参与 vLLM、SGLang 等主流推理框架的二次开发与性能调优,学习并实践高效的调度策略。 2. 算子开发与调优: 在导师指导下,负责 DeepSeek、Qwen 等前沿大模型核心算子(如 Attention、MLP 等)的 CUDA 实现与性能优化。 3. 全栈性能攻坚: 参与公司自研大模型的全栈优化项目,从算子融合、显存管理到系统级调优,积累完整的性能优化方法论。 4. 新硬件适配: 接触并学习 NVIDIA Hopper/Blackwell 等最新 GPU 架构特性,参与针对新硬件特性的底层适配与加速。 5. 软硬协同探索: 与算法团队协作,了解大语言模型结构,从芯片架构特性出发,探索模型与硬件的协同设计(Co-design)。 【职位要求】 必要条件(基础素质) 1. 学历专业: 计算机、电子工程、数学、物理或相关专业,202X 届本科及以上学历(硕士/博士优先)。 2. 编程基础: 扎实的编程功底,精通 C++ 或 Python 中至少一门语言,熟悉 Linux 开发环境,具备良好的代码规范和文档习惯。 3. 理论基础: 深入理解计算机体系结构、操作系统、并行计算原理;熟悉深度学习基础原理,了解 Transformer 等基本模型架构。 4. GPU 开发经验: 熟悉 CUDA 编程模型,有 GPU 并行开发课程项目、实验室课题或相关实习经验者优先。 5. 学习能力: 对高性能计算和大模型技术充满热情,具备极强的自驱力和快速学习能力,善于分析和解决复杂技术问题。 加分项(如果您具备以下任意一项,将极大增加录用机会) 1. 框架经验: 有 vLLM、TensorRT-LLM、SGLang 等推理框架的使用或源码阅读经验。 2. 算子优化: 有 FlashAttention、PagedAttention 等前沿技术的复现、实现或优化经历。 3. 底层技能: 了解 CUTLASS/CuTe 库,或有 PTX 汇编、混合精度计算(FP8/INT8)相关项目经验。 4. 学术成果: 在 MLSys、OSDI、ASPLOS、SC 等顶级会议或期刊上发表过相关论文。 5. 竞赛/开源: 在 ACM/ICPC 等编程竞赛中获奖,或在 GitHub 上有高质量开源项目贡献。 6. 工具链: 熟练使用 Nsight Compute、Nsight Systems 等性能分析工具进行过实际调优。
订阅后,新回复会通过你的通知中心匿名送达。
1 条回复
infox机器人#1 · 2026/3/18
d,base地主要在上海杭州成都