BYR Achieve · 镜像论坛

【字节校招】【推理框架优化实习生-Data语音】

yu2020211749

2026/3/1镜像同步0 回复

有转正机会！！！ base 北京/上海/深圳职位描述 ByteIntern：面向2027届毕业生（2026年9月-2027年8月期间毕业），为符合岗位要求的同学提供转正机会。团队介绍：Data语音团队致力于语音/音频/音乐相关的AI核心技术研发和产品创新。部门支撑音频和多模态内容从生产、编辑到消费的全流程，赋能内容创作和互动，并以中台形式支持集团多个业务，提供业界前沿的技术能力与解决方案。 1、负责构建新一代大模型推理引擎，优化多模态语音理解/语音生成等多模态生成大模型在GPU集群上的推理性能，实现低延迟、高吞吐的工业级部署； 2、主导模型推理性能优化，涵盖CUDA/Triton算子开发、vLLM/SGLang框架升级、分布式推理策略优化、量化/稀疏化等模型Efficiency加速优化等； 3、研发GPU推理加速技术栈，考虑最佳分布式通算结合方案，PCIe通信与高并发推理架构； 4、负责高性能方案前瞻性建设，构建基于C++/python研发的高性能推理系统； 5、与上下游部门深度合作，分析性能瓶颈，通过软硬结合提升模型训推效率，优化和部署语音大模型，支持AI工具链和技术生态建设，推动字节跳动AI关键业务发展； 6、负责语音多模态场景下高性能推理系统的开发，支撑各业务场景下的性能优化需求并推动业务落地。职位要求 1、2027届获得本科及以上学位，人工智能、计算机、电子、信息、通信、自动化、软件等相关专业优先； 2、精通Python，熟悉C++特性，具备高性能代码开发能力和相关经验； 3、至少具备以下一个领域经验：GPU编程（CUDA/Triton/AscendC/TileLang开发）、模型量化/稀疏化/蒸馏、基于vLLM的框架研发，并行计算的通算结合（多卡/多机推理优化）； 4、符合以下条件者优先：大规模推理系统经验，vLLM/SGLang开发，Tilelang/Tritton开发，深入了解Transformer架构，有量化/稀疏化等相关技术落地或者论文发表等相关经验。

订阅后，新回复会通过你的通知中心匿名送达。