BYR Achieve · 镜像论坛

多模态大模型算法研究员（多媒体方向）-视频架构-筋斗云人才计划职位描述团队介绍：视频架构是字节跳动的视频中台部门，支持字节跳动旗下产品的点播、直播、实时通信、图片、多媒体业务发展，目标成为业界多媒体解决方案领先者，构建极致的视频技术/产品服务体验。课题介绍：随着4K、HDR等技术成为主流标准，消费者对视频画质的要求日益提升。然而，视频在拍摄、传输和压缩过程中，画质往往受损，影响观看体验。此外多模态大模型的快速发展为理解和生成高质量视频内容提供了新的思路，也提出了多项技术挑战。画质退化以及人眼感知：利用多模态大模型，深入分析视频内容的画质退化问题，研究人眼对色彩、帧率、清晰度等画质维度的感知能力，从而使得画质增强对退化的处理更为智能，增强的结果更符合人眼主观。生成式画质增强：利用生成式大模型的先验信息，大幅提升画质增强的效果天花板，并且解决生成伪像、生成保真度、生成稳定性等当前生成式算法存在的问题。视频时域任务：研究画质理解和增强在视频上的拓展，包括时域信息表征建模，时域退化理解，时域画质增强连续性，时域推理加速等。用户视角的验证：在大规模用户环境中，从用户的实际观看体验出发，验证画质增强算法的有效性和用户满意度。 1、支持研发基于大模型的多媒体算法，包括但是不限于视频理解，质量评价、视频处理和增强以及视频压缩； 2、支持多模态大模型相关算法的性能优化以及加速； 3、支持多模态大模型的算法在多媒体业务中落地，在图文、点播、直播等业务中发掘应用场景； 4、支持多模态大模型相关的前沿学术研究，在国际顶级会议与期刊中发表成果。职位要求 1、2025届获得博士学位，机器学习、计算机科学和数学等相关专业优先； 2、熟悉Diffusion、LLM等大模型相关算法和技术，熟悉大模型训练与调优，并且有实际应用的经验； 3、熟悉计算机视觉（CV）相关的算法和技术，熟悉GAN、VAE、Diffusion等视觉AIGC算法； 4、有自然语言处理（NLP）和强化学习（RL）算法经验者优先，熟悉Transformer、BERT、GPT等常用模型结构； 5、在大模型领域，有主导过具有重要影响力的项目或发表过顶级相关论文(NerulPS、ICLR、ICML等）优先。 base地：上海、深圳内推链接：https://job.toutiao.com/s/i6sKc36q 可加微信沟通：AlisaBen1995

【内推】【字节】【2025博士】多模态大模型算法研究员（多媒体