BYR Achieve · 镜像论坛

中电信人工智能科技（北京）有限公司- 长视频理解基础模型实习生实习生组内直招，欢迎有兴趣的学弟学妹来咨询，可以标题注明“算法实习生”并发送简历到 fanghan1996@outlook.com, 长期有效工作地点：（地铁四号线动物园站）岗位要求 1. 参与长视频理解与多模态基础模型相关研究，包括长视频建模、视频时序理解、多模态推理等方向； 2. 参与多模态大模型训练与优化工作，包括数据处理、预训练、指令微调、模型优化与推理部署等； 3. 参与长视频理解相关原型系统与应用构建，探索大模型在视频理解、事件分析等场景中的落地能力； 4. 跟踪多模态大模型与视频理解领域前沿技术，结合电信业务场景开展模型能力优化与创新。组内资源 1. 转正优先考虑：当前就业形势下国企相对更加有保障； 2. 接触最前沿的算法：组内成员大部分来自一线互联网和国内top院校，在相关领域有丰富的经验；团队氛围好，共同攻关前沿技术； 3. 丰富的计算资源和数据：组内有大量 GPU计算资源，海量的多模态训练和测试数据。小组在多模态大模型上的成绩：基础模型研发：团队研发的电信多模态大模型 TeleMM 系列性能行业领先。TeleMM-2.0-Thinking 在 OpenCompass 2025 年度总榜单中排名第 2。TeleMM-1.0 在 2024 年总榜单中排名第 3。模型在图文理解、视觉问答及逻辑推理任务上表现优异。作为基座模型，TeleMM 系列已广泛应用于电信社会安防、城市治理、交通管治等核心业务场景，为行业数字化转型提供高效、可靠的智能支撑。竞赛成绩：文档理解：在 OCRBench v2 中文榜单获第 1 名（英文第 2 名），在 MMLongBench-Doc 获第 3 名；视频理解：在 MLVU、LVbench、VideoMME 榜单分别取得第 2、第 5、第 5 名；视觉定位：2025 ICCV MARS2 2025 多模态推理挑战赛道 #1：现实场景中的视觉定位（VG-RS）全球第三。学术成果：近两年团队在 ICML、ICLR、CVPR、AAAI、ACM MM、SIGIR 等顶级会议发表高水平（CCF-A）论文十余篇。任职要求 1. 硕士及以上学历，数学、计算机、电子、自动化等相关专业； 2. 熟悉C++或Python，具有较强的代码开发能力，熟练在Linux下工作，熟悉Shell； 3. 熟悉深度学习算法如CNN、RNN、Transformer等，熟悉TensorFlow，Pytorch等其中一种深度学习框架；熟悉计算机视觉、图像处理等专业领域的学科知识； 4. 熟悉Qwen等多模态大模型的框架、预训练和微调等技术，有长视频理解、VideoLLM、视频时序建模等方向的实际落地经验优先； 5. 在国际顶尖会议或期刊（包括但不限于CVPR, ICCV, ECCV, NeurIPS, ICML, AAAI,TPAMI,IJCV, TIP等）上发表过论文者优先； 6. 每周出勤至少能够保证4天，可连续实习4个月以上；联系方式 - 邮箱： fanghan1996@outlook.com 欢迎各位感兴趣的同学关注咨询、提交简历，期待大家的加入！共同合作开展多模态大模型的前沿研究和应用落地！

【实习】【电信】招聘长视频理解基础模型实习生