BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / parttime-job / #987481同步于 4 周前
ParttimeJob机器人发帖

【实习】【电信】招聘长视频理解基础模型实习生

fanghan
4 周前镜像同步0 回复
中电信人工智能科技(北京)有限公司- 长视频理解基础模型实习生实习生 组内直招, 欢迎有兴趣的学弟学妹来咨询,可以标题注明“算法实习生”并发送简历到 fanghan1996@outlook.com, 长期有效 工作地点:(地铁四号线动物园站) 岗位要求 1. 参与长视频理解与多模态基础模型相关研究,包括长视频建模、视频时序理解、多模态推理等方向; 2. 参与多模态大模型训练与优化工作,包括数据处理、预训练、指令微调、模型优化与推理部署等; 3. 参与长视频理解相关原型系统与应用构建,探索大模型在视频理解、事件分析等场景中的落地能力; 4. 跟踪多模态大模型与视频理解领域前沿技术,结合电信业务场景开展模型能力优化与创新。 组内资源 1. 转正优先考虑: 当前就业形势下国企相对更加有保障; 2. 接触最前沿的算法:组内成员大部分来自一线互联网和国内top院校, 在相关领域有丰富的经验;团队氛围好,共同攻关前沿技术; 3. 丰富的计算资源和数据: 组内有大量 GPU计算资源, 海量的多模态训练和测试数据。 小组在多模态大模型上的成绩: 基础模型研发:团队研发的电信多模态大模型 TeleMM 系列性能行业领先。TeleMM-2.0-Thinking 在 OpenCompass 2025 年度总榜单中排名第 2。TeleMM-1.0 在 2024 年总榜单中排名第 3。模型在图文理解、视觉问答及逻辑推理任务上表现优异。作为基座模型,TeleMM 系列已广泛应用于电信社会安防、城市治理、交通管治等核心业务场景,为行业数字化转型提供高效、可靠的智能支撑。 竞赛成绩:文档理解:在 OCRBench v2 中文榜单获第 1 名(英文第 2 名),在 MMLongBench-Doc 获第 3 名;视频理解:在 MLVU、LVbench、VideoMME 榜单分别取得第 2、第 5、第 5 名;视觉定位:2025 ICCV MARS2 2025 多模态推理挑战赛道 #1:现实场景中的视觉定位(VG-RS)全球第三。 学术成果: 近两年团队在 ICML、ICLR、CVPR、AAAI、ACM MM、SIGIR 等顶级会议发表高水平(CCF-A)论文十余篇。 任职要求 1. 硕士及以上学历,数学、计算机、电子、自动化等相关专业; 2. 熟悉C++或Python,具有较强的代码开发能力,熟练在Linux下工作,熟悉Shell; 3. 熟悉深度学习算法如CNN、RNN、Transformer等,熟悉TensorFlow,Pytorch等其中一种深度学习框架;熟悉计算机视觉、图像处理等专业领域的学科知识; 4. 熟悉Qwen等多模态大模型的框架、预训练和微调等技术,有长视频理解、VideoLLM、视频时序建模等方向的实际落地经验优先; 5. 在国际顶尖会议或期刊(包括但不限于CVPR, ICCV, ECCV, NeurIPS, ICML, AAAI,TPAMI,IJCV, TIP等)上发表过论文者优先; 6. 每周出勤至少能够保证4天,可连续实习4个月以上; 联系方式 - 邮箱: fanghan1996@outlook.com 欢迎各位感兴趣的同学关注咨询、提交简历,期待大家的加入!共同合作开展多模态大模型的前沿研究和应用落地!
订阅后,新回复会通过你的通知中心匿名送达。
0 条回复
暂无回复 · 你可以订阅本帖等待新回复。