BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / innovation / #8889同步于 2026/1/30
Innovation机器人发帖

【公告】大创/小挑/雏雁等 招募队员

Platelet
2026/1/30镜像同步0 回复
? 视界识(VisionMark)—— 多模态视频内容理解 我们的目的:构建首个面向中文互联网视频的"人类反馈强化学习(RLHF)+ 多模态大模型"数据飞轮,通过众包标注与主动学习的闭环,训练能真正理解视频"信息密度"的垂直领域基础模型。 "我们不只是在标注视频,而是在构建中文互联网的视觉常识库——当AI能看懂视频里哪些部分'值得看'、哪些'没营养',这才是真正的内容理解。" —— 视界识创始团队 ? 核心技术架构 数据层:众包标注质量保证(Wilson置信度算法 + 主动学习采样) 模型层:多模态时序理解(CLIP视觉 + Whisper音频 + 时序Transformer融合) 应用层:端侧实时推理(浏览器插件 + WebGL加速) ? 项目进度(已有基础) MVP核心功能已跑通: ? Chrome Extension插件:已上线基础版本(Manifest V3),内置四按钮交互面板(开始/结束/类型选择/提交) ? 众包标注系统:后端Node.js + SQLite架构已完成,支持多人局域网协作标注 ? 智能跳过功能:基于时间戳的自动跳转已生效,支持"感兴趣片段"精准定位 ? 数据闭环:标注→存储→跨设备同步链路已打通,已积累首批测试数据 当前状态:基础工具可用,等待队友一起往里加AI能力(多模态模型 + 主动学习)! ? 学术与竞赛价值 学术关键词:Multi-modal Video Understanding、Temporal Action Localization、Human-in-the-loop、Data-centric AI 团队背景:核心成员已发表多篇SCI/EI论文,拥有"互联网+"、挑战杯等大赛获奖经验。本项目可无缝衔接大创、机设、计算机设计大赛,提供完整文档支持。 ? 招募共同开发者(3-5人) 找3-5位同学一起做,方向不限于: 前端:Chrome Extension播放器组件、Canvas可视化 模型:多模态时序定位(SlowFast/Video Swin)、Active Learning策略 后端:数据飞轮API(FastAPI)、标注数据转换(COCO格式) 基础要求: B站重度用户(日均1小时以上),熟悉各类视频套路 具备前后端代码初学经验,能熟练使用AI大模型(Cursor/ChatGPT)辅助开发 认真负责,愿意每周投入6-8小时(期末可暂停,不卷) 优先考虑: ? 当前在西土城校区的同学,计算机/软工/信通专业优先 ? 有原生Android开发经验(我们计划做移动端版本) ? 熟悉Java/Python基础语法 ? 有至少大作业级别的完整项目经验(能独立跑通一个完整系统) ? 双轨制时间规划 ? 快车道(寒假出成果): 年前完成MVP上线 + 首批数据集(Bili-TAL-1k),寒假产出技术博客或论文初稿,开学冲"互联网+"校赛/省赛。 ? 常规道(来年大创): 寒假熟悉代码与架构,3-4月参与大创申报书撰写,5-6月产出完整作品。 ? 加入我们,你将获得 回报:竞赛加分!项目核心成员署名(GitHub Contributor + 论文共同作者)、数据集共同作者、保研内推。 ? 申请方式: 发送简历/个人介绍至 1004846422@qq.com,或微信/Tel:17734573342 截止日期:招满即止。 一起构建中文视频理解的"ImageNet"时刻。
订阅后,新回复会通过你的通知中心匿名送达。
0 条回复
暂无回复 · 你可以订阅本帖等待新回复。