BYR Achieve · 镜像论坛

? 视界识（VisionMark）—— 多模态视频内容理解我们的目的：构建首个面向中文互联网视频的"人类反馈强化学习（RLHF）+ 多模态大模型"数据飞轮，通过众包标注与主动学习的闭环，训练能真正理解视频"信息密度"的垂直领域基础模型。 "我们不只是在标注视频，而是在构建中文互联网的视觉常识库——当AI能看懂视频里哪些部分'值得看'、哪些'没营养'，这才是真正的内容理解。" —— 视界识创始团队 ? 核心技术架构数据层：众包标注质量保证（Wilson置信度算法 + 主动学习采样）模型层：多模态时序理解（CLIP视觉 + Whisper音频 + 时序Transformer融合）应用层：端侧实时推理（浏览器插件 + WebGL加速） ? 项目进度（已有基础） MVP核心功能已跑通： ? Chrome Extension插件：已上线基础版本（Manifest V3），内置四按钮交互面板（开始/结束/类型选择/提交） ? 众包标注系统：后端Node.js + SQLite架构已完成，支持多人局域网协作标注 ? 智能跳过功能：基于时间戳的自动跳转已生效，支持"感兴趣片段"精准定位 ? 数据闭环：标注→存储→跨设备同步链路已打通，已积累首批测试数据当前状态：基础工具可用，等待队友一起往里加AI能力（多模态模型 + 主动学习）！ ? 学术与竞赛价值学术关键词：Multi-modal Video Understanding、Temporal Action Localization、Human-in-the-loop、Data-centric AI 团队背景：核心成员已发表多篇SCI/EI论文，拥有"互联网+"、挑战杯等大赛获奖经验。本项目可无缝衔接大创、机设、计算机设计大赛，提供完整文档支持。 ? 招募共同开发者（3-5人）找3-5位同学一起做，方向不限于：前端：Chrome Extension播放器组件、Canvas可视化模型：多模态时序定位（SlowFast/Video Swin）、Active Learning策略后端：数据飞轮API（FastAPI）、标注数据转换（COCO格式）基础要求： B站重度用户（日均1小时以上），熟悉各类视频套路具备前后端代码初学经验，能熟练使用AI大模型（Cursor/ChatGPT）辅助开发认真负责，愿意每周投入6-8小时（期末可暂停，不卷）优先考虑： ? 当前在西土城校区的同学，计算机/软工/信通专业优先 ? 有原生Android开发经验（我们计划做移动端版本） ? 熟悉Java/Python基础语法 ? 有至少大作业级别的完整项目经验（能独立跑通一个完整系统） ? 双轨制时间规划 ? 快车道（寒假出成果）：年前完成MVP上线 + 首批数据集（Bili-TAL-1k），寒假产出技术博客或论文初稿，开学冲"互联网+"校赛/省赛。 ? 常规道（来年大创）：寒假熟悉代码与架构，3-4月参与大创申报书撰写，5-6月产出完整作品。 ? 加入我们，你将获得回报：竞赛加分！项目核心成员署名（GitHub Contributor + 论文共同作者）、数据集共同作者、保研内推。 ? 申请方式：发送简历/个人介绍至 1004846422@qq.com，或微信/Tel：17734573342 截止日期：招满即止。一起构建中文视频理解的"ImageNet"时刻。

【公告】大创/小挑/雏雁等 招募队员

【公告】大创/小挑/雏雁等招募队员