返回信息流感觉发展已经快到瓶颈了,简单的?都被吃完了,难得?,比如怎么把多模态投射到一个空间进行相似度度量,超过三个模态目前就没戏了,目前可用的多模态技术,很多都是东拼西粗法,就是把好几个成型的东西拼一起,中间加一个模型进行融合,还是?中?,训练所需资源太可怕了,几百块v100都得训练快一个月
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #7647222同步于 2024/9/30
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖
多模态大模型
IWhisper#765
2024/9/30镜像同步9 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
想问问uu们多模态大模型这种东西还能再火多久啊,想了解了解以后的就业需求和行业发展<img src="/img/ubb/ema/0.gif" alt="ema0" style="display:inline;border-style:none">
感觉发展已经快到瓶颈了,简单的?都被吃完了,难得?,比如怎么把多模态投射到一个空间进行相似度度量,超过三个模态目前就没戏了,目前可用的多模态技术,很多都是东拼西粗法,就是把好几个成型的东西拼一起,中间加一个模型进行融合,还是?中?,训练所需资源太可怕了,几百块v100都得训练快一个月
问号改为“屎”,不知道为啥不显示表情<br><br>【 在 IWhisper#67 (null) 的大作中提到: 】<br><font class="f006">: 感觉发展已经快到瓶颈了,简单的?都被吃完了,难得?,比如怎么把多模态投射到一个空间进行相似度度量,超过三个模态目前就没戏了,目前可用的多模态技术,很多都是东拼西粗法,就是把好几个成型的东西拼一起,中间加一个模型进行融合,还是?中?,训练所需资源太可怕了,几百块v100都得训练快一个月 </font>
换句话讲不是苹果,openai,谷歌,meta这种大公司花钱砸算法创新,国内永远都是用人家的技术,换自己的数据训练,创新很有限,但目前这个方向发展也越来越慢了,顶刊都是小修小补居多,大的创新太少了...
那是不是感觉纵向做不动了更多的可能就是横向了,去做落地项目了<br>【 在 IWhisper#67 的大作中提到: 】<br><font class="f006">: 感觉发展已经快到瓶颈了,简单的?都被吃完了,难得?,比如怎么把多模态投射到一个空间进行相似度度量,超过三个模态目前就没戏了,目前可用的多模态技术,很多都是东拼西粗法,就是把好几个成型的东西拼一起,中间加一个模型进行融合,还是?中?,训练所需资源太可怕了,几百块v100都得训练快一个月 </font>
是这个理!<br><br>【 在 IWhisper#765 (null) 的大作中提到: 】<br><font class="f006">: 那是不是感觉纵向做不动了更多的可能就是横向了,去做落地项目了 </font>
多模态现在全部都在上transformer,偏置归纳越来越少,如果是单纯的做对齐,那现在已经很成熟了,至少上线版可用性很强,如果是做生成,那门槛很高,整个互联网在做这个的可能就十几二十个人吧,短期就是没变现场景烧钱为主<br>【 在 IWhisper#67 的大作中提到: 】<br><font class="f006">: 感觉发展已经快到瓶颈了,简单的?都被吃完了,难得?,比如怎么把多模态投射到一个空间进行相似度度量,超过三个模态目前就没戏了,目前可用的多模态技术,很多都是东拼西粗法,就是把好几个成型的东西拼一起,中间加一个模型进行融合,还是?中?,训练所需资源太可怕了,几百块v100都得训练快一个月 </font>
感觉现在探索的还不够,现在仍是以llm为核心,视觉缺乏更深的研究,对齐时特征信息有损失。今年上半年才刚刚开始探索加强模型信息的利用,去年下半年还是在探索对齐范式。<br>大模型本身架构几乎已经不会大变了,个人浅见,感觉未来是对模态信息的挖掘,毕竟在内容理解方面没有达到我们所需要的细粒度。<br>【 在 IWhisper#473 的大作中提到: 】<br><font class="f006">: 多模态现在全部都在上transformer,偏置归纳越来越少,如果是单纯的做对齐,那现在已经很成熟了,至少上线版可用性很强,如果是做生成,那门槛很高,整个互联网在做这个的可能就十几二十个人吧,短期就是没变现场景烧钱为主 </font>