多模态大模型

2024/9/30镜像同步9 回复

感觉发展已经快到瓶颈了，简单的?都被吃完了，难得?，比如怎么把多模态投射到一个空间进行相似度度量，超过三个模态目前就没戏了，目前可用的多模态技术，很多都是东拼西粗法，就是把好几个成型的东西拼一起，中间加一个模型进行融合，还是?中?，训练所需资源太可怕了，几百块v100都得训练快一个月

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

IWhisper#765机器人#0 · 2024/9/30

想问问uu们多模态大模型这种东西还能再火多久啊，想了解了解以后的就业需求和行业发展<img src="/img/ubb/ema/0.gif" alt="ema0" style="display:inline;border-style:none">

IWhisper#67机器人#1 · 2024/9/30

IWhisper#67机器人#2 · 2024/9/30

问号改为“屎”，不知道为啥不显示表情 【在 IWhisper#67 (null) 的大作中提到: 】 : 感觉发展已经快到瓶颈了，简单的?都被吃完了，难得?，比如怎么把多模态投射到一个空间进行相似度度量，超过三个模态目前就没戏了，目前可用的多模态技术，很多都是东拼西粗法，就是把好几个成型的东西拼一起，中间加一个模型进行融合，还是?中?，训练所需资源太可怕了，几百块v100都得训练快一个月

IWhisper#67机器人#3 · 2024/9/30

换句话讲不是苹果，openai，谷歌，meta这种大公司花钱砸算法创新，国内永远都是用人家的技术，换自己的数据训练，创新很有限，但目前这个方向发展也越来越慢了，顶刊都是小修小补居多，大的创新太少了...

IWhisper#765机器人#4 · 2024/9/30

那是不是感觉纵向做不动了更多的可能就是横向了，去做落地项目了 【在 IWhisper#67 的大作中提到: 】 : 感觉发展已经快到瓶颈了，简单的?都被吃完了，难得?，比如怎么把多模态投射到一个空间进行相似度度量，超过三个模态目前就没戏了，目前可用的多模态技术，很多都是东拼西粗法，就是把好几个成型的东西拼一起，中间加一个模型进行融合，还是?中?，训练所需资源太可怕了，几百块v100都得训练快一个月

IWhisper#67机器人#5 · 2024/9/30

是这个理！ 【在 IWhisper#765 (null) 的大作中提到: 】 : 那是不是感觉纵向做不动了更多的可能就是横向了，去做落地项目了

IWhisper#160机器人#6 · 2024/9/30

需求很广，感觉还能活个一两年。 但是需要实习，这么说吧，除非顶尖实验室不然算力不够，去实习很关键。

IWhisper#473机器人#7 · 2024/9/30

多模态现在全部都在上transformer，偏置归纳越来越少，如果是单纯的做对齐，那现在已经很成熟了，至少上线版可用性很强，如果是做生成，那门槛很高，整个互联网在做这个的可能就十几二十个人吧，短期就是没变现场景烧钱为主 【在 IWhisper#67 的大作中提到: 】 : 感觉发展已经快到瓶颈了，简单的?都被吃完了，难得?，比如怎么把多模态投射到一个空间进行相似度度量，超过三个模态目前就没戏了，目前可用的多模态技术，很多都是东拼西粗法，就是把好几个成型的东西拼一起，中间加一个模型进行融合，还是?中?，训练所需资源太可怕了，几百块v100都得训练快一个月

IWhisper#160机器人#8 · 2024/9/30

感觉现在探索的还不够，现在仍是以llm为核心，视觉缺乏更深的研究，对齐时特征信息有损失。今年上半年才刚刚开始探索加强模型信息的利用，去年下半年还是在探索对齐范式。 大模型本身架构几乎已经不会大变了，个人浅见，感觉未来是对模态信息的挖掘，毕竟在内容理解方面没有达到我们所需要的细粒度。 【在 IWhisper#473 的大作中提到: 】 : 多模态现在全部都在上transformer，偏置归纳越来越少，如果是单纯的做对齐，那现在已经很成熟了，至少上线版可用性很强，如果是做生成，那门槛很高，整个互联网在做这个的可能就十几二十个人吧，短期就是没变现场景烧钱为主