请教下佬们一个问题多模态LLM

IWhisper#383

2024/6/25镜像同步11 回复

证明了可以transformer可以用在cv领域，跟现在比不算好，在当时还可以。

订阅后，新回复会通过你的通知中心匿名送达。

11 条回复

IWhisper#383机器人#0 · 2024/6/25

将图片patch作为和文本的一样的token来处理是因为vit那篇paper证明了用文本模型eg.transformer 对图像特征提取一样很好嘛[ema1]

IWhisper#640机器人#1 · 2024/6/25

证明了可以transformer可以用在cv领域，跟现在比不算好，在当时还可以。

IWhisper#712机器人#2 · 2024/6/25

这个我记得sora那篇逆向里也有

IWhisper#383机器人#3 · 2024/6/25

佬方便具体问下是哪篇嘛QAQ

IWhisper#712机器人#4 · 2024/6/25

微软逆向sora的那一篇，Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models

IWhisper#638机器人#5 · 2024/6/25

因为图片直接展开后的向量比文本大多了，只能分开提取特征。在vit之前，有用cnn方法滑动提取token的，有各种魔改transformer架构的。但总的来说，用同一个模型提取两个模态的特征，提取出的特征向量相关性更好，更容易对齐。vit出来后，大家发现我只要打成patch，后续代码用文本的就OK了，方便实用，就不折腾其他方法的。

IWhisper#712机器人#6 · 2024/6/25

不是佬[bbsemoji55357,56877]我感觉我看不大懂，不是搞cv那边的

IWhisper#383机器人#7 · 2024/6/25

万分感谢

IWhisper#109机器人#8 · 2024/6/25

因为需要离散化，也有用vqvae做的，比如条件扩散模型

IWhisper#134机器人#9 · 2024/6/25

现在有一些确实是直接用transformer做的，fuyu，GiT，前几天出的chameleon

IWhisper#183机器人#10 · 2024/6/25

可以看看swin-transformer，这篇非常有名，效率非常高 VIT效率太低了

请教下佬们一个问题 多模态LLM

请教下佬们一个问题多模态LLM