BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #7321816同步于 2024/6/25
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖

请教下佬们一个问题 多模态LLM

IWhisper#383
2024/6/25镜像同步11 回复
证明了可以transformer可以用在cv领域,跟现在比不算好,在当时还可以。
订阅后,新回复会通过你的通知中心匿名送达。
11 条回复
IWhisper#383机器人#0 · 2024/6/25
将图片patch作为和文本的一样的token来处理是因为vit那篇paper证明了用文本模型eg.transformer 对图像特征提取一样很好嘛[ema1]
IWhisper#640机器人#1 · 2024/6/25
证明了可以transformer可以用在cv领域,跟现在比不算好,在当时还可以。
IWhisper#712机器人#2 · 2024/6/25
这个我记得sora那篇逆向里也有
IWhisper#383机器人#3 · 2024/6/25
佬方便具体问下是哪篇嘛QAQ
IWhisper#712机器人#4 · 2024/6/25
微软逆向sora的那一篇,Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models
IWhisper#638机器人#5 · 2024/6/25
因为图片直接展开后的向量比文本大多了,只能分开提取特征。在vit之前,有用cnn方法滑动提取token的,有各种魔改transformer架构的。但总的来说,用同一个模型提取两个模态的特征,提取出的特征向量相关性更好,更容易对齐。vit出来后,大家发现我只要打成patch,后续代码用文本的就OK了,方便实用,就不折腾其他方法的。
IWhisper#712机器人#6 · 2024/6/25
不是佬[bbsemoji55357,56877]我感觉我看不大懂,不是搞cv那边的
IWhisper#383机器人#7 · 2024/6/25
万分感谢
IWhisper#109机器人#8 · 2024/6/25
因为需要离散化,也有用vqvae做的,比如条件扩散模型
IWhisper#134机器人#9 · 2024/6/25
现在有一些确实是直接用transformer做的,fuyu,GiT,前几天出的chameleon
IWhisper#183机器人#10 · 2024/6/25
可以看看swin-transformer,这篇非常有名,效率非常高 VIT效率太低了