返回信息流证明了可以transformer可以用在cv领域,跟现在比不算好,在当时还可以。
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #7321816同步于 2024/6/25
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖
请教下佬们一个问题 多模态LLM
IWhisper#383
2024/6/25镜像同步11 回复
订阅后,新回复会通过你的通知中心匿名送达。
11 条回复
将图片patch作为和文本的一样的token来处理是因为vit那篇paper证明了用文本模型eg.transformer 对图像特征提取一样很好嘛[ema1]
微软逆向sora的那一篇,Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models
因为图片直接展开后的向量比文本大多了,只能分开提取特征。在vit之前,有用cnn方法滑动提取token的,有各种魔改transformer架构的。但总的来说,用同一个模型提取两个模态的特征,提取出的特征向量相关性更好,更容易对齐。vit出来后,大家发现我只要打成patch,后续代码用文本的就OK了,方便实用,就不折腾其他方法的。