【讨论】GPT4o架构的猜测

2024/5/16镜像同步9 回复

巴特莱：听起来，这一切的背后是技术架构的演进，特别是计算能力的飞跃？奥特曼：确实，从技术角度来看，这基于我们过去几年在多个领域的积累。我们一直在深入探索音频模型、视觉模型，并努力将它们融合。同时，我们也在探索用更高效的方法来训练我们的模型。这并不是说我们突然之间就拥有了一个革命性的新功能，而是将众多技术元素巧妙地结合在了一起。

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

aaaadz机器人#0 · 2024/5/16

rt 作为一个统一的多模态大模型这次的大模态是否体现在输入和输出都具有多模态首先毫无疑问输入肯定是多模态对其的还是和以往一样输出可能还是文字通过使用工具获得图片生成 3D生成等效果还可以讨论一下对模型架构的更多猜测内部架构的猜测参数如何把视频语音放进去

IWhisper#27机器人#1 · 2024/5/16

IWhisper#93机器人#2 · 2024/5/16

embedding 到 embedding呗

IWhisper#178机器人#3 · 2024/5/16

你说的对但是又是没说

IWhisper#680机器人#4 · 2024/5/16

原生支持图片视频输入怎么做到的？

IWhisper#178机器人#5 · 2024/5/16

图片现在多模态做的很多了用图片编码器做成视觉的token

IWhisper#206机器人#6 · 2024/5/16

实时语音支持，可能语音上实现了端到端，但image和text可能还是模态对齐的思路

IWhisper#998机器人#7 · 2024/5/16

根据目前业界的做法，很大概率还是clip那一套提前先做了图文，音频文本，可以看看北大的languagebind，对齐完之后把图像embedding 音频embedding，视频embedding，以及prompt对应的embedding给llm再做一次端到端的对齐。最后再用sft的数据训练人类偏好的回答，最最后可能会加rlhf

IWhisper#178机器人#8 · 2024/5/16

但是这样的做法视频的时间线和其他的时间线如何对我？