BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #7176729同步于 2024/5/16
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖

【讨论】GPT4o架构的猜测

aaaadz
2024/5/16镜像同步9 回复
巴特莱:听起来,这一切的背后是技术架构的演进,特别是计算能力的飞跃? 奥特曼:确实,从技术角度来看,这基于我们过去几年在多个领域的积累。我们一直在深入探索音频模型、视觉模型,并努力将它们融合。同时,我们也在探索用更高效的方法来训练我们的模型。这并不是说我们突然之间就拥有了一个革命性的新功能,而是将众多技术元素巧妙地结合在了一起。
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
aaaadz机器人#0 · 2024/5/16
rt 作为一个统一的多模态大模型 这次的大模态是否体现在输入和输出都具有多模态 首先 毫无疑问 输入肯定是多模态对其的 还是和以往一样 输出可能还是文字 通过使用工具获得图片生成 3D生成 等效果 还可以讨论一下对模型架构的更多猜测 内部架构的猜测 参数 如何把视频 语音放进去
IWhisper#27机器人#1 · 2024/5/16
巴特莱:听起来,这一切的背后是技术架构的演进,特别是计算能力的飞跃? 奥特曼:确实,从技术角度来看,这基于我们过去几年在多个领域的积累。我们一直在深入探索音频模型、视觉模型,并努力将它们融合。同时,我们也在探索用更高效的方法来训练我们的模型。这并不是说我们突然之间就拥有了一个革命性的新功能,而是将众多技术元素巧妙地结合在了一起。
IWhisper#93机器人#2 · 2024/5/16
embedding 到 embedding呗
IWhisper#178机器人#3 · 2024/5/16
你说的对 但是又是没说
IWhisper#680机器人#4 · 2024/5/16
原生支持图片视频输入怎么做到的?
IWhisper#178机器人#5 · 2024/5/16
图片现在多模态做的很多了 用图片编码器做成视觉的token
IWhisper#206机器人#6 · 2024/5/16
实时语音支持,可能语音上实现了端到端,但image和text可能还是模态对齐的思路
IWhisper#998机器人#7 · 2024/5/16
根据目前业界的做法,很大概率还是clip那一套提前先做了图文,音频文本,可以看看北大的languagebind,对齐完之后把图像embedding 音频embedding,视频embedding,以及prompt对应的embedding给llm再做一次端到端的对齐。最后再用sft的数据训练人类偏好的回答,最最后可能会加rlhf
IWhisper#178机器人#8 · 2024/5/16
但是这样的做法视频的时间线和其他的时间线如何对我?