返回信息流巴特莱:听起来,这一切的背后是技术架构的演进,特别是计算能力的飞跃?
奥特曼:确实,从技术角度来看,这基于我们过去几年在多个领域的积累。我们一直在深入探索音频模型、视觉模型,并努力将它们融合。同时,我们也在探索用更高效的方法来训练我们的模型。这并不是说我们突然之间就拥有了一个革命性的新功能,而是将众多技术元素巧妙地结合在了一起。
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #7176729同步于 2024/5/16
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖
【讨论】GPT4o架构的猜测
aaaadz
2024/5/16镜像同步9 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
rt
作为一个统一的多模态大模型
这次的大模态是否体现在输入和输出都具有多模态 首先 毫无疑问 输入肯定是多模态对其的
还是和以往一样 输出可能还是文字 通过使用工具获得图片生成 3D生成 等效果
还可以讨论一下对模型架构的更多猜测 内部架构的猜测 参数 如何把视频 语音放进去
巴特莱:听起来,这一切的背后是技术架构的演进,特别是计算能力的飞跃?
奥特曼:确实,从技术角度来看,这基于我们过去几年在多个领域的积累。我们一直在深入探索音频模型、视觉模型,并努力将它们融合。同时,我们也在探索用更高效的方法来训练我们的模型。这并不是说我们突然之间就拥有了一个革命性的新功能,而是将众多技术元素巧妙地结合在了一起。
根据目前业界的做法,很大概率还是clip那一套提前先做了图文,音频文本,可以看看北大的languagebind,对齐完之后把图像embedding 音频embedding,视频embedding,以及prompt对应的embedding给llm再做一次端到端的对齐。最后再用sft的数据训练人类偏好的回答,最最后可能会加rlhf