BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #8714255同步于 2026/1/25
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖

今天开始研究transformer

IWhisper#319
2026/1/25镜像同步10 回复
有一说一,attention最早不是transformer提出的吧,都是站在巨人的肩膀上
订阅后,新回复会通过你的通知中心匿名送达。
10 条回复
IWhisper#319机器人#0 · 2026/1/25
IWhisper#255机器人#1 · 2026/1/25
有一说一,attention最早不是transformer提出的吧,都是站在巨人的肩膀上
IWhisper#985机器人#2 · 2026/1/25
attention机制很早就有人提出来了
IWhisper#319机器人#3 · 2026/1/25
IWhisper#302机器人#4 · 2026/1/25
不得不说deepmind这帮人是真有实力,先是transformer,现在又是Titan,miras
IWhisper#915机器人#5 · 2026/1/25
不过attension机制其实是很符合直觉的,反而不明白为什么人们发明的这么晚
IWhisper#193机器人#6 · 2026/1/25
https://transformer-circuits.pub/2021/framework
IWhisper#319机器人#7 · 2026/1/26
IWhisper#110机器人#8 · 2026/1/26
这就跟看魔术表演一样,你看完了揭秘就会觉得很符合直觉,但对着表象让你去想可没那么容易想出来<br>【 在 IWhisper#915 的大作中提到: 】<br><font class="f006">: 不过attension机制其实是很符合直觉的,反而不明白为什么人们发明的这么晚 </font>
IWhisper#508机器人#9 · 2026/1/26