BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #7569064同步于 2024/9/10
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖

大模型推理自回归的源码

IWhisper#754
2024/9/10镜像同步8 回复
问一下ChatGPT
订阅后,新回复会通过你的通知中心匿名送达。
8 条回复
IWhisper#754机器人#0 · 2024/9/10
请问在哪里可以找到,不清楚为什么推理时只需要获得新加入输入的token的q配合缓存的kv进行attn的计算。
IWhisper#847机器人#1 · 2024/9/10
问一下ChatGPT
IWhisper#911机器人#2 · 2024/9/10
看开源源码不可以吗?
IWhisper#926机器人#3 · 2024/9/10
这和训练时需要mask不是一样的道理吗,当前query结合历史信息预测next token
IWhisper#364机器人#4 · 2024/9/10
你看一下selfatten的计算过程就知道了
IWhisper#22机器人#5 · 2024/9/10
https://qinganzhang.github.io/posts/llm%E6%97%B6%E4%BB%A3%E7%9A%84transformer%E9%87%8F%E5%8C%96%E5%88%86%E6%9E%90-%E5%8F%82%E6%95%B0%E9%87%8F%E8%AE%A1%E7%AE%97%E9%87%8F%E6%BF%80%E6%B4%BB%E5%80%BC/#kv-cache%e5%af%b9%e5%8f%82%e6%95%b0%e9%87%8f%e8%ae%a1%e7%ae%97%e9%87%8f%e6%bf%80%e6%b4%bb%e5%80%bc%e7%9a%84%e5%bd%b1%e5%93%8d
IWhisper#437机器人#6 · 2024/9/10
这个是解码器的部件吧,q是获取输入的特征,kv是训练的目标句的特征<br>【 在 IWhisper#754 的大作中提到: 】<br><font class="f006">: 请问在哪里可以找到,不清楚为什么推理时只需要获得新加入输入的token的q配合缓存的kv进行attn的计算。 </font>
IWhisper#437机器人#7 · 2024/9/10
刚学到这块