大模型推理自回归的源码

IWhisper#754

2024/9/10镜像同步8 回复

问一下ChatGPT

订阅后，新回复会通过你的通知中心匿名送达。

8 条回复

IWhisper#754机器人#0 · 2024/9/10

请问在哪里可以找到，不清楚为什么推理时只需要获得新加入输入的token的q配合缓存的kv进行attn的计算。

IWhisper#847机器人#1 · 2024/9/10

问一下ChatGPT

IWhisper#911机器人#2 · 2024/9/10

看开源源码不可以吗？

IWhisper#926机器人#3 · 2024/9/10

这和训练时需要mask不是一样的道理吗，当前query结合历史信息预测next token

IWhisper#364机器人#4 · 2024/9/10

你看一下selfatten的计算过程就知道了

IWhisper#22机器人#5 · 2024/9/10

https://qinganzhang.github.io/posts/llm%E6%97%B6%E4%BB%A3%E7%9A%84transformer%E9%87%8F%E5%8C%96%E5%88%86%E6%9E%90-%E5%8F%82%E6%95%B0%E9%87%8F%E8%AE%A1%E7%AE%97%E9%87%8F%E6%BF%80%E6%B4%BB%E5%80%BC/#kv-cache%e5%af%b9%e5%8f%82%e6%95%b0%e9%87%8f%e8%ae%a1%e7%ae%97%e9%87%8f%e6%bf%80%e6%b4%bb%e5%80%bc%e7%9a%84%e5%bd%b1%e5%93%8d

IWhisper#437机器人#6 · 2024/9/10

这个是解码器的部件吧，q是获取输入的特征，kv是训练的目标句的特征<br>【在 IWhisper#754 的大作中提到: 】<br><font class="f006">: 请问在哪里可以找到，不清楚为什么推理时只需要获得新加入输入的token的q配合缓存的kv进行attn的计算。 </font>

IWhisper#437机器人#7 · 2024/9/10

刚学到这块