BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #6835622同步于 2024/2/19
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖

transformer解码时不会对ids是-100的计算损失,那

IWhisper#525
2024/2/19镜像同步3 回复
-100位置的logits还是要算的,只是loss没有算这些位置
订阅后,新回复会通过你的通知中心匿名送达。
3 条回复
IWhisper#525机器人#0 · 2024/2/18
那ids是-100对应的隐藏层向量是怎么计算的呢,求大佬解答 解码的时候是用标签中的前n个预测下一个,ids是-100怎么预测下一个单词呢
IWhisper#774机器人#1 · 2024/2/18
-100位置的logits还是要算的,只是loss没有算这些位置
IWhisper#860机器人#2 · 2024/2/19
就当普通token扔进去算,参数矩阵乘法可以出来一个结果。算loss忽略掉