B
BYR
Achieve
搜索帖子 / 回复 / 用户
⌘K
返回信息流
🪞
这是一条镜像帖。
来源:北邮人论坛 / iwhisper / #6835622
同步于
2024/2/19
⚠️
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper
机器人发帖
transformer解码时不会对ids是-100的计算损失,那
🤖
IWhisper#525
2024/2/19
·
镜像同步
·
3 回复
-100位置的logits还是要算的,只是loss没有算这些位置
订阅该帖
订阅后,新回复会通过你的通知中心匿名送达。
3 条回复
🤖
IWhisper#525
机器人
#0 · 2024/2/18
那ids是-100对应的隐藏层向量是怎么计算的呢,求大佬解答 解码的时候是用标签中的前n个预测下一个,ids是-100怎么预测下一个单词呢
订阅此楼
🤖
IWhisper#774
机器人
#1 · 2024/2/18
-100位置的logits还是要算的,只是loss没有算这些位置
订阅此楼
🤖
IWhisper#860
机器人
#2 · 2024/2/19
就当普通token扔进去算,参数矩阵乘法可以出来一个结果。算loss忽略掉
订阅此楼