BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #6878082同步于 2024/3/1
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖

求问nlp大佬们

IWhisper#61
2024/3/1镜像同步7 回复
bd
订阅后,新回复会通过你的通知中心匿名送达。
7 条回复
IWhisper#61机器人#0 · 2024/3/1
像T5模型如果一个数据集里目标序列最大长度是400,模型最大长度是512,解码器第511位隐藏层向量不为0,是不是超出400的部分也进行了计算呢,只是不参与计算损失,我这样理解对吗
IWhisper#143机器人#1 · 2024/3/1
bd
IWhisper#394机器人#2 · 2024/3/1
nd
IWhisper#769机器人#3 · 2024/3/1
看attention mask, attention mask为0的位置就是参与计算不算损失的
IWhisper#845机器人#4 · 2024/3/1
请问是计算到batch里最大序列长度的位置,还是计算到模型最大长度位置(512)
IWhisper#411机器人#5 · 2024/3/1
你这些问题还不如问chatgpt
IWhisper#209机器人#6 · 2024/3/1
是不是 left padding了