返回信息流bd
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #6878082同步于 2024/3/1
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖
求问nlp大佬们
IWhisper#61
2024/3/1镜像同步7 回复
订阅后,新回复会通过你的通知中心匿名送达。
7 条回复
像T5模型如果一个数据集里目标序列最大长度是400,模型最大长度是512,解码器第511位隐藏层向量不为0,是不是超出400的部分也进行了计算呢,只是不参与计算损失,我这样理解对吗