返回信息流attention is all you need原文中,结构图里面有两个输入,inputs和outputs,这两个输入分别是什么,有什么关系,,,我理解这个是做翻译的,,
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #37834同步于 2021/10/28
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
transformer
ye2016111062
2021/10/28镜像同步9 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
测试阶段就是迭代生成的是吧?input是需要翻译的句子,output是之前生成的token,然后输出一个词,再加到output里面,输出下一个词,直到输出结束的字符,,翻译完成,停止迭代
【 在 Toheart (Toheart) 的大作中提到: 】
: ouputs在训练时是标准答案,在测试时之前已经生成的一部分token
是的,这是autoregressive
【 在 ye2016111062 (bh) 的大作中提到: 】
: 测试阶段就是迭代生成的是吧?input是需要翻译的句子,output是之前生成的token,然后输出一个词,再加到output里面,输出下一个词,直到输出结束的字符,,翻译完成,停止迭代
哥们,所以说,transformer说解决了,rnn不能并行的问题,实际上,只解决了训练阶段,,测试阶段它也是串行的,,这个理解是对的是吧?
【 在 Toheart (Toheart) 的大作中提到: 】
: 是的,这是autoregressive
是的,不过至少 encoder 部分完全是并行的
【 在 ye2016111062 (bh) 的大作中提到: 】
: 哥们,所以说,transformer说解决了,rnn不能并行的问题,实际上,只解决了训练阶段,,测试阶段它也是串行的,,这个理解是对的是吧?