在transformer上加入copy机制,在pytorch中: attn_dis -> (B, tgt_len, src_len), src_tokens -> (B, src_len), 有什么矩阵操作函数可以生成 copy_dis -> (B, tgt_len, vocab_size) 谢谢~