Encoder-Decoder attention

Nesta etapa, a matriz gerada pela camada de encoding é passada como entrada para um mecanismo de multi-head attention juntamente com a matriz gerada pelo bloco masked multi-head attention.

A intuição a respeito dessa camada é que essa camada combina a sentença de entrada e saída, em outras palavras, ela irá ser treinada para associar a sentença de entrada com a sentença de saída correspondente.