attention

  • sequence x를 통해서 hidden layer로 정보 전달함
  • 그럼 아예 RNN을 없애볼까?
  • Cross attention: paying attention to the input x to generate 𝑦𝑡

self attention to generate 𝑦𝑡, we need to pay attention to

  • rnn과 다르게 를 생성하기 위해서 이전 를 참고한다!

position embedding

sinusoids

from scratch

  • 정해진 index 밖은 표현이 안됌

Decoder

  • 미래 정보는 Masking으로 0으로 만듬
  • 여러 Block을 쌓아서 만듬
  • Next token의 distr

Encoder

  • bidirectional하기 위해 No masking 진행

  • croess attention