카테고리 없음

[간단 논문 리뷰] Neural Machine Translation by Jointly Learning to Align and Translate(attention model)

수닝이 2024. 7. 7. 00:11

번역 대상 언어

  • 불어(프랑스어) - 영어 

 

attention기능 추가한다는 의미

  • 각 대상 단어를 생성할 때 모델이 입력 단어 세트 또는 인코더에 의해 계산된 주석을 (소프트) 검색하도록 하여 기본 encoder - decoder 를 확장했다는 것을 의미한다.

 

hidden state

  • RNN 구조

 

encoder 특징

  • forward & backward전부 가능 즉, 양방향(bidirection)성 지님

과정 설명

  1. encoder에 vector sequence형태로 데이터가 input된다.
  2. forward및 backward과정을 거친다. recurr(hidden layer = RNN, 양방향성 가짐)
  3. decoder로 이동해 t - 1시점의 hidden state를 구한다.
  4. encoder에서 나온 대표값들과 decoder의 hidden state값을 FC layer로 이동한다.
  5. 이동된 값을 hyper tan에 적용하고 두 값을 더해준다.
  6. 한 번더 hyper tan을 적용해 sequence와 동일한 길이의 score을 산출한다.
  7. softmax값을 통해 확률분포를 만든다.
  8. 확률분포값을 토대로 context제작한다.
  9. 위 context를 통해 decoder에서 t시점의 hidden state값이 계산된다.
  10. hidden state값을 한 번더 FC layer로 보내서 계산한다.
  11. softmax를 활용해 확률분포를 만든다.
  12. 확률 분포를 통해 문장을 완성한다.

belu score

search VS. enc(의미 차이)

  • search: attention적용
  • enc: 기존의 encoder와 decoder

표의 결과 유추하기

  • RNNsearch-50을 사용했을 때 제일 결과가 좋다. 즉, 번역결과가 제일 유사하다는 것이다.

Belu score

  • 기계 번역 결과와 사람이 직접 번역한 결과가 얼마나 유사한지 비교하여 번역에 대한 성능을 측정하는 방법이다.

 

출처

[Paper Review] Neural Machine Translation by Jointly Learning to Align and Translate

Belu score

 

소감

  • 앞으로 더 열심히 해야겠다.
  • 영상이 이해에 도움이 많이 되었다.