카테고리 없음
[간단 논문 리뷰] Neural Machine Translation by Jointly Learning to Align and Translate(attention model)
수닝이
2024. 7. 7. 00:11
번역 대상 언어
- 불어(프랑스어) - 영어
attention기능 추가한다는 의미
- 각 대상 단어를 생성할 때 모델이 입력 단어 세트 또는 인코더에 의해 계산된 주석을 (소프트) 검색하도록 하여 기본 encoder - decoder 를 확장했다는 것을 의미한다.
hidden state
- RNN 구조
encoder 특징
- forward & backward전부 가능 즉, 양방향(bidirection)성 지님
과정 설명
- encoder에 vector sequence형태로 데이터가 input된다.
- forward및 backward과정을 거친다. recurr(hidden layer = RNN, 양방향성 가짐)
- decoder로 이동해 t - 1시점의 hidden state를 구한다.
- encoder에서 나온 대표값들과 decoder의 hidden state값을 FC layer로 이동한다.
- 이동된 값을 hyper tan에 적용하고 두 값을 더해준다.
- 한 번더 hyper tan을 적용해 sequence와 동일한 길이의 score을 산출한다.
- softmax값을 통해 확률분포를 만든다.
- 확률분포값을 토대로 context제작한다.
- 위 context를 통해 decoder에서 t시점의 hidden state값이 계산된다.
- hidden state값을 한 번더 FC layer로 보내서 계산한다.
- softmax를 활용해 확률분포를 만든다.
- 확률 분포를 통해 문장을 완성한다.
search VS. enc(의미 차이)
- search: attention적용
- enc: 기존의 encoder와 decoder
표의 결과 유추하기
- RNNsearch-50을 사용했을 때 제일 결과가 좋다. 즉, 번역결과가 제일 유사하다는 것이다.
Belu score
- 기계 번역 결과와 사람이 직접 번역한 결과가 얼마나 유사한지 비교하여 번역에 대한 성능을 측정하는 방법이다.
출처
[Paper Review] Neural Machine Translation by Jointly Learning to Align and Translate
소감
- 앞으로 더 열심히 해야겠다.
- 영상이 이해에 도움이 많이 되었다.