티스토리

나의 하루

검색하기

[간단 논문 리뷰] Neural Machine Translation by Jointly Learning to Align and Translate(attention model)

카테고리 없음

[간단 논문 리뷰] Neural Machine Translation by Jointly Learning to Align and Translate(attention model)

수닝이 2024. 7. 7. 00:11

번역 대상 언어

불어(프랑스어) - 영어

attention기능 추가한다는 의미

각 대상 단어를 생성할 때 모델이 입력 단어 세트 또는 인코더에 의해 계산된 주석을 (소프트) 검색하도록 하여 기본 encoder - decoder 를 확장했다는 것을 의미한다.

hidden state

RNN 구조

encoder 특징

forward & backward전부 가능 즉, 양방향(bidirection)성 지님

과정 설명

encoder에 vector sequence형태로 데이터가 input된다.
forward및 backward과정을 거친다. recurr(hidden layer = RNN, 양방향성 가짐)
decoder로 이동해 t - 1시점의 hidden state를 구한다.
encoder에서 나온 대표값들과 decoder의 hidden state값을 FC layer로 이동한다.
이동된 값을 hyper tan에 적용하고 두 값을 더해준다.
한 번더 hyper tan을 적용해 sequence와 동일한 길이의 score을 산출한다.
softmax값을 통해 확률분포를 만든다.
확률분포값을 토대로 context제작한다.
위 context를 통해 decoder에서 t시점의 hidden state값이 계산된다.
hidden state값을 한 번더 FC layer로 보내서 계산한다.
softmax를 활용해 확률분포를 만든다.
확률 분포를 통해 문장을 완성한다.

belu score

search VS. enc(의미 차이)

search: attention적용
enc: 기존의 encoder와 decoder

표의 결과 유추하기

RNNsearch-50을 사용했을 때 제일 결과가 좋다. 즉, 번역결과가 제일 유사하다는 것이다.

Belu score

기계 번역 결과와 사람이 직접 번역한 결과가 얼마나 유사한지 비교하여 번역에 대한 성능을 측정하는 방법이다.

출처

[Paper Review] Neural Machine Translation by Jointly Learning to Align and Translate

소감

앞으로 더 열심히 해야겠다.
영상이 이해에 도움이 많이 되었다.