BERT 간단 논문 리뷰

카테고리 없음

수닝이 2024. 7. 12. 17:58

특징

* Bert에서는 mask된 토큰만 예측한다.

Task1

Bert는 양방향으로 훈련을 진행한다. 이를 위해 전체 Sequential에서 랜덤하게 15%를 안 보이도록 마스킹한다. 그 다음 마스킹된 데이터를 예측하는 것이다.

pretraining 과 fine tuning의 mismatch해결법

보이는 것과 같이 80%는 안 보이게 마스킹, 10%는 다른 단어로 대체 그리고 나머지 10%는 원래 단어 그대로 놔둔다.

Task2

NSP를 통한 다음 문장 예측

전 구조의 공통점 : 마지막 layer에 finetuning 한 층만 올린다.

1번 구조

2번구조

3번구조

4번구조

BERT(base) : Next Sentence Prediction 존재

No NSP : Bert에서 Next Sentence Prediction이 없다.

간단한 문장에대해선 큰 차이가 없다.
두 문장 이상을 이해해야하는 부분(QNLI)에서는 0.6%정도 차이가 난다. 즉, 여러 문장이 존재할 시 다음 문장을 예측하는 것이 큰 도움이 된다.

모델크기에 따른 결과

결과

Fintuning X

Embeddings

Last Hidden

Concact Last Four Hidden

출처