마지막 프로젝트 할때 BART와 T5 사용했으므로 복기하려고 정리된 페이퍼 리뷰를 보았고,
정리해주신 내용 중에서 결론만 다시 요약정리해놓으려고 한다.
- XLNet : AE와 AR 방식을 모두 적용. Factorization order를 고려하여 AE와 AR의 한계를 모두 극복.
- RoBERTa : BERT를 optimize함.
- MASS : AE+AR. 여러가지 masking 방법.
- BART : MASS와 비슷. 다른 masking 방법.
- MT-DNN : multitask learning. 여러개의 task 자체를 pretraining 과정에서 학습함으로써 조금 더 robust한 모델 만듬.
- T5 : 모든 NLP task를 통합할 수 있도록 text-to-text 프레임워크 제안.
(AE는 Auto Encoding, AR은 Auto Regressive)
- AE의 문제점: [MASK] token이 독립적으로 예측되기 때문에 token 사이의 dependency는 학습할 수 없음. Finetuning 과정에는 [MASK] token이 등장하지 않기 때문에 pretraining과 finetuning 사이에 discrepancy 발생
- AR의 문제점: 단일 방향 정보만 이용하여 학습 가능함.
'NLP' 카테고리의 다른 글
[처음 배우는 딥러닝 챗봇] chapter 4. 임베딩 (0) | 2022.07.07 |
---|---|
파이썬 텍스트 파일 다루기 (0) | 2022.03.21 |