NLP 2

[처음 배우는 딥러닝 챗봇] chapter 4. 임베딩

4.1 임베딩이란? - 단어나 문장을 수치화해 벡터 공간으로 표현하는 과정. 다른 딥러닝 모델의 입력값으로 많이 사용됨. - 말뭉치의 의미에 따라 벡터화하기 때문에 문법적인 정보가 포함되어 있다. - 문장 임베딩과 단어 임베딩이 있다. - 문장 임베딩: 문장 전체를 벡터로 표현하는 방법. 전체 문장의 흐름을 파악해 벡터로 변환하기 때문에 문맥적 의미를 지니는 장점. 단어 임베딩에 비해 품질이 좋으며, 상용시스템에 많이 사용됨. 하지만 임베딩하기 위해 많은 문장 데이터가 필요하며 학습하는 데 비용이 많이 들어감. - 단어 임베딩: 개별 단어를 벡터로 표현하는 방법. 동음이의어에 대한 구분을 하지 않기 때문에 동일한 벡터값으로 표현되는 단점이 있음. 하지만 문장 임베딩에 비해 학습 방법이 간단해 실무에서 많..

NLP 2022.07.07

Transformer to T5) conclusion 요약

https://youtu.be/v7diENO2mEA 마지막 프로젝트 할때 BART와 T5 사용했으므로 복기하려고 정리된 페이퍼 리뷰를 보았고, 정리해주신 내용 중에서 결론만 다시 요약정리해놓으려고 한다. XLNet : AE와 AR 방식을 모두 적용. Factorization order를 고려하여 AE와 AR의 한계를 모두 극복. RoBERTa : BERT를 optimize함. MASS : AE+AR. 여러가지 masking 방법. BART : MASS와 비슷. 다른 masking 방법. MT-DNN : multitask learning. 여러개의 task 자체를 pretraining 과정에서 학습함으로써 조금 더 robust한 모델 만듬. T5 : 모든 NLP task를 통합할 수 있도록 text-to-..

NLP 2022.07.04