본 포스트는 2021년에 발표되어 arxiv에 등록되어 있는 'GPT Understands, Too'의 내용을 요약, 정리하였습니다.
Paper
GPT Understands, Too
While GPTs with traditional fine-tuning fail to achieve strong results on natural language understanding (NLU), we show that GPTs can be better than or comparable to similar-sized BERTs on NLU tasks with a novel method P-tuning -- which employs trainable c
arxiv.org
Code(github)
GitHub - THUDM/P-tuning: A novel method to tune language models. Codes and datasets for paper ``GPT understands, too''.
A novel method to tune language models. Codes and datasets for paper ``GPT understands, too''. - GitHub - THUDM/P-tuning: A novel method to tune language models. Codes and datasets for pape...
github.com
1. Introduction
오랫동안 unidirectional language model 방식의 NLG(Natural Language Generation) 모델들은 NLU task에서 좋지 않은 성능을 보여왔고, 이를 통해 NLG 모델들은 NLU 방식에 적합하지 않다고 가정되어 왔습니다.
그 뒤, GPT-3의 출현과 few-shot, zero-shot learning에서의 좋은 성능을 통해 적절한 프롬프트가 주어지면 NLG 모델에서 NLU task의 성능 향상을 기대할 수 있었습니다. 하지만, 가장 성능이 좋은 프롬프트를 직접 찾는 것은 매우 어려웠고, 특히 큰 validation set에서는 불가능했습니다. 게다가, 모델 성능을 하락시키는 프롬프트의 생성은 쉬웠습니다.
위와 같은 문제들 때문에, 최근의 연구는 프롬프트를 자동으로 찾아주는 연구에 집중되어 왔고, 그 효율성을 증명하고 있습니다.
본 논문에서 저자가 제안하는 내용은
1. GPT 계열의 모델(GPTs)의 NLU task 성능이 동일 사이즈의 BERT 계열의 모델(BERTs)과 유사하거나 더 높게 나타날 수 있습니다. 이것을 통해 NLU task에서 GPT 방식의 모델 아키텍쳐의 성능이 저평가되어있다고 서술합니다.
2. P-tuning은 GPTs 모델들 뿐만 아니라 BERTs 모델들의 few-shot과 fully supervised 학습 방법에서 범용적으로 적용할 수 있습니다. P-tuning을 사용하여 LAMA knowledge probing task, few-shot SuperGlue에서 SOTA의 성능을 달성할 수 있었습니다.
2. Method : P-tuning
Prompt p의 기능은 context x와 target y를 template T에 넣어주는 것입니다.
예시 : 나라의 수도를 맞추는 task(LAMA-TREx P36)
Prompt : "The capital of ... is ... ."
Context : "Britain"
Target : "[MASK]"
기존 Prompt Generator에서는 모델의 입력으로
의 형식을 사용했지만, P-tuning은
(e : embedding layer, h : lstm hidden state, x : context, y: target)
의 형식을 사용합니다. 또한, Anchor token들을 추가하여 성능을 개선합니다.
(Anchor token : (b)의 "capital" 같이 task와 관련된 토큰)
Prompt Encoder의 구성
양방향 LSTM과 MLP를 결합한 구조입니다.
3. Experiments
유사한 크기의 두 모델에서 GPT2 모델에 P-tuning을 적용했을 때, BERT와 성능이 유사하거나 일부 task에서는 근소 우위의 성능을 보여주는 것을 확인할 수 있습니다.
'논문리뷰' 카테고리의 다른 글
Dense Passage Retrieval for Open-Domain Question Answering (0) | 2021.12.05 |
---|---|
Pitfalls in the Evaluation of Sentence Embeddings (1) | 2021.11.07 |
A Survey of Transformers - 中 (0) | 2021.09.12 |
A Survey of Transformers - 上 (0) | 2021.08.29 |