[논문리뷰] GPT-1 : Improving Language Understanding by Generative Pre-Training 논문 리뷰 요약

LLM

[논문리뷰] GPT-1 : Improving Language Understanding by Generative Pre-Training 논문 리뷰 요약

aipaper-review 2025. 2. 3. 17:33

Improving Language Understanding by Generative Pre-Training
GPT-1 [Paper]
Alec Radford, OpenAI
Preprint, 2018

LLM/LMM Study Project는 다음 순서로 진행될 예정입니다.

1. ChatGPT

1-1. GPT-1 (이번 포스팅)

1-2. GPT-2 (https://aipaper-review.tistory.com/3)

1-3. GPT-3 (https://aipaper-review.tistory.com/4)

1-4. GPT-4 (https://aipaper-review.tistory.com/5)

2. LLaMA

3. LLaVA

4. DeepSeek

📌 LLM 연대기 한눈에 보기

	파라미터수	Keyword	효과
GPT-1 (2018)	117M	○ Unsupervised pre-training + Supervised fine-tuning ○ Multi-task 을 위한 Input 변형 ○ Transformer 구조 활용	RNN, LSTM 기반 모델보다 훨씬 나은 성능
GPT-2 (2019)	2B	○ 웹 크롤링 dataset ○ byte 레벨의 BPE	인간과 유사한 수준의 텍스트 생성
GPT-3 (2020)	175B	○ 더 더 Large dataset ○ 더 더 Large model ○ Few-shot learning	그 당시의 아무리 모델이 커도 성능 한계가 있다는 여론 => 응~ 아냐~ 모델 데이터 다 때려박으면 성능 올라감~ 인간보다 뛰어난 성능
GPT-4 (2023)	unknown	○ Multi-modal ○ 강화학습 기반 fine-tuning	이미지-텍스트 인풋 -> 텍스트 생성

Summary

2-stage로 이루어진 semi-supervised 학습 방식
- 방대한 unlabeled dataset을 활용한 unsupervised pretraining
- input-transformations을 활용한 세부 task에 특화된 supervised fine-tuning
텍스트의 long-term dependency에 강인한 transformer decoder 구조 채택
QA, semantic similairty, entailment determination, text classification 등 다양한 NLP task에서 우수한 성능 달성

Motivation

1) 방대한 양의 unlabeled data를 활용하여 general한 언어 능력을 키우고, 2) task에 맞는 input을 변형하여 추가적인 모델 구조 변형 없이 최소한의 비용으로 specific 한 task를 수행하도록 한다.

Method

1. Unsupervised pre-training

Multi-layer Transformer Decoder 구조를 언어 모델로 활용한다.

Language Modeling Objective :

이전 token U(uk, uk+1, ..., ui-1)들이 주어져있을 때 다음 token (ui) 을 예측하는 모델

context vector (U) 와 embedding matrix (We)를 곱하고 position embedding (Wp)를 더한 후 n 개의 transformebr block을 거친 후 taret token (P) 를 생성함.
SGD 기법을 활용하영 backpropagation을 함.

2. Supervised fine-tuning

마지막 transformer block 이후 추가적인 linear output layer을 거친 후 최종 아웃풋을 생성한다.

이 단계에서 추가되는 parameter은 lineay output layer와 delimitier token 뿐이다.

Unsupervised pre-training 단계의 language model objective 은 1) supervised model의 generalization 향상, 2) 빠른 convergence에 도움을 준다.

3. Task-specific input transformations

각 task마다 전체적인 transformer 구조나 training objective는 동일하지만, 세부 task를 위해서 input을 변형하여 사용한다. (최소한의 추가 비용을 위하여)

Classficiation :
- 주어진 카테고리, 감정, 스팸 탐지 등을 분류하는 task
- linear [ trans [ <start> text <extract> ] ] (그대로 변형 없이 사용)
Textual entailment :
- 전제 p 가 참일 때, 주어진 가설 h 사이의 관계를 설명하는 task
  - Entailment (함의): 전제가 참이면 가설도 반드시 참이어야 함.
  - Contradiction (모순): 전제가 참이면 가설이 거짓이어야 함.
  - Neutral (중립): 전제가 참이어도 가설이 참인지 거짓인지 알 수 없음.
- 예시
  - 전제: "A man is playing the guitar." vs 가설: "A person is playing a musical instrument." -> Entailment
  - 전제: "A man is playing the guitar." vs 가설: "A man is performing on stage." -> Netural
- linear [ transf [ <start> 전제 p <delim> 가설 h <extract> ] ]
Similarity
- 두 문장 p1, p2 가 주어져 있을 때 얼마나 의미론적으로 유사한지 추정하는 task
- 예시
- 1. 높은 유사도 (High Similarity)
  - p1 : "나는 오늘 아침에 커피를 마셨다." vs p2 : "오늘 아침에 나는 커피를 마셨다."
  - → 단어 순서만 다르고 의미는 동일 → 유사도 높음
  2. 중간 유사도 (Moderate Similarity)
  - p1 : "나는 커피를 좋아한다." vs p2 : "아침마다 커피를 마신다."
  - → 두 문장이 커피와 관련 있지만 같은 의미는 아님 → 중간 정도의 유사도
  3. 낮은 유사도 (Low Similarity)
  - p1 : "나는 커피를 마셨다." vs p2 : "오늘 날씨가 정말 좋다."
  - → 의미적으로 거의 관련 없음 → 유사도 낮음
- 두 문장의 순서는 의미 없으므로, 독립적으로 2가지 케이스를 모두 고려
- linear [ [ transf [ <start> p1 <delim> p2 <extract> ] + transf [ <start> p2 <delim> p1 <extract>] ] ]

Multiple Choice
- 질문에 해당하는 정답을 고르는 task (단일, 다중정답)
- 예시
  - 다음 중 포유류에 해당하는 동물을 모두 고르시오.
    (A) 개 ✅
    (B) 독수리
    (C) 돌고래 ✅
    (D) 뱀
- softmax ( linear [ [ transf [ <start> p1 <delim> p2 <extract> ] ], linear [ [ transf [ <start> p1 <delim> p2 <extract> ] ] , ... )

Experiment

다양한 NLP 분야에서 SOTA 성능을 달성했다고 한다.

Ablation Study

Left) pretrained LM -> target task로 transfer하는 layer을 증가할 수록 성능이 좋아짐 -> pretrained LM의 각 layer가 target task에 적합한 기능을 수행하였다는 뜻.

Right) 다양한 task에서 LSTM보다 Transformer 구조가 성능이 더 좋다는 것을 알려준다.

1. aux LM (=unsupervised language model objective) 의 효과성

2. Transformer vs LSTM 의 효과성

My Opinion

GPT-1 은 NLP 분야에서의 pre-training 을 대중화시킨 첫 번째 논문이다. (지금은 별 거 아니지만, 그때 당시에는 획기적인 논문이였음.)
GPT-2 드루와... 가보자고~

'LLM' 카테고리의 다른 글

[논문리뷰] LoRA : Low-Rank Adaptation of Large Language Models (0)	2025.02.25
[논문리뷰] GPT-4 Technical Report (0)	2025.02.06
[논문리뷰] GPT-3 : Language Models are Few-Shot Learners (0)	2025.02.06
[논문리뷰] GPT-2 : Language Models are Unsupervised Multitask Learners 논문 리뷰 요약 (0)	2025.02.04

현재글[논문리뷰] GPT-1 : Improving Language Understanding by Generative Pre-Training 논문 리뷰 요약

aipaper-review 님의 블로그

킹왕짱 AI 논문 리뷰어가 될테야!

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

aipaper-review 님의 블로그