LLM

[논문리뷰] GPT-1 : Improving Language Understanding by Generative Pre-Training 논문 리뷰 요약

aipaper-review 2025. 2. 3. 17:33

 

Improving Language Understanding by Generative Pre-Training
GPT-1 [Paper]
Alec Radford, OpenAI

Preprint, 2018

 

Contents

LLM/LMM Study Project는 다음 순서로 진행될 예정입니다.

1. ChatGPT

    1-1. GPT-1 (이번 포스팅)

    1-2. GPT-2 (https://aipaper-review.tistory.com/3)

    1-3. GPT-3 (https://aipaper-review.tistory.com/4)

    1-4. GPT-4 (https://aipaper-review.tistory.com/5)

2. LLaMA 

3. LLaVA

4. DeepSeek

 

📌 LLM 연대기 한눈에 보기

  파라미터수 Keyword  효과
GPT-1 (2018) 117M ○ Unsupervised pre-training
+ Supervised fine-tuning
○ Multi-task 을 위한 Input 변형
○ Transformer 구조 활용
RNN, LSTM 기반 모델보다 훨씬 나은 성능
GPT-2 (2019) 2B ○ 웹 크롤링 dataset
○  byte 레벨의 BPE
인간과 유사한 수준의 텍스트 생성
GPT-3 (2020) 175B ○ 더 더 Large dataset 
○ 더 더 Large model
○ Few-shot learning
그 당시의 아무리 모델이 커도 성능 한계가 있다는 여론
=> 응~ 아냐~ 모델 데이터 다 때려박으면 성능 올라감~   
인간보다 뛰어난 성능
GPT-4 (2023) unknown ○  Multi-modal 
○ 강화학습 기반 fine-tuning 
이미지-텍스트 인풋 -> 텍스트 생성

 


Summary

  • 2-stage로 이루어진 semi-supervised 학습 방식 
    • 방대한 unlabeled dataset을 활용한 unsupervised pretraining
    • input-transformations을 활용한 세부 task에 특화된 supervised fine-tuning 
  • 텍스트의 long-term dependency에 강인한 transformer decoder 구조 채택
  • QA, semantic similairty, entailment determination, text classification 등 다양한 NLP task에서 우수한 성능 달성

 


Motivation

1) 방대한 양의 unlabeled data를 활용하여 general한 언어 능력을 키우고, 2) task에 맞는 input을 변형하여 추가적인 모델 구조 변형 없이 최소한의 비용으로 specific 한 task를 수행하도록 한다. 


Method

1. Unsupervised pre-training

Multi-layer Transformer Decoder 구조를 언어 모델로 활용한다.

 

Language Modeling Objective : 

  •  이전 token U(uk, uk+1, ..., ui-1)들이 주어져있을 때 다음 token (ui) 을 예측하는 모델

  • context vector (U) 와 embedding matrix (We)를 곱하고 position embedding (Wp)를 더한 후 n 개의 transformebr block을 거친 후 taret token (P) 를 생성함.
  • SGD 기법을 활용하영 backpropagation을 함.

2. Supervised fine-tuning

마지막 transformer block 이후 추가적인 linear output layer을 거친 후 최종 아웃풋을 생성한다.

이 단계에서 추가되는 parameter은 lineay output layer와 delimitier token 뿐이다.

 

Unsupervised pre-training 단계의 language model objective 은 1) supervised model의 generalization 향상, 2) 빠른 convergence에 도움을 준다.

 

3. Task-specific input transformations

 

각 task마다 전체적인 transformer 구조나 training objective는 동일하지만, 세부 task를 위해서 input을 변형하여 사용한다. (최소한의 추가 비용을 위하여)

  • Classficiation :
    • 주어진 카테고리, 감정, 스팸 탐지 등을 분류하는 task
    • linear [ trans [ <start> text <extract> ] ] (그대로 변형 없이 사용) 
  • Textual entailment : 
    • 전제 p 가 참일 때, 주어진 가설 h 사이의 관계를 설명하는 task
      • Entailment (함의): 전제가 참이면 가설도 반드시 참이어야 함.
      • Contradiction (모순): 전제가 참이면 가설이 거짓이어야 함.
      • Neutral (중립): 전제가 참이어도 가설이 참인지 거짓인지 알 수 없음.
    • 예시 
      • 전제: "A man is playing the guitar." vs 가설: "A person is playing a musical instrument." -> Entailment
      • 전제: "A man is playing the guitar." vs 가설: "A man is performing on stage." -> Netural
    • linear [ transf [ <start> 전제 p <delim> 가설 h  <extract> ] ]
  • Similarity 
    • 두 문장 p1, p2 가 주어져 있을 때 얼마나 의미론적으로 유사한지 추정하는 task
    • 예시
    • 1. 높은 유사도 (High Similarity)
      • p1 : "나는 오늘 아침에 커피를 마셨다." vs p2 : "오늘 아침에 나는 커피를 마셨다."
      • → 단어 순서만 다르고 의미는 동일 → 유사도 높음
      2. 중간 유사도 (Moderate Similarity)
      • p1 : "나는 커피를 좋아한다." vs p2 : "아침마다 커피를 마신다."
      • → 두 문장이 커피와 관련 있지만 같은 의미는 아님 → 중간 정도의 유사도
      3. 낮은 유사도 (Low Similarity)
      • p1 : "나는 커피를 마셨다." vs p2 : "오늘 날씨가 정말 좋다."
      • → 의미적으로 거의 관련 없음 → 유사도 낮음
    • 두 문장의 순서는 의미 없으므로, 독립적으로 2가지 케이스를 모두 고려
    • linear [ [ transf [ <start> p1 <delim> p2 <extract> ] + transf [ <start> p2 <delim> p1 <extract>] ] ]

 

  • Multiple Choice
    • 질문에 해당하는 정답을 고르는 task (단일, 다중정답)
    • 예시
      • 다음 중 포유류에 해당하는 동물을 모두 고르시오.
        (A) 개 ✅
        (B) 독수리
        (C) 돌고래 ✅
        (D) 뱀
    • softmax ( linear [ [ transf [ <start> p1 <delim> p2 <extract> ] ], linear [ [ transf [ <start> p1 <delim> p2 <extract> ] ] , ... )

Experiment

다양한 NLP 분야에서 SOTA 성능을 달성했다고 한다.


Ablation Study

 

Left) pretrained LM -> target task로 transfer하는 layer을 증가할 수록 성능이 좋아짐 -> pretrained LM의 각 layer가 target task에 적합한 기능을 수행하였다는 뜻.

Right) 다양한 task에서 LSTM보다 Transformer 구조가 성능이 더 좋다는 것을 알려준다.

 

 

 

1. aux LM (=unsupervised language model objective) 의 효과성

2. Transformer vs LSTM 의 효과성

 


 

My Opinion

  • GPT-1 은 NLP 분야에서의 pre-training 을 대중화시킨 첫 번째 논문이다. (지금은 별 거 아니지만, 그때 당시에는 획기적인 논문이였음.)
  • GPT-2 드루와... 가보자고~