LLM

[논문리뷰] GPT-4 Technical Report

aipaper-review 2025. 2. 6. 13:07
GPT-4 Technical Report
GPT-4 [Paper]
OpenAI

Preprint, 2023

 

Contents

LLM/LMM Study Project는 다음 순서로 진행될 예정입니다.

1. ChatGPT

    1-1. GPT-1 (https://aipaper-review.tistory.com/1)

    1-2. GPT-2 (https://aipaper-review.tistory.com/3)

    1-3. GPT-3 (https://aipaper-review.tistory.com/4)

    1-4. GPT-4  (이번 포스팅)

2. LLaMA

3. LLaVA

4. DeepSeek

 

📌 GPT-3 포스트 읽고 오기

2025.02.06 - [LLM] - [논문리뷰] GPT-3 : Language Models are Few-Shot Learners

 

[논문리뷰] GPT-3 : Language Models are Few-Shot Learners

Language Models are Few-Shot LearnersGPT-3 [Paper]Alec Radford, OpenAIPreprint, 2020 ContentsLLM Study Project는 다음 순서로 진행될 예정입니다.1. ChatGPT    1-1. GPT-1 (https://aipaper-review.tistory.com/1)    1-2. GPT-2 (https://aipape

aipaper-review.tistory.com

 

📌 LLM 연대기 한눈에 보기

  파라미터수 Keyword  효과
GPT-1 (2018) 117M ○ Unsupervised pre-training
+ Supervised fine-tuning
○ Multi-task 을 위한 Input 변형
○ Transformer 구조 활용
RNN, LSTM 기반 모델보다 훨씬 나은 성능
GPT-2 (2019) 2B ○ 웹 크롤링 dataset
○  byte 레벨의 BPE
인간과 유사한 수준의 텍스트 생성
GPT-3 (2020) 175B ○ 더 더 Large dataset 
○ 더 더 Large model
○ Few-shot learning
그 당시의 아무리 모델이 커도 성능 한계가 있다는 여론
=> 응~ 아냐~ 모델 데이터 다 때려박으면 성능 올라감~   
인간보다 뛰어난 성능
GPT-4 (2023) unknown ○  Multi-modal 
○ 강화학습 기반 fine-tuning 
이미지-텍스트 인풋 -> 텍스트 생성

 


Summary

 

  • Transformer 기반 초거대 Multi-modal 언어모델 
  • Predictably 를 추정할 수 있는 deep learning stack을 연구

 


Method

Model

  • Transformer-style
  • Human 피드백을 통한 강화학습
  • 공개된 데이터(아마 인터넷 웹) + 제 3자로부터 제공받은 데이터셋을 활용

경쟁자 이슈로 모델에 대해 자세한 설명을 생략함 (ㅠㅠ) 

모델 아키택쳐, 모델 사이즈, 하드웨어, 학습 비용, 데이터셋, 훈련기법 등 모든 것을 일체 오픈을 안 함

 

 

Predictable Scaling

GPT-4 프로젝트의 주요 쟁점은 딥러닝 모델의 scale을 정확하게 예측하는 방법에 있다.

GPT-4와 같은 거대모델은 model-specific tuning (ex. hyperparameter tuning)이 굉장히 어렵기 때문에, 아주 작은 버전의 모델(GPT-4 mini버전)의 경향성만으로도 최종 모델을 잘 유추하는 scaling이 잘 되는 모델을 구현하는 것이 중요함.

 

모델의 성능과 학습 비용사이에는 trade-off가 있음. 모델의 크기와 학습데이터의 크기가 커질수록 모델의 loss값이 감소하는데 -> 이는 우상향하는 지수함수의 형태 power-law 를 따른다는 연구 결과

* power-law : 한 수가 다른 수의 거듭 제곱의 반비례하여 나타나는 현상

 

loss 예측 : Small 버전의 모델의 loss 관찰값과 그에 따른 최종 loss 추정값 ~= GPT-4의 loss 관찰값

 

성능 예측 : HumanEval 데이터셋에서 코딩 능력을 예측

 


Experiments

완전 큰 모델을 완전 큰 데이터셋에다 쭈우욱 학습시켰더니 성능이 미쳤더라~

테크니컬 리포트라 실험 결과가 엄청 많은데 난 관심거리가 아니라 생략했음