GPT-4 Technical Report
GPT-4 [Paper]
OpenAI
Preprint, 2023
Contents
LLM/LMM Study Project는 다음 순서로 진행될 예정입니다.
1. ChatGPT
1-1. GPT-1 (https://aipaper-review.tistory.com/1)
1-2. GPT-2 (https://aipaper-review.tistory.com/3)
1-3. GPT-3 (https://aipaper-review.tistory.com/4)
1-4. GPT-4 (이번 포스팅)
2. LLaMA
3. LLaVA
4. DeepSeek
📌 GPT-3 포스트 읽고 오기
2025.02.06 - [LLM] - [논문리뷰] GPT-3 : Language Models are Few-Shot Learners
[논문리뷰] GPT-3 : Language Models are Few-Shot Learners
Language Models are Few-Shot LearnersGPT-3 [Paper]Alec Radford, OpenAIPreprint, 2020 ContentsLLM Study Project는 다음 순서로 진행될 예정입니다.1. ChatGPT 1-1. GPT-1 (https://aipaper-review.tistory.com/1) 1-2. GPT-2 (https://aipape
aipaper-review.tistory.com
📌 LLM 연대기 한눈에 보기
파라미터수 | Keyword | 효과 | |
GPT-1 (2018) | 117M | ○ Unsupervised pre-training + Supervised fine-tuning ○ Multi-task 을 위한 Input 변형 ○ Transformer 구조 활용 |
RNN, LSTM 기반 모델보다 훨씬 나은 성능 |
GPT-2 (2019) | 2B | ○ 웹 크롤링 dataset ○ byte 레벨의 BPE |
인간과 유사한 수준의 텍스트 생성 |
GPT-3 (2020) | 175B | ○ 더 더 Large dataset ○ 더 더 Large model ○ Few-shot learning |
그 당시의 아무리 모델이 커도 성능 한계가 있다는 여론 => 응~ 아냐~ 모델 데이터 다 때려박으면 성능 올라감~ 인간보다 뛰어난 성능 |
GPT-4 (2023) | unknown | ○ Multi-modal ○ 강화학습 기반 fine-tuning |
이미지-텍스트 인풋 -> 텍스트 생성 |
Summary
- Transformer 기반 초거대 Multi-modal 언어모델
- Predictably 를 추정할 수 있는 deep learning stack을 연구
Method
Model
- Transformer-style
- Human 피드백을 통한 강화학습
- 공개된 데이터(아마 인터넷 웹) + 제 3자로부터 제공받은 데이터셋을 활용
경쟁자 이슈로 모델에 대해 자세한 설명을 생략함 (ㅠㅠ)
모델 아키택쳐, 모델 사이즈, 하드웨어, 학습 비용, 데이터셋, 훈련기법 등 모든 것을 일체 오픈을 안 함
Predictable Scaling
GPT-4 프로젝트의 주요 쟁점은 딥러닝 모델의 scale을 정확하게 예측하는 방법에 있다.
GPT-4와 같은 거대모델은 model-specific tuning (ex. hyperparameter tuning)이 굉장히 어렵기 때문에, 아주 작은 버전의 모델(GPT-4 mini버전)의 경향성만으로도 최종 모델을 잘 유추하는 scaling이 잘 되는 모델을 구현하는 것이 중요함.
모델의 성능과 학습 비용사이에는 trade-off가 있음. 모델의 크기와 학습데이터의 크기가 커질수록 모델의 loss값이 감소하는데 -> 이는 우상향하는 지수함수의 형태 power-law 를 따른다는 연구 결과
* power-law : 한 수가 다른 수의 거듭 제곱의 반비례하여 나타나는 현상
loss 예측 : Small 버전의 모델의 loss 관찰값과 그에 따른 최종 loss 추정값 ~= GPT-4의 loss 관찰값
성능 예측 : HumanEval 데이터셋에서 코딩 능력을 예측
Experiments
완전 큰 모델을 완전 큰 데이터셋에다 쭈우욱 학습시켰더니 성능이 미쳤더라~
테크니컬 리포트라 실험 결과가 엄청 많은데 난 관심거리가 아니라 생략했음