LM은 점점 더 커지고 있다 scale ? → train data, flops, parameter

pretrain시, 학습에 필요한 데이터

기존 next word prediection에서 점점 확장된 task를 수행하도록 바뀜

fine tunning의 목적

LM이 many task를 동시에 잘하게 하려면 어떻게 해야할까?

다양한 태스크에 대해서 instruction , ouput pair를 통해 학습시킴

이후에 unseen tasks에 대해서 평가함

그냥 아예 pretrain 할 때, 하면 안되나?

Massive Multitask Langauge Understanding (MMLU)

과거에는 최적화가 어려웠음 → 학습에는 어려움

PPO라는 RL 알고리즘을 통해서 transformer, neural network에서 쉬워졌다

Document

탐색기