LM은 점점 더 커지고 있다 scale ? → train data, flops, parameter
pretrain시, 학습에 필요한 데이터
기존 next word prediection에서 점점 확장된 task를 수행하도록 바뀜
- Language modeling ≠ assisting users
fine tunning의 목적
- down stream 태스크를 더 잘하게 만든다던가
- task domain 전환 (object detection → 암세포 detection)
LM이 many task를 동시에 잘하게 하려면 어떻게 해야할까?
Instruction finetuning
다양한 태스크에 대해서 instruction , ouput pair를 통해 학습시킴
이후에 unseen tasks에 대해서 평가함
Instruction pretraining?
그냥 아예 pretrain 할 때, 하면 안되나?
Massive Multitask Langauge Understanding (MMLU)
RL
과거에는 최적화가 어려웠음 → 학습에는 어려움
- reward를 최대화 하기 위해서, gradient ascent를 해야했는데, 미분이 힘들었음
PPO라는 RL 알고리즘을 통해서 transformer, neural network에서 쉬워졌다