1. GPT-3초거대 언어모델 - 175B parametersgpt 3 이전 모델에 대한 정보를 오픈소스로 공개아주 혁명적인 milestoneinstruct gpt = gpt-3.5강화학습 (RLHF : Reinforcement learning from human feedback) 으로 3세대에서 3.5세대로 넘어옴한 질문에 대해 여러개의 응답을 생성하고 사람이 선호하는 순서대로 랭킹을 매김 Supervised fine-tuning (SFT) : demonstration data를 모으고 학습Reward model (RM) training : 비교 데이터 모으고 reward model을 학습 - 4가지 응답을 만들고 ranking score 예측 (선호를 많이 할 수록 랭킹이 올라감)RL via PPO ..
인공지능

Generalization Error학습 데이터의 실질적인 대표값을 얻으려는 것이 아니라 데이터를 만드는 통계적 모델을 만드려는 것이 기계 학습의 목적True distribution : P(x, y)iid : independent and identically distributedloss 의 평균값 : Expected Loss Underfitting : Generalization error 이때는 다른 모델을 고려하자Overfitting : Generalization error > Training Error : 과하게 학습 상황에 적합되어 있음적어도 학습 데이터에 대해서는 오버피팅을 내는 것이 1차 목표! (에러가 어디까지 작아질 수 있는지)Training Error와 Validation Error 차이가..