Direct Preference Optimization(DPO) 썸네일형 리스트형 Direct Preference Optimization(DPO)와 그 문제점 RLHF는 강력하지만 무겁다. Reward model, critic model, policy model, reference model — 최소 3~4개의 모델이 동시에 올라가야 한다. DPO(Direct Preference Optimization) 는 이 파이프라인을 목적 함수 하나로 압축한다.DPO 목적 함수DPO의 목적 함수는 다음과 같이 정의된다. $$\max_{\theta} \mathbb{E}{\mathcal{D}} [\log \sigma (r{\theta}(y_w) - r_{\theta}(y_l))]$$여기서 $r_\theta(y)$는 다음과 같이 정의된다.$$r_\theta(y) := \beta \log \frac{\pi_\theta(y \mid x)}{\pi_\text{ref}(y \mid .. 더보기 이전 1 다음