RLHF(Reward Learning from Human Feedback)와 RLAIF(Reinforcement Learning with AI Feedback)는 대규모 언어 모델의 응답 품질을 향상시키기 위한 대표적인 강화 학습 기법이다. 두 방식 모두 보상 모델을 기반으로 언어 모델을 보정하지만, 보상 정보를 제공하는 주체가 인간인지 AI인지에 따라 접근 방식이 구분된다.
RLHF는 인간이 제공한 피드백을 활용하여 보상 모델을 학습하고, 해당 모델을 기반으로 언어 모델을 강화 학습하는 기법이다. 일반적인 절차는 다음과 같다.
RLAIF는 RLHF와 동일한 구조를 따르되, 인간 피드백 대신 사전 학습된 AI 모델이 응답을 평가하고 피드백을 생성하는 방식이다. 주로 다음과 같은 절차로 이루어진다.
RLAIF는 비용 효율성과 확장성 측면에서 우수하며, 인간 피드백의 일관성 부족 문제를 일정 부분 해소할 수 있다.
항목 | RLHF | RLAIF |
---|---|---|
피드백 제공자 | 인간이 평가 | AI가 AI를 평가 |
비용 | 높음 (인력 필요) | 낮음 (자동화 가능) |
피드백 속도 | 느림 | 빠름 |
일관성 | 불안정 (개인차) | 높음 (모델 기반) |
편향 위험 | 인간의 주관 반영 | AI 평가자의 학습 편향 |
확장성 | 제한적 | 높음 |
구분 | 장점 | 단점 |
---|---|---|
RLHF |
|
|
RLAIF |
|
|