Machine Learning - Thoery/Deep Learning
RLHF 설명 (Training language models to follow instructions with human feedback 논문 리뷰)
RLHF는 reinforcement learning from human feedback의 줄임말로, 학습을 데이터셋에만 의존하지 않고 사람의 피드백을 강화학습에 결합하여 사람의 생각과 리워드 모델의 결과가 일치하도록 하는 것을 말한다. 이러한 RLHF는 처음에 language model을 optimize하는 방법으로 제시되어, ChatGPT의 성능을 올리는 데에도 활용되었다고 알려져 있다. 이번 글에서는 이 RLHF가 무엇인지에 대해 알아보겠다.Motivation 옛날의 ChatGPT 버전에게 "세종대왕 맥북 던짐 사건이 뭔지 알려줘." 라고 요구하면, 세종대왕이 훈민정음을 쓰다가 담당자에게 분노하여 맥북프로와 함께 담당자를 던져 버렸다는 이야기를 말해준다는 밈이 있었다. 이런 글이 만들어졌을 때, 사..
2025. 1. 5. 23:11
최근댓글