유니의 공부
  • 홈
  • About
  • 태그
  • 방명록
    • 분류 전체보기 (217)
      • Machine Learning - Thoery (96)
        • Probability & Statistics (10)
        • Traditional ML (15)
        • Deep Learning (13)
        • Graph Representation Learni.. (36)
        • AI4Science (2)
        • LLM (3)
      • Machine Learning - Tools (2)
        • PyG (2)
      • Process Mining - Theory (61)
        • Process Discovery (17)
        • Conformance Checking (12)
        • Process Model (13)
      • Process Mining - Tools (42)
        • ProM (6)
        • pm4py (2)
        • RapidMiner (4)
        • Disco (1)
        • pm4py_version_1 (29)
      • Process Mining - General (1)
      • Process Mining & Data Minin.. (10)
  • 글작성
  • 방명록
  • 환경설정
  • 메뉴 닫기
RL 검색 결과
1 개의 검색 결과가 있습니다.
Machine Learning - Thoery/Deep Learning

RLHF 설명 (Training language models to follow instructions with human feedback 논문 리뷰)

RLHF는 reinforcement learning from human feedback의 줄임말로, 학습을 데이터셋에만 의존하지 않고 사람의 피드백을 강화학습에 결합하여 사람의 생각과 리워드 모델의 결과가 일치하도록 하는 것을 말한다. 이러한 RLHF는 처음에 language model을 optimize하는 방법으로 제시되어, ChatGPT의 성능을 올리는 데에도 활용되었다고 알려져 있다. 이번 글에서는 이 RLHF가 무엇인지에 대해 알아보겠다.Motivation 옛날의 ChatGPT 버전에게 "세종대왕 맥북 던짐 사건이 뭔지 알려줘." 라고 요구하면, 세종대왕이 훈민정음을 쓰다가 담당자에게 분노하여 맥북프로와 함께 담당자를 던져 버렸다는 이야기를 말해준다는 밈이 있었다.  이런 글이 만들어졌을 때, 사..

2025. 1. 5. 23:11
  • «
  • 1
  • »
반응형

전체 카테고리

  • 분류 전체보기 (217)
    • Machine Learning - Thoery (96)
      • Probability & Statistics (10)
      • Traditional ML (15)
      • Deep Learning (13)
      • Graph Representation Learni.. (36)
      • AI4Science (2)
      • LLM (3)
    • Machine Learning - Tools (2)
      • PyG (2)
    • Process Mining - Theory (61)
      • Process Discovery (17)
      • Conformance Checking (12)
      • Process Model (13)
    • Process Mining - Tools (42)
      • ProM (6)
      • pm4py (2)
      • RapidMiner (4)
      • Disco (1)
      • pm4py_version_1 (29)
    • Process Mining - General (1)
    • Process Mining & Data Minin.. (10)

블로그 인기글

  • 최근 글
  • 최근 댓글

최근 글

최근댓글

전체 방문자

오늘
어제
전체
Powered by Privatenote/라이프코리아 Copyright © 유니의 공부 All rights reserved. TistoryWhaleSkin3.4

티스토리툴바