'LLM' 태그의 글 목록

RLHF 설명 (Training language models to follow instructions with human feedback 논문 리뷰)

RLHF는 reinforcement learning from human feedback의 줄임말로, 학습을 데이터셋에만 의존하지 않고 사람의 피드백을 강화학습에 결합하여 사람의 생각과 리워드 모델의 결과가 일치하도록 하는 것을 말한다. 이러한 RLHF는 처음에 language model을 optimize하는 방법으로 제시되어, ChatGPT의 성능을 올리는 데에도 활용되었다고 알려져 있다. 이번 글에서는 이 RLHF가 무엇인지에 대해 알아보겠다.Motivation 옛날의 ChatGPT 버전에게 "세종대왕 맥북 던짐 사건이 뭔지 알려줘." 라고 요구하면, 세종대왕이 훈민정음을 쓰다가 담당자에게 분노하여 맥북프로와 함께 담당자를 던져 버렸다는 이야기를 말해준다는 밈이 있었다. 이런 글이 만들어졌을 때, 사..

2025. 1. 5. 23:11

Machine Learning - Thoery

Tree-of-thoughts 설명 (ToT 설명)

Tree-of-thoughts는 더 많은 exploration과 중간 reasoning 과정의 평가를 통해 더 나은 의사 결정을 가능하게 하는 CoT의 발전된 버전 중 하나로, 줄여서 ToT라고도 부른다. 다양한 search나 planning 알고리즘들이 tree 형태로 의사 결정 과정을 expansion하여 이 중에 최적의 결정을 선택하고는 하는데, ToT도 이와 비슷하게 동시에 다양한 reasoning 과정들을 탐색하여 복잡한 문제를 더 정확하게 풀 수 있도록 한다. 이번 글에서는 이러한 ToT가 어떻게 작동하는지에 대해 알아보겠다.Overview Tree-of-thoughts는 앞서 설명한 것처럼 tree 형태로 다양한 reasoning 브랜치들을 생성하여, 이 중에 가장 나은 선택지들만을 선택하여..

2024. 12. 28. 16:55

Machine Learning - Thoery

Chain-of-thoughts 설명 (CoT 설명)

Chain-of-thoughts는 large language model(LLM)이 최종적인 답까지 도달하기 전에 중간 reasoning 단계들을 더해줌으로써 LLM의 reasoning 능력과 함께 정확한 답을 도출할 수 있게 하는 것을 의미하고, 줄여서 CoT라고도 한다. 비교적 최근에 나온 모델 중 하나인 GPT-o1이 이러한 CoT를 기반으로 아래 그림처럼 다양한 문제를 해결하는 성능을 굉장히 많이 끌어 올렸다고 해 화제가 되기도 하였다. 나보다 IQ 높은 듯.. 이번 글에서는 최근 LLM의 핵심적인 성능 향상 기반 중 하나인 CoT가 무엇인지에 대해 알아보겠다.Overview CoT는 앞서 설명한 것처럼 여러 단계의 중간 reasoning 단계들을 통해 답을 더 쉽게 도출할 수 있게 하는 프레임워크..

2024. 12. 28. 14:40

RLHF 설명 (Training language models to follow instructions with human feedback 논문 리뷰)

Tree-of-thoughts 설명 (ToT 설명)

Chain-of-thoughts 설명 (CoT 설명)

전체 카테고리

블로그 인기글

전체 방문자

티스토리툴바

RLHF 설명 (Training language models to follow instructions with human feedback 논문 리뷰)

Tree-of-thoughts 설명 (ToT 설명)

Chain-of-thoughts 설명 (CoT 설명)

전체 카테고리

블로그 인기글

최근 글

최근댓글

전체 방문자

티스토리툴바