Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- uri
- 대칭키
- ARIMA
- deepseek
- prompt engineering
- session 미종료
- Google Cloud
- posterior collapse
- Transductive Learning
- Inductive Learning
- cam
- 생성 모델 평가
- Grad-CAM
- 귀납
- 디자인 패턴
- GCP
- Design Patterns
- Vertex AI
- PSNR
- SSIM
- mode collapse
- ChatGPT
- 연역
- public key
- url
- python3
- tmux
- DeepLearing.AI
- 생성 모델
Archives
- Today
- Total
데이터 과학 노트
DeepSeek-R1: 강화학습을 통한 대형 언어 모델(LLM)의 추론 능력 향상 본문
DeepSeek-R1: 강화학습을 통한 대형 언어 모델(LLM)의 추론 능력 향상
1. 개요
DeepSeek-AI 연구팀은 DeepSeek-R1-Zero와 DeepSeek-R1이라는 두 가지 세대의 추론 특화 모델을 개발하였습니다.
특히, DeepSeek-R1-Zero는 지도 학습 없이 순수 강화학습(RL) 만을 이용해 훈련되었으며, 스스로 강력한 추론 능력을 학습하는 모습을 보였습니다.
그러나 읽기 어려운 출력과 다국어 혼합 등의 문제가 발생하여, 이를 개선하기 위해 DeepSeek-R1 모델을 도입하였습니다.
DeepSeek-R1은 사전 데이터 학습(Cold Start)과 다단계 학습 파이프라인을 추가하여 성능을 향상시켰고,
그 결과 OpenAI의 o1-1217 모델과 동등한 수준의 성능을 달성하였습니다.
또한, 연구 커뮤니티를 지원하기 위해 DeepSeek-R1-Zero, DeepSeek-R1 및 1.5B~70B 크기의 distill된 모델들을 오픈소스로 공개하였습니다.
2. 접근 방법
2.1 DeepSeek-R1-Zero: 순수 강화학습(RL) 기반 모델- 기존 LLM들은 지도 학습(SFT)을 활용했지만, DeepSeek-R1-Zero는 오직 강화학습만으로 훈련됨.
- GRPO(Group Relative Policy Optimization) 알고리즘을 사용하여 RL 비용을 절감하고 효율적으로 학습.
- 보상 모델(Reward Model)
- 정확성 보상: 정답 여부를 평가하여 강화학습에 반영.
- 형식 보상: 추론 과정과 답변을 <think> ... </think>과 <answer> ... </answer> 태그로 구분하여 가독성을 개선.
- 훈련 결과:
- AIME 2024에서 pass@1 성능 15.6% → 71.0% 향상, 다수결(majority voting) 적용 시 86.7% 도달.
- OpenAI o1-0912 모델과 동급의 성능을 보임.
- 문제점:
- 가독성 부족: 답변이 난해하거나 여러 언어가 혼합되는 문제 발생.
- 모델의 이해도 부족: 인간 친화적인 답변이 부족함.
- DeepSeek-R1-Zero의 한계를 보완하기 위해 사전 학습 데이터(Cold Start)를 도입.
- 4단계 학습 파이프라인 적용:
- Cold Start 단계: 긴 Chain-of-Thought(CoT) 데이터를 활용해 초기 학습.
- 추론 중심 강화학습: 수학, 코딩, 논리 추론 등 명확한 정답이 있는 문제에 집중하여 학습.
- 거부 샘플링(Rejection Sampling) 및 지도 학습(SFT): 학습된 모델의 출력을 필터링하여 품질 높은 학습 데이터를 생성.
- 모든 시나리오를 위한 RL: 일반적인 질문응답(QA), 창작, 편집 등의 작업까지 지원하는 모델로 발전.
- 결과:
- OpenAI o1-1217 모델과 동급 성능 도달.
- 코딩(Codeforces), 수학(MATH-500), 일반 QA(MMLU) 등의 벤치마크에서 강력한 성능을 보임.
- DeepSeek-R1의 추론 능력을 작은 모델(1.5B~70B)에 전이.
- 지도학습(SFT)만을 활용한 distillation 방식을 적용하여 효율적으로 성능을 계승.
- 결과:
- DeepSeek-R1-Distill-Qwen-7B 모델이 GPT-4o-0513을 능가하는 성능을 보임.
- DeepSeek-R1-Distill-Qwen-32B, 70B 모델은 OpenAI o1-mini와 비슷한 성능을 기록.
3. 실험 결과
- 추론 성능:
- AIME 2024: 79.8% (Pass@1, OpenAI o1-1217과 유사)
- MATH-500: 97.3% (최고 성능)
- Codeforces(코딩 대회): 상위 96.3% 참가자보다 높은 점수 기록
- 지식 성능:
- MMLU: 90.8% (교육 관련 지식 평가)
- GPQA Diamond: 71.5% (상식 기반 QA)
- 코딩 성능:
- LiveCodeBench: 65.9% (Pass@1, 코딩 과제 해결율)
- 기타:
- AlpacaEval 2.0(창작 및 문서 작성): 87.6% 승률
- ArenaHard(LLM 비교 평가): GPT-4-Turbo와 유사한 성능 기록
4. 결론 및 향후 과제
- 강화학습만으로도 LLM의 추론 능력을 크게 향상할 수 있음을 입증.
- Cold Start와 다단계 학습을 활용하여 가독성을 높이고 성능을 개선.
- Distillation을 통해 소형 모델에서도 우수한 추론 성능을 구현.
- 향후 개선 방향:
- 일반 작업 기능 강화: 다중 턴 대화, 함수 호출, JSON 출력 등 지원.
- 언어 혼합 문제 해결: 중국어 및 영어 외 다양한 언어에서 일관된 출력 제공.
- 프롬프트 최적화: Few-shot보다 Zero-shot에서 성능이 뛰어남 → 최적화된 프롬프트 개발 필요.
- 소프트웨어 엔지니어링 강화: 코드 생성 및 버그 수정 분야에서 RL 데이터 확대 예정.
요약
이 논문은 강화학습을 활용하여 LLM의 추론 능력을 극대화하는 방법을 연구하였으며,
특히 DeepSeek-R1-Zero는 순수 강화학습만으로 강력한 추론 성능을 보였고,
DeepSeek-R1은 Cold Start 및 다단계 학습을 도입하여 OpenAI o1-1217 수준의 성능을 달성하였습니다.
또한, Distillation 기법을 활용하여 소형 모델에서도 강력한 추론 성능을 구현하였으며,
향후 일반적인 AI 작업 및 언어 일관성 문제 개선, 소프트웨어 엔지니어링 성능 강화 등의 추가 연구가 계획되고 있습니다.