데이터 과학 노트

DeepSeek-R1: 강화학습을 통한 대형 언어 모델(LLM)의 추론 능력 향상 본문

카테고리 없음

DeepSeek-R1: 강화학습을 통한 대형 언어 모델(LLM)의 추론 능력 향상

Data Scientist Note 2025. 2. 4. 01:53

 

DeepSeek-R1: 강화학습을 통한 대형 언어 모델(LLM)의 추론 능력 향상

1. 개요

DeepSeek-AI 연구팀은 DeepSeek-R1-ZeroDeepSeek-R1이라는 두 가지 세대의 추론 특화 모델을 개발하였습니다.
특히, DeepSeek-R1-Zero지도 학습 없이 순수 강화학습(RL) 만을 이용해 훈련되었으며, 스스로 강력한 추론 능력을 학습하는 모습을 보였습니다.
그러나 읽기 어려운 출력과 다국어 혼합 등의 문제가 발생하여, 이를 개선하기 위해 DeepSeek-R1 모델을 도입하였습니다.

DeepSeek-R1은 사전 데이터 학습(Cold Start)과 다단계 학습 파이프라인을 추가하여 성능을 향상시켰고,
그 결과 OpenAI의 o1-1217 모델과 동등한 수준의 성능을 달성하였습니다.
또한, 연구 커뮤니티를 지원하기 위해 DeepSeek-R1-Zero, DeepSeek-R1 및 1.5B~70B 크기의 distill된 모델들을 오픈소스로 공개하였습니다.


2. 접근 방법

2.1 DeepSeek-R1-Zero: 순수 강화학습(RL) 기반 모델
  • 기존 LLM들은 지도 학습(SFT)을 활용했지만, DeepSeek-R1-Zero는 오직 강화학습만으로 훈련됨.
  • GRPO(Group Relative Policy Optimization) 알고리즘을 사용하여 RL 비용을 절감하고 효율적으로 학습.
  • 보상 모델(Reward Model)
    • 정확성 보상: 정답 여부를 평가하여 강화학습에 반영.
    • 형식 보상: 추론 과정과 답변을 <think> ... </think>과 <answer> ... </answer> 태그로 구분하여 가독성을 개선.
  • 훈련 결과:
    • AIME 2024에서 pass@1 성능 15.6% → 71.0% 향상, 다수결(majority voting) 적용 시 86.7% 도달.
    • OpenAI o1-0912 모델과 동급의 성능을 보임.
  • 문제점:
    • 가독성 부족: 답변이 난해하거나 여러 언어가 혼합되는 문제 발생.
    • 모델의 이해도 부족: 인간 친화적인 답변이 부족함.
2.2 DeepSeek-R1: Cold Start를 통한 강화학습 개선
  • DeepSeek-R1-Zero의 한계를 보완하기 위해 사전 학습 데이터(Cold Start)를 도입.
  • 4단계 학습 파이프라인 적용:
    1. Cold Start 단계: 긴 Chain-of-Thought(CoT) 데이터를 활용해 초기 학습.
    2. 추론 중심 강화학습: 수학, 코딩, 논리 추론 등 명확한 정답이 있는 문제에 집중하여 학습.
    3. 거부 샘플링(Rejection Sampling) 및 지도 학습(SFT): 학습된 모델의 출력을 필터링하여 품질 높은 학습 데이터를 생성.
    4. 모든 시나리오를 위한 RL: 일반적인 질문응답(QA), 창작, 편집 등의 작업까지 지원하는 모델로 발전.
  • 결과:
    • OpenAI o1-1217 모델과 동급 성능 도달.
    • 코딩(Codeforces), 수학(MATH-500), 일반 QA(MMLU) 등의 벤치마크에서 강력한 성능을 보임.
2.3 작은 모델을 위한 Distillation 기법
  • DeepSeek-R1의 추론 능력을 작은 모델(1.5B~70B)에 전이.
  • 지도학습(SFT)만을 활용한 distillation 방식을 적용하여 효율적으로 성능을 계승.
  • 결과:
    • DeepSeek-R1-Distill-Qwen-7B 모델이 GPT-4o-0513을 능가하는 성능을 보임.
    • DeepSeek-R1-Distill-Qwen-32B, 70B 모델은 OpenAI o1-mini와 비슷한 성능을 기록.

3. 실험 결과

  • 추론 성능:
    • AIME 2024: 79.8% (Pass@1, OpenAI o1-1217과 유사)
    • MATH-500: 97.3% (최고 성능)
    • Codeforces(코딩 대회): 상위 96.3% 참가자보다 높은 점수 기록
  • 지식 성능:
    • MMLU: 90.8% (교육 관련 지식 평가)
    • GPQA Diamond: 71.5% (상식 기반 QA)
  • 코딩 성능:
    • LiveCodeBench: 65.9% (Pass@1, 코딩 과제 해결율)
  • 기타:
    • AlpacaEval 2.0(창작 및 문서 작성): 87.6% 승률
    • ArenaHard(LLM 비교 평가): GPT-4-Turbo와 유사한 성능 기록

4. 결론 및 향후 과제

  • 강화학습만으로도 LLM의 추론 능력을 크게 향상할 수 있음을 입증.
  • Cold Start와 다단계 학습을 활용하여 가독성을 높이고 성능을 개선.
  • Distillation을 통해 소형 모델에서도 우수한 추론 성능을 구현.
  • 향후 개선 방향:
    • 일반 작업 기능 강화: 다중 턴 대화, 함수 호출, JSON 출력 등 지원.
    • 언어 혼합 문제 해결: 중국어 및 영어 외 다양한 언어에서 일관된 출력 제공.
    • 프롬프트 최적화: Few-shot보다 Zero-shot에서 성능이 뛰어남 → 최적화된 프롬프트 개발 필요.
    • 소프트웨어 엔지니어링 강화: 코드 생성 및 버그 수정 분야에서 RL 데이터 확대 예정.

요약

이 논문은 강화학습을 활용하여 LLM의 추론 능력을 극대화하는 방법을 연구하였으며,
특히 DeepSeek-R1-Zero순수 강화학습만으로 강력한 추론 성능을 보였고,
DeepSeek-R1Cold Start 및 다단계 학습을 도입하여 OpenAI o1-1217 수준의 성능을 달성하였습니다.
또한, Distillation 기법을 활용하여 소형 모델에서도 강력한 추론 성능을 구현하였으며,
향후 일반적인 AI 작업 및 언어 일관성 문제 개선, 소프트웨어 엔지니어링 성능 강화 등의 추가 연구가 계획되고 있습니다.