DeepSeek-R1: 강화학습을 통한 대형 언어 모델(LLM)의 추론 능력 향상

Notice

Recent Posts

Recent Comments

Link

« 2025/08 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Tags more

Archives

Today

Total

관리 메뉴

데이터 과학 노트

DeepSeek-R1: 강화학습을 통한 대형 언어 모델(LLM)의 추론 능력 향상 본문

카테고리 없음

DeepSeek-R1: 강화학습을 통한 대형 언어 모델(LLM)의 추론 능력 향상

Data Scientist Note 2025. 2. 4. 01:53

DeepSeek-R1: 강화학습을 통한 대형 언어 모델(LLM)의 추론 능력 향상

1. 개요

DeepSeek-AI 연구팀은 DeepSeek-R1-Zero와 DeepSeek-R1이라는 두 가지 세대의 추론 특화 모델을 개발하였습니다.
특히, DeepSeek-R1-Zero는 지도 학습 없이 순수 강화학습(RL) 만을 이용해 훈련되었으며, 스스로 강력한 추론 능력을 학습하는 모습을 보였습니다.
그러나 읽기 어려운 출력과 다국어 혼합 등의 문제가 발생하여, 이를 개선하기 위해 DeepSeek-R1 모델을 도입하였습니다.

DeepSeek-R1은 사전 데이터 학습(Cold Start)과 다단계 학습 파이프라인을 추가하여 성능을 향상시켰고,
그 결과 OpenAI의 o1-1217 모델과 동등한 수준의 성능을 달성하였습니다.
또한, 연구 커뮤니티를 지원하기 위해 DeepSeek-R1-Zero, DeepSeek-R1 및 1.5B~70B 크기의 distill된 모델들을 오픈소스로 공개하였습니다.

2. 접근 방법

2.1 DeepSeek-R1-Zero: 순수 강화학습(RL) 기반 모델

기존 LLM들은 지도 학습(SFT)을 활용했지만, DeepSeek-R1-Zero는 오직 강화학습만으로 훈련됨.
GRPO(Group Relative Policy Optimization) 알고리즘을 사용하여 RL 비용을 절감하고 효율적으로 학습.
보상 모델(Reward Model)
- 정확성 보상: 정답 여부를 평가하여 강화학습에 반영.
- 형식 보상: 추론 과정과 답변을 <think> ... </think>과 <answer> ... </answer> 태그로 구분하여 가독성을 개선.
훈련 결과:
- AIME 2024에서 pass@1 성능 15.6% → 71.0% 향상, 다수결(majority voting) 적용 시 86.7% 도달.
- OpenAI o1-0912 모델과 동급의 성능을 보임.
문제점:
- 가독성 부족: 답변이 난해하거나 여러 언어가 혼합되는 문제 발생.
- 모델의 이해도 부족: 인간 친화적인 답변이 부족함.

2.2 DeepSeek-R1: Cold Start를 통한 강화학습 개선

DeepSeek-R1-Zero의 한계를 보완하기 위해 사전 학습 데이터(Cold Start)를 도입.
4단계 학습 파이프라인 적용:
1. Cold Start 단계: 긴 Chain-of-Thought(CoT) 데이터를 활용해 초기 학습.
2. 추론 중심 강화학습: 수학, 코딩, 논리 추론 등 명확한 정답이 있는 문제에 집중하여 학습.
3. 거부 샘플링(Rejection Sampling) 및 지도 학습(SFT): 학습된 모델의 출력을 필터링하여 품질 높은 학습 데이터를 생성.
4. 모든 시나리오를 위한 RL: 일반적인 질문응답(QA), 창작, 편집 등의 작업까지 지원하는 모델로 발전.
결과:
- OpenAI o1-1217 모델과 동급 성능 도달.
- 코딩(Codeforces), 수학(MATH-500), 일반 QA(MMLU) 등의 벤치마크에서 강력한 성능을 보임.

2.3 작은 모델을 위한 Distillation 기법

DeepSeek-R1의 추론 능력을 작은 모델(1.5B~70B)에 전이.
지도학습(SFT)만을 활용한 distillation 방식을 적용하여 효율적으로 성능을 계승.
결과:
- DeepSeek-R1-Distill-Qwen-7B 모델이 GPT-4o-0513을 능가하는 성능을 보임.
- DeepSeek-R1-Distill-Qwen-32B, 70B 모델은 OpenAI o1-mini와 비슷한 성능을 기록.

3. 실험 결과

추론 성능:
- AIME 2024: 79.8% (Pass@1, OpenAI o1-1217과 유사)
- MATH-500: 97.3% (최고 성능)
- Codeforces(코딩 대회): 상위 96.3% 참가자보다 높은 점수 기록
지식 성능:
- MMLU: 90.8% (교육 관련 지식 평가)
- GPQA Diamond: 71.5% (상식 기반 QA)
코딩 성능:
- LiveCodeBench: 65.9% (Pass@1, 코딩 과제 해결율)
기타:
- AlpacaEval 2.0(창작 및 문서 작성): 87.6% 승률
- ArenaHard(LLM 비교 평가): GPT-4-Turbo와 유사한 성능 기록

4. 결론 및 향후 과제

강화학습만으로도 LLM의 추론 능력을 크게 향상할 수 있음을 입증.
Cold Start와 다단계 학습을 활용하여 가독성을 높이고 성능을 개선.
Distillation을 통해 소형 모델에서도 우수한 추론 성능을 구현.
향후 개선 방향:
- 일반 작업 기능 강화: 다중 턴 대화, 함수 호출, JSON 출력 등 지원.
- 언어 혼합 문제 해결: 중국어 및 영어 외 다양한 언어에서 일관된 출력 제공.
- 프롬프트 최적화: Few-shot보다 Zero-shot에서 성능이 뛰어남 → 최적화된 프롬프트 개발 필요.
- 소프트웨어 엔지니어링 강화: 코드 생성 및 버그 수정 분야에서 RL 데이터 확대 예정.

요약

이 논문은 강화학습을 활용하여 LLM의 추론 능력을 극대화하는 방법을 연구하였으며,
특히 DeepSeek-R1-Zero는 순수 강화학습만으로 강력한 추론 성능을 보였고,
DeepSeek-R1은 Cold Start 및 다단계 학습을 도입하여 OpenAI o1-1217 수준의 성능을 달성하였습니다.
또한, Distillation 기법을 활용하여 소형 모델에서도 강력한 추론 성능을 구현하였으며,
향후 일반적인 AI 작업 및 언어 일관성 문제 개선, 소프트웨어 엔지니어링 성능 강화 등의 추가 연구가 계획되고 있습니다.

데이터 과학 노트

DeepSeek-R1: 강화학습을 통한 대형 언어 모델(LLM)의 추론 능력 향상 본문

DeepSeek-R1: 강화학습을 통한 대형 언어 모델(LLM)의 추론 능력 향상

DeepSeek-R1: 강화학습을 통한 대형 언어 모델(LLM)의 추론 능력 향상

1. 개요

2. 접근 방법

3. 실험 결과

4. 결론 및 향후 과제

요약

티스토리툴바