Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- DeepLearing.AI
- Vertex AI
- uri
- GCP
- Grad-CAM
- 대칭키
- SSIM
- mode collapse
- deepseek
- cam
- session 미종료
- 귀납
- posterior collapse
- prompt engineering
- 생성 모델
- Google Cloud
- Inductive Learning
- url
- tmux
- Design Patterns
- 디자인 패턴
- python3
- ARIMA
- Transductive Learning
- public key
- PSNR
- ChatGPT
- 생성 모델 평가
- 연역
Archives
- Today
- Total
목록deepseek (1)
데이터 과학 노트
DeepSeek-R1: 강화학습을 통한 대형 언어 모델(LLM)의 추론 능력 향상
DeepSeek-R1: 강화학습을 통한 대형 언어 모델(LLM)의 추론 능력 향상1. 개요DeepSeek-AI 연구팀은 DeepSeek-R1-Zero와 DeepSeek-R1이라는 두 가지 세대의 추론 특화 모델을 개발하였습니다.특히, DeepSeek-R1-Zero는 지도 학습 없이 순수 강화학습(RL) 만을 이용해 훈련되었으며, 스스로 강력한 추론 능력을 학습하는 모습을 보였습니다.그러나 읽기 어려운 출력과 다국어 혼합 등의 문제가 발생하여, 이를 개선하기 위해 DeepSeek-R1 모델을 도입하였습니다.DeepSeek-R1은 사전 데이터 학습(Cold Start)과 다단계 학습 파이프라인을 추가하여 성능을 향상시켰고,그 결과 OpenAI의 o1-1217 모델과 동등한 수준의 성능을 달성하였습니다.또한,..
카테고리 없음
2025. 2. 4. 01:53