Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- session 미종료
- ARIMA
- Inductive Learning
- Transductive Learning
- 생성 모델
- python3
- uri
- tmux
- DeepLearing.AI
- 대칭키
- ChatGPT
- 연역
- Google Cloud
- SSIM
- 생성 모델 평가
- PSNR
- deepseek
- Grad-CAM
- 디자인 패턴
- cam
- mode collapse
- url
- prompt engineering
- public key
- Design Patterns
- Vertex AI
- posterior collapse
- 귀납
- GCP
Archives
- Today
- Total
목록deepseek (1)
데이터 과학 노트
DeepSeek-R1: 강화학습을 통한 대형 언어 모델(LLM)의 추론 능력 향상
DeepSeek-R1: 강화학습을 통한 대형 언어 모델(LLM)의 추론 능력 향상1. 개요DeepSeek-AI 연구팀은 DeepSeek-R1-Zero와 DeepSeek-R1이라는 두 가지 세대의 추론 특화 모델을 개발하였습니다.특히, DeepSeek-R1-Zero는 지도 학습 없이 순수 강화학습(RL) 만을 이용해 훈련되었으며, 스스로 강력한 추론 능력을 학습하는 모습을 보였습니다.그러나 읽기 어려운 출력과 다국어 혼합 등의 문제가 발생하여, 이를 개선하기 위해 DeepSeek-R1 모델을 도입하였습니다.DeepSeek-R1은 사전 데이터 학습(Cold Start)과 다단계 학습 파이프라인을 추가하여 성능을 향상시켰고,그 결과 OpenAI의 o1-1217 모델과 동등한 수준의 성능을 달성하였습니다.또한,..
카테고리 없음
2025. 2. 4. 01:53