데이터 과학 노트

Python async 정리: 사용법부터 스레드와의 차이까지

Data Scientist Note — Mon, 27 Oct 2025 01:09:45 +0900

Python async 완벽 정리: 사용법부터 스레드와의 차이까지

Python의 async/await는 비동기 프로그래밍(asynchronous programming)을 위한 문법이다.
하지만 많은 사람들이 오해하듯, 이것은 스레드(thread)로 구현된 구조가 아니다.
async는 코루틴(coroutine) 기반으로, 단일 스레드 내에서 동시성(concurrency)을 구현한다.

1. async 기본 개념

async def: 비동기 함수를 정의할 때 사용한다.
await: 비동기 함수 실행 중 일시 정지(양보) 후, 다른 코루틴이 실행되도록 한다.

이 두 키워드로 Python은 하나의 스레드에서 여러 작업을 비동기적으로 전환할 수 있다.

2. 기본 사용 예시

import asyncio

async def say_hello():
    print("안녕!")
    await asyncio.sleep(1)  # 1초 대기 (비동기)
    print("다시 안녕!")

async def main():
    await say_hello()

asyncio.run(main())

출력:

안녕!
(1초 대기)
다시 안녕!

await asyncio.sleep(1)은 프로그램 전체를 멈추지 않고,
다른 코루틴이 그 시간 동안 실행될 수 있도록 이벤트 루프에 제어를 넘긴다.

3. 여러 작업 동시에 실행하기

import asyncio

async def work(name, delay):
    print(f"{name} 시작")
    await asyncio.sleep(delay)
    print(f"{name} 완료")

async def main():
    await asyncio.gather(
        work("A", 2),
        work("B", 1),
        work("C", 3),
    )

asyncio.run(main())

출력 예시:

A 시작
B 시작
C 시작
B 완료
A 완료
C 완료

asyncio.gather()를 사용하면 여러 비동기 작업을 동시에 실행할 수 있다.
실제로는 병렬이 아니라, 이벤트 루프가 번갈아가며 실행한다.

4. async와 스레드의 차이

구분	`asyncio` (코루틴)	`threading` (스레드)
실행 방식	단일 스레드 내 협력적 실행	여러 스레드 병렬 실행
전환 방식	`await`로 명시적 양보	OS가 자동 스케줄링
메모리 사용	가벼움	스레드마다 스택 필요
I/O 효율	매우 높음	보통
CPU 효율	낮음 (GIL 영향)	조금 더 낫지만 여전히 GIL 영향

async는 논리적 동시성(concurrency)을 제공하지만,
물리적 병렬성(parallelism)은 제공하지 않는다.

5. CPU 연산 작업과 함께 사용하기

async는 I/O 중심의 작업에 최적화되어 있다.
CPU를 많이 사용하는 함수는 이벤트 루프를 막을 수 있으므로
스레드나 프로세스 풀을 함께 사용하는 것이 좋다.

import asyncio
from concurrent.futures import ThreadPoolExecutor
import time

def blocking_task():
    time.sleep(2)
    return "완료"

async def main():
    loop = asyncio.get_running_loop()
    result = await loop.run_in_executor(ThreadPoolExecutor(), blocking_task)
    print(result)

asyncio.run(main())

이 코드는 블로킹 함수(time.sleep)를 별도 스레드에서 실행해
비동기 루프가 멈추지 않게 한다.

6. 결론

async는 스레드가 아닌 코루틴 기반의 비동기 구조다.
이벤트 루프가 여러 작업을 번갈아 실행한다.
I/O 중심 작업에 매우 효율적이다.
CPU 중심 작업에는 스레드나 프로세스 풀을 병행하는 것이 좋다.

7. 요약

async def로 코루틴 정의
await로 비동기 작업 일시 정지
asyncio.gather()로 여러 작업 동시 실행
스레드가 아니라 이벤트 루프 기반
CPU 연산은 run_in_executor()로 분리 실행

PyTorch 구현 시 꼭 알아야 할 필수 함수 정리

Data Scientist Note — Thu, 9 Oct 2025 21:47:29 +0900

PyTorch 구현 시 꼭 알아야 할 필수 함수 정리

PyTorch는 딥러닝 모델 구현에 강력하고 유연한 기능을 제공합니다.
이 문서는 모델 구현 시 자주 사용하는 핵심 함수들을 주제별로 정리한 참고용 자료입니다.

1. 텐서(Tensor) 생성 및 변형

기본 생성

torch.tensor(data)          # 파이썬 리스트나 넘파이 배열로부터 텐서 생성
torch.zeros(size)           # 0으로 채운 텐서
torch.ones(size)            # 1로 채운 텐서
torch.randn(size)           # 정규분포로 초기화된 텐서
torch.arange(start, end)    # 일정 간격으로 생성된 텐서
torch.linspace(start, end, steps)

변형 및 차원 조작

x.view(shape)               # 텐서 형태 변경 (메모리 공유)
x.reshape(shape)            # 형태 변경 (복사될 수도 있음)
x.unsqueeze(dim)            # 차원 추가 ([N] → [N, 1])
x.squeeze(dim)              # 크기 1인 차원 제거
x.permute(dims)             # 차원 순서 변경
x.transpose(dim0, dim1)     # 두 차원 교환
torch.cat([a, b], dim)      # 텐서 연결
torch.stack([a, b], dim)    # 새로운 차원으로 스택

2. 인덱싱 및 선택 함수

기본 인덱싱

x[index]                    # 일반 인덱싱
x[:, 0]                     # 특정 열 선택
x[mask]                     # 불리언 마스크 인덱싱

torch.gather(input, dim, index)
# 특정 인덱스 위치의 값을 모으기. 예: 어텐션 연산에서 사용

torch.index_select(input, dim, index)
# 특정 차원의 인덱스들만 추출

torch.take(input, index)
# 전체를 1차원으로 펼친 후 인덱스로 선택

torch.scatter(input, dim, index, src)
# gather의 반대. 지정된 위치에 값 배치

torch.masked_select(input, mask)
# 마스크된 요소만 선택

# gather_and_expand
def gather_and_expand(x, index, dim):
    out = torch.gather(x, dim, index)
    return out.expand_as(x)

3. 연산 및 통계

torch.sum(x, dim)
torch.mean(x, dim)
torch.std(x)
torch.var(x)
torch.max(x, dim)
torch.min(x, dim)
torch.argmax(x, dim)
torch.argmin(x, dim)
torch.clamp(x, min, max)
torch.norm(x)
torch.exp(x)
torch.log(x)
torch.softmax(x, dim)
torch.log_softmax(x, dim)
torch.sigmoid(x)
torch.relu(x)
torch.tanh(x)

4. 자동미분 (Autograd)

x = torch.tensor([1.0, 2.0], requires_grad=True)
y = x ** 2
y.backward(torch.ones_like(x))  # dy/dx 계산
x.grad                           # 기울기 확인
x.detach()                       # 그래프 분리

5. 모델 구성 (nn 모듈)

import torch.nn as nn

class MyModel(nn.Module):
    def __init__(self):
        super().__init__()
        self.fc = nn.Linear(128, 10)
    def forward(self, x):
        return self.fc(x)

# 자주 쓰는 레이어
nn.Linear(in_features, out_features)
nn.Conv2d(in_ch, out_ch, kernel_size)
nn.ReLU()
nn.Sigmoid()
nn.Tanh()
nn.BatchNorm1d(num_features)
nn.Dropout(p)
nn.Embedding(num_embeddings, embedding_dim)

6. 손실 함수 (Loss)

nn.MSELoss()
nn.CrossEntropyLoss()
nn.BCELoss()
nn.L1Loss()

7. 최적화 (Optimizer)

optimizer = torch.optim.Adam(model.parameters(), lr=1e-3)
optimizer.zero_grad()    # 기울기 초기화
loss.backward()          # 역전파
optimizer.step()         # 파라미터 업데이트

8. GPU 및 장치 설정

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
x = x.to(device)
model.to(device)

9. 유용한 헬퍼 함수

torch.no_grad()                         # 평가 시 gradient 비활성화
torch.nn.utils.clip_grad_norm_(params, max_norm)  # gradient 클리핑
torch.save(model.state_dict(), "model.pt")        # 모델 저장
model.load_state_dict(torch.load("model.pt"))     # 모델 로드

Zachary’s Karate Club - 사회 네트워크 분석의 고전

Data Scientist Note — Thu, 9 Oct 2025 17:35:20 +0900

Zachary’s Karate Club - 사회 네트워크 분석의 고전

1970년대 초 미국의 한 대학 가라테 동아리에서 벌어진 작은 갈등이 오늘날 사회 네트워크 분석(Social Network Analysis) 의 대표적인 데이터셋이 되었다
이 사건은 인류학자 Wayne W. Zachary 가 기록한 “Zachary’s Karate Club” 으로 불린다

1. 연구의 배경

Zachary는 1970년부터 1972년까지 약 2년 동안 한 대학의 가라테 동아리를 관찰했다
그는 구성원들 간의 개인적 상호작용(우정 관계, 동아리 외 만남 등) 을 체계적으로 기록하여 하나의 사회 네트워크 그래프 로 모델링했다

이 네트워크는 사람(노드) 과 관계(엣지) 로 구성되어 있으며
누가 누구와 자주 어울렸는지를 시각적으로 표현한다

2. 데이터 구조

노드(Node): 총 34명의 동아리 구성원
엣지(Edge): 78개 (상호작용이 관찰된 관계)
그래프 특성: 무향 그래프 (A↔B 관계가 동일하게 취급됨)

일부 데이터 버전에서는 77개의 엣지만 포함되기도 한다
이는 Zachary의 원 논문에서 특정 두 사람(노드 23과 34)의 관계 여부가 불확실하게 기록되었기 때문이다

이 데이터셋은 현재까지도 네트워크 분석, 커뮤니티 탐지, 군집화 알고리즘 성능 평가 등에 널리 사용된다

3. 갈등과 분열

관찰 기간 중, 동아리 내에서 두 인물 간의 갈등이 발생한다

강사 “Mr. Hi”
동아리 회장 “John A”

두 사람은 수업료 조정 문제로 대립하게 되었고
그 결과 구성원들은 점차 두 진영으로 나뉘었다

Zachary는 이 네트워크 구조를 바탕으로
어떤 구성원이 어느 진영으로 갈지 예측하는 모델 을 제시했다
그의 예측은 실제 결과와 거의 일치했으며 단 한 명만이 다른 선택을 했다

그 한 사람은 이미 검은띠 승급 직전이었고
소속을 바꾸면 자격을 잃을 위험이 있었기 때문에 현실적인 이유로 다른 편을 택했다고 한다

4. 학문적 의의

Zachary의 Karate Club 데이터는 이후 네트워크 과학에서 다음과 같은 용도로 활용된다

커뮤니티 탐지(Community Detection) 알고리즘 검증
모듈러리티(Modularity) 기반 군집화 실험
네트워크 흐름(flow) 및 최소 컷(min-cut) 모델 설명
사회적 영향력 및 확산 모델 시뮬레이션

Girvan–Newman 알고리즘, Louvain 방법, Spectral Clustering 등
수많은 알고리즘이 이 데이터로 성능을 테스트했다

5. 네트워크 시각화 예시

아래 그림은 Zachary’s Karate Club 네트워크의 대표적인 시각화다
각 노드는 구성원을 나타내며 색상은 실제로 분열된 두 그룹을 의미한다

6. 결론

Zachary’s Karate Club은 단순한 사회적 갈등 사례를 넘어
네트워크 구조가 인간 행동을 어떻게 예측할 수 있는가 를 보여준 상징적인 연구다

이 데이터는 50년이 지난 지금도 여전히
그래프 이론, 데이터 과학, 머신러닝, 사회학 등 다양한 분야에서
연구와 교육의 기본 예제로 사용되고 있다

참고 자료

GNN에서 Spectral과 Spatial의 차이

Data Scientist Note — Thu, 9 Oct 2025 17:30:16 +0900

GNN에서 Spectral과 Spatial의 차이

그래프 신경망(Graph Neural Network, GNN)은 그래프 구조 데이터를 처리하기 위한 모델이다.
크게 두 가지 접근 방식이 있다. Spectral 기반과 Spatial 기반이다.
두 방식은 그래프의 정보를 다루는 관점이 다르다.

1. Spectral GNN

핵심 아이디어
그래프를 주파수(스펙트럼) 영역에서 바라본다.
그래프의 구조를 표현하기 위해 그래프 라플라시안(Laplacian Matrix) 을 이용한다.

라플라시안은 대략 다음과 같이 정의된다.

L = D - A
(D: 차수 행렬, A: 인접 행렬)

Spectral GNN은 이 라플라시안을 고유분해하여 그래프 신호를 푸리에 변환(Fourier Transform) 하고
그 위에서 필터링(Convolution) 을 수행한 뒤 다시 원래 공간으로 되돌린다.

장점

그래프의 전역적 구조를 잘 반영할 수 있다.
수학적으로 이론이 명확하다.

단점

라플라시안 고유분해로 인해 계산 복잡도가 높다.
학습한 모델을 다른 그래프에 일반화하기 어렵다.

대표 모델

Spectral CNN (Bruna et al., 2013)
ChebNet (Defferrard et al., 2016)
GCN (Kipf & Welling, 2017)

2. Spatial GNN

핵심 아이디어
노드의 이웃(Neighborhood) 에서 직접 정보를 주고받는 메시지 패싱(Message Passing) 방식이다.
즉, 각 노드는 자신의 이웃 노드들의 임베딩을 모아(Aggregate) 새로운 표현을 만든다.

예를 들어, 노드 v의 새 임베딩은
이웃 노드들의 임베딩을 평균 혹은 합산한 값으로 계산된다.

장점

계산이 간단하고 다양한 그래프 구조에 잘 일반화된다.
구현이 직관적이고 효율적이다.

단점

지역적 정보에 치우치기 쉬워 전역 구조를 반영하기 어렵다.
스펙트럼 기반의 이론적 해석은 상대적으로 약하다.

대표 모델

GraphSAGE (Hamilton et al., 2017)
GAT (Velickovic et al., 2018)
GIN (Xu et al., 2019)

3. 두 접근 방식 비교

구분	Spectral GNN	Spatial GNN
관점	주파수 영역	이웃(공간) 영역
핵심 수학 도구	그래프 라플라시안	인접 노드 집합
학습 단위	전역적 구조	지역적 관계
일반화	약함 (고정된 그래프)	강함 (다양한 그래프에 적용 가능)
계산 복잡도	높음	낮음
대표 모델	GCN, ChebNet	GraphSAGE, GAT, GIN

정리

Spectral GNN은 그래프를 주파수 공간에서 해석하는 이론적 접근이다.
하지만 계산이 복잡하고 특정 그래프에 종속된다.
Spatial GNN은 이웃 노드 간의 관계를 직접 학습하는 실용적 접근이다.
일반화가 잘 되고 실제 응용에서 널리 쓰인다.

KL Divergence와 Cross-Entropy의 관계

Data Scientist Note — Thu, 9 Oct 2025 17:21:32 +0900

1. KL Divergence란?

KL Divergence (Kullback–Leibler Divergence)는 두 확률분포 P와 Q 사이의 차이를 측정하는 지표입니다.

D_KL(P‖Q) = Σ P(x) · log(P(x) / Q(x))

이 값은 항상 0 이상이며, P = Q일 때만 0이 됩니다.
즉, 모델 Q가 실제 분포 P를 얼마나 잘 근사하는지를 나타냅니다.

KL Divergence는 대칭적이지 않기 때문에 거리(distance)가 아닌 발산(divergence)이라고 부릅니다.

D_KL(P‖Q) ≠ D_KL(Q‖P)

2. Entropy와 Cross-Entropy

두 확률분포 P, Q가 있을 때 다음을 정의합니다.

Entropy

H(P) = - Σ P(x) · log P(x)

→ 분포 P가 가진 내재적 불확실성을 의미합니다.

Cross-Entropy

H(P, Q) = - Σ P(x) · log Q(x)

→ 실제 분포 P를 모델 Q로 설명할 때 필요한 평균 정보량을 의미합니다.

3. 세 개의 관계

세 개의 개념은 다음 관계로 연결됩니다.

D_KL(P‖Q) = H(P, Q) - H(P)

즉,
KL Divergence = Cross-Entropy − Entropy

개념	의미	해석
H(P)	실제 데이터의 불확실성	세상의 본질적 복잡도
H(P, Q)	모델이 세상을 설명하는 복잡도	모델이 세상을 인코딩할 때 필요한 정보량
D_KL(P‖Q)	두 복잡도의 차이	모델이 실제를 얼마나 비효율적으로 표현하는가

4. 머신러닝에서의 의미

머신러닝에서는 실제 분포 P를 알 수 없고 데이터 표본만 관찰할 수 있습니다.
따라서 H(P)는 상수로 간주됩니다.

결과적으로, KL Divergence를 최소화하는 것은
곧 Cross-Entropy를 최소화하는 것과 같습니다.

minimize D_KL(P‖Q)
≡
minimize H(P, Q)

그래서 딥러닝의 분류 문제에서 Cross-Entropy Loss가 가장 널리 사용됩니다.

5. 요약

항목	수식	의미
Entropy	H(P) = -Σ P(x) log P(x)	실제 분포의 불확실성
Cross-Entropy	H(P, Q) = -Σ P(x) log Q(x)	모델이 실제를 설명하는 정보량
KL Divergence	D_KL(P‖Q) = H(P, Q) - H(P)	모델과 실제의 차이

정리하자면:
Cross-Entropy는 모델이 실제 분포를 얼마나 잘 설명하는지를 나타내고
KL Divergence는 그 오차(비효율성)를 수치로 측정한 값입니다.
결국 머신러닝의 학습은 이 발산을 최소화하는 과정이라고 볼 수 있습니다.

DeepSeek-R1: 강화학습을 통한 대형 언어 모델(LLM)의 추론 능력 향상

Data Scientist Note — Tue, 4 Feb 2025 01:53:58 +0900

DeepSeek-R1: 강화학습을 통한 대형 언어 모델(LLM)의 추론 능력 향상

1. 개요

DeepSeek-AI 연구팀은 DeepSeek-R1-Zero와 DeepSeek-R1이라는 두 가지 세대의 추론 특화 모델을 개발하였습니다.
특히, DeepSeek-R1-Zero는 지도 학습 없이 순수 강화학습(RL) 만을 이용해 훈련되었으며, 스스로 강력한 추론 능력을 학습하는 모습을 보였습니다.
그러나 읽기 어려운 출력과 다국어 혼합 등의 문제가 발생하여, 이를 개선하기 위해 DeepSeek-R1 모델을 도입하였습니다.

DeepSeek-R1은 사전 데이터 학습(Cold Start)과 다단계 학습 파이프라인을 추가하여 성능을 향상시켰고,
그 결과 OpenAI의 o1-1217 모델과 동등한 수준의 성능을 달성하였습니다.
또한, 연구 커뮤니티를 지원하기 위해 DeepSeek-R1-Zero, DeepSeek-R1 및 1.5B~70B 크기의 distill된 모델들을 오픈소스로 공개하였습니다.

2. 접근 방법

2.1 DeepSeek-R1-Zero: 순수 강화학습(RL) 기반 모델

기존 LLM들은 지도 학습(SFT)을 활용했지만, DeepSeek-R1-Zero는 오직 강화학습만으로 훈련됨.
GRPO(Group Relative Policy Optimization) 알고리즘을 사용하여 RL 비용을 절감하고 효율적으로 학습.
보상 모델(Reward Model)
- 정확성 보상: 정답 여부를 평가하여 강화학습에 반영.
- 형식 보상: 추론 과정과 답변을 <think> ... </think>과 <answer> ... </answer> 태그로 구분하여 가독성을 개선.
훈련 결과:
- AIME 2024에서 pass@1 성능 15.6% → 71.0% 향상, 다수결(majority voting) 적용 시 86.7% 도달.
- OpenAI o1-0912 모델과 동급의 성능을 보임.
문제점:
- 가독성 부족: 답변이 난해하거나 여러 언어가 혼합되는 문제 발생.
- 모델의 이해도 부족: 인간 친화적인 답변이 부족함.

2.2 DeepSeek-R1: Cold Start를 통한 강화학습 개선

DeepSeek-R1-Zero의 한계를 보완하기 위해 사전 학습 데이터(Cold Start)를 도입.
4단계 학습 파이프라인 적용:
1. Cold Start 단계: 긴 Chain-of-Thought(CoT) 데이터를 활용해 초기 학습.
2. 추론 중심 강화학습: 수학, 코딩, 논리 추론 등 명확한 정답이 있는 문제에 집중하여 학습.
3. 거부 샘플링(Rejection Sampling) 및 지도 학습(SFT): 학습된 모델의 출력을 필터링하여 품질 높은 학습 데이터를 생성.
4. 모든 시나리오를 위한 RL: 일반적인 질문응답(QA), 창작, 편집 등의 작업까지 지원하는 모델로 발전.
결과:
- OpenAI o1-1217 모델과 동급 성능 도달.
- 코딩(Codeforces), 수학(MATH-500), 일반 QA(MMLU) 등의 벤치마크에서 강력한 성능을 보임.

2.3 작은 모델을 위한 Distillation 기법

DeepSeek-R1의 추론 능력을 작은 모델(1.5B~70B)에 전이.
지도학습(SFT)만을 활용한 distillation 방식을 적용하여 효율적으로 성능을 계승.
결과:
- DeepSeek-R1-Distill-Qwen-7B 모델이 GPT-4o-0513을 능가하는 성능을 보임.
- DeepSeek-R1-Distill-Qwen-32B, 70B 모델은 OpenAI o1-mini와 비슷한 성능을 기록.

3. 실험 결과

추론 성능:
- AIME 2024: 79.8% (Pass@1, OpenAI o1-1217과 유사)
- MATH-500: 97.3% (최고 성능)
- Codeforces(코딩 대회): 상위 96.3% 참가자보다 높은 점수 기록
지식 성능:
- MMLU: 90.8% (교육 관련 지식 평가)
- GPQA Diamond: 71.5% (상식 기반 QA)
코딩 성능:
- LiveCodeBench: 65.9% (Pass@1, 코딩 과제 해결율)
기타:
- AlpacaEval 2.0(창작 및 문서 작성): 87.6% 승률
- ArenaHard(LLM 비교 평가): GPT-4-Turbo와 유사한 성능 기록

4. 결론 및 향후 과제

강화학습만으로도 LLM의 추론 능력을 크게 향상할 수 있음을 입증.
Cold Start와 다단계 학습을 활용하여 가독성을 높이고 성능을 개선.
Distillation을 통해 소형 모델에서도 우수한 추론 성능을 구현.
향후 개선 방향:
- 일반 작업 기능 강화: 다중 턴 대화, 함수 호출, JSON 출력 등 지원.
- 언어 혼합 문제 해결: 중국어 및 영어 외 다양한 언어에서 일관된 출력 제공.
- 프롬프트 최적화: Few-shot보다 Zero-shot에서 성능이 뛰어남 → 최적화된 프롬프트 개발 필요.
- 소프트웨어 엔지니어링 강화: 코드 생성 및 버그 수정 분야에서 RL 데이터 확대 예정.

요약

이 논문은 강화학습을 활용하여 LLM의 추론 능력을 극대화하는 방법을 연구하였으며,
특히 DeepSeek-R1-Zero는 순수 강화학습만으로 강력한 추론 성능을 보였고,
DeepSeek-R1은 Cold Start 및 다단계 학습을 도입하여 OpenAI o1-1217 수준의 성능을 달성하였습니다.
또한, Distillation 기법을 활용하여 소형 모델에서도 강력한 추론 성능을 구현하였으며,
향후 일반적인 AI 작업 및 언어 일관성 문제 개선, 소프트웨어 엔지니어링 성능 강화 등의 추가 연구가 계획되고 있습니다.

생성 모델 평가 지표 PSNR, SSIM

Data Scientist Note — Tue, 9 Apr 2024 11:51:56 +0900

생성 모델 평가 지표 PSNR, SSIM

비교 예시
- 압축 복원 이미지 vs 원본 이미지
- 생성 이미지 vs 원본 이미지

최대 신호 대 잡음비 - PSNR (Peak Signal-to-Noise Ratio)

두 이미지 사이에 MSE (mean squre error)
손실이 적을 수록 높은 값
생성이 잘되었을 경우 높은 값

구조적 유사도 - SSIM (Structural Similarity Index Measure)

두 이미지 사이 상관계수를 휘도, 대비, 구조 측면에서 평가
- luminance (l), contrast (c), structure (S)
계산
- 휘도, 대비, 구조 측면에서 평가

tmux (terminal multiplexer)

Data Scientist Note — Wed, 27 Mar 2024 11:52:05 +0900

tmux

tmux 는 terminal multiplexer 이다.
ssh 연결 (session) 이 끊겨도 서버의 작업이 계속 실행될 수 있도록 사용을 한다.

tmux의 계층적 구조

session, window, pane 로 이루어져 있다.

session

주요 명령어

tmux                        # new session (0, 1, 2, ...)
tmus new -s [SESSION_NAME]  # 특정 이름으로 새 세션 만들기
(ctrl) + b -> d             # 세션 분리 / 나오기 (detach)
tmux a                      # 마지막 세션 연결
tmux a -t [SESSION_NAME]    # 특정 세션 연결 (attach)

window

(미사용)

(ctrl) + b -> c  # 새 윈도우 생성
(ctrl) + d       # 윈도우 끄기
(ctrl) + b -> n  # 이전 윈도우로 이동 (next)
(ctrl) + b -> p  # 이전 윈도우로 이동 (previous)
(ctrl) + b -> w  # 윈도우 리스트

pane

(미사용)

(ctrl) + b -> "  # 가로 나누기
(ctrl) + b -> %  # 세로 나누기
(ctrl) + b -> [방향키]  # 네비게이션

기타

스크롤 사용

(ctrl) + b -> [  # 스크롤 사용

mode collapse 와 posterior collapse

Data Scientist Note — Fri, 29 Dec 2023 01:27:48 +0900

Mode collapse와 posterior collapse는 모두 딥러닝 모델이 학습 과정에서 특정 모드에만 집중하는 현상을 말한다.

그러나 두 현상은 발생 원인과 결과가 다르다.

Mode collapse는 주로 생성적 적대 신경망(Generative Adversarial Network, GAN)에서 발생하는 문제로, 생성자가 다양한 출력을 생성하는 대신 제한된 수의 특정한 출력만을 생성하는 현상이다.

생성자가 다양성을 표현하지 못하고 특정 패턴에 고정되는 문제다.

Mode collapse의 발생 원인에는 데이터 분포의 불균형, 가중치 초기화 등의 원인이 있다.

Posterior collapse 는 Variational Autoencoder (VAE) 에서 발생하는 문제다.

잠재 변수가 입력 데이터와 관계없이 정보를 무시하고 일정한 값을 가지는 현상을 말한다.

즉, 잠재 변수가 실제 데이터와 관련된 정보를 제대로 포착하지 못하고 입력에 대해 유사한 값을 갖게 되는 문제다.

Mode collapse 를 해결하기 위해서는 데이터 분포의 균형을 맞추거나 가중치 초기화를 조절하는 등의 방법을 사용할 수 있고, Posterior collapse 를 해결하기 위해서는 올바른 잠재 변수의 학습을 위해 모델의 가중치 초기화를 조절하는 방법 등을 적용할 수 있다.

Bonferroni’s Principle (본페르니 원리)

Data Scientist Note — Tue, 29 Aug 2023 14:12:54 +0900

본페로니 원리

원리 소개

본페로니 원리는 여러 개의 통계적 검정을 동시에 수행할 때 발생할 수 있는 거짓 양성(false positive, 제1종 오류)을 제어하는 기본적인 통계 원리입니다. 가설 검정 횟수가 많아지면 우연히 나오는 결과가 늘어나서 실제로 유의미한 결과가 아니더라도 잘못된 양성 결과가 나타나기 쉽습니다. 예를 들어 0.05 유의수준으로 20개의 검정을 동시에 수행하면 아무런 보정 없이도 약 64% 확률로 적어도 하나의 거짓 양성이 발생할 수 있습니다. 본페로니 원리는 이런 문제를 해결하기 위해 설계되었습니다.

본페로니 원리의 직관적 개념은 “탐색 방법이 예상보다 훨씬 많은 결과를 반환한다면 그중 대부분은 통계적 착시일 것이다”라는 경고로 요약할 수 있습니다. 통계적 관점에서는 데이터가 완전히 무작위일 때 특정 이벤트가 나타날 기대 횟수를 계산하고 이를 실제 찾고자 하는 사례 수와 비교합니다. 만약 무작위에서 발생할 것으로 기대되는 이벤트 수가 우리가 찾으려는 실제 사례 수보다 훨씬 크면 우리가 발견하는 거의 모든 결과는 우연히 나타난 것이라고 판단해야 합니다.

Bonferroni 보정은 이러한 개념을 실제 검정에 적용하는 대표적인 방법입니다. 전체 유의수준(α)을 검정 횟수(m)로 나누어 각 검정의 기준으로 삼습니다. 예를 들어 20개의 검정을 실시하고 전체 α=0.05를 설정하면 보정된 개별 검정 기준은 0.0025(=0.05/20)가 됩니다. 이렇게 각 검정의 임계값을 엄격하게 만들면 통계적 우연에 의해 발생한 결과를 유의하다고 잘못 판단할 가능성을 줄일 수 있습니다.

결과 신뢰성 유지: 여러 가설을 동시에 검정할 때 생길 수 있는 거짓 양성을 줄여 결과의 신뢰도를 높입니다.
간단한 계산: 원하는 전체 유의수준 α를 검정 횟수로 나누기만 하면 임계값이 정해지므로 적용이 쉽습니다.
보수적 특성: 임계값이 매우 엄격해져 거짓 양성은 줄지만 실제 효과를 놓칠 위험(제2종 오류)이 커집니다.

실제 사례

데이터 분석과 엔지니어링에서도 본페로니 원리는 중요하게 작용합니다. 특히 한꺼번에 여러 개의 가설 검정이나 이상 탐지를 할 때 유용합니다. 예를 들어 생명과학 연구나 A/B 테스트에서는 수십에서 수백 개의 가설을 동시에 검정하는 경우가 흔합니다. 이 경우 Bonferroni 보정을 적용하지 않으면 우연히 유의하게 보이는 결과가 많아져 실제로 유의미하지 않은 가설까지 채택할 위험이 커집니다. 따라서 Bonferroni 보정을 통해 전체 α를 검정 횟수(예: 20)로 나눈(α=0.05일 때 0.0025) 기준을 사용하면 작은 변동이 우연히 통계적 유의성을 만족하는 상황을 예방할 수 있습니다.

또한 데이터마이닝 분야에서도 본페로니 원리는 자주 언급됩니다. 예를 들어 데이터마이닝 교재 “Mining of Massive Datasets” 에서는 “테러리스트 탐지” 예시를 통해 이를 설명합니다.
국가 안보 기관이 수억 명의 사람 중에서 테러리스트를 찾는다고 가정합시다. 실제 테러리스트의 수는 극히 적지만, 탐지 알고리즘은 다양한 패턴(여행 기록, 이메일 단어, 금융 거래 등)을 분석해 수많은 ‘의심 사례’를 생성합니다.
이때 본페로니 원리에 따르면 “탐지 규칙이 너무 많아지면 대부분의 경고는 우연히 발생한 잘못된 양성 신호”일 가능성이 높습니다. 즉, 실제 테러리스트보다 ‘무고한 사람’을 오탐지할 확률이 훨씬 커진다는 뜻입니다.
따라서 현실적인 탐지 시스템은 무작위 상황에서도 거의 발생하지 않을 정도로 강한 신호만을 고려해야 합니다. 이를 통해 거짓 경보(false alarm)를 줄이고, 진짜 위험 징후에 집중할 수 있습니다.

결론

본페로니 원리는 다중 검정에서 거짓 양성의 개수를 통제하려는 상황에서 기본적으로 고려해야 할 기법입니다. 전체 유의수준을 검정 횟수로 나눈 엄격한 기준을 적용하면 거짓 양성 확률을 효과적으로 낮출 수 있습니다. 그러나 너무 보수적이어서 실제 의미 있는 신호를 놓칠 위험(제2종 오류)이 커질 수 있습니다. 따라서 실무에서는 거짓 양성을 거의 허용할 수 없는 경우 본페로니 보정을 사용하되, 필요에 따라 False Discovery Rate(FDR) 제어 등 다른 방법도 함께 검토하여 분석 목적에 맞는 절차를 선택하는 것이 좋습니다.

참고문헌

Rajaraman, A., Ullman, J. D., & Leskovec, J. (2022). Mining of Massive Datasets (3rd ed.). Cambridge University Press.
Miller, R. G. (1981). Simultaneous Statistical Inference. Springer.
Abdi, H. (2007). The Bonferroni and Šidák Corrections for Multiple Comparisons. In Encyclopedia of Measurement and Statistics (SAGE Publications).
Efron, B. (2010). Large-Scale Inference: Empirical Bayes Methods for Estimation, Testing, and Prediction. Cambridge University Press.