표본크기(Sample Size)는 통계 분석의 신뢰성을 결정하는 핵심 요소입니다. 투자 분석에서 표본이 너무 작으면 우연적 결과를 의미 있는 패턴으로 오인할 위험이 크고, 반대로 너무 크면 사소한 차이도 통계적으로 유의미하게 나타날 수 있습니다.
표본크기와 통계적 검정력
표본크기가 커질수록 모평균에 대한 추정이 정확해지고, 표준오차가 감소하며, 검정력이 증가합니다. 하지만 금융 데이터에서는 관측치 간 자기상관이 존재하여 유효 표본크기가 명목 표본크기보다 작을 수 있습니다.
표본크기별 신뢰구간과 검정력
| 표본크기 | 월간 기간 | 95% 신뢰구간 폭 | 검정력(α=5%) | 최소 감지 효과크기 |
|---|---|---|---|---|
| 12 | 1년 | ±3.5% | 25% | 7.0%p |
| 36 | 3년 | ±2.0% | 55% | 4.0%p |
| 60 | 5년 | ±1.6% | 75% | 3.2%p |
| 120 | 10년 | ±1.1% | 92% | 2.2%p |
| 240 | 20년 | ±0.8% | 98% | 1.6%p |
파이썬을 활용한 표본크기 효과 시뮬레이션
import numpy as np
import pandas as pd
from scipy import stats
def sample_size_simulation(true_alpha=0.02, std=0.05):
"""
표본크기에 따른 alpha 검출 능력 시뮬레이션
"""
sample_sizes = [12, 24, 36, 60, 120, 240]
n_sims = 5000
results = []
for n in sample_sizes:
detections = 0
alpha_estimates = []
for _ in range(n_sims):
# true_alpha가 있는 수익률 생성
returns = np.random.normal(true_alpha, std, n)
# t-검정으로 alpha != 0 검정
t_stat, p_value = stats.ttest_1samp(returns, 0)
if p_value < 0.05:
detections += 1
alpha_estimates.append(np.mean(returns))
power = detections / n_sims
ci_width = 1.96 * std / np.sqrt(n) * 2
results.append({
'sample_size': n,
'power': power,
'ci_width': ci_width,
'mean_alpha_est': np.mean(alpha_estimates),
'std_alpha_est': np.std(alpha_estimates)
})
df = pd.DataFrame(results)
print("표본크기별 검정력 시뮬레이션 (true alpha=2%)")
for _, row in df.iterrows():
print(f"N={row['sample_size']:>3}: 검정력={row['power']:.1%}, "
f"CI폭={row['ci_width']:.2%}, "
f"α추정 std={row['std_alpha_est']:.3%}")
return df
sample_size_simulation()
데이터 빈도별 장단점 비교
| 데이터 빈도 | 연간 관측치 | 장점 | 단점 | 적합 전략 |
|---|---|---|---|---|
| 일간 | ~252 | 풍부한 표본 | 노이즈 많음 | 단기 전략 |
| 주간 | ~52 | 적절한 균형 | 주말 효과 | 중기 전략 |
| 월간 | 12 | 깨끗한 신호 | 표본 부족 | 장기 전략 |
| 분기 | 4 | 경제주기 반영 | 표본 심부족 | 거시 전략 |
| 연간 | 1 | 장기 추세 | 극소 표본 | 자산배분 |
핵심 정리
- 표본크기가 통계 분석의 신뢰성과 검정력을 결정하는 핵심 요소입니다
- 표본이 너무 작으면 실제 존재하는 효과를 놓치고(제2종 오류), 너무 크면 사소한 차이를 과대해석할 위험이 있습니다
- 월간 데이터 3년(36개)은 투자 전략 검증의 최소 기준이며, 5년 이상이 권장됩니다
- 금융 데이터의 자기상관으로 인해 유효 표본크기가 명목 표본크기보다 작을 수 있습니다
- 검정력 분석을 통해 원하는 효과크기를 감지하기 위한 최소 표본크기를 사전에 산정해야 합니다
- 데이터 빈도(일/주/월)는 전략의 투자 기간과 분석 목적에 맞게 선택해야 합니다
- 표본크기가 충분하지 않은 상태에서 도출한 통계적 결론은 추가 검증 없이 수용해서는 안 됩니다
면책 조항
본 글은 투자 교육 목적으로 작성되었으며, 특정 투자 전략이나 분석 방법을 추천하는 것이 아닙니다. 표본크기에 대한 이해는 투자 분석의 신뢰성을 높이는 데 도움이 되지만, 모든 투자에는 원금 손실의 위험이 따릅니다. 투자 시에는 전문가의 조언을 구하고 신중하게 결정하시기 바랍니다.