단변량 로지스틱 회귀: 개념과 목적¶
1.1 단변량 로지스틱 회귀란¶
단변량 로지스틱 회귀는 Coarse Classing이 확정된 이후, 각 변수를 개별적으로 단변량 로지스틱 회귀에 투입하여 통계적 유의성을 검정하는 과정이다.
핵심 질문
"WoE가 이미 계산되었는데 왜 다시 회귀를 돌리는가?"
WoE는 단순 집계값이다. 샘플 내 Good/Bad 분포를 집계한 것이라 표준오차도 없고 p-value도 없다. 즉 "이 구간의 WoE가 0과 통계적으로 유의미하게 다른가?"를 WoE 자체로는 판단할 수 없다. 단변량 로지스틱 회귀(회귀 피팅)를 통해 비로소 각 Bin에 대한 표준오차, Wald 통계량, p-value가 산출된다.
실무에서 단변량 로지스틱 회귀의 위치
전통 스코어카드 개발에서 단변량 로지스틱 회귀는 변수 선정(Variable Selection)의 최종 관문 역할을 한다. Classing → WoE/IV 산출 이후 IV 기준으로 1차 필터링한 변수들에 대해 단변량 LR을 수행하여, 통계적으로 유의하지 않은 변수를 추가 제거한다. 이 과정을 거쳐야 Full Model(다변량 로지스틱 회귀) 단계에 투입할 최종 후보 변수 목록이 확정된다.
1.2 단변량 로지스틱 회귀의 두 가지 역할¶
| 역할 | 목적 | 사용 검정 |
|---|---|---|
| 역할 1: 변수 전체 유의성 | 이 변수가 부도 예측에 통계적으로 의미 있는가? | Likelihood Ratio Test (LRT), 전체 Wald Test |
| 역할 2: Classing 품질 검증 | 각 Bin이 개별적으로 유의한가? WoE가 신뢰할 수 있는가? | Bin별 Wald Test, \(\hat{\beta}\) 단조성, \(\hat{\beta}\) vs WoE 확인 |
1.3 Worked Example: 매출액 변수의 단변량 로지스틱 회귀¶
WoE/IV에서 산출한 매출액 5구간을 단변량 로지스틱 회귀에 투입한 결과다.
입력: One-Hot Encoding (5개 더미) + No Intercept
| Bin | 매출액 범위 | WoE (집계) | \(\hat{\beta}\) (회귀) | SE | Wald p-value | 판정 |
|---|---|---|---|---|---|---|
| 1 | 1억 미만 | −1.79 | +1.81 | 0.21 | <0.001 | ✅ 유의 |
| 2 | 1억~5억 | −0.51 | +0.49 | 0.18 | 0.007 | ✅ 유의 |
| 3 | 5억~10억 | 0.00 | −0.01 | 0.17 | 0.954 | ⚠️ 중간 구간 |
| 4 | 10억~50억 | +0.85 | −0.84 | 0.19 | <0.001 | ✅ 유의 |
| 5 | 50억 초과 | +0.92 | −0.90 | 0.23 | <0.001 | ✅ 유의 |
검증 포인트:
- β ≈ −WoE 확인: 모든 Bin에서 β와 WoE의 부호가 반대이고 크기 차이가 ±0.02 이내 → Classing이 통계적으로 건전
- 단조성 확인: β가 Bin 1(+1.81) → Bin 5(−0.90)로 단조 감소 → 불량률이 높은 구간에서 Bad odds가 높고, 낮은 구간에서 낮음
- 변수 전체 유의성: LRT 통계량 = 142.3, df = 5, p < 0.001 → 매출액 변수 전체가 유의
- Bin 3 처리: p = 0.954이지만 단조성 유지 + LRT 유의 → 합병 불필요 (상세 논의는 유의성 검정 참고)
이 변수의 최종 판정
매출액 변수는 β ≈ −WoE 대응, 완전 단조, LRT 유의를 모두 충족하므로 Full Model 투입 후보로 확정된다.