콘텐츠로 이동

단변량 로지스틱 회귀: 개념과 목적

1.1 단변량 로지스틱 회귀란

단변량 로지스틱 회귀는 Coarse Classing이 확정된 이후, 각 변수를 개별적으로 단변량 로지스틱 회귀에 투입하여 통계적 유의성을 검정하는 과정이다.

핵심 질문

"WoE가 이미 계산되었는데 왜 다시 회귀를 돌리는가?"

WoE는 단순 집계값이다. 샘플 내 Good/Bad 분포를 집계한 것이라 표준오차도 없고 p-value도 없다. 즉 "이 구간의 WoE가 0과 통계적으로 유의미하게 다른가?"를 WoE 자체로는 판단할 수 없다. 단변량 로지스틱 회귀(회귀 피팅)를 통해 비로소 각 Bin에 대한 표준오차, Wald 통계량, p-value가 산출된다.

실무에서 단변량 로지스틱 회귀의 위치

전통 스코어카드 개발에서 단변량 로지스틱 회귀는 변수 선정(Variable Selection)의 최종 관문 역할을 한다. Classing → WoE/IV 산출 이후 IV 기준으로 1차 필터링한 변수들에 대해 단변량 LR을 수행하여, 통계적으로 유의하지 않은 변수를 추가 제거한다. 이 과정을 거쳐야 Full Model(다변량 로지스틱 회귀) 단계에 투입할 최종 후보 변수 목록이 확정된다.

1.2 단변량 로지스틱 회귀의 두 가지 역할

역할 목적 사용 검정
역할 1: 변수 전체 유의성 이 변수가 부도 예측에 통계적으로 의미 있는가? Likelihood Ratio Test (LRT), 전체 Wald Test
역할 2: Classing 품질 검증 각 Bin이 개별적으로 유의한가? WoE가 신뢰할 수 있는가? Bin별 Wald Test, \(\hat{\beta}\) 단조성, \(\hat{\beta}\) vs WoE 확인

1.3 Worked Example: 매출액 변수의 단변량 로지스틱 회귀

WoE/IV에서 산출한 매출액 5구간을 단변량 로지스틱 회귀에 투입한 결과다.

입력: One-Hot Encoding (5개 더미) + No Intercept

Bin 매출액 범위 WoE (집계) \(\hat{\beta}\) (회귀) SE Wald p-value 판정
1 1억 미만 −1.79 +1.81 0.21 <0.001 ✅ 유의
2 1억~5억 −0.51 +0.49 0.18 0.007 ✅ 유의
3 5억~10억 0.00 −0.01 0.17 0.954 ⚠️ 중간 구간
4 10억~50억 +0.85 −0.84 0.19 <0.001 ✅ 유의
5 50억 초과 +0.92 −0.90 0.23 <0.001 ✅ 유의

검증 포인트:

  1. β ≈ −WoE 확인: 모든 Bin에서 β와 WoE의 부호가 반대이고 크기 차이가 ±0.02 이내 → Classing이 통계적으로 건전
  2. 단조성 확인: β가 Bin 1(+1.81) → Bin 5(−0.90)로 단조 감소 → 불량률이 높은 구간에서 Bad odds가 높고, 낮은 구간에서 낮음
  3. 변수 전체 유의성: LRT 통계량 = 142.3, df = 5, p < 0.001 → 매출액 변수 전체가 유의
  4. Bin 3 처리: p = 0.954이지만 단조성 유지 + LRT 유의 → 합병 불필요 (상세 논의는 유의성 검정 참고)

이 변수의 최종 판정

매출액 변수는 β ≈ −WoE 대응, 완전 단조, LRT 유의를 모두 충족하므로 Full Model 투입 후보로 확정된다.