단변량 로지스틱 회귀: 개념과 목적¶

1.1 단변량 로지스틱 회귀란¶

단변량 로지스틱 회귀는 Coarse Classing이 확정된 이후, 각 변수를 개별적으로 단변량 로지스틱 회귀에 투입하여 통계적 유의성을 검정하는 과정이다.

핵심 질문

"WoE가 이미 계산되었는데 왜 다시 회귀를 돌리는가?"

WoE는 단순 집계값이다. 샘플 내 Good/Bad 분포를 집계한 것이라 표준오차도 없고 p-value도 없다. 즉 "이 구간의 WoE가 0과 통계적으로 유의미하게 다른가?"를 WoE 자체로는 판단할 수 없다. 단변량 로지스틱 회귀(회귀 피팅)를 통해 비로소 각 Bin에 대한 표준오차, Wald 통계량, p-value가 산출된다.

실무에서 단변량 로지스틱 회귀의 위치

전통 스코어카드 개발에서 단변량 로지스틱 회귀는 변수 선정(Variable Selection)의 최종 관문 역할을 한다. Classing → WoE/IV 산출 이후 IV 기준으로 1차 필터링한 변수들에 대해 단변량 LR을 수행하여, 통계적으로 유의하지 않은 변수를 추가 제거한다. 이 과정을 거쳐야 Full Model(다변량 로지스틱 회귀) 단계에 투입할 최종 후보 변수 목록이 확정된다.

1.2 단변량 로지스틱 회귀의 두 가지 역할¶

역할	목적	사용 검정
역할 1: 변수 전체 유의성	이 변수가 부도 예측에 통계적으로 의미 있는가?	Likelihood Ratio Test (LRT), 전체 Wald Test
역할 2: Classing 품질 검증	각 Bin이 개별적으로 유의한가? WoE가 신뢰할 수 있는가?	Bin별 Wald Test, \(\hat{\beta}\) 단조성, \(\hat{\beta}\) vs WoE 확인

1.3 Worked Example: 매출액 변수의 단변량 로지스틱 회귀¶

WoE/IV에서 산출한 매출액 5구간을 단변량 로지스틱 회귀에 투입한 결과다.

입력: One-Hot Encoding (5개 더미) + No Intercept

Bin	매출액 범위	WoE (집계)	\(\hat{\beta}\) (회귀)	SE	Wald p-value	판정
1	1억 미만	−1.79	+1.81	0.21	<0.001	✅ 유의
2	1억~5억	−0.51	+0.49	0.18	0.007	✅ 유의
3	5억~10억	0.00	−0.01	0.17	0.954	⚠️ 중간 구간
4	10억~50억	+0.85	−0.84	0.19	<0.001	✅ 유의
5	50억 초과	+0.92	−0.90	0.23	<0.001	✅ 유의

검증 포인트:

β ≈ −WoE 확인: 모든 Bin에서 β와 WoE의 부호가 반대이고 크기 차이가 ±0.02 이내 → Classing이 통계적으로 건전
단조성 확인: β가 Bin 1(+1.81) → Bin 5(−0.90)로 단조 감소 → 불량률이 높은 구간에서 Bad odds가 높고, 낮은 구간에서 낮음
변수 전체 유의성: LRT 통계량 = 142.3, df = 5, p < 0.001 → 매출액 변수 전체가 유의
Bin 3 처리: p = 0.954이지만 단조성 유지 + LRT 유의 → 합병 불필요 (상세 논의는 유의성 검정 참고)

이 변수의 최종 판정

매출액 변수는 β ≈ −WoE 대응, 완전 단조, LRT 유의를 모두 충족하므로 Full Model 투입 후보로 확정된다.