부록 B: 로지스틱 회귀 투입 방식 & Stepwise 검정 이론¶
WoE 직접 투입 vs 더미 변수 방식의 차이 · Stepwise 단계별 검정 원리 · Score / Wald / LR Test 직관적 해설
이 부록의 위치
본 가이드북의 전체 흐름을 전제로, 로지스틱 회귀 투입 단계의 기술적 깊이를 정리한다.
이 부록에서 다루는 내용¶
| 섹션 | 제목 | 내용 |
|---|---|---|
| 1 | WoE 직접 투입 | 수리적 구조, 부분점수 변환, 기준점 설정(평행이동) |
| 2 | 더미 변수 방식 | 수리적 구조, 기준점 해석, 스코어카드 변환 |
| 3 | Stepwise 변수 선택 | WoE/더미 방식 단계별 동작, 구간 일부 비유의 처리, AIC 기반 선택, Python 구현 |
| 4 | 통계 검정 이론 | 로그우도와 MLE, Score/Wald/LR Test 원리, 세 검정 비교 |
| 5 | 심층 비교 — 사상 차이와 수치 예시 | 단변량 고정 vs 다변량 자유 추정, end-to-end 스코어카드 구축, 기준점 동치 증명, 변수 중요도 불변 |
두 방식의 전체 구조¶
이론 및 Classing 섹션에서 변수 구간화(Classing)와 WoE/IV 계산을 수행한다. 이후 로지스틱 회귀 투입 단계에서 두 방식이 갈라진다.
- 구간별 WoE 수치를 연속형 숫자로 회귀에 투입
- 변수당 계수(\(\beta\)) 1개 추정
- 글로벌 스코어카드 표준 방식
- 구간 번호(0,1,2…)를 범주형으로 선언, 더미 자동 생성
- 변수당 계수(\(\gamma\)) (구간수−1)개 추정
- 국내 은행 실무에서도 사용
더미 방식의 구간 코딩
실무에서 구간화는 구간 번호(정수)로 코딩된다. 예를 들어 DSR 변수는 위험도 순서대로 0(≥70%, 최위험), 1(30~70%), 2(<30%, 안전)으로 매핑한다.
0번이 가장 위험한 구간이고, 이 0번이 기준 범주(Reference)가 된다. WoE/IV는 구간화 품질 평가와 변수 선별 목적으로만 활용되며, 로지스틱 회귀 입력에는 구간 번호가 직접 투입된다.
핵심 차이 비교¶
| 비교 항목 | 방식 ① WoE 직접 투입 | 방식 ② 더미 변수 방식 |
|---|---|---|
| 입력 형태 | WoE 수치 → 연속형 | 구간 번호 → 범주형 더미 |
| 변수당 계수 수 | 1개 (\(\beta_j\)) | (구간수 − 1)개 (\(\gamma_{jb}\)) |
| 자유도 소모 | 변수당 1 | 변수당 (구간수 − 1) |
| 단조성 가정 | 묵시적으로 가정 (필수) | 불필요 (각 구간 독립 추정) |
| Stepwise 검정 단위 | 변수 단위, \(\chi^2(1)\) | 변수(그룹) 단위, \(\chi^2\)(구간수−1) |
| 과적합 위험 | 낮음 | 구간 수 많을수록 증가 |
| 기준점(0점) 구조 | 자연 기준점 없음 → 사후 평행이동 | 기준 범주 \([0,\dots,0]\) → 자동 설정 |
| WoE 활용 | 회귀 입력값으로 직접 사용 | 구간화 품질 평가에만 사용 |
기준점(0점)이란?
스코어카드에서 부분점수 = 0이 되는 구간을 기준점이라 한다. 두 방식의 기준점 설정 원리가 다르다.
더미 변수 방식 — 구간이 {0, 1, 2}일 때 0번을 기준 범주(Reference)로 지정한다. 기준 범주의 더미 벡터는 \([0, 0]\)(모든 더미가 0)이므로, 이 구간의 효과는 절편 \(\beta_0\)에 자동 흡수된다. 나머지 구간의 계수 \(\gamma_{jb}\)는 "기준 대비 로짓 차이"가 되어 자연스럽게 기준점이 생긴다.
WoE 직접 투입 — 연속형 수치를 그대로 넣으므로 자연 기준점이 없다. 스코어카드 변환 후 원하는 구간의 WoE만큼 전체를 빼는 평행이동으로 사후적으로 기준점을 만든다(식 A.3 참조).