부록 B: 로지스틱 회귀 투입 방식 & Stepwise 검정 이론¶

WoE 직접 투입 vs 더미 변수 방식의 차이 · Stepwise 단계별 검정 원리 · Score / Wald / LR Test 직관적 해설

이 부록의 위치

본 가이드북의 전체 흐름을 전제로, 로지스틱 회귀 투입 단계의 기술적 깊이를 정리한다.

이 부록에서 다루는 내용¶

섹션	제목	내용
1	WoE 직접 투입	수리적 구조, 부분점수 변환, 기준점 설정(평행이동)
2	더미 변수 방식	수리적 구조, 기준점 해석, 스코어카드 변환
3	Stepwise 변수 선택	WoE/더미 방식 단계별 동작, 구간 일부 비유의 처리, AIC 기반 선택, Python 구현
4	통계 검정 이론	로그우도와 MLE, Score/Wald/LR Test 원리, 세 검정 비교
5	심층 비교 — 사상 차이와 수치 예시	단변량 고정 vs 다변량 자유 추정, end-to-end 스코어카드 구축, 기준점 동치 증명, 변수 중요도 불변

두 방식의 전체 구조¶

이론 및 Classing 섹션에서 변수 구간화(Classing)와 WoE/IV 계산을 수행한다. 이후 로지스틱 회귀 투입 단계에서 두 방식이 갈라진다.

방식 ① WoE 직접 투입

구간별 WoE 수치를 연속형 숫자로 회귀에 투입
변수당 계수(\(\beta\)) 1개 추정
글로벌 스코어카드 표준 방식

방식 ② 더미 변수 방식

구간 번호(0,1,2…)를 범주형으로 선언, 더미 자동 생성
변수당 계수(\(\gamma\)) (구간수−1)개 추정
국내 은행 실무에서도 사용

더미 방식의 구간 코딩

실무에서 구간화는 구간 번호(정수)로 코딩된다. 예를 들어 DSR 변수는 위험도 순서대로 0(≥70%, 최위험), 1(30~70%), 2(<30%, 안전)으로 매핑한다.

0번이 가장 위험한 구간이고, 이 0번이 기준 범주(Reference)가 된다. WoE/IV는 구간화 품질 평가와 변수 선별 목적으로만 활용되며, 로지스틱 회귀 입력에는 구간 번호가 직접 투입된다.

핵심 차이 비교¶

비교 항목	방식 ① WoE 직접 투입	방식 ② 더미 변수 방식
입력 형태	WoE 수치 → 연속형	구간 번호 → 범주형 더미
변수당 계수 수	1개 (\(\beta_j\))	(구간수 − 1)개 (\(\gamma_{jb}\))
자유도 소모	변수당 1	변수당 (구간수 − 1)
단조성 가정	묵시적으로 가정 (필수)	불필요 (각 구간 독립 추정)
Stepwise 검정 단위	변수 단위, \(\chi^2(1)\)	변수(그룹) 단위, \(\chi^2\)(구간수−1)
과적합 위험	낮음	구간 수 많을수록 증가
기준점(0점) 구조	자연 기준점 없음 → 사후 평행이동	기준 범주 \([0,\dots,0]\) → 자동 설정
WoE 활용	회귀 입력값으로 직접 사용	구간화 품질 평가에만 사용

기준점(0점)이란?

스코어카드에서 부분점수 = 0이 되는 구간을 기준점이라 한다. 두 방식의 기준점 설정 원리가 다르다.

더미 변수 방식 — 구간이 {0, 1, 2}일 때 0번을 기준 범주(Reference)로 지정한다. 기준 범주의 더미 벡터는 \([0, 0]\)(모든 더미가 0)이므로, 이 구간의 효과는 절편 \(\beta_0\)에 자동 흡수된다. 나머지 구간의 계수 \(\gamma_{jb}\)는 "기준 대비 로짓 차이"가 되어 자연스럽게 기준점이 생긴다.

WoE 직접 투입 — 연속형 수치를 그대로 넣으므로 자연 기준점이 없다. 스코어카드 변환 후 원하는 구간의 WoE만큼 전체를 빼는 평행이동으로 사후적으로 기준점을 만든다(식 A.3 참조).