콘텐츠로 이동

부록 B: 로지스틱 회귀 투입 방식 & Stepwise 검정 이론

WoE 직접 투입 vs 더미 변수 방식의 차이 · Stepwise 단계별 검정 원리 · Score / Wald / LR Test 직관적 해설

이 부록의 위치

본 가이드북의 전체 흐름을 전제로, 로지스틱 회귀 투입 단계의 기술적 깊이를 정리한다.

이 부록에서 다루는 내용

섹션 제목 내용
1 WoE 직접 투입 수리적 구조, 부분점수 변환, 기준점 설정(평행이동)
2 더미 변수 방식 수리적 구조, 기준점 해석, 스코어카드 변환
3 Stepwise 변수 선택 WoE/더미 방식 단계별 동작, 구간 일부 비유의 처리, AIC 기반 선택, Python 구현
4 통계 검정 이론 로그우도와 MLE, Score/Wald/LR Test 원리, 세 검정 비교
5 심층 비교 — 사상 차이와 수치 예시 단변량 고정 vs 다변량 자유 추정, end-to-end 스코어카드 구축, 기준점 동치 증명, 변수 중요도 불변

두 방식의 전체 구조

이론 및 Classing 섹션에서 변수 구간화(Classing)와 WoE/IV 계산을 수행한다. 이후 로지스틱 회귀 투입 단계에서 두 방식이 갈라진다.

방식 ① WoE 직접 투입
  • 구간별 WoE 수치를 연속형 숫자로 회귀에 투입
  • 변수당 계수(\(\beta\)) 1개 추정
  • 글로벌 스코어카드 표준 방식
방식 ② 더미 변수 방식
  • 구간 번호(0,1,2…)를 범주형으로 선언, 더미 자동 생성
  • 변수당 계수(\(\gamma\)) (구간수−1)개 추정
  • 국내 은행 실무에서도 사용

더미 방식의 구간 코딩

실무에서 구간화는 구간 번호(정수)로 코딩된다. 예를 들어 DSR 변수는 위험도 순서대로 0(≥70%, 최위험), 1(30~70%), 2(<30%, 안전)으로 매핑한다.

0번이 가장 위험한 구간이고, 이 0번이 기준 범주(Reference)가 된다. WoE/IV는 구간화 품질 평가와 변수 선별 목적으로만 활용되며, 로지스틱 회귀 입력에는 구간 번호가 직접 투입된다.


핵심 차이 비교

비교 항목 방식 ① WoE 직접 투입 방식 ② 더미 변수 방식
입력 형태 WoE 수치 → 연속형 구간 번호 → 범주형 더미
변수당 계수 수 1개 (\(\beta_j\)) (구간수 − 1)개 (\(\gamma_{jb}\))
자유도 소모 변수당 1 변수당 (구간수 − 1)
단조성 가정 묵시적으로 가정 (필수) 불필요 (각 구간 독립 추정)
Stepwise 검정 단위 변수 단위, \(\chi^2(1)\) 변수(그룹) 단위, \(\chi^2\)(구간수−1)
과적합 위험 낮음 구간 수 많을수록 증가
기준점(0점) 구조 자연 기준점 없음 → 사후 평행이동 기준 범주 \([0,\dots,0]\) → 자동 설정
WoE 활용 회귀 입력값으로 직접 사용 구간화 품질 평가에만 사용

기준점(0점)이란?

스코어카드에서 부분점수 = 0이 되는 구간을 기준점이라 한다. 두 방식의 기준점 설정 원리가 다르다.

더미 변수 방식 — 구간이 {0, 1, 2}일 때 0번을 기준 범주(Reference)로 지정한다. 기준 범주의 더미 벡터는 \([0, 0]\)(모든 더미가 0)이므로, 이 구간의 효과는 절편 \(\beta_0\)에 자동 흡수된다. 나머지 구간의 계수 \(\gamma_{jb}\)는 "기준 대비 로짓 차이"가 되어 자연스럽게 기준점이 생긴다.

WoE 직접 투입 — 연속형 수치를 그대로 넣으므로 자연 기준점이 없다. 스코어카드 변환 후 원하는 구간의 WoE만큼 전체를 빼는 평행이동으로 사후적으로 기준점을 만든다(식 A.3 참조).