콘텐츠로 이동

심층 비교 — 사상 차이와 수치 예시

동일한 로지스틱 회귀라도 WoE 방식과 더미 방식은 근본적으로 다른 사상(思想)으로 작동한다. 이 문서에서는 두 방식의 end-to-end 스코어카드 구축 과정을 수치 예시로 비교하고, 기준점(reference point) 이동의 수학적 동치성과 변수 중요도 불변 원리를 증명한다.

두 방식의 수리적 구조(식 A.1~A.6), 기준점 해석, Stepwise 검정 등 상세 비교는 본 부록의 두 방식 비교, 1. WoE 직접 투입, 2. 더미 변수 방식 참조.


1. 근본적 사상 차이: 단변량 고정 vs 다변량 자유 추정

같은 로지스틱 회귀를 쓰더라도, 두 방식은 "bin 간 효과를 누가 결정하는가"가 근본적으로 다르다.

1.1 WoE 방식 — 단변량 패턴을 고정하고, β로 스케일링만

WoE 방식에서는 단변량 분석에서 계산한 bin 간 상대적 크기가 다변량 회귀에서도 그대로 유지된다.

\[\text{logit}(p_i) = \beta_0 + \beta_j \cdot WoE_{ij}\]

변수 j의 각 bin이 기여하는 값:

구간 기여값
bin 1 \(\beta_j \times (-0.40)\)
bin 2 \(\beta_j \times (0.15)\)
bin 3 \(\beta_j \times (0.55)\)

\(\beta_j\)는 변수 전체를 균일하게 스케일링할 뿐이다. bin 1과 bin 3의 상대적 크기 비율은 \(-0.40 : 0.55\)단변량에서 정해진 그대로 변하지 않는다.

의미: 단변량 WoE가 "연소득이 높을수록 단조적으로 우량"이라고 말하면, 다변량에서 다른 변수를 통제하더라도 그 단조 패턴은 깨지지 않는다. \(\beta_j\)는 그 패턴의 강도만 조절한다.

1.2 더미 방식 — 다변량에서 bin별 효과를 자유롭게 재추정

더미 방식에서는 각 bin이 독립적인 계수를 갖는다.

\[\text{logit}(p_i) = \beta_0 + \gamma_{j1} \cdot D_1 + \gamma_{j2} \cdot D_2\]
구간 기여값
bin 0 (기준) \(0\)
bin 1 \(\gamma_{j1}\) (자유 추정)
bin 2 \(\gamma_{j2}\) (자유 추정)

\(\gamma_{j1}\)\(\gamma_{j2}\)는 서로 독립적으로 추정된다. 다변량에서 다른 변수를 통제한 후, 각 구간의 효과가 개별적으로 조정된다.

의미: 단변량 WoE에서는 단조적으로 보였던 패턴이, 다른 변수를 통제하고 나면 비단조적으로 바뀔 수 있다.

1.3 차이가 드러나는 구체적 상황

연소득 변수를 예로 들자. 단변량 WoE는 다음과 같았다:

구간 단변량 WoE 해석
~2천만 −0.40 불량
2천~5천만 0.15 약간 우량
5천만~ 0.55 우량

단변량에서는 깔끔한 단조 증가 패턴이다.

그런데 부채비율을 통제하고 나면, 실제로는 중간 소득 구간에 고부채 차주가 집중되어 있어서 효과가 달라질 수 있다:

구간 WoE 방식 (\(\beta = 0.80\)) 더미 방식 (다변량 \(\gamma\))
~2천만 \(0.80 \times (-0.40) = -0.32\) \(\gamma_1 = -0.25\)
2천~5천만 \(0.80 \times (0.15) = +0.12\) \(\gamma_2 = -0.08\)
5천만~ \(0.80 \times (0.55) = +0.44\) (기준, 0) → 상대적으로 가장 우량
  • WoE 방식: 단조 패턴 유지. 2천~5천만 구간은 여전히 양수(+0.12).
  • 더미 방식: 2천~5천만 구간이 음수(−0.08)로 뒤집힘. 부채비율을 통제하니 이 구간이 실제로는 기준 대비 나쁘다는 신호.

1.4 정리: 같은 로지스틱, 다른 사상

관점 WoE 방식 더미 방식
bin 간 패턴 결정자 단변량 분석 (사전 고정) 다변량 회귀 (사후 추정)
다변량에서 β의 역할 변수 전체의 스케일 조절 각 bin의 효과를 독립 추정
단조성 단변량 WoE가 단조면 강제 유지 비단조 패턴 허용
자유도 변수당 1개 변수당 (bin 수 − 1)개
과적합 위험 낮음 (자유도 적음) 상대적으로 높음
성격 보수적·안정적 유연·날카로움

WoE 방식의 "단변량 패턴 고정"은 약점이 아니라 의도적 제약이다. 신용평가에서는 단조성이 규제·비즈니스 요건인 경우가 많고(소득이 높은데 점수가 낮으면 설명이 안 됨), 자유도를 줄여 과적합을 억제하는 정규화 효과가 있다.

반면 더미 방식은 다변량 관계를 bin 수준에서 자유롭게 포착하므로, 단변량에서 놓친 패턴을 잡아낼 수 있다. 대신 파라미터가 많아지므로 정규화(L1/L2)와 함께 쓰는 것이 일반적이다.


2. End-to-End 스코어카드 구축: WoE 방식

2.1 전체 흐름

① Binning → ② WoE 계산 → ③ WoE 치환 → ④ 다변량 로지스틱 회귀
→ ⑤ β 추정 → ⑥ PDO/Anchor 설정 → ⑦ 포인트 변환 (Offset 배분) → ⑧ 스코어카드 완성

2.2 수치 예시: 5개 변수

① Binning & ② WoE 계산 — 각 변수를 구간화하고 단변량 WoE를 산출한다.

변수 구간 WoE
연소득 ~2천만 −0.40
2천~5천만 +0.15
5천만~ +0.55
부채비율 ~30% +0.50
30~60% +0.10
60%~ −0.45
연체이력 없음 +0.60
1회 −0.20
2회+ −0.70
근속연수 ~1년 −0.30
1~5년 +0.05
5년~ +0.40
카드수 1~2개 +0.25
3~5개 +0.10
6개~ −0.35

③ WoE 치환 — 원본 데이터의 각 관측치를 해당 bin의 WoE 값으로 대체한다.

고객 연소득(원본) 연소득(WoE) 부채비율(원본) 부채비율(WoE) ...
A 6,000만 +0.55 25% +0.50 ...
B 1,500만 −0.40 70% −0.45 ...

변수당 컬럼 1개. 5개 변수면 5개 컬럼만으로 회귀에 투입한다.

④ 다변량 로지스틱 회귀 — 5개 WoE 컬럼으로 회귀를 적합한다.

\[\text{logit}(p_i) = \beta_0 + \beta_1 \cdot WoE_{연소득} + \beta_2 \cdot WoE_{부채비율} + \beta_3 \cdot WoE_{연체} + \beta_4 \cdot WoE_{근속} + \beta_5 \cdot WoE_{카드}\]

⑤ β 추정 결과 (예시):

파라미터 추정값 p-value
\(\beta_0\) (절편) −0.50 <0.001
\(\beta_1\) (연소득) 0.85 <0.001
\(\beta_2\) (부채비율) 0.92 <0.001
\(\beta_3\) (연체이력) 1.10 <0.001
\(\beta_4\) (근속연수) 0.65 0.003
\(\beta_5\) (카드수) 0.70 0.008

\(\beta_j\)는 해당 변수의 WoE 패턴을 스케일링하는 역할이다. 단변량 WoE의 bin 간 상대적 크기 비율은 그대로 유지된다.

⑥ PDO/Anchor 설정

  • Anchor Score(\(A\)) = 600 (Odds 1:1에서 600점)
  • PDO = 20 → \(B = 20 / \ln 2 \approx 28.85\)

⑦ 포인트 변환

각 bin의 부분점수:

\[\text{Points}_{j,b} = B \times \beta_j \times WoE_{j,b} + \frac{B \times \beta_0}{k}\]

절편 배분: \(28.85 \times (-0.50) / 5 = -2.89\)

변수 구간 WoE \(B \times \beta_j \times WoE\) 절편 배분 부분점수
연소득 ~2천만 −0.40 \(28.85 \times 0.85 \times (-0.40) = -9.8\) −2.9 −12.7
2천~5천만 +0.15 \(28.85 \times 0.85 \times 0.15 = +3.7\) −2.9 +0.8
5천만~ +0.55 \(28.85 \times 0.85 \times 0.55 = +13.5\) −2.9 +10.6
부채비율 ~30% +0.50 \(28.85 \times 0.92 \times 0.50 = +13.3\) −2.9 +10.4
30~60% +0.10 \(28.85 \times 0.92 \times 0.10 = +2.7\) −2.9 −0.2
60%~ −0.45 \(28.85 \times 0.92 \times (-0.45) = -11.9\) −2.9 −14.8
연체이력 없음 +0.60 \(28.85 \times 1.10 \times 0.60 = +19.0\) −2.9 +16.1
1회 −0.20 \(28.85 \times 1.10 \times (-0.20) = -6.3\) −2.9 −9.2
2회+ −0.70 \(28.85 \times 1.10 \times (-0.70) = -22.2\) −2.9 −25.1
근속연수 ~1년 −0.30 \(28.85 \times 0.65 \times (-0.30) = -5.6\) −2.9 −8.5
1~5년 +0.05 \(28.85 \times 0.65 \times 0.05 = +0.9\) −2.9 −2.0
5년~ +0.40 \(28.85 \times 0.65 \times 0.40 = +7.5\) −2.9 +4.6
카드수 1~2개 +0.25 \(28.85 \times 0.70 \times 0.25 = +5.0\) −2.9 +2.1
3~5개 +0.10 \(28.85 \times 0.70 \times 0.10 = +2.0\) −2.9 −0.9
6개~ −0.35 \(28.85 \times 0.70 \times (-0.35) = -7.1\) −2.9 −10.0

⑧ 검증: 고객 A의 점수

고객 A: 연소득 5천만~, 부채비율 ~30%, 연체 없음, 근속 5년~, 카드 1~2개

\[\text{Score}_A = 600 + 10.6 + 10.4 + 16.1 + 4.6 + 2.1 = \mathbf{643.8}\]

3. End-to-End 스코어카드 구축: 더미 방식

3.1 전체 흐름

① Binning → ② 구간 번호 코딩 → ③ 더미 변수 생성 (기준 범주 지정)
→ ④ 다변량 로지스틱 회귀 → ⑤ bin별 γ 추정 → ⑥ 포인트 변환 → ⑦ 스코어카드 완성

3.2 수치 예시: 동일한 5개 변수

① Binning — WoE 방식과 동일한 구간화를 사용한다.

② 구간 번호 코딩 — 각 bin에 정수 번호를 부여한다 (위험도 순 또는 값 순).

변수 구간 코드 단변량 WoE (참고용)
연소득 ~2천만 0 (기준) −0.40
2천~5천만 1 +0.15
5천만~ 2 +0.55
부채비율 60%~ 0 (기준) −0.45
30~60% 1 +0.10
~30% 2 +0.50
연체이력 2회+ 0 (기준) −0.70
1회 1 −0.20
없음 2 +0.60
근속연수 ~1년 0 (기준) −0.30
1~5년 1 +0.05
5년~ 2 +0.40
카드수 6개~ 0 (기준) −0.35
3~5개 1 +0.10
1~2개 2 +0.25

WoE/IV는 구간화 품질 평가와 변수 선별에만 활용하며, 회귀 입력에는 구간 번호가 직접 투입된다. 기준 범주(0번)는 가장 위험한 구간으로 설정한다.

③ 더미 변수 생성 — 기준 범주(0)를 제외하고 (bin 수 − 1)개의 더미를 만든다.

고객 연소득 원본 연소득_D1 연소득_D2 부채비율_D1 부채비율_D2 ...
A 6,000만 (코드2) 0 1 1 0 ...
B 1,500만 (코드0) 0 0 0 0 ...

5개 변수 × 2개 더미 = 10개 컬럼으로 회귀에 투입한다.

④ 다변량 로지스틱 회귀

\[\text{logit}(p_i) = \beta_0 + \sum_{j=1}^{5} \sum_{b=1}^{2} \gamma_{jb} \cdot D_{jb}\]

⑤ bin별 γ 추정 결과 (예시):

변수 구간 더미 \(\gamma\) 추정값 p-value
\(\beta_0 = -2.80\) <0.001
연소득 ~2천만 (기준) 0 (고정)
2천~5천만 D1 +0.38 0.021
5천만~ D2 +0.72 <0.001
부채비율 60%~ (기준) 0 (고정)
30~60% D1 +0.45 0.004
~30% D2 +0.88 <0.001
연체이력 2회+ (기준) 0 (고정)
1회 D1 +0.55 <0.001
없음 D2 +1.42 <0.001
근속연수 ~1년 (기준) 0 (고정)
1~5년 D1 +0.22 0.085
5년~ D2 +0.48 0.002
카드수 6개~ (기준) 0 (고정)
3~5개 D1 +0.30 0.038
1~2개 D2 +0.41 0.009

\(\gamma_{jb}\)"기준 구간(최위험) 대비 해당 구간의 로짓 개선량"을 직접 나타낸다. 이 값은 다른 모든 변수를 통제한 후의 순수한 효과이므로, 단변량 WoE와는 다를 수 있다.

핵심: WoE 방식에서는 \(\beta_j\)가 1개이므로 bin 간 비율이 고정되지만, 더미 방식에서는 \(\gamma_{j1}\)\(\gamma_{j2}\)각각 독립 추정되므로 bin 간 비율이 다변량에서 자유롭게 결정된다.

⑥ 포인트 변환

더미 방식에서는 기준 구간(0번)의 효과가 절편 \(\beta_0\)에 흡수되어 있다. 따라서:

  • 기준 구간: 부분점수 = 절편 배분값
  • 나머지 구간: 부분점수 = 절편 배분값 \(+ B \times \gamma_{jb}\)

절편 배분: \(B \times \beta_0 / k = 28.85 \times (-2.80) / 5 = -16.2\)

변수 구간 \(\gamma\) \(B \times \gamma\) 절편 배분 부분점수
연소득 ~2천만 (기준) 0 0 −16.2 −16.2
2천~5천만 +0.38 +11.0 −16.2 −5.2
5천만~ +0.72 +20.8 −16.2 +4.6
부채비율 60%~ (기준) 0 0 −16.2 −16.2
30~60% +0.45 +13.0 −16.2 −3.2
~30% +0.88 +25.4 −16.2 +9.2
연체이력 2회+ (기준) 0 0 −16.2 −16.2
1회 +0.55 +15.9 −16.2 −0.3
없음 +1.42 +41.0 −16.2 +24.8
근속연수 ~1년 (기준) 0 0 −16.2 −16.2
1~5년 +0.22 +6.3 −16.2 −9.9
5년~ +0.48 +13.8 −16.2 −2.4
카드수 6개~ (기준) 0 0 −16.2 −16.2
3~5개 +0.30 +8.7 −16.2 −7.5
1~2개 +0.41 +11.8 −16.2 −4.4

⑦ 검증: 고객 A의 점수

고객 A: 연소득 5천만~, 부채비율 ~30%, 연체 없음, 근속 5년~, 카드 1~2개

\[\text{Score}_A = 600 + 4.6 + 9.2 + 24.8 + (-2.4) + (-4.4) = \mathbf{631.8}\]

WoE 방식과 점수가 다른 이유: 서로 다른 모형이기 때문이다. WoE 방식은 단변량 패턴을 고정한 채 \(\beta\)만 조정하지만, 더미 방식은 다변량에서 bin별 효과를 자유롭게 재추정한다. 입력이 다르면 결과도 다르다.


4. 기준점 이동의 수학적 동치 증명

WoE와 더미가 "사상이 다르다"는 것과 별개로, 동일한 모형 내에서 기준점을 옮기는 것은 예측값에 영향을 주지 않음을 증명한다.

4.1 단일 변수 케이스

변수 X에 3개 bin이 있고, WoE 값이 각각 \(w_1, w_2, w_3\)이라 하자.

bin 2를 기준점(0점)으로 삼고 싶다면, \(c = w_2\)를 빼준다:

\[\beta_0 + \beta_1 \cdot w_i = (\beta_0 + \beta_1 \cdot c) + \beta_1 \cdot (w_i - c)\]
bin 원래 WoE 조정 후 (\(w_i - c\))
bin 1 \(w_1\) \(w_1 - w_2\)
bin 2 \(w_2\) \(0\) (기준)
bin 3 \(w_3\) \(w_3 - w_2\)

\(\beta_1 \cdot c\)는 절편에 흡수 → 예측값 불변.

4.2 다변량 케이스 (변수 5개)

변수 \(X_1, ..., X_5\)이고, 각각의 기준 bin WoE가 \(c_1, ..., c_5\)일 때:

\[\beta_0 + \sum_{j=1}^{5} \beta_j \cdot WoE_{X_j} = \underbrace{\left(\beta_0 + \sum_{j=1}^{5} \beta_j \cdot c_j\right)}_{\beta_0'} + \sum_{j=1}^{5} \beta_j \cdot \underbrace{(WoE_{X_j} - c_j)}_{WoE'_{X_j}}\]

핵심: - 각 변수의 기준점 이동은 독립적 — 한 변수의 \(c_j\)를 바꿔도 다른 변수의 \(\beta_k\)에 영향 없음 - 모든 shift가 절편 하나에 합산 흡수됨 - \(\beta_j\) 값 자체는 변하지 않음

4.3 수치 검증

Section 2(본 페이지 위)의 5개 변수 예시에서, 각 변수의 중간 구간을 기준으로 잡아본다.

변수 기준 구간 \(c_j\)
연소득 2천~5천만 +0.15
부채비율 30~60% +0.10
연체이력 1회 −0.20
근속연수 1~5년 +0.05
카드수 3~5개 +0.10

조정 결과:

변수 구간 원래 WoE \(-c_j\) 조정 후
연소득 ~2천만 −0.40 −0.15 −0.55
2천~5천만 +0.15 −0.15 0.00 ← 기준
5천만~ +0.55 −0.15 +0.40
부채비율 ~30% +0.50 −0.10 +0.40
30~60% +0.10 −0.10 0.00 ← 기준
60%~ −0.45 −0.10 −0.55
연체이력 없음 +0.60 +0.20 +0.80
1회 −0.20 +0.20 0.00 ← 기준
2회+ −0.70 +0.20 −0.50
근속연수 ~1년 −0.30 −0.05 −0.35
1~5년 +0.05 −0.05 0.00 ← 기준
5년~ +0.40 −0.05 +0.35
카드수 1~2개 +0.25 −0.10 +0.15
3~5개 +0.10 −0.10 0.00 ← 기준
6개~ −0.35 −0.10 −0.45

절편 흡수:

\[\sum c_j = 0.15 + 0.10 + (-0.20) + 0.05 + 0.10 = 0.20\]
\[\beta_0' = -0.50 + 0.20 = -0.30\]

동일 고객 검증 (연소득 5천만~, 부채비율 60%~, 연체 없음, 근속 1~5년, 카드 3~5개):

  • 원래: \(-0.50 + 0.55 + (-0.45) + 0.60 + 0.05 + 0.10 = \mathbf{0.35}\)
  • 조정 후: \(-0.30 + 0.40 + (-0.55) + 0.80 + 0.00 + 0.00 = \mathbf{0.35}\)

5. 변수 중요도: 기준점 이동에 불변

5.1 핵심 원리

변수의 중요도(판별력)는 개별 bin의 절대값이 아니라 변수 내 범위(max − min)로 측정한다. 기준점 이동은 상수 덧셈이므로 max와 min이 같은 양만큼 이동 → 범위 불변.

5.2 WoE 범위 비교

변수 원래 WoE 범위 range 조정 후 범위 range
연체이력 +0.60 ~ −0.70 1.30 +0.80 ~ −0.50 1.30
연소득 +0.55 ~ −0.40 0.95 +0.40 ~ −0.55 0.95
부채비율 +0.50 ~ −0.45 0.95 +0.40 ~ −0.55 0.95
근속연수 +0.40 ~ −0.30 0.70 +0.35 ~ −0.35 0.70
카드수 +0.25 ~ −0.35 0.60 +0.15 ~ −0.45 0.60

변수 중요도 순위: 연체이력 > 연소득 = 부채비율 > 근속연수 > 카드수 — 기준점과 무관하게 불변.

5.3 스코어카드 포인트에서도 동일

포인트 범위 = \(|\beta_j| \times B \times \text{WoE range}\)이므로, WoE range에 정비례한다.

변수 WoE range \(\beta_j\) 포인트 범위 (\(\times B\))
연체이력 1.30 1.10 \(1.10 \times 28.85 \times 1.30 = \mathbf{41.3}\)
부채비율 0.95 0.92 \(0.92 \times 28.85 \times 0.95 = \mathbf{25.2}\)
연소득 0.95 0.85 \(0.85 \times 28.85 \times 0.95 = \mathbf{23.3}\)
근속연수 0.70 0.65 \(0.65 \times 28.85 \times 0.70 = \mathbf{13.1}\)
카드수 0.60 0.70 \(0.70 \times 28.85 \times 0.60 = \mathbf{12.1}\)

기준점을 어디로 잡든 이 포인트 범위는 변하지 않는다.

5.4 흔한 오해: "최대 절대값 = 중요도"?

변수 WoE 범위 max 절대값 range
변수A −10 ~ +10 10 20
변수B −30 ~ +10 30 40

max 절대값만 보면 변수B가 3배 중요해 보이지만, 실제로는 2배(range 기준). 0점 보정(가장 나쁜 구간 = 0)을 하면:

변수 보정 후 범위 range
변수A 0 ~ 20 20
변수B 0 ~ 40 40

"보정 때문에 중요도가 바뀌었다"가 아니라, 원래부터 변수B의 판별력이 2배였는데, 보정 후 더 눈에 띄게 된 것뿐이다.


6. Offset 배분 = 기준점 설정

6.1 핵심 통찰

WoE 방식에서 "기준점 설정이 필요 없다"는 것은 회귀 단계에 한정된 이야기다.

스코어카드 포인트 변환 단계에서 Offset 배분이 사실상 기준점 설정 역할을 한다:

\[\frac{B \times \beta_0}{k}\]

이 값이 모든 bin에 동일하게 더해지면서, 각 변수의 포인트가 특정 수준으로 정렬된다.

6.2 WoE 방식의 실제 흐름 요약

binning → WoE 치환 → 로지스틱 회귀 → β 추정
                                        ↓
                       (여기까지 기준점 신경 안 씀)
                                        ↓
                         Offset 배분으로 기준점 일괄 설정
                                        ↓
                              스코어카드 완성

"기준점 설정이 불필요하다"가 아니라, "회귀가 아닌 포인트 변환 단계에서 한 번에 처리한다"가 정확하다.

6.3 두 방식의 기준점 처리 시점 비교

단계 더미 방식 WoE 방식
인코딩 기준 범주 명시 선택 전체 평균이 자동 기준
회귀 기준 범주 대비 계수 추정 WoE 값에 대한 계수 추정
포인트 변환 기준 범주 = 0점 (자연스러움) Offset 배분으로 기준 설정
최종 결과 동일한 구조의 스코어카드 동일한 구조의 스코어카드

7. 결론

  1. 같은 로지스틱 회귀라도 사상이 다르다. WoE 방식은 단변량 패턴을 고정하고 β로 스케일링만 하며, 더미 방식은 다변량에서 bin별 효과를 자유롭게 재추정한다. WoE의 패턴 고정은 단조성 보장과 과적합 억제라는 의도적 제약이다.

  2. 동일 모형 내에서 기준점 이동은 예측값을 바꾸지 않는다. shift는 절편에 흡수되며, 다변량에서도 변수 간 독립적으로 작동한다.

  3. 변수 중요도는 range(max − min)로 측정하며, 기준점과 무관하다. 포인트 범위 = \(|\beta_j| \times B \times \text{WoE range}\)이므로, 기준점을 어디로 잡든 순위가 보존된다.

  4. 기준점 처리 시점이 다를 뿐이다. 더미는 인코딩에서, WoE는 Offset 배분에서 처리한다. 어느 쪽이든 스코어카드 완성 시점에서는 동일한 구조가 된다.