콘텐츠로 이동

더미 변수 방식

2.1 수리적 구조

변수 \(j\)\(m_j\)개의 구간을 가질 때, 구간 0을 기준(Reference)으로 두고 나머지 \((m_j-1)\)개 구간에 대한 더미를 생성한다.

\[ \text{logit}(p_i) = \beta_0 + \sum_{j=1}^{k} \sum_{b=1}^{m_j-1} \gamma_{jb} \cdot \mathbf{1}[\text{변수}_j = b] \tag{A.4} \]

\(\gamma_{jb}\)는 "변수 \(j\)가 기준 구간(0번) 대비 \(b\)번 구간에 속할 때의 로짓 차이"다.


2.2 기준점과 계수 해석

기준 범주의 원리

구간 번호가 {0, 1, 2}이면 가장 작은 값인 0번(최위험 구간)을 기준 범주(Reference)로 삼는다. 기준 범주의 더미 벡터는 \([0, 0]\)(모든 더미가 0)이므로, 이 구간에 속한 관측치의 로짓은:

\[ \text{logit}(p) = \beta_0 + \gamma_{j1} \times 0 + \gamma_{j2} \times 0 = \beta_0 \]

즉, 기준 구간의 효과는 절편 \(\beta_0\)에 흡수된다. 나머지 구간의 계수 \(\gamma_{jb}\)는 "기준 구간 대비 로짓이 얼마나 변하는가"를 직접 나타낸다.

수치 예시: DSR 변수 (구간 3개)

DSR(Debt Service Ratio) 변수를 위험도 순서로 코딩한다.

구간 DSR 범위 코드 더미 벡터 \([D_1, D_2]\) 로짓 기여
최위험 ≥70% 0 (기준) \([0, 0]\) \(\beta_0\)
중간 30~70% 1 \([1, 0]\) \(\beta_0 + \gamma_{j1}\)
안전 <30% 2 \([0, 1]\) \(\beta_0 + \gamma_{j2}\)

다변량 회귀 결과가 \(\gamma_{j1} = +0.45\), \(\gamma_{j2} = +0.88\)이었다면:

  • 코드 1(30~70%)에 속한 고객은 최위험 구간 대비 로짓이 +0.45 높음 (더 안전)
  • 코드 2(<30%)에 속한 고객은 최위험 구간 대비 로짓이 +0.88 높음 (가장 안전)

\(\gamma_{j2} > \gamma_{j1} > 0\) — 안전한 구간일수록 계수가 크다. 이 단조 관계가 역전되면 구간화 재검토 신호다.

해석의 직관성

더미 계수는 "최위험 대비 얼마나 개선되었는가"를 직접 읽을 수 있다. 감독기관 보고 시 "DSR 70% 이상 구간 대비 30% 미만 구간의 로짓 개선량은 0.88"처럼 명확한 설명이 가능하다.

WoE 방식과의 차이

WoE 방식에서는 단변량에서 계산한 bin 간 비율이 고정되고, \(\beta_j\) 하나로 전체를 스케일링할 뿐이다. 더미 방식에서는 \(\gamma_{j1}\)\(\gamma_{j2}\)다변량에서 독립적으로 추정되므로, 다른 변수를 통제한 후의 순수한 구간별 효과가 반영된다. 자세한 비교는 두 방식 비교를 참조한다.


2.3 스코어카드 점수 변환

더미 방식에서 각 구간의 \(\gamma_{jb}\) 자체가 상대적 효과이므로 점수 변환이 직접적이다.

\[ \text{부분점수}_{j,0} = 0 \quad (\text{기준 구간}) \tag{A.5} \]
\[ \text{부분점수}_{j,b} = -B \cdot \gamma_{jb} \quad (b \geq 1) \tag{A.6} \]

부호 주의

기준이 최위험 구간(0번)이고 안전 구간의 \(\gamma\)는 양수이므로, \(-B \times \gamma\)를 적용하면 안전 구간의 부분점수는 음수가 된다. 스코어카드 총점 설계 시 기준 구간 절대점수를 먼저 고정한 후, 나머지 구간을 상대점수로 가산하는 방식으로 처리한다.