더미 변수 방식¶
2.1 수리적 구조¶
변수 \(j\)가 \(m_j\)개의 구간을 가질 때, 구간 0을 기준(Reference)으로 두고 나머지 \((m_j-1)\)개 구간에 대한 더미를 생성한다.
\(\gamma_{jb}\)는 "변수 \(j\)가 기준 구간(0번) 대비 \(b\)번 구간에 속할 때의 로짓 차이"다.
2.2 기준점과 계수 해석¶
기준 범주의 원리¶
구간 번호가 {0, 1, 2}이면 가장 작은 값인 0번(최위험 구간)을 기준 범주(Reference)로 삼는다. 기준 범주의 더미 벡터는 \([0, 0]\)(모든 더미가 0)이므로, 이 구간에 속한 관측치의 로짓은:
즉, 기준 구간의 효과는 절편 \(\beta_0\)에 흡수된다. 나머지 구간의 계수 \(\gamma_{jb}\)는 "기준 구간 대비 로짓이 얼마나 변하는가"를 직접 나타낸다.
수치 예시: DSR 변수 (구간 3개)¶
DSR(Debt Service Ratio) 변수를 위험도 순서로 코딩한다.
| 구간 | DSR 범위 | 코드 | 더미 벡터 \([D_1, D_2]\) | 로짓 기여 |
|---|---|---|---|---|
| 최위험 | ≥70% | 0 (기준) | \([0, 0]\) | \(\beta_0\) |
| 중간 | 30~70% | 1 | \([1, 0]\) | \(\beta_0 + \gamma_{j1}\) |
| 안전 | <30% | 2 | \([0, 1]\) | \(\beta_0 + \gamma_{j2}\) |
다변량 회귀 결과가 \(\gamma_{j1} = +0.45\), \(\gamma_{j2} = +0.88\)이었다면:
- 코드 1(30~70%)에 속한 고객은 최위험 구간 대비 로짓이 +0.45 높음 (더 안전)
- 코드 2(<30%)에 속한 고객은 최위험 구간 대비 로짓이 +0.88 높음 (가장 안전)
\(\gamma_{j2} > \gamma_{j1} > 0\) — 안전한 구간일수록 계수가 크다. 이 단조 관계가 역전되면 구간화 재검토 신호다.
해석의 직관성
더미 계수는 "최위험 대비 얼마나 개선되었는가"를 직접 읽을 수 있다. 감독기관 보고 시 "DSR 70% 이상 구간 대비 30% 미만 구간의 로짓 개선량은 0.88"처럼 명확한 설명이 가능하다.
WoE 방식과의 차이
WoE 방식에서는 단변량에서 계산한 bin 간 비율이 고정되고, \(\beta_j\) 하나로 전체를 스케일링할 뿐이다. 더미 방식에서는 \(\gamma_{j1}\)과 \(\gamma_{j2}\)가 다변량에서 독립적으로 추정되므로, 다른 변수를 통제한 후의 순수한 구간별 효과가 반영된다. 자세한 비교는 두 방식 비교를 참조한다.
2.3 스코어카드 점수 변환¶
더미 방식에서 각 구간의 \(\gamma_{jb}\) 자체가 상대적 효과이므로 점수 변환이 직접적이다.
부호 주의
기준이 최위험 구간(0번)이고 안전 구간의 \(\gamma\)는 양수이므로, \(-B \times \gamma\)를 적용하면 안전 구간의 부분점수는 음수가 된다. 스코어카드 총점 설계 시 기준 구간 절대점수를 먼저 고정한 후, 나머지 구간을 상대점수로 가산하는 방식으로 처리한다.