β 부호 이상과 범주 재조정¶
2.1 영역 내 회귀에서 부호가 뒤집히는 이유¶
영역 내 Partial LR 결과, 단변량에서 양수(+)였던 β가 음수(−)로 역전되는 경우가 있다. 이는 거의 대부분 동일 영역 내 다중공선성이 원인이다.
상관 변수들이 설명하는 부분을 제거한 뒤 남은 잔여 효과가 원래 방향과 반대로 나타나면 부호가 역전된다.
부호 역전의 주요 원인
- 강한 다중공선성 (가장 흔함) — 매출액과 총자산처럼 상관이 r > 0.7인 변수 쌍
- 서프레서(Suppressor) 효과 — 변수 A가 단독으로는 약하지만, B와 함께 투입하면 B의 오차를 줄여주는 역할. 이 경우 A의 β가 반대 부호를 가질 수 있음
- WoE 모노토닉 위반 — Coarse Classing에서 단조성이 완벽하지 않은 경우, 다변량에서 부호 불안정이 나타날 수 있음
- 샘플 편향 — 특정 구간에 표본이 극히 적어 해당 구간의 WoE가 불안정
2.2 범주 재조정 피드백 루프¶
영역 내 Partial LR에서 β 부호가 음(−)으로 나타나면, 다중공선성이 의심된다. 이 경우 범주 재조정 후 해당 영역의 Partial LR을 다시 적합하여 부호를 정상화한다.
구체적인 절차:
β 부호 음(−) 발견
│
├─→ [원인 1] 다중공선성 의심
│ │
│ ├─ VIF 확인 → VIF > 5 → 상관 변수 쌍 중 하나 제거
│ └─ VIF < 5 → 원인 2~4 검토
│
├─→ [원인 2~3] WoE 단조성 위반 또는 구간 불안정
│ │
│ └─ 범주 재조정 (Coarse Classing 재설계)
│ │
│ ├─ 문제 구간 합병 또는 분할
│ ├─ WoE 재산출
│ └─ 영역 내 Partial LR 재적합
│
└─→ [원인 4] 어떤 조치로도 해결 불가
│
└─ 해당 변수 제거
2.3 범주 재조정이란?¶
범주 재조정(Bin Restructuring)은 Coarse Classing을 수정하는 것이다. 단변량 단계에서 확정한 Classing이 다변량 맥락에서 문제를 일으킬 때 수행한다.
주요 재조정 기법¶
1 문제 구간 합병
WoE가 단조성을 깨는 구간, 또는 샘플이 극히 적은 구간을 인접 구간과 합병한다.
| 변경 전 | Bad Rate | WoE | 변경 후 | Bad Rate | WoE |
|---|---|---|---|---|---|
| Bin 1 | 2.1% | −0.85 | Bin 1 | 2.1% | −0.85 |
| Bin 2 | 3.5% | −0.32 | Bin 2+3 | 4.8% | +0.05 |
| Bin 3 | 7.2% | +0.48 | (합병) | ||
| Bin 4 | 5.1% | +0.12 | Bin 4 | 5.1% | +0.12 |
| Bin 5 | 8.8% | +0.72 | Bin 5 | 8.8% | +0.72 |
→ Bin 3의 급등이 Bin 2+3 합병으로 완화되어 단조성 복원
2 구간 경계 이동
특정 경계값이 업무적으로 의미 있는 임계치(예: 부채비율 200%)에 맞지 않을 경우 경계를 조정한다.
3 변수 자체 재설계
원시 변수의 정의를 변경한다. 예를 들어 "총 연체건수"를 "최근 12개월 연체건수"로 기간을 한정하거나, 로그 변환 후 재Classing을 시도한다.
범주 재조정 후 반드시 재확인할 항목
- WoE 단조성 유지 여부
- IV 수준 유지 여부 (재조정으로 IV가 급감하면 변수 자체의 변별력이 훼손된 것)
- 구간별 최소 샘플 기준 충족 여부
- 단변량 LR β ≈ −WoE 관계 재확인
2.4 재적합 후 판정¶
범주 재조정 후 해당 영역의 Partial LR을 처음부터 다시 수행한다.
| 시나리오 | 조치 |
|---|---|
| 부호 정상 복원 + p < 0.05 + VIF < 5 | ✅ 대표 변수로 확정 |
| 부호 정상이나 p > 0.05 | 변수 제거 (유의성 부족) |
| 재조정 후에도 부호 역전 지속 | 변수 제거 (다중공선성 해소 불가) |
| IV가 재조정 전보다 30% 이상 감소 | 재조정이 과도 → 원래 Classing으로 복원 후 변수 제거 검토 |
실무 판단 기준
범주 재조정은 1~2회 시도하는 것이 일반적이다. 반복적인 재조정은 오히려 데이터에 과적합(Overfitting)하는 위험이 있다. 2회 시도 후에도 부호가 정상화되지 않으면, 해당 변수는 같은 영역 내 다른 변수와 정보가 중복되는 것으로 판단하고 제거하는 것이 합리적이다.
2.5 전체 흐름 요약¶
단변량 LR 통과 변수 (20~30개)
│
▼
정보영역별 그룹 분류
│
▼
영역별 Partial LR + Stepwise ──→ β 부호 정상 → 대표 변수 확정
│ │
▼ │
β 부호 음(−) 발견 │
│ │
├─ VIF > 5 → 상관 변수 제거 → 재적합 ──────────→ │
│ │
└─ VIF < 5 → 범주 재조정 → 재적합 ──────────────→ │
│
▼
영역별 대표 변수 확정 (영역당 2~4개)
│
▼
전체 통합 → Full Model (Part 4)
모든 영역의 대표 변수가 확정되면, 이를 통합하여 다변량 WoE 로지스틱 회귀(Full Model)를 구성한다.