콘텐츠로 이동

β 부호 이상과 범주 재조정

2.1 영역 내 회귀에서 부호가 뒤집히는 이유

영역 내 Partial LR 결과, 단변량에서 양수(+)였던 β가 음수(−)로 역전되는 경우가 있다. 이는 거의 대부분 동일 영역 내 다중공선성이 원인이다.

\[ \hat{\beta}_j^{\text{partial}} = \hat{\beta}_j^{\text{uni}} - \underbrace{\sum_{k \neq j} \gamma_{jk} \cdot \hat{\beta}_k^{\text{uni}}}_{\text{상관 변수들이 빼앗아 가는 부분}} \]

상관 변수들이 설명하는 부분을 제거한 뒤 남은 잔여 효과가 원래 방향과 반대로 나타나면 부호가 역전된다.

부호 역전의 주요 원인

  1. 강한 다중공선성 (가장 흔함) — 매출액과 총자산처럼 상관이 r > 0.7인 변수 쌍
  2. 서프레서(Suppressor) 효과 — 변수 A가 단독으로는 약하지만, B와 함께 투입하면 B의 오차를 줄여주는 역할. 이 경우 A의 β가 반대 부호를 가질 수 있음
  3. WoE 모노토닉 위반 — Coarse Classing에서 단조성이 완벽하지 않은 경우, 다변량에서 부호 불안정이 나타날 수 있음
  4. 샘플 편향 — 특정 구간에 표본이 극히 적어 해당 구간의 WoE가 불안정

2.2 범주 재조정 피드백 루프

영역 내 Partial LR에서 β 부호가 음(−)으로 나타나면, 다중공선성이 의심된다. 이 경우 범주 재조정 후 해당 영역의 Partial LR을 다시 적합하여 부호를 정상화한다.

구체적인 절차:

β 부호 음(−) 발견
    │
    ├─→ [원인 1] 다중공선성 의심
    │       │
    │       ├─ VIF 확인 → VIF > 5 → 상관 변수 쌍 중 하나 제거
    │       └─ VIF < 5 → 원인 2~4 검토
    │
    ├─→ [원인 2~3] WoE 단조성 위반 또는 구간 불안정
    │       │
    │       └─ 범주 재조정 (Coarse Classing 재설계)
    │              │
    │              ├─ 문제 구간 합병 또는 분할
    │              ├─ WoE 재산출
    │              └─ 영역 내 Partial LR 재적합
    │
    └─→ [원인 4] 어떤 조치로도 해결 불가
            │
            └─ 해당 변수 제거

2.3 범주 재조정이란?

범주 재조정(Bin Restructuring)은 Coarse Classing수정하는 것이다. 단변량 단계에서 확정한 Classing이 다변량 맥락에서 문제를 일으킬 때 수행한다.

주요 재조정 기법

1 문제 구간 합병

WoE가 단조성을 깨는 구간, 또는 샘플이 극히 적은 구간을 인접 구간과 합병한다.

변경 전 Bad Rate WoE 변경 후 Bad Rate WoE
Bin 1 2.1% −0.85 Bin 1 2.1% −0.85
Bin 2 3.5% −0.32 Bin 2+3 4.8% +0.05
Bin 3 7.2% +0.48 (합병)
Bin 4 5.1% +0.12 Bin 4 5.1% +0.12
Bin 5 8.8% +0.72 Bin 5 8.8% +0.72

→ Bin 3의 급등이 Bin 2+3 합병으로 완화되어 단조성 복원

2 구간 경계 이동

특정 경계값이 업무적으로 의미 있는 임계치(예: 부채비율 200%)에 맞지 않을 경우 경계를 조정한다.

3 변수 자체 재설계

원시 변수의 정의를 변경한다. 예를 들어 "총 연체건수"를 "최근 12개월 연체건수"로 기간을 한정하거나, 로그 변환 후 재Classing을 시도한다.

범주 재조정 후 반드시 재확인할 항목

  1. WoE 단조성 유지 여부
  2. IV 수준 유지 여부 (재조정으로 IV가 급감하면 변수 자체의 변별력이 훼손된 것)
  3. 구간별 최소 샘플 기준 충족 여부
  4. 단변량 LR β ≈ −WoE 관계 재확인

2.4 재적합 후 판정

범주 재조정 후 해당 영역의 Partial LR을 처음부터 다시 수행한다.

시나리오 조치
부호 정상 복원 + p < 0.05 + VIF < 5 ✅ 대표 변수로 확정
부호 정상이나 p > 0.05 변수 제거 (유의성 부족)
재조정 후에도 부호 역전 지속 변수 제거 (다중공선성 해소 불가)
IV가 재조정 전보다 30% 이상 감소 재조정이 과도 → 원래 Classing으로 복원 후 변수 제거 검토

실무 판단 기준

범주 재조정은 1~2회 시도하는 것이 일반적이다. 반복적인 재조정은 오히려 데이터에 과적합(Overfitting)하는 위험이 있다. 2회 시도 후에도 부호가 정상화되지 않으면, 해당 변수는 같은 영역 내 다른 변수와 정보가 중복되는 것으로 판단하고 제거하는 것이 합리적이다.

2.5 전체 흐름 요약

단변량 LR 통과 변수 (20~30개)
    │
    ▼
정보영역별 그룹 분류
    │
    ▼
영역별 Partial LR + Stepwise ──→ β 부호 정상 → 대표 변수 확정
    │                                                │
    ▼                                                │
β 부호 음(−) 발견                                    │
    │                                                │
    ├─ VIF > 5 → 상관 변수 제거 → 재적합 ──────────→ │
    │                                                │
    └─ VIF < 5 → 범주 재조정 → 재적합 ──────────────→ │
                                                     │
                                                     ▼
                            영역별 대표 변수 확정 (영역당 2~4개)
                                                     │
                                                     ▼
                            전체 통합 → Full Model (Part 4)

모든 영역의 대표 변수가 확정되면, 이를 통합하여 다변량 WoE 로지스틱 회귀(Full Model)를 구성한다.