Classing 의사결정 기준 종합¶
Fine → Coarse Classing 전 과정에서 아래 체크리스트를 순서대로 적용한다.
| 단계 | 확인 항목 | 기준값 | 조치 |
|---|---|---|---|
| Fine Classing | Bin별 샘플 수 | ≥ 전체의 5% | 미달 Bin → 인접 합병 |
| Bad 건수 | ≥ 10건 | 미달 Bin → 인접 합병 | |
| Mass Point 분리 | 집중값 별도 처리 | 0값, 결측 등 단독 Bin | |
| Coarse Classing | WoE 단조성 | 완전 단조 | 위반 구간 합병 |
| Delta WoE | > 0.05 | 미달 구간 합병 | |
| Wald p-value | < 0.05 | 미달 시 Bin 재검토 | |
| 업무 논리 | 경제적 해석 가능 | 통계 우선, 업무 논리 후조정 | |
| 최종 확정 | 전체 후보안 비교 | KS, 유의성, 단조성 종합 | 단변량 LR 결과 반영 |
4.1 각 기준의 근거와 위반 시 위험¶
Bin별 최소 샘플 수 (≥ 5%)¶
Bin에 데이터가 너무 적으면 해당 구간의 Bad Rate와 WoE가 표본 변동에 지배된다. 개발 샘플에서 우연히 WoE가 높게 나왔더라도, 검증 샘플이나 실제 운영에서 완전히 다른 값이 산출될 수 있다.
위반 시 위험
소규모 Bin의 WoE가 불안정하면 모형 계수(β)도 불안정해진다. 결과적으로 스코어카드 점수의 시간적 안정성(PSI)이 악화되고, 모형 모니터링 단계에서 조기 재개발 트리거를 유발할 수 있다.
Bad 건수 (≥ 10건)¶
Bad Rate = Bad 건수 / 전체 건수이므로, Bad 건수가 극소(예: 0~2건)이면 Bad Rate 자체가 0%에 가까운 극단값이 된다. 이 경우 WoE가 양의 무한대로 발산하거나(Bad=0), 미세한 Bad 건수 변동에 WoE가 급변한다.
위반 시 위험
Bad=0인 Bin이 존재하면 WoE 계산에 0.5 스무딩을 적용하더라도 신뢰성이 낮다. 이런 Bin이 모형에 포함되면 해당 구간에 속하는 고객의 점수가 비현실적으로 높거나 낮아지는 현상이 발생한다.
WoE 단조성¶
WoE가 단조적(Bin 번호가 증가할수록 WoE가 일관되게 증가 또는 감소)이어야 변수의 리스크 방향이 명확하다. 비단조적 WoE는 "매출이 늘다가 줄다가 다시 늘면 위험하다"는 식의 해석 불가능한 패턴을 의미한다.
위반 시 위험
비단조 WoE를 가진 변수가 스코어카드에 포함되면 리스크 방향의 비일관성 문제가 발생한다. Basel IRB 모형에서는 단조성 위반이 모형 승인 거부 사유가 될 수 있다.
Delta WoE (> 0.05)¶
인접 Bin 간 WoE 차이가 0.05 미만이면, 두 Bin은 리스크 수준이 사실상 동일하다. 구간을 나눈 의미가 없으며, 불필요하게 Bin 수만 늘리는 결과를 초래한다.
위반 시 위험
유사 WoE Bin이 남아 있으면 단변량 로지스틱 회귀에서 해당 Bin들의 Wald p-value가 비유의(> 0.05)로 나올 가능성이 높다. Bin 수가 과다하면 다변량 회귀에서도 자유도 낭비가 발생한다.
Wald p-value (< 0.05)¶
단변량 로지스틱 회귀에서 Bin별 계수(β)의 Wald 검정 p-value가 0.05 이상이면, 해당 Bin의 WoE가 0과 통계적으로 유의미하게 다르지 않다는 뜻이다.
위반 시 위험
비유의 Bin을 유지하면 모형이 노이즈를 신호로 오인하게 된다. 검증 샘플에서 해당 Bin의 기여도가 소멸하여 모형 성능이 개발 샘플 대비 크게 하락(Overfitting)할 수 있다.
업무 논리 (경제적 해석 가능성)¶
모든 통계 기준을 충족하더라도 비즈니스 관점에서 해석할 수 없는 Classing은 심사역과 감독기관의 수용을 얻기 어렵다. 예를 들어 "매출액 30~50억 구간만 유독 위험하고 50억 이상과 30억 미만은 안전하다"는 U자형 패턴은 통계적으로 유의하더라도 경제적으로 설명하기 어렵다.
4.2 기준 충돌 시 해결 방법¶
실무에서는 여러 기준이 동시에 충족되지 않는 상황이 빈번하다.
| 충돌 상황 | 해결 방향 |
|---|---|
| 단조성은 만족하지만 최소 건수 미달 | 인접 Bin과 합병하여 샘플 수를 확보한다. 합병 후 단조성이 유지되는 방향(WoE가 가장 유사한 인접 Bin)으로 합병. |
| 최소 건수는 충족하지만 단조성 위반 | 단조성을 위반하는 구간끼리 합병한다. 합병 후에도 위반이 해소되지 않으면 해당 변수의 Classing 자체를 재설계하거나 변수 제거를 검토. |
| 통계적으로 비유의하지만 업무상 필요한 구간 | 업무 논리가 명확하면(예: "연체 0건"과 "연체 1건 이상"의 구분) 비유의 Bin을 유지할 수 있다. 단, 모형 문서에 "업무 논리에 의한 예외"로 명기하고 검증 샘플에서의 안정성을 별도 확인. |
| Delta WoE가 작지만 샘플은 충분 | 합병을 우선 검토한다. 합병 후 IV가 크게 하락하지 않으면 합병이 낫다. IV 하락이 유의미하면 Bin을 유지하되 Wald p-value를 확인. |
4.3 Worked Example: "Bin 3과 Bin 4를 합쳐야 하는가?"¶
매출액 변수의 Coarse Classing 결과가 다음과 같다고 하자.
| Bin | 매출액 범위 | Good | Bad | Bad Rate | WoE | Delta WoE |
|---|---|---|---|---|---|---|
| 1 | 1억 미만 | 800 | 120 | 13.0% | −1.05 | — |
| 2 | 1억~5억 | 1,200 | 100 | 7.7% | −0.42 | 0.63 |
| 3 | 5억~10억 | 1,500 | 75 | 4.8% | +0.08 | 0.50 |
| 4 | 10억~30억 | 1,800 | 80 | 4.3% | +0.15 | 0.07 |
| 5 | 30억 이상 | 2,000 | 45 | 2.2% | +0.85 | 0.70 |
문제: Bin 3 → Bin 4의 Delta WoE = 0.07로 기준(0.05)은 초과하지만 경계선이다. 합병해야 하는가?
판단 과정:
- Delta WoE: 0.07 > 0.05 → 기준은 통과하지만 여유가 적음
- Wald p-value: 단변량 LR 수행 결과, Bin 3의 p-value = 0.12, Bin 4의 p-value = 0.08 → 둘 다 비유의
- 합병 시뮬레이션: Bin 3+4 합병 후 WoE = +0.12, 합병 Bin의 p-value = 0.002 → 유의
| 지표 | 합병 전 (Bin 3, 4 분리) | 합병 후 (Bin 3+4 통합) |
|---|---|---|
| Bin 수 | 5 | 4 |
| 전체 IV | 0.38 | 0.36 |
| 비유의 Bin | 2개 (Bin 3, 4) | 0개 |
| 단조성 | 유지 | 유지 |
결론: IV 하락(0.38 → 0.36)은 미미하고, 비유의 Bin 2개가 해소된다. 합병이 바람직하다.
피드백 루프
Classing은 1회로 완성되지 않는다. 단변량 로지스틱 회귀 결과에서 특정 Bin의 계수가 예상과 다르거나 유의하지 않으면 Coarse Classing으로 돌아가 구간을 재조정한다. 이 반복 과정이 최종 스코어카드 품질을 결정한다. 상세 절차는 Classing 피드백 루프를 참고한다.
CB사 실무: KCB 성능지표 기준
KCB(올크레딧)는 개인신용평점 모형의 성능 기준으로 K-S ≥ 50, Divergence ≥ 1.0, GINI ≥ 0.6, PSI < 0.1을 공시하고 있다. Classing 단계에서 각 변수의 KS 기여도가 이러한 전체 모형 성능 목표를 달성할 수 있도록 설계되어야 한다.