부록 C: 해석 가능한 ML 실험 설계¶
"ML 모형의 성능을 유지하면서, 어디까지 해석 가능하게 만들 수 있는가?" 이 질문에 답하기 위한 단계별 실험 프레임워크
작성 중
이 부록은 현재 작성 중이며, 내용이 추가·변경될 수 있습니다.
1. 실험의 목적¶
스코어카드는 해석이 용이하지만 비선형 패턴을 포착하기 어렵고, ML은 성능이 높지만 해석이 어렵다.
이 실험은 두 세계 사이의 최적점을 찾기 위한 것이다:
- 어떤 조합이 성능 손실 없이 해석 가능한 모형을 만드는가?
- F-ANOVA shape function으로 본 모형 내부 구조가 어떻게 달라지는가?
- 스코어카드의 변수 가공 노하우가 ML에서도 유효한가?
2. 세 가지 실험축¶
모형의 해석 가능성을 결정하는 요인을 세 가지 축으로 분리한다.
축 1: 모형 복잡도 — Hyperparameter¶
트리의 max_depth가 모형이 학습할 수 있는 interaction의 차수를 결정한다.
| 설정 | interaction | 해석 난이도 | 비고 |
|---|---|---|---|
max_depth=1 |
main effect만 | 낮음 | EBM과 동등한 구조 |
max_depth=2 |
2-way까지 | 중간 | 실무 권장 범위 |
max_depth=3 이상 |
3-way 이상 | 높음 | 자유로운 ML |
max_depth=1은 변수 간 interaction을 완전히 차단한다. 각 변수가 독립적으로 예측에 기여하므로, F-ANOVA에서 main effect 비율이 100%가 된다.max_depth가 커질수록 고차 interaction이 포함되어 성능은 올라가지만, shape function이 복잡해지고 해석이 어려워진다.
핵심 질문: max_depth=1에서 max_depth=3으로 올렸을 때 성능 개선이 얼마나 되는가?
미미하다면, interaction 없이도 충분하다는 의미다.
축 2: 제약조건 — Constraints¶
트리 적합 시 변수별 단조 제약(monotone_constraints)을 부여한다.
| 설정 | 의미 | 비고 |
|---|---|---|
| 제약 없음 | 변수의 효과 방향을 트리가 자유롭게 결정 | 비단조 패턴 학습 가능 |
| 단조 증가 (+1) | 변수값이 커질수록 예측값 증가만 허용 | |
| 단조 감소 (-1) | 변수값이 커질수록 예측값 감소만 허용 |
단조 제약의 효과:
- shape function이 단조적으로 강제되어, "이 변수가 높으면 리스크가 올라간다/내려간다"로 해석이 단순해짐
- 스코어카드의 WoE 패턴과 동일한 방향성 보장
단조 제약의 한계:
- U-shape 변수는 raw 데이터 상태에서 단조 제약을 걸 수 없음
- 사전에 WoE 변환 등으로 단조 형태로 가공해야 제약 적용이 가능
- 따라서 축 2(제약)와 축 3(데이터)은 독립적이지 않음
축 3: 데이터 유형 — 입력 변환¶
모형에 투입하는 변수의 가공 수준을 결정한다.
| 유형 | 설명 | bin 수 | 해석 용이성 |
|---|---|---|---|
| Raw | 원시 연속형 값 그대로 | 트리가 결정 (수십~수백) | 낮음 |
| Binning (Coarse) | Fine/Coarse Classing 구간 적용 | 3~10개 | 높음 |
| WoE | Classing 후 WoE 값으로 변환 | 3~10개 | 매우 높음 |
각 유형의 특성:
Raw 데이터
- 트리가 스스로 최적의 split point를 탐색
- 비선형 패턴을 가장 자유롭게 포착
- F-ANOVA shape function의 bin이 많아 해석 어려움
Binning (Coarse Classing)
- 단변량 분석에서 검증된 구간을 사전 적용
- 이상치·결측치가 자연스럽게 처리됨
- shape function이 해당 구간 위에서만 정의 → 해석 용이
WoE 변환
- Classing 구간에 WoE 값을 부여하여 수치형으로 변환
- U-shape 등 비단조 패턴이 단조로 자동 변환
- 단조 제약(축 2)과 자연스럽게 결합
- 모든 변수를
monotone_constraints=+1로 통일 가능 - 결측치, 범주형 변수도 WoE로 자연스럽게 처리
3. 실험 매트릭스¶
세 축을 교차하면 다음과 같은 실험 조합이 만들어진다.
| # | 축 1: 복잡도 | 축 2: 제약 | 축 3: 데이터 | 성격 |
|---|---|---|---|---|
| (1) | depth ≥ 2 | 없음 | Raw | 성능 상한선 — 가장 자유로운 ML |
| (2) | depth ≥ 2 | 단조성 | Raw | 제약만 추가 (U-shape 문제 주의) |
| (3) | depth ≥ 2 | 없음 | WoE/Bin | 데이터 가공 효과 측정 |
| (4) | depth ≥ 2 | 단조성 | WoE/Bin | 해석 가능한 ML |
| (5) | depth = 1 | 없음 | Raw | interaction 차단 (raw) |
| (6) | depth = 1 | 없음 | WoE/Bin | interaction 차단 (가공) |
| (7) | depth = 1 | 단조성 | WoE/Bin | 가장 해석 가능한 ML — 스코어카드에 가장 가까움 |
조합별 의미¶
(1) 성능 상한선: 어떠한 제약도 없는 순수 ML. 이후 모든 실험의 벤치마크.
(1) vs (4) — 해석의 비용: 성능 차이가 작다면, 해석 가능한 ML을 선택하지 않을 이유가 없다.
(1) vs (3) — 데이터 가공의 효과: WoE 변환으로 인한 정보 손실이 얼마나 되는가.
(3) vs (4) — 단조 제약의 비용: 데이터 가공 후 단조 제약을 추가할 때의 성능 변화.
(1) vs (5) — interaction의 기여: depth를 1로 제한했을 때 성능 하락이 작다면, interaction이 실제로 성능에 기여하는 정도가 제한적이라는 의미.
(5) vs (7) — 가장 보수적인 ML: main effect만 + 단조 + WoE. 스코어카드와 가장 유사한 구조. 이 조합에서도 스코어카드 대비 성능 개선이 있다면, ML 도입의 근거가 가장 명확해진다.
4. 실험 전제: 변수 선정¶
모든 실험에서 변수 집합은 동일하게 고정한다.
모든 변수를 투입하는 것은 실무적으로 권장되지 않는다:
- 과적합 위험 증가
- 전문 길이 제한 (산출식에 담을 수 있는 변수 수 한정)
- 유사 변수 중복 투입 시 모형 불안정
- 변수가 많을수록 해석 복잡도 기하급수적 증가
변수를 축소해도 성능 차이가 미미한 경우가 많다. 신용정보 변수들은 정보영역 내 상관이 높아, 20~30개만 잘 선정해도 전체 변수의 정보를 대부분 커버한다.
권장 변수 선정 기준:
- 정보영역별 대표 변수 선정 (영역 내 중복 제거)
- 변별력 (KS, AR 등)
- 안정성 (PSI)
- 상관성 (영역 간 중복 확인)
5. 평가 지표¶
성능 지표¶
- 변별력: KS, AR (AUC 단독 사용 지양)
- 등급 분포: 등급별 인원 비율, bad rate
- 캘리브레이션: 예측 확률 vs 실제 부도율 일치도
안정성 지표¶
- PSI (Population Stability Index): 시간에 따른 분포 변화
- 변수별 CSI: 개별 변수의 시간 안정성
해석 구조 지표 (F-ANOVA)¶
- 분산 분해: main effect vs interaction 비율
- Shape function: bin 수, 단조성 여부, 복잡도
- Cross-covariance 비율: 분해의 완결성
6. 실험 결과 비교 프레임워크¶
6-1. 성능 비교 테이블¶
| # | 복잡도 | 제약 | 데이터 | KS | AR | Main% | 2-way% | Shape 단조 |
|---|---|---|---|---|---|---|---|---|
| (1) | depth ≥ 2 | 없음 | Raw | ? | ? | ? | ? | ? |
| (2) | depth ≥ 2 | 단조 | Raw | ? | ? | ? | ? | ? |
| (3) | depth ≥ 2 | 없음 | WoE | ? | ? | ? | ? | ? |
| (4) | depth ≥ 2 | 단조 | WoE | ? | ? | ? | ? | ? |
| (5) | depth = 1 | 없음 | Raw | ? | ? | ? | ? | ? |
| (6) | depth = 1 | 없음 | WoE | ? | ? | ? | ? | ? |
| (7) | depth = 1 | 단조 | WoE | ? | ? | ? | ? | ? |
6-2. Shape Function 비교¶
동일 변수의 shape function을 여러 실험에서 나란히 비교한다. 세 축의 변화가 모형의 내부 구조를 어떻게 바꾸는지 시각적으로 확인한다.
6-3. 핵심 질문에 대한 답¶
- (1) vs (4): 해석 가능한 ML의 성능 비용은 얼마인가?
- (1) vs (3): WoE 변환의 정보 손실은 얼마인가?
- (1) vs (5): interaction이 실제로 성능에 기여하는가?
- (5) vs (7): 가장 보수적인 ML도 스코어카드보다 나은가?
- (4) vs (7): interaction 허용의 실익이 있는가?
관련 부록
- 부록 A: SHAP과 Functional ANOVA — 분해 이론
- 부록 B: 변수 상관과 모형 해석 — 상관 변수의 한계