부록 C: 해석 가능한 ML 실험 설계¶

"ML 모형의 성능을 유지하면서, 어디까지 해석 가능하게 만들 수 있는가?" 이 질문에 답하기 위한 단계별 실험 프레임워크

작성 중

이 부록은 현재 작성 중이며, 내용이 추가·변경될 수 있습니다.

이 부록의 위치

부록 A에서 분해 이론을, 부록 B에서 상관 변수의 한계를 다뤘다. 부록 C는 이 이론을 바탕으로 실제 모형을 어떻게 설계해야 하는가를 실험적으로 검증한다.

1. 실험의 목적¶

스코어카드는 해석이 용이하지만 비선형 패턴을 포착하기 어렵고, ML은 성능이 높지만 해석이 어렵다.

이 실험은 두 세계 사이의 최적점을 찾기 위한 것이다:

어떤 조합이 성능 손실 없이 해석 가능한 모형을 만드는가?
F-ANOVA shape function으로 본 모형 내부 구조가 어떻게 달라지는가?
스코어카드의 변수 가공 노하우가 ML에서도 유효한가?

2. 세 가지 실험축¶

모형의 해석 가능성을 결정하는 요인을 세 가지 축으로 분리한다.

축 1: 모형 복잡도 — Hyperparameter¶

트리의 max_depth가 모형이 학습할 수 있는 interaction의 차수를 결정한다.

설정	interaction	해석 난이도	비고
`max_depth=1`	main effect만	낮음	EBM과 동등한 구조
`max_depth=2`	2-way까지	중간	실무 권장 범위
`max_depth=3` 이상	3-way 이상	높음	자유로운 ML

max_depth=1은 변수 간 interaction을 완전히 차단한다. 각 변수가 독립적으로 예측에 기여하므로, F-ANOVA에서 main effect 비율이 100%가 된다.
max_depth가 커질수록 고차 interaction이 포함되어 성능은 올라가지만, shape function이 복잡해지고 해석이 어려워진다.

핵심 질문: max_depth=1에서 max_depth=3으로 올렸을 때 성능 개선이 얼마나 되는가? 미미하다면, interaction 없이도 충분하다는 의미다.

축 2: 제약조건 — Constraints¶

트리 적합 시 변수별 단조 제약(monotone_constraints)을 부여한다.

설정	의미	비고
제약 없음	변수의 효과 방향을 트리가 자유롭게 결정	비단조 패턴 학습 가능
단조 증가 (+1)	변수값이 커질수록 예측값 증가만 허용
단조 감소 (-1)	변수값이 커질수록 예측값 감소만 허용

단조 제약의 효과:

shape function이 단조적으로 강제되어, "이 변수가 높으면 리스크가 올라간다/내려간다"로 해석이 단순해짐
스코어카드의 WoE 패턴과 동일한 방향성 보장

단조 제약의 한계:

U-shape 변수는 raw 데이터 상태에서 단조 제약을 걸 수 없음
사전에 WoE 변환 등으로 단조 형태로 가공해야 제약 적용이 가능
따라서 축 2(제약)와 축 3(데이터)은 독립적이지 않음

축 3: 데이터 유형 — 입력 변환¶

모형에 투입하는 변수의 가공 수준을 결정한다.

유형	설명	bin 수	해석 용이성
Raw	원시 연속형 값 그대로	트리가 결정 (수십~수백)	낮음
Binning (Coarse)	Fine/Coarse Classing 구간 적용	3~10개	높음
WoE	Classing 후 WoE 값으로 변환	3~10개	매우 높음

각 유형의 특성:

Raw 데이터

트리가 스스로 최적의 split point를 탐색
비선형 패턴을 가장 자유롭게 포착
F-ANOVA shape function의 bin이 많아 해석 어려움

Binning (Coarse Classing)

단변량 분석에서 검증된 구간을 사전 적용
이상치·결측치가 자연스럽게 처리됨
shape function이 해당 구간 위에서만 정의 → 해석 용이

WoE 변환

Classing 구간에 WoE 값을 부여하여 수치형으로 변환
U-shape 등 비단조 패턴이 단조로 자동 변환
단조 제약(축 2)과 자연스럽게 결합
모든 변수를 monotone_constraints=+1로 통일 가능
결측치, 범주형 변수도 WoE로 자연스럽게 처리

3. 실험 매트릭스¶

세 축을 교차하면 다음과 같은 실험 조합이 만들어진다.

#	축 1: 복잡도	축 2: 제약	축 3: 데이터	성격
(1)	depth ≥ 2	없음	Raw	성능 상한선 — 가장 자유로운 ML
(2)	depth ≥ 2	단조성	Raw	제약만 추가 (U-shape 문제 주의)
(3)	depth ≥ 2	없음	WoE/Bin	데이터 가공 효과 측정
(4)	depth ≥ 2	단조성	WoE/Bin	해석 가능한 ML
(5)	depth = 1	없음	Raw	interaction 차단 (raw)
(6)	depth = 1	없음	WoE/Bin	interaction 차단 (가공)
(7)	depth = 1	단조성	WoE/Bin	가장 해석 가능한 ML — 스코어카드에 가장 가까움

조합별 의미¶

(1) 성능 상한선: 어떠한 제약도 없는 순수 ML. 이후 모든 실험의 벤치마크.

(1) vs (4) — 해석의 비용: 성능 차이가 작다면, 해석 가능한 ML을 선택하지 않을 이유가 없다.

(1) vs (3) — 데이터 가공의 효과: WoE 변환으로 인한 정보 손실이 얼마나 되는가.

(3) vs (4) — 단조 제약의 비용: 데이터 가공 후 단조 제약을 추가할 때의 성능 변화.

(1) vs (5) — interaction의 기여: depth를 1로 제한했을 때 성능 하락이 작다면, interaction이 실제로 성능에 기여하는 정도가 제한적이라는 의미.

(5) vs (7) — 가장 보수적인 ML: main effect만 + 단조 + WoE. 스코어카드와 가장 유사한 구조. 이 조합에서도 스코어카드 대비 성능 개선이 있다면, ML 도입의 근거가 가장 명확해진다.

4. 실험 전제: 변수 선정¶

모든 실험에서 변수 집합은 동일하게 고정한다.

모든 변수를 투입하는 것은 실무적으로 권장되지 않는다:

과적합 위험 증가
전문 길이 제한 (산출식에 담을 수 있는 변수 수 한정)
유사 변수 중복 투입 시 모형 불안정
변수가 많을수록 해석 복잡도 기하급수적 증가

변수를 축소해도 성능 차이가 미미한 경우가 많다. 신용정보 변수들은 정보영역 내 상관이 높아, 20~30개만 잘 선정해도 전체 변수의 정보를 대부분 커버한다.

권장 변수 선정 기준:

정보영역별 대표 변수 선정 (영역 내 중복 제거)
변별력 (KS, AR 등)
안정성 (PSI)
상관성 (영역 간 중복 확인)

5. 평가 지표¶

성능 지표¶

변별력: KS, AR (AUC 단독 사용 지양)
등급 분포: 등급별 인원 비율, bad rate
캘리브레이션: 예측 확률 vs 실제 부도율 일치도

안정성 지표¶

PSI (Population Stability Index): 시간에 따른 분포 변화
변수별 CSI: 개별 변수의 시간 안정성

해석 구조 지표 (F-ANOVA)¶

분산 분해: main effect vs interaction 비율
Shape function: bin 수, 단조성 여부, 복잡도
Cross-covariance 비율: 분해의 완결성

6. 실험 결과 비교 프레임워크¶

6-1. 성능 비교 테이블¶

#	복잡도	제약	데이터	KS	AR	Main%	2-way%	Shape 단조
(1)	depth ≥ 2	없음	Raw	?	?	?	?	?
(2)	depth ≥ 2	단조	Raw	?	?	?	?	?
(3)	depth ≥ 2	없음	WoE	?	?	?	?	?
(4)	depth ≥ 2	단조	WoE	?	?	?	?	?
(5)	depth = 1	없음	Raw	?	?	?	?	?
(6)	depth = 1	없음	WoE	?	?	?	?	?
(7)	depth = 1	단조	WoE	?	?	?	?	?

6-2. Shape Function 비교¶

동일 변수의 shape function을 여러 실험에서 나란히 비교한다. 세 축의 변화가 모형의 내부 구조를 어떻게 바꾸는지 시각적으로 확인한다.

6-3. 핵심 질문에 대한 답¶

(1) vs (4): 해석 가능한 ML의 성능 비용은 얼마인가?
(1) vs (3): WoE 변환의 정보 손실은 얼마인가?
(1) vs (5): interaction이 실제로 성능에 기여하는가?
(5) vs (7): 가장 보수적인 ML도 스코어카드보다 나은가?
(4) vs (7): interaction 허용의 실익이 있는가?

관련 부록

부록 A: SHAP과 Functional ANOVA — 분해 이론
부록 B: 변수 상관과 모형 해석 — 상관 변수의 한계