콘텐츠로 이동

부록 C: 해석 가능한 ML 실험 설계

"ML 모형의 성능을 유지하면서, 어디까지 해석 가능하게 만들 수 있는가?" 이 질문에 답하기 위한 단계별 실험 프레임워크

작성 중

이 부록은 현재 작성 중이며, 내용이 추가·변경될 수 있습니다.

이 부록의 위치

부록 A에서 분해 이론을, 부록 B에서 상관 변수의 한계를 다뤘다. 부록 C는 이 이론을 바탕으로 실제 모형을 어떻게 설계해야 하는가를 실험적으로 검증한다.


1. 실험의 목적

스코어카드는 해석이 용이하지만 비선형 패턴을 포착하기 어렵고, ML은 성능이 높지만 해석이 어렵다.

이 실험은 두 세계 사이의 최적점을 찾기 위한 것이다:

  • 어떤 조합이 성능 손실 없이 해석 가능한 모형을 만드는가?
  • F-ANOVA shape function으로 본 모형 내부 구조가 어떻게 달라지는가?
  • 스코어카드의 변수 가공 노하우가 ML에서도 유효한가?

2. 세 가지 실험축

모형의 해석 가능성을 결정하는 요인을 세 가지 축으로 분리한다.

축 1: 모형 복잡도 — Hyperparameter

트리의 max_depth가 모형이 학습할 수 있는 interaction의 차수를 결정한다.

설정 interaction 해석 난이도 비고
max_depth=1 main effect만 낮음 EBM과 동등한 구조
max_depth=2 2-way까지 중간 실무 권장 범위
max_depth=3 이상 3-way 이상 높음 자유로운 ML
  • max_depth=1은 변수 간 interaction을 완전히 차단한다. 각 변수가 독립적으로 예측에 기여하므로, F-ANOVA에서 main effect 비율이 100%가 된다.
  • max_depth가 커질수록 고차 interaction이 포함되어 성능은 올라가지만, shape function이 복잡해지고 해석이 어려워진다.

핵심 질문: max_depth=1에서 max_depth=3으로 올렸을 때 성능 개선이 얼마나 되는가? 미미하다면, interaction 없이도 충분하다는 의미다.

축 2: 제약조건 — Constraints

트리 적합 시 변수별 단조 제약(monotone_constraints)을 부여한다.

설정 의미 비고
제약 없음 변수의 효과 방향을 트리가 자유롭게 결정 비단조 패턴 학습 가능
단조 증가 (+1) 변수값이 커질수록 예측값 증가만 허용
단조 감소 (-1) 변수값이 커질수록 예측값 감소만 허용

단조 제약의 효과:

  • shape function이 단조적으로 강제되어, "이 변수가 높으면 리스크가 올라간다/내려간다"로 해석이 단순해짐
  • 스코어카드의 WoE 패턴과 동일한 방향성 보장

단조 제약의 한계:

  • U-shape 변수는 raw 데이터 상태에서 단조 제약을 걸 수 없음
  • 사전에 WoE 변환 등으로 단조 형태로 가공해야 제약 적용이 가능
  • 따라서 축 2(제약)와 축 3(데이터)은 독립적이지 않음

축 3: 데이터 유형 — 입력 변환

모형에 투입하는 변수의 가공 수준을 결정한다.

유형 설명 bin 수 해석 용이성
Raw 원시 연속형 값 그대로 트리가 결정 (수십~수백) 낮음
Binning (Coarse) Fine/Coarse Classing 구간 적용 3~10개 높음
WoE Classing 후 WoE 값으로 변환 3~10개 매우 높음

각 유형의 특성:

Raw 데이터

  • 트리가 스스로 최적의 split point를 탐색
  • 비선형 패턴을 가장 자유롭게 포착
  • F-ANOVA shape function의 bin이 많아 해석 어려움

Binning (Coarse Classing)

  • 단변량 분석에서 검증된 구간을 사전 적용
  • 이상치·결측치가 자연스럽게 처리됨
  • shape function이 해당 구간 위에서만 정의 → 해석 용이

WoE 변환

  • Classing 구간에 WoE 값을 부여하여 수치형으로 변환
  • U-shape 등 비단조 패턴이 단조로 자동 변환
  • 단조 제약(축 2)과 자연스럽게 결합
  • 모든 변수를 monotone_constraints=+1로 통일 가능
  • 결측치, 범주형 변수도 WoE로 자연스럽게 처리

3. 실험 매트릭스

세 축을 교차하면 다음과 같은 실험 조합이 만들어진다.

# 축 1: 복잡도 축 2: 제약 축 3: 데이터 성격
(1) depth ≥ 2 없음 Raw 성능 상한선 — 가장 자유로운 ML
(2) depth ≥ 2 단조성 Raw 제약만 추가 (U-shape 문제 주의)
(3) depth ≥ 2 없음 WoE/Bin 데이터 가공 효과 측정
(4) depth ≥ 2 단조성 WoE/Bin 해석 가능한 ML
(5) depth = 1 없음 Raw interaction 차단 (raw)
(6) depth = 1 없음 WoE/Bin interaction 차단 (가공)
(7) depth = 1 단조성 WoE/Bin 가장 해석 가능한 ML — 스코어카드에 가장 가까움

조합별 의미

(1) 성능 상한선: 어떠한 제약도 없는 순수 ML. 이후 모든 실험의 벤치마크.

(1) vs (4) — 해석의 비용: 성능 차이가 작다면, 해석 가능한 ML을 선택하지 않을 이유가 없다.

(1) vs (3) — 데이터 가공의 효과: WoE 변환으로 인한 정보 손실이 얼마나 되는가.

(3) vs (4) — 단조 제약의 비용: 데이터 가공 후 단조 제약을 추가할 때의 성능 변화.

(1) vs (5) — interaction의 기여: depth를 1로 제한했을 때 성능 하락이 작다면, interaction이 실제로 성능에 기여하는 정도가 제한적이라는 의미.

(5) vs (7) — 가장 보수적인 ML: main effect만 + 단조 + WoE. 스코어카드와 가장 유사한 구조. 이 조합에서도 스코어카드 대비 성능 개선이 있다면, ML 도입의 근거가 가장 명확해진다.


4. 실험 전제: 변수 선정

모든 실험에서 변수 집합은 동일하게 고정한다.

모든 변수를 투입하는 것은 실무적으로 권장되지 않는다:

  • 과적합 위험 증가
  • 전문 길이 제한 (산출식에 담을 수 있는 변수 수 한정)
  • 유사 변수 중복 투입 시 모형 불안정
  • 변수가 많을수록 해석 복잡도 기하급수적 증가

변수를 축소해도 성능 차이가 미미한 경우가 많다. 신용정보 변수들은 정보영역 내 상관이 높아, 20~30개만 잘 선정해도 전체 변수의 정보를 대부분 커버한다.

권장 변수 선정 기준:

  • 정보영역별 대표 변수 선정 (영역 내 중복 제거)
  • 변별력 (KS, AR 등)
  • 안정성 (PSI)
  • 상관성 (영역 간 중복 확인)

5. 평가 지표

성능 지표

  • 변별력: KS, AR (AUC 단독 사용 지양)
  • 등급 분포: 등급별 인원 비율, bad rate
  • 캘리브레이션: 예측 확률 vs 실제 부도율 일치도

안정성 지표

  • PSI (Population Stability Index): 시간에 따른 분포 변화
  • 변수별 CSI: 개별 변수의 시간 안정성

해석 구조 지표 (F-ANOVA)

  • 분산 분해: main effect vs interaction 비율
  • Shape function: bin 수, 단조성 여부, 복잡도
  • Cross-covariance 비율: 분해의 완결성

6. 실험 결과 비교 프레임워크

6-1. 성능 비교 테이블

# 복잡도 제약 데이터 KS AR Main% 2-way% Shape 단조
(1) depth ≥ 2 없음 Raw ? ? ? ? ?
(2) depth ≥ 2 단조 Raw ? ? ? ? ?
(3) depth ≥ 2 없음 WoE ? ? ? ? ?
(4) depth ≥ 2 단조 WoE ? ? ? ? ?
(5) depth = 1 없음 Raw ? ? ? ? ?
(6) depth = 1 없음 WoE ? ? ? ? ?
(7) depth = 1 단조 WoE ? ? ? ? ?

6-2. Shape Function 비교

동일 변수의 shape function을 여러 실험에서 나란히 비교한다. 세 축의 변화가 모형의 내부 구조를 어떻게 바꾸는지 시각적으로 확인한다.

6-3. 핵심 질문에 대한 답

  1. (1) vs (4): 해석 가능한 ML의 성능 비용은 얼마인가?
  2. (1) vs (3): WoE 변환의 정보 손실은 얼마인가?
  3. (1) vs (5): interaction이 실제로 성능에 기여하는가?
  4. (5) vs (7): 가장 보수적인 ML도 스코어카드보다 나은가?
  5. (4) vs (7): interaction 허용의 실익이 있는가?

관련 부록