콘텐츠로 이동

모델 검증과 모니터링

1.1 검증의 목적

모형을 만드는 것과 쓸 수 있다고 판단하는 것은 다른 문제다. 검증은 모형이 실전에서도 안정적으로 작동할 것이라는 근거를 확보하는 과정이다.

단계 질문 도구
개발 중 Train 대비 Valid 성능 차이는? CV, Hold-out
개발 완료 미래 데이터에서도 통하는가? OOT 검증
운영 중 모형이 여전히 유효한가? PSI, 성능 모니터링

데이터 분리 전략 참조

Train/Valid/Test, CV, OOS, 층화추출에 대한 상세한 설명은 데이터 분리 전략 페이지에서 다루었다. 이 페이지에서는 성능 지표운영 모니터링에 집중한다.


1.2 성능 지표

변별력 지표(AUC, KS, Gini, AR/CAP)의 수학적 정의와 해석은 스코어카드 섹션의 모형 성능 평가: KS · AR · Gini에서 상세히 다루었다. 여기서는 ML 모형 평가 시의 핵심 포인트만 짚는다.

지표 핵심 ML 모형에서의 주의점
AUC-ROC 전체 threshold에 걸친 평균적 분리력 0.9 이상이면 데이터 누수(Leakage) 의심
KS Good/Bad 누적분포 간 최대 차이 트리 모형에서 동점자(tied scores)가 많으면 KS가 과대평가될 수 있음
Gini \(2 \times \text{AUC} - 1\) AUC와 1:1 대응이므로 둘 중 하나만 보고
CAP/AR 상위 n%로 전체 Bad의 몇 %를 포착하는가 실무적으로 가장 직관적

AUC 0.9 이상은 의심해야 한다

신용평가에서 AUC가 0.9를 넘으면 대부분 데이터 누수(Leakage)의 신호다. 부도 후에야 관측되는 변수(예: 연체일수)가 학습 변수에 포함된 경우 등을 점검해야 한다.


1.3 OOT (Out-of-Time) 검증

OOT 검증의 개념, 샘플 설계, 확인 항목, 성능 급락 시 대응 등 공통 프레임워크는 스코어카드 섹션의 OOT 검증에서 상세히 다루었다. 여기서는 ML 모형에서 추가로 고려할 사항만 짚는다.

ML 모형의 OOT 특이점

항목 전통 스코어카드 ML (트리 앙상블)
변수 기여도 안정성 β 계수 고정 → OOT에서도 동일 SHAP 순위가 OOT에서 달라질 수 있음 → Top 5 변수의 순위 변동 점검
과적합 위험 변수 10~15개, 구조 단순 → 과적합 가능성 낮음 변수 수십~수백, 트리 수천 → OOT 성능 하락폭이 더 클 수 있음
동점자 문제 WoE 구간 → 예측값 종류 명확 트리 리프 조합에 따라 동점자 비율 변동 → 등급 구간 설정 시 주의
재현성 동일 데이터·코드로 완벽 재현 GPU 비결정성, 라이브러리 버전 차이 → 환경 고정(pinning) 필요

ML OOT 기준

ML 모형은 전통 스코어카드보다 In-Sample 성능이 높은 대신, OOT 하락폭도 더 클 수 있다. OOT AUC 하락 5%p 이내, KS 하락 10%p 이내가 일반적 허용 범위이며, SHAP Top 5 변수가 OOT에서도 Top 5~7 이내를 유지하는지 확인한다.


1.4 모형 모니터링과 재개발

모형은 배포 후에도 지속적으로 감시해야 한다. 시간이 지나면 모집단이 변하고, 모형의 유효성이 떨어진다.

PSI/CSI를 통한 분포 안정성 모니터링, 변별력 추이 추적, Back-testing, 리캘리브레이션 vs 재개발 판단, 거버넌스 체계 등은 전통 스코어카드와 ML 모형에 공통으로 적용되는 프레임워크다. 이에 대한 상세한 내용은 스코어카드 섹션의 모형 모니터링과 운영에서, 규제 요건은 규제 프레임워크에서 다룬다.

여기서는 ML 모형에서 추가로 고려할 사항만 짚는다.

ML 모형의 모니터링 특이점

항목 전통 스코어카드 ML (트리 앙상블)
변수 기여도 추적 β 계수가 고정 — 모니터링 불필요 SHAP 순위가 시점마다 달라질 수 있음 → SHAP 안정성 모니터링 필요
모형 복잡도 변수 10~15개, 구조 단순 변수 수십~수백 개, 트리 수천 개 → CSI 대상 변수가 많아 자동화 필수
동점자 문제 WoE 구간 수 = 예측값 종류 (명확) 트리 리프 조합에 따라 동점자 비율이 변동 → PSI 구간 설정 시 주의
재현성 동일 데이터·코드로 완벽 재현 GPU 비결정성, 라이브러리 버전 차이 → 환경 고정(pinning) 필요

다음 페이지

규제 프레임워크 --- SR 11-7, EU AI Act, 한국 금융 AI 가이드라인을 다룬다.