모형 모니터링과 운영¶
모형은 개발이 끝이 아니다. 배포 이후 환경은 끊임없이 변한다 — 포트폴리오 구성, 경기 국면, 심사 정책, 데이터 시스템 모두 움직인다. 개발 당시 최고 성능이었던 모형도 시간이 지나면 열화(Degradation)된다. 모니터링은 이 열화를 조기에 감지하고, 적시에 리캘리브레이션 또는 재개발 판단을 내리기 위한 체계다.
4.1 모니터링 프레임워크 — 무엇을 왜 보는가¶
모형 모니터링은 크게 세 축으로 구성된다.
| 축 | 핵심 질문 | 주요 지표 |
|---|---|---|
| 안정성 (Stability) | 입력 데이터 분포가 변했는가? | PSI, CSI |
| 변별력 (Discrimination) | 모형이 여전히 Good/Bad를 잘 구분하는가? | KS, AR/Gini, AUC 추이 |
| 정확성 (Calibration) | 예측 확률이 실제 부도율과 일치하는가? | 등급별 예측 PD vs 실현 PD, Binomial Test |
세 축의 관계
안정성 지표(PSI·CSI)는 선행 지표다. 입력 분포가 먼저 변하고, 그 결과로 변별력과 정확성이 뒤따라 나빠진다. 따라서 PSI·CSI가 임계값을 넘으면 변별력·정확성이 아직 괜찮더라도 선제적으로 원인을 분석해야 한다.
4.2 CSI (Characteristic Stability Index) — 변수별 안정성¶
성능 평가에서 다룬 PSI가 최종 점수 분포의 이동을 측정한다면, CSI는 개별 변수(Characteristic)의 분포 이동을 측정한다. 수식 구조는 PSI와 동일하되, 대상이 점수가 아닌 각 변수의 WoE 구간(bin)이다.
여기서 \(j\)는 변수 인덱스, \(B_j\)는 해당 변수의 bin 수, \(E_{jb}\)는 개발 샘플의 bin b 비율, \(A_{jb}\)는 비교 시점의 bin b 비율이다.
PSI와 CSI의 관계¶
PSI = 모형 전체, CSI = 변수별 분해
PSI가 높게 나왔을 때, 어떤 변수가 원인인지 파악하려면 CSI를 봐야 한다. 예를 들어 PSI = 0.18이면 "점수 분포가 움직였다"는 사실만 알 수 있다. CSI를 확인하면 "변수 X3(부채비율)의 CSI = 0.14로 대부분의 이동이 이 변수에서 발생"처럼 원인을 특정할 수 있다.
CSI 계산 예시¶
아래는 5개 변수 모형에서 분기별 CSI를 산출한 예시다.
| 변수 | 설명 | CSI | 판정 |
|---|---|---|---|
| X1 | 최근 6개월 연체 횟수 | 0.03 | 안정 |
| X2 | 총 대출 잔액 | 0.05 | 안정 |
| X3 | 부채비율 (DTI) | 0.14 | 소폭 이동 — 원인 분석 필요 |
| X4 | 신용거래 기간 | 0.02 | 안정 |
| X5 | 최근 조회 건수 | 0.04 | 안정 |
CSI 판정 기준
CSI의 임계값은 PSI와 동일한 기준(0.10 / 0.25)을 적용하는 것이 일반적이다. 다만 변수 수가 많은 모형에서는 개별 CSI 임계값을 다소 보수적(예: 0.08)으로 설정하는 기관도 있다.
CSI 상승 시 조치 흐름¶
CSI 임계값 초과 → 해당 변수의 bin별 비율 변화 확인 → 외부 요인(정책·경기·시스템) vs 내부 요인(데이터 오류) 구분 → 일시적 변동이면 모니터링 지속, 구조적 변동이면 리캘리브레이션/재개발 검토
4.3 변별력 추이 모니터링¶
분기별 KS · AR 추이 추적¶
변별력 지표는 개발 시점의 단일 값이 아니라, 운영 중 시계열로 추적해야 한다. 분기별(또는 월별)로 KS·AR을 산출하여 추이를 관찰한다.
| 시점 | KS | AR (Gini) | PSI | 비고 |
|---|---|---|---|---|
| 개발 (2023 Q1) | 38.2 | 0.54 | — | 기준 시점 |
| 2023 Q2 | 37.5 | 0.53 | 0.02 | 안정 |
| 2023 Q3 | 36.8 | 0.51 | 0.04 | 안정 |
| 2023 Q4 | 35.1 | 0.48 | 0.07 | 소폭 하락 — 모니터링 강화 |
| 2024 Q1 | 32.3 | 0.44 | 0.13 | 하락 추세 확인 — 원인 분석 착수 |
| 2024 Q2 | 28.7 | 0.38 | 0.22 | 리캘리브레이션/재개발 검토 착수 |
하락 추세 판독의 핵심
단일 분기 하락은 계절성·일시적 변동일 수 있다. 2~3개 분기 연속 하락이 확인되면 구조적 열화로 판단한다. 특히 PSI와 변별력이 동시에 악화되면 모집단 자체가 변했을 가능성이 높다.
Back-testing — 예측 PD vs 실현 PD¶
Back-testing은 모형이 산출한 예측 부도율(PD)과 실제 관측 부도율이 일치하는지를 등급별로 검증하는 절차다. 변별력이 유지되더라도 예측 확률이 체계적으로 과소/과대 추정되면 의사결정에 왜곡이 발생한다.
| 등급 | 예측 PD | 실현 PD | 차이 | 판정 |
|---|---|---|---|---|
| AAA~AA | 0.3% | 0.4% | +0.1%p | 허용 범위 |
| A | 0.8% | 1.1% | +0.3%p | 허용 범위 |
| BBB | 2.5% | 3.8% | +1.3%p | 과소 추정 경고 |
| BB | 5.0% | 8.2% | +3.2%p | 과소 추정 — 재보정 필요 |
| B 이하 | 12.0% | 15.5% | +3.5%p | 과소 추정 — 재보정 필요 |
Calibration 실패의 위험
변별력(KS·AR)은 순서만 맞으면 되지만, Calibration은 수준이 맞아야 한다. 등급별 PD가 체계적으로 과소 추정되면: ① 충당금이 과소 적립되고, ② 금리가 과소 산정되며, ③ 규제자본이 부족해진다. Basel IRB 은행에서 Back-testing 실패는 자본 추가 적립(Capital Add-on)으로 직결될 수 있다.
Binomial Test — 통계적 검정
등급별 실현 PD가 예측 PD와 유의하게 다른지를 검정하는 데 이항검정(Binomial Test)을 사용한다. 등급 내 관측 수 \(n\), 예측 PD \(p_0\), 실현 부도 건수 \(k\)에 대해:
- 귀무가설: 실제 PD = \(p_0\)
- 검정: \(k \sim \text{Binomial}(n, p_0)\)에서 관측된 \(k\)의 p-value 산출
- 판정: p-value < 0.05이면 해당 등급의 Calibration이 유의하게 벗어난 것
Vintage 분석¶
Vintage 분석은 대출 실행 시점(Vintage)별로 성능을 비교하는 방법이다. 동일 모형이 적용되더라도 시점별로 성능이 다르게 나타날 수 있으며, 이는 모형의 문제인지 환경의 문제인지를 구분하는 데 핵심적이다.
Vintage 분석의 활용
- 2022년 실행 건의 KS = 40, 2023년 실행 건의 KS = 32: 모형 자체가 열화된 것인지, 2023년 포트폴리오 구성이 달라진 것인지 구분 필요
- 특정 Vintage만 성능 급락: 해당 시점의 심사 정책 변경, 신규 채널 유입, 경기 충격 등 외부 요인 점검
- 전 Vintage에 걸쳐 점진적 하락: 모형 자체의 구조적 열화 — 재개발 시그널
4.4 리캘리브레이션 vs 재개발 — 언제 무엇을 하는가¶
모형 성능이 저하되었을 때, 리캘리브레이션(Recalibration)으로 버틸 수 있는지 재개발(Redevelopment)이 필요한지는 실무에서 가장 어려운 판단 중 하나다.
리캘리브레이션 (Recalibration)¶
기존 모형의 변수·구조는 유지하되, 계수(또는 스코어 매핑)만 재추정하여 예측 수준(Calibration)을 현실에 맞추는 작업이다.
리캘리브레이션이 적합한 경우
- 변별력(KS·AR)은 유지되지만 예측 PD가 실현 PD와 체계적으로 괴리
- PSI 소폭 이동(0.10~0.25), CSI는 대부분 변수 안정
- 모형 구조(변수 선정, WoE 패턴)는 여전히 유효
- 경기 국면 전환 등 수준(level) 변화가 주 원인
리캘리브레이션의 대표적 방법:
| 방법 | 설명 | 적용 상황 |
|---|---|---|
| Scaling 조정 | Anchor Score, PDO 파라미터를 최신 데이터로 재추정 | 점수 분포 수준만 이동한 경우 |
| 절편(Intercept) 재추정 | 로지스틱 회귀의 \(\beta_0\)만 최신 부도율에 맞춰 조정 | 전체 PD 수준이 상하 이동 |
| 등급 경계 재설정 | 기존 점수 체계는 유지하되 등급 cutoff를 조정 | 포트폴리오 구성 변화로 등급별 비율 재조정 필요 |
재개발 (Redevelopment)¶
변수 선정부터 모형 구조까지 처음부터 다시 개발하는 작업이다.
재개발이 필요한 경우
- 변별력 자체가 구조적으로 하락 — KS·AR이 2~3개 분기 연속 하락, 회복 조짐 없음
- PSI > 0.25 + 주요 변수 CSI 다수 임계값 초과
- WoE 패턴 자체가 변질 — 개발 당시 단조(Monotonic)였던 변수가 비단조로 전환
- 새로운 데이터 소스 활용 가능 (비금융 대안정보, 텍스트 데이터 등)
- 규제 요건 — 감독당국이 모형 재개발을 권고 또는 요구
판단 프레임워크¶
┌─────────────────────┐
│ 정기 모니터링 결과 │
└──────────┬──────────┘
│
┌──────────▼──────────┐
│ 변별력(KS·AR) 하락? │
└──────────┬──────────┘
Yes │ No → 모니터링 지속
┌──────────▼──────────┐
│ PSI/CSI 임계값 초과? │
└──────────┬──────────┘
Yes │ No → 일시적 변동 가능성
┌──────────▼──────────┐ → 1~2분기 추가 관찰
│ WoE 패턴 유지? │
└──────────┬──────────┘
Yes │ │ No
▼ ▼
리캘리브레이션 재개발
실무 참고 — 모형 운영 주기
신용평가모형은 통상 2~3년 주기로 정기 재개발을 수행하는 것이 업계 일반적 관행이다. 그 사이 분기별 모니터링에서 성능 열화가 감지되면 리캘리브레이션으로 대응하고, 열화가 심각하면 정기 주기를 앞당겨 조기 재개발에 착수한다.
국제 규제 기준(Basel IRB)에서도 최소 연 1회 이상 모형 성능을 검증하도록 요구하고 있다.
4.5 모니터링 거버넌스¶
보고 주기와 체계¶
| 주기 | 대상 | 지표 | 보고 대상 |
|---|---|---|---|
| 월간 | 점수 분포 | PSI | 모형 운영팀 |
| 분기 | 변수 안정성 + 변별력 | CSI, KS, AR, AUC | 모형 운영팀 + 리스크 관리 |
| 반기 | Calibration | 등급별 예측 PD vs 실현 PD | 리스크 관리 + 경영진 |
| 연간 | 종합 검증 | 전 지표 + 정성 평가 | 이사회/감사위원회 보고 |
임계값 위반 시 에스컬레이션¶
3단계 에스컬레이션
Level 1 — 관찰 (Watch)
- 조건: PSI 0.10~0.15, 또는 KS/AR 단일 분기 5%p 이내 하락
- 조치: 모니터링 주기 강화(월간 → 격주), 원인 분석 착수
- 보고: 모형 운영팀 내부
Level 2 — 경고 (Alert)
- 조건: PSI 0.15~0.25, 또는 KS/AR 2개 분기 연속 하락, 또는 주요 변수 CSI > 0.10
- 조치: 리캘리브레이션 검토, 심층 원인 분석, 대안 시나리오 수립
- 보고: 리스크 관리 부서장
Level 3 — 조치 (Action)
- 조건: PSI > 0.25, 또는 KS/AR 3개 분기 연속 하락, 또는 Back-testing 실패
- 조치: 리캘리브레이션 즉시 시행 또는 재개발 착수
- 보고: CRO / 경영진 보고, 감독당국 사전 협의(Basel IRB 은행)
규제 요건 상세
Basel IRB 검증 요건, SR 11-7 등 규제 프레임워크의 상세 내용은 규제 프레임워크에서 다룬다.
다음 단계
모니터링 체계가 갖춰지면, 모형 개발·검증·운영 전반에 걸친 규제 프레임워크를 이해해야 한다.
참고자료¶
실무 벤치마크 — 신정원 검증위원회 보고서
한국신용정보원(신정원)은 신용정보법 제26조의3에 따라 개인신용평가체계 검증위원회를 운영하며, CB사(NICE·KCB·서울평가정보·KoDATA)의 모형 성능을 반기 1회 정기 검증한 결과를 공개한다. 보고서에는 CB사별 AR·KS·PSI 실측치, 업권별 성능 차이, 전이행렬, 평가요소 활용비중 등이 포함되어 있어, 모니터링 지표의 실무 벤치마크로 참고할 수 있다.