모형 모니터링과 운영¶

PSI

점수 분포 안정성

개발 시점 대비 현재 점수 분포가 얼마나 이동했는가.

CSI

변수별 분포 안정성

어떤 변수가 드리프트의 원인인지 분해하여 추적한다.

KS · AR

변별력 추이

모형 성능이 시간에 따라 열화되고 있는지 추적한다.

모형은 개발이 끝이 아니다. 배포 이후 환경은 끊임없이 변한다 — 포트폴리오 구성, 경기 국면, 심사 정책, 데이터 시스템 모두 움직인다. 개발 당시 최고 성능이었던 모형도 시간이 지나면 열화(Degradation)된다. 모니터링은 이 열화를 조기에 감지하고, 적시에 리캘리브레이션 또는 재개발 판단을 내리기 위한 체계다.

4.1 모니터링 프레임워크 — 무엇을 왜 보는가¶

모형 모니터링은 크게 세 축으로 구성된다.

축	핵심 질문	주요 지표
안정성 (Stability)	입력 데이터 분포가 변했는가?	PSI, CSI
변별력 (Discrimination)	모형이 여전히 Good/Bad를 잘 구분하는가?	KS, AR/Gini, AUC 추이
정확성 (Calibration)	예측 확률이 실제 부도율과 일치하는가?	등급별 예측 PD vs 실현 PD, Binomial Test

세 축의 관계

안정성 지표(PSI·CSI)는 선행 지표다. 입력 분포가 먼저 변하고, 그 결과로 변별력과 정확성이 뒤따라 나빠진다. 따라서 PSI·CSI가 임계값을 넘으면 변별력·정확성이 아직 괜찮더라도 선제적으로 원인을 분석해야 한다.

4.2 CSI (Characteristic Stability Index) — 변수별 안정성¶

성능 평가에서 다룬 PSI가 최종 점수 분포의 이동을 측정한다면, CSI는 개별 변수(Characteristic)의 분포 이동을 측정한다. 수식 구조는 PSI와 동일하되, 대상이 점수가 아닌 각 변수의 WoE 구간(bin)이다.

\[ \text{CSI}_j = \sum_{b=1}^{B_j} \left(A_{jb} - E_{jb}\right) \times \ln\!\left(\frac{A_{jb}}{E_{jb}}\right) \tag{1} \]

여기서 \(j\)는 변수 인덱스, \(B_j\)는 해당 변수의 bin 수, \(E_{jb}\)는 개발 샘플의 bin b 비율, \(A_{jb}\)는 비교 시점의 bin b 비율이다.

PSI와 CSI의 관계¶

PSI = 모형 전체, CSI = 변수별 분해

PSI가 높게 나왔을 때, 어떤 변수가 원인인지 파악하려면 CSI를 봐야 한다. 예를 들어 PSI = 0.18이면 "점수 분포가 움직였다"는 사실만 알 수 있다. CSI를 확인하면 "변수 X3(부채비율)의 CSI = 0.14로 대부분의 이동이 이 변수에서 발생"처럼 원인을 특정할 수 있다.

CSI 계산 예시¶

아래는 5개 변수 모형에서 분기별 CSI를 산출한 예시다.

변수	설명	CSI	판정
X1	최근 6개월 연체 횟수	0.03	안정
X2	총 대출 잔액	0.05	안정
X3	부채비율 (DTI)	0.14	소폭 이동 — 원인 분석 필요
X4	신용거래 기간	0.02	안정
X5	최근 조회 건수	0.04	안정

CSI 판정 기준

CSI의 임계값은 PSI와 동일한 기준(0.10 / 0.25)을 적용하는 것이 일반적이다. 다만 변수 수가 많은 모형에서는 개별 CSI 임계값을 다소 보수적(예: 0.08)으로 설정하는 기관도 있다.

CSI 상승 시 조치 흐름¶

CSI 임계값 초과 → 해당 변수의 bin별 비율 변화 확인 → 외부 요인(정책·경기·시스템) vs 내부 요인(데이터 오류) 구분 → 일시적 변동이면 모니터링 지속, 구조적 변동이면 리캘리브레이션/재개발 검토

4.3 변별력 추이 모니터링¶

분기별 KS · AR 추이 추적¶

변별력 지표는 개발 시점의 단일 값이 아니라, 운영 중 시계열로 추적해야 한다. 분기별(또는 월별)로 KS·AR을 산출하여 추이를 관찰한다.

시점	KS	AR (Gini)	PSI	비고
개발 (2023 Q1)	38.2	0.54	—	기준 시점
2023 Q2	37.5	0.53	0.02	안정
2023 Q3	36.8	0.51	0.04	안정
2023 Q4	35.1	0.48	0.07	소폭 하락 — 모니터링 강화
2024 Q1	32.3	0.44	0.13	하락 추세 확인 — 원인 분석 착수
2024 Q2	28.7	0.38	0.22	리캘리브레이션/재개발 검토 착수

하락 추세 판독의 핵심

단일 분기 하락은 계절성·일시적 변동일 수 있다. 2~3개 분기 연속 하락이 확인되면 구조적 열화로 판단한다. 특히 PSI와 변별력이 동시에 악화되면 모집단 자체가 변했을 가능성이 높다.

Back-testing — 예측 PD vs 실현 PD¶

Back-testing은 모형이 산출한 예측 부도율(PD)과 실제 관측 부도율이 일치하는지를 등급별로 검증하는 절차다. 변별력이 유지되더라도 예측 확률이 체계적으로 과소/과대 추정되면 의사결정에 왜곡이 발생한다.

등급	예측 PD	실현 PD	차이	판정
AAA~AA	0.3%	0.4%	+0.1%p	허용 범위
A	0.8%	1.1%	+0.3%p	허용 범위
BBB	2.5%	3.8%	+1.3%p	과소 추정 경고
BB	5.0%	8.2%	+3.2%p	과소 추정 — 재보정 필요
B 이하	12.0%	15.5%	+3.5%p	과소 추정 — 재보정 필요

Calibration 실패의 위험

변별력(KS·AR)은 순서만 맞으면 되지만, Calibration은 수준이 맞아야 한다. 등급별 PD가 체계적으로 과소 추정되면: ① 충당금이 과소 적립되고, ② 금리가 과소 산정되며, ③ 규제자본이 부족해진다. Basel IRB 은행에서 Back-testing 실패는 자본 추가 적립(Capital Add-on)으로 직결될 수 있다.

Binomial Test — 통계적 검정

등급별 실현 PD가 예측 PD와 유의하게 다른지를 검정하는 데 이항검정(Binomial Test)을 사용한다. 등급 내 관측 수 \(n\), 예측 PD \(p_0\), 실현 부도 건수 \(k\)에 대해:

귀무가설: 실제 PD = \(p_0\)
검정: \(k \sim \text{Binomial}(n, p_0)\)에서 관측된 \(k\)의 p-value 산출
판정: p-value < 0.05이면 해당 등급의 Calibration이 유의하게 벗어난 것

Vintage 분석¶

Vintage 분석은 대출 실행 시점(Vintage)별로 성능을 비교하는 방법이다. 동일 모형이 적용되더라도 시점별로 성능이 다르게 나타날 수 있으며, 이는 모형의 문제인지 환경의 문제인지를 구분하는 데 핵심적이다.

Vintage 분석의 활용

2022년 실행 건의 KS = 40, 2023년 실행 건의 KS = 32: 모형 자체가 열화된 것인지, 2023년 포트폴리오 구성이 달라진 것인지 구분 필요
특정 Vintage만 성능 급락: 해당 시점의 심사 정책 변경, 신규 채널 유입, 경기 충격 등 외부 요인 점검
전 Vintage에 걸쳐 점진적 하락: 모형 자체의 구조적 열화 — 재개발 시그널

4.4 리캘리브레이션 vs 재개발 — 언제 무엇을 하는가¶

모형 성능이 저하되었을 때, 리캘리브레이션(Recalibration)으로 버틸 수 있는지 재개발(Redevelopment)이 필요한지는 실무에서 가장 어려운 판단 중 하나다.

리캘리브레이션 (Recalibration)¶

기존 모형의 변수·구조는 유지하되, 계수(또는 스코어 매핑)만 재추정하여 예측 수준(Calibration)을 현실에 맞추는 작업이다.

리캘리브레이션이 적합한 경우

변별력(KS·AR)은 유지되지만 예측 PD가 실현 PD와 체계적으로 괴리
PSI 소폭 이동(0.10~0.25), CSI는 대부분 변수 안정
모형 구조(변수 선정, WoE 패턴)는 여전히 유효
경기 국면 전환 등 수준(level) 변화가 주 원인

리캘리브레이션의 대표적 방법:

방법	설명	적용 상황
Scaling 조정	Anchor Score, PDO 파라미터를 최신 데이터로 재추정	점수 분포 수준만 이동한 경우
절편(Intercept) 재추정	로지스틱 회귀의 \(\beta_0\)만 최신 부도율에 맞춰 조정	전체 PD 수준이 상하 이동
등급 경계 재설정	기존 점수 체계는 유지하되 등급 cutoff를 조정	포트폴리오 구성 변화로 등급별 비율 재조정 필요

재개발 (Redevelopment)¶

변수 선정부터 모형 구조까지 처음부터 다시 개발하는 작업이다.

재개발이 필요한 경우

변별력 자체가 구조적으로 하락 — KS·AR이 2~3개 분기 연속 하락, 회복 조짐 없음
PSI > 0.25 + 주요 변수 CSI 다수 임계값 초과
WoE 패턴 자체가 변질 — 개발 당시 단조(Monotonic)였던 변수가 비단조로 전환
새로운 데이터 소스 활용 가능 (비금융 대안정보, 텍스트 데이터 등)
규제 요건 — 감독당국이 모형 재개발을 권고 또는 요구

판단 프레임워크¶

                  ┌─────────────────────┐
                  │  정기 모니터링 결과  │
                  └──────────┬──────────┘
                             │
                  ┌──────────▼──────────┐
                  │ 변별력(KS·AR) 하락? │
                  └──────────┬──────────┘
                        Yes  │  No → 모니터링 지속
                  ┌──────────▼──────────┐
                  │ PSI/CSI 임계값 초과? │
                  └──────────┬──────────┘
                        Yes  │  No → 일시적 변동 가능성
                  ┌──────────▼──────────┐         → 1~2분기 추가 관찰
                  │  WoE 패턴 유지?     │
                  └──────────┬──────────┘
                   Yes │          │ No
                       ▼          ▼
              리캘리브레이션    재개발

실무 참고 — 모형 운영 주기

신용평가모형은 통상 2~3년 주기로 정기 재개발을 수행하는 것이 업계 일반적 관행이다. 그 사이 분기별 모니터링에서 성능 열화가 감지되면 리캘리브레이션으로 대응하고, 열화가 심각하면 정기 주기를 앞당겨 조기 재개발에 착수한다.

국제 규제 기준(Basel IRB)에서도 최소 연 1회 이상 모형 성능을 검증하도록 요구하고 있다.

4.5 모니터링 거버넌스¶

보고 주기와 체계¶

주기	대상	지표	보고 대상
월간	점수 분포	PSI	모형 운영팀
분기	변수 안정성 + 변별력	CSI, KS, AR, AUC	모형 운영팀 + 리스크 관리
반기	Calibration	등급별 예측 PD vs 실현 PD	리스크 관리 + 경영진
연간	종합 검증	전 지표 + 정성 평가	이사회/감사위원회 보고

임계값 위반 시 에스컬레이션¶

3단계 에스컬레이션

Level 1 — 관찰 (Watch)

조건: PSI 0.10~0.15, 또는 KS/AR 단일 분기 5%p 이내 하락
조치: 모니터링 주기 강화(월간 → 격주), 원인 분석 착수
보고: 모형 운영팀 내부

Level 2 — 경고 (Alert)

조건: PSI 0.15~0.25, 또는 KS/AR 2개 분기 연속 하락, 또는 주요 변수 CSI > 0.10
조치: 리캘리브레이션 검토, 심층 원인 분석, 대안 시나리오 수립
보고: 리스크 관리 부서장

Level 3 — 조치 (Action)

조건: PSI > 0.25, 또는 KS/AR 3개 분기 연속 하락, 또는 Back-testing 실패
조치: 리캘리브레이션 즉시 시행 또는 재개발 착수
보고: CRO / 경영진 보고, 감독당국 사전 협의(Basel IRB 은행)

규제 요건 상세

Basel IRB 검증 요건, SR 11-7 등 규제 프레임워크의 상세 내용은 규제 프레임워크에서 다룬다.

다음 단계

모니터링 체계가 갖춰지면, 모형 개발·검증·운영 전반에 걸친 규제 프레임워크를 이해해야 한다.

참고자료¶

실무 벤치마크 — 신정원 검증위원회 보고서

한국신용정보원(신정원)은 신용정보법 제26조의3에 따라 개인신용평가체계 검증위원회를 운영하며, CB사(NICE·KCB·서울평가정보·KoDATA)의 모형 성능을 반기 1회 정기 검증한 결과를 공개한다. 보고서에는 CB사별 AR·KS·PSI 실측치, 업권별 성능 차이, 전이행렬, 평가요소 활용비중 등이 포함되어 있어, 모니터링 지표의 실무 벤치마크로 참고할 수 있다.

한국신용정보원, 개인신용평가체계 검증위원회 심의결과 — 신정원 자료실