모델링: 전통 스코어카드 vs ML 모형¶
선정된 변수를 이용해 실제로 불량 확률을 추정하는 모형을 적합(fitting)시키는 단계이다. 접근 방식은 크게 두 갈래로 나뉜다.
5.1 전통 스코어카드 (Logistic Regression 기반)¶
전통 스코어카드는 다음과 같은 파이프라인으로 구성된다.
Classing된 변수 (WoE 또는 Dummy 인코딩) → Logistic Regression (계수 β 추정 · MLE) → 확률 \(\hat{p} = \frac{1}{1+e^{-\eta}}\) → PDO 변환 (점수 산출) → 스코어카드 (항목별 배점표)
위 파이프라인에서 확률 추정의 핵심은 시그모이드 함수(Sigmoid Function)다.
이 함수는 선형 결합값 \(\eta = \beta_0 + \sum \beta_j x_j\)를 \((0, 1)\) 범위의 확률로 변환한다. 시그모이드 함수의 도출 과정과 이론적 배경은 이론에서 상세히 다룬다.
이 방식의 핵심 장점은 해석가능성이다. 최종 산출물이 "항목별 배점표"이므로, 어떤 차주가 왜 특정 점수를 받았는지를 명확히 설명할 수 있다. 감독기관의 규제 요건을 충족하며, 현업 담당자도 직관적으로 이해할 수 있다.
5.2 ML 모형 (Gradient Boosting, Random Forest 등)¶
ML 모형은 비선형 관계와 변수 간 상호작용을 자동으로 학습하여, 동일 데이터에서 로지스틱 회귀 대비 더 높은 예측력을 보이는 경우가 많다. 동일 데이터에서 로지스틱 회귀 대비 AUROC 0.02~0.05 향상이 일반적이며, 변수 수가 많고 비선형 관계가 강한 데이터셋에서는 그 이상의 차이가 나기도 한다.
| 구분 | 전통 스코어카드 | ML 모형 |
|---|---|---|
| 알고리즘 | Logistic Regression | XGBoost, LightGBM, Random Forest 등 |
| 예측력 | 보통~양호 | 양호~우수 (AUROC +0.02~0.05) |
| 해석가능성 | 높음 (계수, 오즈비, 배점표) | 낮음 (SHAP 등 별도 해석 도구 필요) |
| 규제 수용성 | 높음 (감독기관 표준) | 제한적 (설명가능성 입증 필요) |
| 단조성 보장 | WoE + LR 구조에서 자연스럽게 보장 | 별도 제약 필요 (monotone_constraints 등) |
| 주 활용처 | 규제모형, 내부등급법(IRB) | 전략 모형, 마케팅 타겟팅, 사기탐지 |
5.3 왜 로지스틱 회귀인가¶
신용평가 영역에서 로지스틱 회귀가 수십 년간 표준으로 유지되는 이유는 단순히 "해석이 쉬워서"만이 아니다.
-
단조성(Monotonicity) 보장: WoE로 변환된 변수를 투입하면, 각 변수의 리스크 방향이 계수(β)의 부호로 명확히 확인된다. 그 메커니즘은 다음과 같다.
- Coarse Classing 단계에서 WoE가 단조적으로 정렬되도록 Bin을 설계한다
- WoE 변환된 변수를 로지스틱 회귀에 투입하면, 각 변수에 대해 단일 계수 β가 추정된다
- β > 0이면 WoE가 높은 구간(우량)일수록 로그 오즈가 증가 → 모든 구간에서 리스크 방향이 일관되게 유지
- 결과적으로 감독기관이 요구하는 "변수 값이 증가할수록 리스크가 단조적으로 변해야 한다"는 요건이 구조적으로 충족
ML 모형(예: XGBoost)에서는 이 단조성을 보장하려면
monotone_constraints파라미터를 별도로 설정해야 하며, 그래도 구간별 기여도가 비선형적으로 변하므로 완전한 단조성 증명이 어렵다. - 가산성(Additivity): 로그 오즈가 각 변수의 선형 결합이므로, 최종 점수를 항목별 배점의 단순 합산으로 표현할 수 있다. 이것이 스코어카드(배점표)라는 실무 산출물을 가능하게 하는 핵심 구조이다. - 규제 감사 용이성: 모형 검증(Validation) 시 개별 변수의 기여도, 계수의 안정성, 부호의 타당성을 직관적으로 점검할 수 있어, 내부 감사 및 감독기관 심사를 통과하기 용이하다.
5.4 ML 모형의 실무 활용 사례¶
ML 모형이 규제모형에서는 제한적이지만, 다음과 같은 영역에서는 적극적으로 활용되고 있다.
| 활용 영역 | ML 기법 | 이점 | ML이 적합한 이유 |
|---|---|---|---|
| 사기탐지(FDS) | XGBoost, Neural Network | 복잡한 이상 패턴을 비선형적으로 포착. 실시간 탐지 요구 | 사기 패턴은 변수 간 상호작용이 복잡하고 빠르게 진화하므로, 선형 모형으로는 포착이 어려움 |
| 마케팅 타겟팅 | LightGBM, Random Forest | 응답률·이탈률 예측에 높은 정확도. 규제 요건이 상대적으로 낮음 | 규제 모형이 아니므로 해석가능성 부담이 적고, 예측력 극대화가 핵심 목표 |
| 전략 모형 (한도·금리) | Gradient Boosting | 승인/거절 이후의 수익 최적화. 해석가능성보다 성능 중시 | 수익 최적화는 다수 변수의 비선형 조합에서 이루어지며, 내부 의사결정 도구로 규제 감사 부담이 낮음 |
| 변수 탐색(EDA) | SHAP + Tree 모형 | 수백 개 후보 변수 중 유망 변수를 빠르게 스크리닝 | Tree 기반 Feature Importance로 후보 변수 풀을 빠르게 압축한 뒤, 최종 모형은 LR로 적합하는 하이브리드 접근 |
현실적 선택
"로지스틱 회귀냐 ML이냐"는 양자택일이 아니다. 규제모형은 전통 스코어카드로, 전략 모형은 ML로 개발하거나, ML로 변수 탐색 → 로지스틱 회귀로 최종 적합하는 하이브리드 접근이 실무에서 가장 흔하다. 본 가이드북의 Part 1~6은 전통 스코어카드 파이프라인을 중심으로 다루며, ML 기반 신용평가의 상세 내용(트리 모형, Feature Engineering, 해석가능성, 검증 등)은 머신러닝 섹션에서 별도로 다룬다.