콘텐츠로 이동

모델링: 전통 스코어카드 vs ML 모형

선정된 변수를 이용해 실제로 불량 확률을 추정하는 모형을 적합(fitting)시키는 단계이다. 접근 방식은 크게 두 갈래로 나뉜다.

5.1 전통 스코어카드 (Logistic Regression 기반)

전통 스코어카드는 다음과 같은 파이프라인으로 구성된다.

Classing된 변수 (WoE 또는 Dummy 인코딩) → Logistic Regression (계수 β 추정 · MLE) → 확률 \(\hat{p} = \frac{1}{1+e^{-\eta}}\)PDO 변환 (점수 산출) → 스코어카드 (항목별 배점표)

위 파이프라인에서 확률 추정의 핵심은 시그모이드 함수(Sigmoid Function)다.

\[ P(y=1 \mid \mathbf{x}) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 x_1 + \cdots + \beta_k x_k)}} \]

이 함수는 선형 결합값 \(\eta = \beta_0 + \sum \beta_j x_j\)\((0, 1)\) 범위의 확률로 변환한다. 시그모이드 함수의 도출 과정과 이론적 배경은 이론에서 상세히 다룬다.

이 방식의 핵심 장점은 해석가능성이다. 최종 산출물이 "항목별 배점표"이므로, 어떤 차주가 왜 특정 점수를 받았는지를 명확히 설명할 수 있다. 감독기관의 규제 요건을 충족하며, 현업 담당자도 직관적으로 이해할 수 있다.

5.2 ML 모형 (Gradient Boosting, Random Forest 등)

ML 모형은 비선형 관계와 변수 간 상호작용을 자동으로 학습하여, 동일 데이터에서 로지스틱 회귀 대비 더 높은 예측력을 보이는 경우가 많다. 동일 데이터에서 로지스틱 회귀 대비 AUROC 0.02~0.05 향상이 일반적이며, 변수 수가 많고 비선형 관계가 강한 데이터셋에서는 그 이상의 차이가 나기도 한다.

구분 전통 스코어카드 ML 모형
알고리즘 Logistic Regression XGBoost, LightGBM, Random Forest 등
예측력 보통~양호 양호~우수 (AUROC +0.02~0.05)
해석가능성 높음 (계수, 오즈비, 배점표) 낮음 (SHAP 등 별도 해석 도구 필요)
규제 수용성 높음 (감독기관 표준) 제한적 (설명가능성 입증 필요)
단조성 보장 WoE + LR 구조에서 자연스럽게 보장 별도 제약 필요 (monotone_constraints 등)
주 활용처 규제모형, 내부등급법(IRB) 전략 모형, 마케팅 타겟팅, 사기탐지

5.3 왜 로지스틱 회귀인가

신용평가 영역에서 로지스틱 회귀가 수십 년간 표준으로 유지되는 이유는 단순히 "해석이 쉬워서"만이 아니다.

  • 단조성(Monotonicity) 보장: WoE로 변환된 변수를 투입하면, 각 변수의 리스크 방향이 계수(β)의 부호로 명확히 확인된다. 그 메커니즘은 다음과 같다.

    1. Coarse Classing 단계에서 WoE가 단조적으로 정렬되도록 Bin을 설계한다
    2. WoE 변환된 변수를 로지스틱 회귀에 투입하면, 각 변수에 대해 단일 계수 β가 추정된다
    3. β > 0이면 WoE가 높은 구간(우량)일수록 로그 오즈가 증가 → 모든 구간에서 리스크 방향이 일관되게 유지
    4. 결과적으로 감독기관이 요구하는 "변수 값이 증가할수록 리스크가 단조적으로 변해야 한다"는 요건이 구조적으로 충족

    ML 모형(예: XGBoost)에서는 이 단조성을 보장하려면 monotone_constraints 파라미터를 별도로 설정해야 하며, 그래도 구간별 기여도가 비선형적으로 변하므로 완전한 단조성 증명이 어렵다. - 가산성(Additivity): 로그 오즈가 각 변수의 선형 결합이므로, 최종 점수를 항목별 배점의 단순 합산으로 표현할 수 있다. 이것이 스코어카드(배점표)라는 실무 산출물을 가능하게 하는 핵심 구조이다. - 규제 감사 용이성: 모형 검증(Validation) 시 개별 변수의 기여도, 계수의 안정성, 부호의 타당성을 직관적으로 점검할 수 있어, 내부 감사 및 감독기관 심사를 통과하기 용이하다.

5.4 ML 모형의 실무 활용 사례

ML 모형이 규제모형에서는 제한적이지만, 다음과 같은 영역에서는 적극적으로 활용되고 있다.

활용 영역 ML 기법 이점 ML이 적합한 이유
사기탐지(FDS) XGBoost, Neural Network 복잡한 이상 패턴을 비선형적으로 포착. 실시간 탐지 요구 사기 패턴은 변수 간 상호작용이 복잡하고 빠르게 진화하므로, 선형 모형으로는 포착이 어려움
마케팅 타겟팅 LightGBM, Random Forest 응답률·이탈률 예측에 높은 정확도. 규제 요건이 상대적으로 낮음 규제 모형이 아니므로 해석가능성 부담이 적고, 예측력 극대화가 핵심 목표
전략 모형 (한도·금리) Gradient Boosting 승인/거절 이후의 수익 최적화. 해석가능성보다 성능 중시 수익 최적화는 다수 변수의 비선형 조합에서 이루어지며, 내부 의사결정 도구로 규제 감사 부담이 낮음
변수 탐색(EDA) SHAP + Tree 모형 수백 개 후보 변수 중 유망 변수를 빠르게 스크리닝 Tree 기반 Feature Importance로 후보 변수 풀을 빠르게 압축한 뒤, 최종 모형은 LR로 적합하는 하이브리드 접근

현실적 선택

"로지스틱 회귀냐 ML이냐"는 양자택일이 아니다. 규제모형은 전통 스코어카드로, 전략 모형은 ML로 개발하거나, ML로 변수 탐색 → 로지스틱 회귀로 최종 적합하는 하이브리드 접근이 실무에서 가장 흔하다. 본 가이드북의 Part 1~6은 전통 스코어카드 파이프라인을 중심으로 다루며, ML 기반 신용평가의 상세 내용(트리 모형, Feature Engineering, 해석가능성, 검증 등)은 머신러닝 섹션에서 별도로 다룬다.