머신러닝 기반 신용평가¶
전통적인 로지스틱 회귀 스코어카드를 넘어, 트리 기반 머신러닝을 신용평가모형에 적용하는 방법론을 다룬다.
저자의 말
Bias-Variance Tradeoff는 통계학이나 머신러닝을 공부하면 가장 처음 접하게 되는 개념 중 하나다. 그런데 실무를 거듭할수록, 이 개념이 단순한 입문 지식이 아니라 모든 모형 설계를 관통하는 근본 원리라는 확신이 강해진다.
모형의 복잡도를 높이면 Overfitting 위험이 커지고, 낮추면 Underfitting에 빠진다. 이 원리를 모르고 알고리즘을 돌리면, 하이퍼파라미터가 왜 거기 있는지, 어떤 방향으로 조정해야 하는지 감이 오지 않는다. 결국 무작위 시행착오에 의존하게 된다.
그래서 머신러닝 모형 적합에는 각 알고리즘의 이론적 배경과 설계 사상에 대한 이해가 필수적이다. 저자가 데이터 분석 조직에서 신입 직원을 채용할 때 가장 중요하게 보는 것도 통계학적 기초 지식이다. 라이브러리 사용법은 실무에서 금방 익히지만, 기초가 없으면 모형이 왜 이렇게 동작하는지를 설명할 수 없다.
이 섹션의 구성¶
| 순서 | 주제 | 핵심 내용 |
|---|---|---|
| 1 | 개요 | 왜 ML인가, Bias-Variance Tradeoff, 정규화, 데이터 분리, 피처 엔지니어링 |
| 2 | 뉴럴넷 | 신경망 기초, LR = 단일 뉴런, TabNet, CNN·RNN의 한계 |
| 3 | 트리 앙상블 | CART, RF, Boosting, XGBoost/LightGBM, 하이퍼파라미터 튜닝 |
| 4 | 해석과 설명 | XAI 개론, SHAP 이론, 1-Depth GBM, EBM(GA²M), fANOVA·Purification, 도구·구현, 저자의 해석 고민 기록 |
| 5 | 모델 검증 | 성능 지표(AUC, KS, Gini), OOT 검증, PSI 모니터링, 규제 프레임워크 |
| 부록 | 보충 자료 | A. SHAP과 fANOVA 심화, B. 변수 상관과 모형 해석, C. 해석 가능한 ML 실험 설계 |
성능과 해석, 두 마리 토끼¶
전통 스코어카드는 로지스틱 회귀의 계수가 곧 설명이다. WoE로 변환된 변수에 계수를 곱하면 점수가 나오고, 그 점수표가 곧 모형의 해석이 된다. 모형 자체가 해석 가능한 구조다.
ML은 다르다. 수백 개의 트리가 투표하고, 수천 개의 리프 노드가 점수를 합산한다. 성능은 올라가지만, "왜 이 고객이 이 점수인가"에 대한 답이 모형 구조에서 바로 보이지 않는다. 그래서 ML 모형에는 사후 해석(post-hoc explanation) 도구가 필수다.
신용평가에서 해석 가능성은 선택이 아니라 규제 요건이다. 금융 당국은 모형이 왜 특정 고객을 거절했는지, 어떤 변수가 얼마나 기여했는지 설명할 수 있어야 한다고 요구한다. 성능이 아무리 좋아도 설명할 수 없으면 실전에 투입할 수 없다.
이 섹션에서는 SHAP을 중심으로 한 해석 기법, 1-Depth GBM/EBM처럼 해석 가능성과 성능을 동시에 추구하는 모형, 그리고 fANOVA와 Purification을 통한 효과 분리까지 다룬다. 모형을 만드는 것과 쓸 수 있게 만드는 것은 다른 문제이며, 후자가 더 어렵다.
전통 스코어카드와의 관계¶
이 섹션은 앞선 Part 1~5(개요 ~ 스코어카드)의 연장선이다. 전통 스코어카드를 대체하는 것이 아니라, 그 위에 쌓는 것이다.
전통 스코어카드 (Part 1~5) 머신러닝 (이 섹션)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
로지스틱 회귀 트리 앙상블 (RF, GBM, XGB, LGBM)
WoE + IV로 변수 선정 Feature Importance + SHAP
수작업 Classing 트리 split이 자동 수행
점수표 = 해석 SHAP = 사후 해석
규제모형 표준 챌린저 모형 / 하이브리드
전통 스코어카드의 개념 — Odds, Good/Bad 정의, 성과 기간, 모집단 설계 — 은 ML에서도 그대로 적용된다. 달라지는 것은 변수 처리 방식과 모형 구조일 뿐, 신용평가의 근본 프레임은 동일하다.
추천 학습 자료¶
서적¶
| 자료 | 설명 |
|---|---|
| Hastie, Tibshirani, Friedman — The Elements of Statistical Learning | Bias-Variance 분해, Boosting, Additive Model 등의 이론적 기반. 석사 과정에서 머신러닝 텍스트북으로 사용했으며, 이 가이드북의 세부 이론도 많은 부분을 여기서 참고했다. (무료 PDF 공개) |
| Christoph Molnar — Interpretable Machine Learning | ML 해석 가능성의 바이블. PDP, SHAP, LIME 등을 체계적으로 다룬다. CC 라이선스로 무료 공개. 저자 본인도 이 책으로 많은 공부를 했으며, ML 해석 가능성에 관한 가장 접근하기 쉬운 자료라고 생각한다. |
온라인 강의¶
| 자료 | 설명 |
|---|---|
| Coursera — Andrew Ng의 Machine Learning Specialization | 머신러닝 입문의 정석. 2022년 리뉴얼 버전에는 트리 앙상블(RF, XGBoost), 추천시스템, 강화학습까지 포함. |
| 모두를 위한 머신러닝/딥러닝 강의 | 한국어 ML/DL 입문. 이론 설명이 직관적이어서 첫 진입에 좋다. |
심화¶
| 자료 | 분야 |
|---|---|
| Stanford CS231n | 컴퓨터 비전, CNN |
| Stanford CS224n | 자연어처리, Transformer |
| David Silver — DeepMind RL Course | 강화학습 입문 |
다음 섹션
개요에서, 전통 스코어카드의 한계와 ML이 가져온 변화를 먼저 정리한다.