변수 선정¶
Target(Y)이 정의되었으면, 다음 단계는 차주의 불량 가능성을 설명할 수 있는 독립변수(X)를 수집하고, 이 중 예측력이 높은 변수를 선정하는 것이다.
4.1 개인 신용평가 vs 기업 신용평가¶
사용 가능한 변수의 종류는 개인·기업 여부, 모형 목적(AS/BS), 데이터 가용성에 따라 달라진다.
| 구분 | 개인(Retail) | 기업(Corporate) |
|---|---|---|
| 주요 정보원 | CB(신용정보원), 내부 거래 이력, 신청서 | 재무제표, CB, 사업자 정보, 산업 정보 |
| 데이터 특성 | 건수 多, 변수 상대적 단순. 정형화된 CB 항목 중심 | 건수 少, 변수 복잡. 재무비율·현금흐름 분석 필요 |
| 모형 접근 | 통계 기반 스코어카드가 주류 | 재무등급 + 정성평가 병행이 일반적 |
4.2 전통적 변수풀¶
개인 신용평가에서 가장 널리 사용되는 변수 영역은 다음과 같다.
| 정보 영역 | 주요 변수 예시 | 예측력 메커니즘 |
|---|---|---|
| CB / CPS 정보 (외부 신용정보) | 미해제 연체 건수, 최장 연체일수, 신용조회 건수, 미상환 대출 총건수·총잔액, 신용카드 보유 건수 | 대부분의 CSS 모형에서 가장 높은 변별력을 보임 |
| 신청서 정보 (인구통계) | 연령, 성별, 직업군, 근속기간, 거주 형태, 소득 수준 | AS모형에서 주로 활용. BS모형에서는 비중 낮음. 단, 법적 사용 제한 항목 존재 (아래 참조) |
| 내부 거래 이력 | 수신 평잔, 여신 잔액, 카드 이용 금액, 급여이체 여부, 한도 소진율 | BS모형에서 핵심 변수. AS모형에서는 제한적 |
| 재무·회계 정보 (기업 중심) | 부채비율, 영업이익률, 유동비율, 이자보상배율, 현금흐름 지표 | 기업 CSS 및 개인사업자 모형에서 활용 |
CB 주요 변수의 예측력 메커니즘¶
CB 변수가 불량을 예측하는 이유는 단순히 "과거 데이터에서 상관이 높아서"가 아니다. 각 변수에는 경제적 메커니즘이 존재한다.
| 변수 | 예측 메커니즘 |
|---|---|
| 미해제 연체 건수 | 과거 상환 의무 불이행 → 미래 불이행 가능성의 가장 직접적 신호. "과거 행동이 미래 행동을 예측한다"는 행동 금융의 핵심 원리. |
| 최장 연체일수 | 단기 연체(5일)와 장기 연체(90일)는 질적으로 다름. 장기 연체는 일시적 유동성 부족이 아닌 구조적 상환 능력 부족을 시사. |
| 신용조회 건수 | 단기간 다중 조회 = 여러 기관에 동시 차입 시도 = 신용 압박(Credit Stress) 신호. 단, 자기조회·기존 거래 관리 조회는 제외하여 산출. |
| 미상환 대출 총잔액 | 총 채무 부담 수준. 소득 대비 과도한 채무는 상환 여력을 잠식. DSR(총부채원리금상환비율)과 유사한 정보를 담고 있음. |
| 신용카드 보유 건수 | 적정 수준의 카드 보유는 정상적 금융 활동 신호이나, 과다 보유는 과소비·돌려막기의 위험 신호. U자형 관계를 보이는 경우가 많아 Classing에서 주의 필요. 단, 신용평가 활용이 법적으로 금지된 항목 (아래 참조). |
KCB 개인신용평점 — 주요 평가부문별 비중
KCB는 개인신용평점의 5대 평가부문과 가중치를 다음과 같이 공시하고 있다.
| 평가부문 | 일반고객 | 장기연체경험고객 | 주요 내용 |
|---|---|---|---|
| 신용거래형태 | 38% | 27% | 업권·상품·금리에 따른 차등. 저금리 대출이 우량 |
| 부채수준 | 24% | 25% | 대출·카드 채무 수준. 잔액 증가는 부정적 |
| 상환이력 | 21% | 32% | 5영업일·10만원 이상 연체부터 반영 |
| 신용거래기간 | 9% | 5% | 오래된 정상 금융거래가 긍정적 |
| 비금융/마이데이터 | 8% | 11% | 국민연금·보험료·통신비 납부, 증빙소득 등 |
신용평가 시 법적 사용 금지·제한 변수
신용정보법 및 관련 감독 규정에 따라, 다음 항목은 개인신용평가에 사용이 금지되거나 제한된다.
신청서 정보(인구통계)
- 성별, 연령: 신용정보법 제22조의2(차별 금지)에 의해 신용평가 모형의 독립변수로 직접 사용할 수 없다.
카드 관련 항목
- 보유카드 개수, 카드 한도, 한도소진율, 현금서비스 한도, 현금서비스 한도소진율: 본인 소득 대비 한도를 적정 수준으로 관리하는 고객에게 불이익(패널티)을 줄 수 있어 신용평가 활용이 금지되어 있다.
위 항목들은 통계적 예측력이 있더라도 공정성·차별 금지 원칙에 따라 모형에 포함할 수 없으며, 모형 개발 시 변수풀에서 사전 제외해야 한다.
4.3 비재무 변수 및 대안정보¶
전통적 CB/재무 정보 외에, 최근에는 비재무(Non-Financial) 데이터와 대안정보(Alternative Data)를 활용하는 추세가 확대되고 있다. 특히 Thin-File 고객(CB 이력이 부족한 신규 차주)의 평가에 유용하다.
| 유형 | 예시 | 활용 맥락 |
|---|---|---|
| 금융결제원 | TCF(Transaction Cash Flow): 계좌 입출금 흐름 기반 현금흐름 분석. 지로·자동이체 납부 이력 | 소득·지출 패턴 추정, Thin-File 보완 |
| 통신 정보 | 통신 요금 납부 이력, 요금제 유형, 회선 보유 기간 | Thin-File 대안평가 |
| 커머스·결제 | 온라인 쇼핑 패턴, 간편결제 이용 빈도 | 핀테크·카드사 모형 |
| 공공 정보 | 국세·지방세 납부 이력, 건강보험료 등급 | 소득 추정 대리변수 |
| 기타 | 앱 사용 패턴, 기기 정보, 심리검사 등 | 해외 핀테크에서 실험적 활용. 국내는 규제·윤리 이슈 존재 |
대안정보 활용 시 법적·윤리적 이슈
대안정보 활용 시에는 다음 법적 요건을 반드시 검토해야 한다.
- 개인정보보호법 제15조(수집·이용), 제17조(제3자 제공): 정보주체의 동의 범위와 목적 외 활용 제한
- 신용정보법 제32조(개인신용정보의 이용): 신용정보 활용 목적 제한 및 관리 의무
- 공정성(Fairness): 변수의 예측력이 높더라도 인종, 성별, 연령의 대리변수(Proxy Variable)로 작용하여 차별적 결과를 초래하는 경우 사용이 제한된다. 예를 들어 "거주지 우편번호"가 인종 분리 패턴을 반영하거나, "앱 사용 패턴"이 연령대를 대리하는 경우가 이에 해당한다.
4.4 단변량 분석과 Classing¶
수십~수백 개의 후보 변수가 수집되었으면, 이 중 불량(Y=1)을 잘 예측하는 변수를 선정해야 한다. 단변량 분석은 각 변수를 개별적으로 Y와의 관계를 평가하는 과정이다. 전통적 스코어카드에서는 이 과정에서 Classing(변수 범주화)을 수행한다.
원시 변수 (연속형/범주형) → Fine Classing (구성비 기준 자동 구간화, 최대 20개 구간) → Coarse Classing (유사 불량률 구간 병합, 3~7개 그룹) → WoE 변환 (구간별 변별력 수치화) → 변수 선별 (IV, K-S 기준)
이 과정의 상세 방법론은 Classing과 WoE/IV에서 다룬다.
4.5 주요 변별력 지표¶
단변량 분석에서 변수의 예측력을 정량적으로 평가하는 대표 지표는 다음과 같다.
| 지표 | 의미 | 일반적 기준 |
|---|---|---|
| IV (Information Value) | Good과 Bad의 분포 차이를 합산한 값. 변수 전체의 예측력을 하나의 숫자로 요약한다. | IV < 0.02: 무의미 / 0.02~0.1: 약함 / 0.1~0.3: 보통 / 0.3 이상: 강함 |
| K-S (Kolmogorov-Smirnov) | Good과 Bad의 누적분포 차이의 최대값. 변별력이 극대화되는 지점을 포착한다. | 변수 수준: K-S > 10~15 / 모형 수준: K-S > 30~40 |
| PSI (Population Stability Index) | 개발 시점 대비 검증 시점의 분포 변화. 변수의 시간적 안정성을 평가한다. | PSI < 0.10: 안정 / 0.10~0.25: 주의 / 0.25 이상: 불안정 |
IV 기준값의 이론적 배경
IV < 0.02를 "무의미"로 분류하는 근거는 효과 크기(Effect Size)와 관련된다. IV는 Good/Bad 분포 간의 KL Divergence에 기반하며, IV 0.02는 두 분포가 거의 겹쳐 있어 실무적으로 유의미한 분리를 제공하지 못하는 수준이다. 다만 이 기준은 불량률 수준에 따라 달라질 수 있다 — 불량률이 극히 낮은(< 0.5%) 데이터에서는 IV 0.02도 유의미할 수 있으므로, IV 기준값을 불량률 맥락에서 해석해야 한다. 맥락별 IV 기준 차이에 대한 상세 내용은 IV를 참고한다.
단변량 → 다변량
IV, K-S 등으로 1차 스크리닝을 수행한 뒤, 살아남은 변수들을 대상으로 로지스틱 회귀(다변량 분석)를 적합시켜 변수 간 상호작용과 다중공선성을 고려한 최종 변수를 선택한다. 이 과정은 단변량 로지스틱 회귀에서 상세히 다룬다.
4.6 ML 기반 변수 선정¶
전통적 Classing/WoE 기반 선별 외에, 최근에는 머신러닝(ML) 기법을 변수 선별 단계에 활용하는 경우가 늘고 있다.
| 기법 | 개요 | 장점 | 주의점 |
|---|---|---|---|
| Tree 기반 Feature Importance | Random Forest, XGBoost 등 트리 모형을 적합시킨 뒤 변수별 기여도를 산출 | 비선형 관계 포착 가능. 변수 간 상호작용 반영 | 다중공선성을 고려하지 않음. 상관이 높은 변수 2개가 있으면 중요도가 둘에 분산되어, 실제보다 과소평가될 수 있음 |
| SHAP (SHapley Additive exPlanations) | 게임 이론 기반으로 각 변수의 예측 기여도를 정량 분해 | 모형 종류에 무관하게 적용 가능. 변수별·관측치별 기여도 설명 | SHAP은 해석(Explanation) 도구이지 변수 선별 도구가 아님. "SHAP 값이 크다 = 반드시 최종 모형에 포함해야 한다"는 아님. SHAP으로 후보를 탐색하되 최종 선별은 IV/Wald p-value로 판단 |
| Boruta / LASSO | 통계적 검정 또는 정규화를 통한 자동 변수 선택 | 자동화 용이 | 도메인 지식 반영이 어려움. LASSO의 경우 상관 변수 중 하나만 임의로 선택하는 경향 |
실무 관행
규제모형에서는 여전히 Classing → WoE/IV → Logistic Regression이라는 전통적 파이프라인이 표준이다. ML 기반 변수 선별은 전략 모형이나 변수 탐색(EDA) 단계에서 보조적으로 활용하되, 최종 모형은 해석가능성·규제 수용성을 위해 로지스틱 회귀로 적합시키는 하이브리드 접근이 현실적이다.
Tree 기반 Feature Importance, SHAP, Boruta/LASSO 등 ML 기반 변수 선정 기법의 상세 내용은 머신러닝 섹션에서 다룬다. 특히 트리 모형과 해석가능성(Interpretability)을 참고한다.