콘텐츠로 이동

영역 내 Partial Logistic Regression

1.1 정보영역이란?

정보영역(Information Domain)은 변수의 출처 또는 성격에 따라 후보 변수를 묶는 단위다. 동일 영역 내 변수들은 유사한 정보원에서 파생되어 서로 높은 상관관계를 가진다.

정보영역 주요 변수 예시 특성
CB / CPS 정보 미해제 연체건수, 최장 연체일수, 미상환 대출잔액, 신용조회건수 대부분의 CSS에서 가장 높은 변별력. 변수 간 상관도 높음
신청서 / 인구통계 연령, 직업군, 근속기간, 거주형태 AS모형에서 주로 활용. 법적 제한 항목 존재
내부 거래 이력 수신 평잔, 여신 잔액, 카드 이용액, 한도소진율 BS모형에서 핵심. 동일 거래의 파생변수끼리 상관 극히 높음
재무 / 회계 부채비율, 영업이익률, 유동비율, 이자보상배율 기업 CSS에서 활용. 재무비율끼리 구조적 상관
기본 / 사업자 정보 업력, 업종, 자본금 규모, 지역 기업 모형의 보조 변수. 상대적으로 독립적

영역 분류는 모형 목적에 따라 달라진다

위 분류는 일반적인 예시다. 개인 AS모형, 기업 CSS, BS모형 등 목적에 따라 영역 구성이 달라질 수 있다. 핵심은 "같은 정보원에서 파생된 변수는 같은 영역으로 묶는다"는 원칙이다.

1.2 왜 영역별로 먼저 적합하는가?

단변량 LR을 통과한 변수가 20~30개라고 하자. 이들을 한꺼번에 Full Model에 투입하면:

  • 다중공선성 폭발 — 매출액·총자산·영업이익처럼 같은 재무제표에서 나온 변수들이 서로 설명력을 빼앗아 \(\hat{\beta}\)가 불안정해진다
  • 부호 역전 다발 — 단변량에서 양수였던 β가 다변량에서 음수로 뒤집히는 현상이 여러 변수에서 동시에 발생하여 원인 특정이 어렵다
  • Stepwise 불안정 — 변수 투입 순서에 따라 결과가 크게 달라진다

영역별 Partial LR은 이 문제를 분할 정복(Divide & Conquer)으로 해결한다.

\[ \underbrace{\text{재무 5개} \rightarrow \text{대표 2개}}_{\text{영역 내 Partial LR}} + \underbrace{\text{CB 4개} \rightarrow \text{대표 2개}}_{\text{영역 내 Partial LR}} + \cdots \rightarrow \underbrace{\text{대표 6~8개} \rightarrow \text{Full Model}}_{\text{전체 통합}} \]

1.3 영역 내 Partial LR 절차

Partial Logistic Regression은 전체 변수가 아닌 동일 정보영역의 변수만 투입하는 로지스틱 회귀다. 절차는 다음과 같다.

Step 1. 영역별 변수 그룹 구성

단변량 LR을 통과한 변수를 정보영역별로 묶는다.

재무 영역:  매출액_WoE, 총자산_WoE, 부채비율_WoE, 영업이익_WoE, 유동비율_WoE
CB 영역:    연체건수_WoE, 연체일수_WoE, 대출잔액_WoE, 조회건수_WoE
기본정보:   업력_WoE, 자본금_WoE

Step 2. 영역별 Partial LR + Stepwise Selection

각 영역에 대해 독립적으로 다변량 로지스틱 회귀를 수행한다.

\[ \ln\!\left(\frac{p_i}{1-p_i}\right) = \beta_0 + \sum_{j \in \text{영역}_k} \beta_j \cdot \text{WoE}_{i,j} \]
  • Stepwise Selection (Forward, Backward, 또는 Both) 적용
  • 각 단계에서 p < 0.05 기준으로 유의한 변수만 선택
  • 최종 잔류 변수에 대해 VIF, β 부호, p-value를 확인

Step 3. 영역 내 진단

검토 항목 기준 조치
β 부호 경제적 직관과 일치 역전 시 → 범주 재조정 루프
VIF < 5 > 5 → 상관 변수 쌍 중 IV 낮은 쪽 제거
p-value < 0.05 미달 시 제거

Step 4. 영역 내 대표 변수 확정

모든 기준을 통과한 변수를 해당 영역의 대표 변수로 확정한다.

수치 예시: 재무 영역 Partial LR

아래는 기업 CSS 개발에서 재무 영역 5개 변수를 Partial LR에 투입한 결과 예시다.

변수 β (단변량) β (Partial) VIF p-value 판정
매출액 0.85 0.71 1.4 <0.001 ✅ 유지
부채비율 0.91 0.65 2.3 <0.001 ✅ 유지
총자산 0.78 −0.15 6.2 0.28 ❌ 제거
영업이익 0.62 0.41 1.8 0.003 ✅ 유지
유동비율 0.35 0.12 1.2 0.18 ❌ 제거
  • 총자산: 매출액과 r = 0.82로 강한 상관 → β 부호 역전 + VIF 6.2 → 제거
  • 유동비율: β는 정상 방향이나 p = 0.18로 유의하지 않음 → 제거
  • 재무 영역 대표 변수: 매출액, 부채비율, 영업이익 (3개 확정)

Partial LR vs Full Model의 핵심 차이

Partial LR에서 제거된 변수는 같은 영역 내 다른 변수와 중복되기 때문에 제거된 것이다. Full Model에서의 제거는 영역 간 상관관계까지 고려한 결과다. 단계를 나누면 문제의 원인(영역 내 중복 vs 영역 간 중복)을 명확히 구분할 수 있다.

1.4 영역 간 변수 수 균형

영역별 Partial LR이 끝나면, 각 영역에서 몇 개의 대표 변수가 살아남았는지 확인한다.

정보영역 투입 변수 대표 변수 비율
재무 5 3 60%
CB 4 2 50%
기본정보 2 1 50%
합계 11 6

특정 영역 편중 주의

대표 변수가 한 영역에 과도하게 집중되면, 해당 정보원이 부재한 거래처(예: 재무제표 미제출 기업)에서 모형 적용성이 급감한다. Basel IRB 기준(BCBS 128 문단 417~422)에서도 특정 정보 원천에 과도하게 의존하지 않을 것을 권고한다.

영역별 대표 변수가 확정되면, 이들을 통합하여 Full Model(다변량 회귀)을 구성한다.