Simple LR vs Full Model¶
1.1 무엇이 다른가?¶
단변량 로지스틱 회귀(Simple LR)은 변수 하나하나의 단독 설명력을 확인하는 단계였다. Full Model은 선별된 변수들을 함께 투입하여 최종 예측 모형을 완성하는 단계다.
Simple LR (단변량)
- 목적: 변수별 독립적 변별력 확인
- 방법: 변수 1개씩 로지스틱 회귀 (No Intercept)
- 결과: \(\hat{\beta} \approx -\text{WoE}\) — 변수의 고유 신호 측정 (y=1=Bad이므로 부호 반대)
- 산출물: 통과/탈락 변수 목록 (IV, KS, 부호 점검)
Full Model (다변량)
- 목적: 변수 간 상호 통제 후 순수 효과 추출
- 방법: 통과 변수 전체 동시 투입, 절편 포함
- 결과: \(\hat{\beta}_{\text{multi}} \neq \hat{\beta}_{\text{uni}}\) — 상관관계만큼 조정됨
- 산출물: 최종 회귀계수 → 스코어카드 부분점수
핵심 차이는 변수 간 상관관계(다중공선성)의 통제 여부다. Simple LR에서 서로 상관된 변수가 둘 다 높은 IV를 보일 수 있지만, Full Model에서는 둘 중 하나가 중복 정보를 가진 것으로 판정되어 β가 크게 줄거나 제거된다.
직관적 비유
매출액과 영업이익은 단독으로 보면 각각 불량 예측에 강한 신호를 보인다. 그러나 둘은 높은 상관관계를 가지므로, 다변량 모형에서 함께 투입하면 한 변수가 이미 상대방의 정보를 대부분 설명해버린다. 결과적으로 한 변수의 β가 대폭 감소하거나, 심할 경우 부호가 역전될 수도 있다.
1.2 왜 Simple LR 단계를 생략할 수 없는가?¶
Simple LR 없이 바로 Full Model을 구성하면 다음 문제가 발생한다.
| 문제 | 설명 |
|---|---|
| 변수 과다 투입 | 후보 변수가 30~50개일 때 한꺼번에 다변량 회귀를 수행하면 다중공선성이 폭발적으로 증가하여 β 추정이 불안정해진다 |
| 불량 변수 혼입 | IV가 낮거나 WoE 패턴이 비단조적인 변수가 걸러지지 않은 채 Full Model에 진입 → 노이즈가 모형 성능을 저하 |
| Classing 품질 미검증 | 각 Bin의 통계적 유의성(Wald p-value)을 확인하지 않으면, 비유의한 Bin이 포함된 변수가 Full Model에서 불안정한 β를 만들어냄 |
| 디버깅 난이도 증가 | Full Model에서 β 부호 역전이 발생해도, 원인이 다중공선성인지 Classing 문제인지 변수 자체의 문제인지 구분하기 어려움 |
Simple LR은 이 문제를 해결하는 사전 필터링 + 품질 보증 단계다. 변수별로 개별 검증(β ≈ −WoE 확인, Wald 유의성, 부호 점검)을 마친 변수만 Full Model에 투입하므로, Full Model 단계에서의 문제 원인을 "변수 간 상호작용"으로 좁힐 수 있다.
1.3 Simple LR → Full 전환 시 달라지는 것¶
| 항목 | Simple LR | Full Model |
|---|---|---|
| 절편 | 없음 (No Intercept) | 있음 (\(\beta_0\) 포함) |
| β 해석 | 변수 단독 효과 ≈ −WoE | 다른 변수를 통제한 순수 효과 |
| β 크기 | |WoE|와 거의 동일 (부호 반대) | |WoE|보다 작아짐 (상관 변수 영향 제거) |
| 변수 수 | 1개씩 개별 투입 | 최종 후보 전체 동시 투입 |
| 다중공선성 | 해당 없음 | VIF로 진단·제거 |
| 산출물 | 통과 변수 목록 | 최종 회귀계수 → 스코어카드 |
Classing 피드백 루프와의 관계
Simple LR에서 비유의 Bin이 발견되면 Classing 피드백 루프를 통해 Coarse Classing을 재조정한다. 이 피드백이 완료된 후에야 Full Model 투입 변수가 확정된다. 즉 Simple LR → Classing 피드백 → Simple LR 재확인 → Full Model이라는 반복적 흐름이 실무의 표준이다.