콘텐츠로 이동

정보영역별 변수 선정

동일 정보영역 내에서 먼저 다중공선성을 제거한 뒤, 영역별 대표 변수를 확정하는 단계

단변량 로지스틱 회귀까지 통과한 변수는 개별적으로 유의미하다는 것이 확인된 상태다. 그러나 이 변수들을 바로 Full Model에 함께 투입하면 문제가 발생한다.

단변량 통과 변수를 바로 Full Model에 넣으면?

  • 동일 정보원에서 나온 변수들(예: 매출액·총자산·영업이익)은 서로 강하게 상관되어 있다
  • 다중공선성으로 \(\hat{\beta}\)가 불안정해지고, 부호 역전이 빈발한다
  • 변수 20~30개를 한꺼번에 투입하면 문제의 원인을 특정하기 어렵다

이 문제를 해결하기 위해 실무에서는 정보영역(Information Domain)별로 먼저 다변량 회귀를 수행하여 영역 내 다중공선성을 제거한 뒤, 각 영역의 대표 변수만 Full Model에 투입하는 2단계 절차를 따른다.

단변량 LR 통과① 정보영역별 Partial LR② 영역 내 대표 변수 확정Full Model

이 섹션에서 다루는 내용

섹션 제목 핵심 질문
1 영역 내 Partial LR 정보영역을 어떻게 나누고, 영역 내에서 어떻게 변수를 선별하는가?
2 β 부호 이상과 범주 재조정 영역 내 회귀에서 부호가 뒤집힌 변수를 어떻게 처리하는가?