Baseline 워크플로우¶
정해진 공식은 아니지만, 저자의 경우 본격적인 모형 튜닝에 들어가기 전에 가장 먼저 해보는 두 가지 모형 적합이 있다. 복잡한 하이퍼파라미터 조정 없이도 빠르게 결과를 얻을 수 있으며, 이후 모든 모형의 성능 기준선(baseline)이 된다.
저자 경험
경험적으로, 잘 튜닝된 트리 기반 앙상블(XGBoost 등)은 가장 단순한 뉴럴넷(로지스틱 회귀) 대비 KS/AR 기준 20~30% 개선되는 경우가 많았다. 이 갭의 크기가 곧 해당 데이터에서 비선형성과 교호작용이 얼마나 존재하는지를 알려주는 지표다.
4.1 첫 번째: 가장 단순한 뉴럴넷 (로지스틱 회귀)¶
로지스틱 회귀는 은닉층이 없는 가장 단순한 뉴럴넷이다. Classing이나 WoE 변환 없이, 연속형 변수에는 normalization(표준화)만 적용하고, 범주형 변수에는 one-hot encoding만 적용하여 바로 적합한다. 전통 스코어카드 개발과 달리 변수 가공에 시간을 들이지 않으므로, 변수 선정 직후 몇 분 만에 성능의 하한선(floor)을 확인할 수 있다.
4.2 두 번째: Random Forest¶
Random Forest는 하이퍼파라미터를 거의 건드리지 않아도 안정적인 성능을 내는 가장 쉬운 트리 앙상블이다. 기본 설정(n_estimators=500, 나머지 default)만으로도 대부분의 정형 데이터에서 합리적인 결과를 보여주므로, 튜닝 없이 빠르게 성능의 상한선(ceiling) 근사치를 확인하는 용도로 적합하다.
RF가 baseline으로 선택되는 데에는 구조적인 이유가 있다. Bagging 기반 앙상블은 개별 트리를 깊게 키워 Bias를 낮추고, 평균화로 Variance를 잡는 전략이다. 이 때문에 별도의 정규화 튜닝 없이도 과적합이 잘 일어나지 않으며, 비선형 패턴과 변수 간 상호작용을 자연스럽게 포착한다. 즉, "데이터에 비선형 정보가 얼마나 있는가"를 가장 적은 노력으로 확인할 수 있는 모형이다.
LR-RF 갭이 알려주는 것
LR과 RF의 성능 차이가 크면 데이터에 비선형 패턴이 풍부하다는 뜻이고, Boosting 등 더 복잡한 모형에 투자할 가치가 있다. 반대로 갭이 작으면 데이터 자체가 선형에 가까워, 해석 가능성이 높은 LR 기반 모형이 더 효율적인 선택일 수 있다.
두 모형의 역할
이 두 baseline 모형 사이의 성능 범위가 곧 이 데이터에서 기대할 수 있는 현실적인 성능 구간이다. 이후 XGBoost, LightGBM 등의 튜닝된 모형이 이 구간 안에서 어디에 위치하는지를 평가하면, 추가 복잡성이 정당화되는지 판단할 수 있다.
다음 페이지
데이터 분리 전략 --- Train/Valid/Test 분리, CV, OOT 검증 전략을 다룬다.