핵심 파라미터 상세¶

2.1 monotonic_trend — 단조성 제약¶

가장 중요한 파라미터다. WoE(또는 Event Rate)의 방향을 제약한다.

값	의미	사용 시점
`"auto"`	ML 분류기로 자동 탐지 (기본값)	변수 특성을 모를 때
`"ascending"`	WoE 단조증가 강제	사용률↑ → 위험↑ 등
`"descending"`	WoE 단조감소 강제	소득↑ → 위험↓ 등
`"peak"`	역U형 (중간이 최대)	업력, 특정 재무비율
`"valley"`	U형 (중간이 최소)	드문 경우
`"auto_asc_desc"`	ascending/descending 중 자동 선택	peak/valley 배제하고 싶을 때

auto 내부 동작

"auto" 설정 시 optbinning은 Pre-binning 결과의 Event Rate 패턴에서 16개 특성(추세 변화 횟수, 회귀 기울기 부호, 극값 위치, 볼록 껍질 비율 등)을 추출하고, 사전 학습된 결정 트리 분류기로 ascending / descending / peak / valley 중 하나를 예측한다. 이후 네 방향 각각으로 최적화를 실행해 IV가 가장 높은 방향을 최종 선택한다.

2.2 샘플 크기 제약¶

optb = OptimalBinning(
    min_bin_size=0.05,        # Bin당 최소 전체 샘플의 5%
    max_bin_size=None,        # 최대 비율 (None=제한 없음)
    min_bin_n_event=10,       # Bin당 최소 Bad 건수
    min_bin_n_nonevent=10,    # Bin당 최소 Good 건수
)

2.3 Bin 수 제약¶

optb = OptimalBinning(
    min_n_bins=3,             # 최소 Bin 수
    max_n_bins=7,             # 최대 Bin 수
)

미지정 시

max_n_bins=None이면 solver가 IV를 최대화하는 Bin 수를 자동 결정한다. 실무에서는 5~7로 상한을 두는 것이 해석 가능성 측면에서 권장된다.

2.4 p-value 제약 — 인접 Bin 간 유의성¶

optb = OptimalBinning(
    max_pvalue=0.05,                  # 인접 Bin 간 최대 p-value
    max_pvalue_policy="consecutive",  # "consecutive" 또는 "all"
)

파라미터	설명
`max_pvalue`	인접 Bin 쌍의 Event Rate 차이에 대한 Z-test p-value 상한. 이를 초과하는 쌍은 합병 대상
`max_pvalue_policy`	`"consecutive"`: 바로 인접한 쌍만 검정 (기본값). `"all"`: 모든 Bin 쌍 검정

p-value 산출 방식

최적화 내부에서는 Event Rate 차이에 대한 Z-test를 사용한다(연속형 타겟은 T-test). 이는 ChiMerge의 카이제곱 검정과 원리는 유사하지만 구현이 다르다. 사후 검증 시 binning_table.analysis()에서 Chi-square 또는 Fisher exact test를 별도로 수행할 수 있다.

2.5 Special Codes와 Missing 처리¶

optb = OptimalBinning(
    special_codes=[-9, -99],          # 센티널 값 → 별도 Bin으로 분리
    # 또는 딕셔너리로 그룹화:
    # special_codes={"sentinel": [-9, -99], "zero": [0]},
)

special_codes에 지정된 값은 최적화에서 제외되고, 별도의 Special Bin으로 처리된다.
Missing 값(NaN)도 자동으로 별도 Bin으로 분리된다.
WoE 변환 시 metric_special=0, metric_missing=0이 기본값 (WoE=0, 즉 중립).

2.6 범주형 변수 처리¶

optb = OptimalBinning(
    name="industry_code",
    dtype="categorical",        # 범주형 지정
    cat_cutoff=0.05,            # 빈도 5% 미만 범주는 자동 그룹화
)

2.7 정규화 — gamma 파라미터¶

optb = OptimalBinning(
    gamma=0.01,   # L1 정규화 강도 (기본값 0)
)

gamma > 0이면 목적함수에서 Bin 크기 불균형에 대한 페널티가 추가된다. 특정 Bin이 IV를 독점하는 것을 방지하여 더 균형 잡힌 Bin 구성을 유도한다.