반응형
"평균적으로 그렇다"는 말에 너무 신경 쓰지 말자.
나는 평균적인 사람이 아니고 당신도 그렇다. 통계적으로 평균적인 것이라는 건 생각보다 흔치 않다. 많은 경우 중간값(Median)을 찾아야 한다.
선형 모델은 상호작용을 잘 반영하지 못한다.
선형 회귀나 선형 모델의 해석 가능성이 가장 높은 것은 사실이다. 각 변수의 가중치가 모두 투명하게 드러나기 때문이다. 하지만 이는 '선형'이라는데 함정이 있다. 이 구조에선 각 변수의 효과가 독립적이고 상호작용이 고려될 수 없기 때문에 그렇게 해석이 쉬운 것이다. 그래서 대체로 간단하고 성능이 좋지만 비선형적인 관계라면 성능은 훅 떨어진다.
더 복잡한 '블랙박스' 모델은 예측력이 훨씬 더 좋다.
하지만 다른 모델이 예측 성능이 두 배 더 좋다고 테스트 결과를 제시하면 당신은 그 통찰을 순전히 믿겠는가?
딥러닝, 랜덤 포레스트 같은 복잡한 블랙박스 모델은 데이터 패턴을 더 잘 포착하여 더 높은 예측 정확도를 제공할 수 있다. 하지만 그들은 해석이 안되기 때문에 블랙박스 모델이라고 불린다. 이런 블랙박스 모델의 단순 테스트 결과가 좋다고 해서 덥썩 사용하는 건 위험하다. 성능 문제도 있거니와 이 모델이 오버피팅된 것은 아닌지, 엉뚱한 Proxy나 Confusion을 추적하고 있는 것은 아닌지 확인을 해야 한다. 특히 1%의 성능 향상보다 누군가에게 설명이 더 필요한 경우라면 블랙박스 모델은 상당 경우 좋지 않은 선택이 될 수 있다.
반응형
'IT 이론 > 데이터과학&머신러닝' 카테고리의 다른 글
머신 러닝을 이용한 제안서 평가 고려사항 (feat. 예측 문제) (1) | 2024.12.03 |
---|---|
인과관계(Causality)로 알아보는 혼란 변수 (실생활 예시 등) (0) | 2024.12.02 |
댓글