본문 바로가기
IT 이론/데이터과학&머신러닝

머신 러닝 모델 해석(Interpretation)에 관한 고찰

by 지식id 2024. 11. 30.
반응형
"평균적으로 그렇다"는 말에 너무 신경 쓰지 말자.

 

나는 평균적인 사람이 아니고 당신도 그렇다. 통계적으로 평균적인 것이라는 건 생각보다 흔치 않다. 많은 경우 중간값(Median)을 찾아야 한다.

 

 

선형 모델은 상호작용을 잘 반영하지 못한다.

 

선형 회귀나 선형 모델의 해석 가능성이 가장 높은 것은 사실이다. 각 변수의 가중치가 모두 투명하게 드러나기 때문이다. 하지만 이는 '선형'이라는데 함정이 있다. 이 구조에선 각 변수의 효과가 독립적이고 상호작용이 고려될 수 없기 때문에 그렇게 해석이 쉬운 것이다. 그래서 대체로 간단하고 성능이 좋지만 비선형적인 관계라면 성능은 훅 떨어진다.

 

 

더 복잡한 '블랙박스' 모델은 예측력이 훨씬 더 좋다.
하지만 다른 모델이 예측 성능이 두 배 더 좋다고 테스트 결과를 제시하면 당신은 그 통찰을 순전히 믿겠는가?

 

딥러닝, 랜덤 포레스트 같은 복잡한 블랙박스 모델은 데이터 패턴을 더 잘 포착하여 더 높은 예측 정확도를 제공할 수 있다. 하지만 그들은 해석이 안되기 때문에 블랙박스 모델이라고 불린다. 이런 블랙박스 모델의 단순 테스트 결과가 좋다고 해서 덥썩 사용하는 건 위험하다. 성능 문제도 있거니와 이 모델이 오버피팅된 것은 아닌지, 엉뚱한 Proxy나 Confusion을 추적하고 있는 것은 아닌지 확인을 해야 한다. 특히 1%의 성능 향상보다 누군가에게 설명이 더 필요한 경우라면 블랙박스 모델은 상당 경우 좋지 않은 선택이 될 수 있다.

 

뒷 배경에 눈이 있으면 Wolf, 푸릇부릇하면 Dog로 분류한다. 데이터가 부족할 때 흔히 발생할 수 있는 문제이다.

반응형

댓글