머신 러닝 모델 해석(Interpretation)에 관한 고찰

"평균적으로 그렇다"는 말에 너무 신경 쓰지 말자.

나는 평균적인 사람이 아니고 당신도 그렇다. 통계적으로 평균적인 것이라는 건 생각보다 흔치 않다. 많은 경우 중간값(Median)을 찾아야 한다.

선형 모델은 상호작용을 잘 반영하지 못한다.

선형 회귀나 선형 모델의 해석 가능성이 가장 높은 것은 사실이다. 각 변수의 가중치가 모두 투명하게 드러나기 때문이다. 하지만 이는 '선형'이라는데 함정이 있다. 이 구조에선 각 변수의 효과가 독립적이고 상호작용이 고려될 수 없기 때문에 그렇게 해석이 쉬운 것이다. 그래서 대체로 간단하고 성능이 좋지만 비선형적인 관계라면 성능은 훅 떨어진다.

더 복잡한 '블랙박스' 모델은 예측력이 훨씬 더 좋다.
하지만 다른 모델이 예측 성능이 두 배 더 좋다고 테스트 결과를 제시하면 당신은 그 통찰을 순전히 믿겠는가?

딥러닝, 랜덤 포레스트 같은 복잡한 블랙박스 모델은 데이터 패턴을 더 잘 포착하여 더 높은 예측 정확도를 제공할 수 있다. 하지만 그들은 해석이 안되기 때문에 블랙박스 모델이라고 불린다. 이런 블랙박스 모델의 단순 테스트 결과가 좋다고 해서 덥썩 사용하는 건 위험하다. 성능 문제도 있거니와 이 모델이 오버피팅된 것은 아닌지, 엉뚱한 Proxy나 Confusion을 추적하고 있는 것은 아닌지 확인을 해야 한다. 특히 1%의 성능 향상보다 누군가에게 설명이 더 필요한 경우라면 블랙박스 모델은 상당 경우 좋지 않은 선택이 될 수 있다.

뒷 배경에 눈이 있으면 Wolf, 푸릇부릇하면 Dog로 분류한다. 데이터가 부족할 때 흔히 발생할 수 있는 문제이다.

저작자표시 비영리 변경금지

'IT 이론 > 데이터과학&머신러닝' 카테고리의 다른 글

머신 러닝을 이용한 제안서 평가 고려사항 (feat. 예측 문제) (1)	2024.12.03
인과관계(Causality)로 알아보는 혼란 변수 (실생활 예시 등) (0)	2024.12.02

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

지식잡식

머신 러닝 모델 해석(Interpretation)에 관한 고찰

'IT 이론 > 데이터과학&머신러닝' 카테고리의 다른 글

댓글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

머신 러닝 모델 해석(Interpretation)에 관한 고찰

'IT 이론 > 데이터과학&머신러닝' 카테고리의 다른 글

관련글

댓글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역