본문 바로가기
반응형

IT 이론/데이터과학&머신러닝3

머신 러닝을 이용한 제안서 평가 고려사항 (feat. 예측 문제) 실제 업무적인 발주에 따른 제안서 평가든 교육적 프로젝트든 마찬가지다. 머신러닝을 사용해 예측을 하겠다는 내용이 있다며 아래 사항들을 고려하여 평가하여야 한다. 크게 비즈니스, 데이터, 모델링, 평가, 배포의 관점으로 불 수 있겠다.참고로 아래 내용은 대부분 예측 및 분류에 대한 지도학습 문제에 대한 경우이다. EDA의 경우엔 대부분 해당사항이 없을 수 있다. 1. 비즈니스 이해비즈니스 도메인에 대한 기본적인 상식이 결여된 부분은 없는가?예를 들어, 무료 구독 후 해지하는 비율이 90%인데, 무료 구독 후 해지할 사람을 80%의 정확도로 식별 해보겠다던가. (10명 중 아무나 8명을 골라도 80% 이미 80% 이상의 정확도이다.)설정한 목표 변수가 문제를 해결하는데 적절한 목표 변수가 맞는가?예를 들어,.. 2024. 12. 3.
인과관계(Causality)로 알아보는 혼란 변수 (실생활 예시 등) 예측 모델을 만들다 보면 가끔 우리가 혼란에 빠지는 결과가 도출되곤 한다. 예를 들면 아래와 같다. 아이스크림 판매가 많아질 때 아폴로 눈병의 발병률이 올라간다. 그렇다면 우리는 여기서 아이스크림이 아폴로 눈병에 안 좋다고 이해해도 되는 것인가? 데이터는 분명한 연관성을 보여주고 있다! 다른 예를 들어보면 진실이 눈에 보일 것이다. 과거 유럽의 사람들을 조사했더니 높은 모자를 쓴 사람들이 더 오래 산다는 통계학적인 연관성이 발견 되었다. 모자의 높이는 장수에 어떤 영향을 주는가? 아직도 헷갈린다면 아래 예를 보자. 아이스크림이 많이 팔리는 시기엔 아폴로 눈병만 올라가는게 아니라 익사사고도 많아지는 것으로 확인되었다. 자, 그렇다면 아폴로 눈병과 익사 사고의 원인은 무엇인가? 아이스크림일까? 당연히 여기서.. 2024. 12. 2.
머신 러닝 모델 해석(Interpretation)에 관한 고찰 "평균적으로 그렇다"는 말에 너무 신경 쓰지 말자.  나는 평균적인 사람이 아니고 당신도 그렇다. 통계적으로 평균적인 것이라는 건 생각보다 흔치 않다. 많은 경우 중간값(Median)을 찾아야 한다.  선형 모델은 상호작용을 잘 반영하지 못한다.  선형 회귀나 선형 모델의 해석 가능성이 가장 높은 것은 사실이다. 각 변수의 가중치가 모두 투명하게 드러나기 때문이다. 하지만 이는 '선형'이라는데 함정이 있다. 이 구조에선 각 변수의 효과가 독립적이고 상호작용이 고려될 수 없기 때문에 그렇게 해석이 쉬운 것이다. 그래서 대체로 간단하고 성능이 좋지만 비선형적인 관계라면 성능은 훅 떨어진다.  더 복잡한 '블랙박스' 모델은 예측력이 훨씬 더 좋다.하지만 다른 모델이 예측 성능이 두 배 더 좋다고 테스트 결과를.. 2024. 11. 30.
반응형