본문 바로가기
IT 이론/데이터과학&머신러닝

인과관계(Causality)로 알아보는 혼란 변수 (실생활 예시 등)

by 지식id 2024. 12. 2.
반응형

예측 모델을 만들다 보면 가끔 우리가 혼란에 빠지는 결과가 도출되곤 한다. 예를 들면 아래와 같다.

 

아이스크림 판매가 많아질 때 아폴로 눈병의 발병률이 올라간다.

 

그렇다면 우리는 여기서 아이스크림이 아폴로 눈병에 안 좋다고 이해해도 되는 것인가? 데이터는 분명한 연관성을 보여주고 있다!

 

다른 예를 들어보면 진실이 눈에 보일 것이다.

 

과거 유럽의 사람들을 조사했더니 높은 모자를 쓴 사람들이 더 오래 산다는 통계학적인 연관성이 발견 되었다. 모자의 높이는 장수에 어떤 영향을 주는가?

 

아직도 헷갈린다면 아래 예를 보자.

 

아이스크림이 많이 팔리는 시기엔 아폴로 눈병만 올라가는게 아니라 익사사고도 많아지는 것으로 확인되었다.

 

자, 그렇다면 아폴로 눈병과 익사 사고의 원인은 무엇인가? 아이스크림일까? 당연히 여기서 우리는 문제가 "기온" 이라고 예측할 수 있다. 기온이 높으면 사람들이 아이스크림을 많이 사먹고, 기온이 높으면 아폴로 눈병의 전염력이 높아지고 기온이 높으니깐 사람들이 수영을 한다. 즉 기온 때문에 다 같이 올라가는 건데, "기온"이라는 요소를 빼놓고 해석을 하려고 하니 이상한 원인분석을 하게 되는 것이다.

 

 

위 그래프를 보자. 

여기서 C는 Confound Variable이자 Baseline Variables이다. A와 B에 모두 영향을 끼치는 요소이다. 

A는 B에 영향을 주는 것으로 알려진 무언가이다. 우리가 찾는 원인일 수도 있다.

B는 결과이다.

 

만약 C가 모델에 포함되지 않은 채 학습이나 분석이 이루어진다면 A가 원인인 것으로 오해가 생길 수 있다. 결국 A 또한 C에 의해 같이 변화하는 결과일 뿐인데 원인으로 오해를 받는 것이다.

 

사례별로 보자.

 

아이스크림 판매량 - 아폴로 눈병

 

C: 기온 

A: 아이스크림 판매량 
B: 아폴로 눈병 발병률

 

아이스크림 판매량 - 익사 사고

 

C: 기온 

A: 아이스크림 판매량 
B: 익사 사고 건수

 

높은 모자 - 수명

 

C: 재산이 많거나 신분이 높음

A: 높은 모자

B: 수명

 

그리고 마치기 전에 마지막으로 하나의 중요한 예를 더 들어보겠다. 위의 예시는 잘못된 원인이 도출된 것이지만 간혹 독립 변수가 목표 변수에 끼치는 영향력에 대한 잘못된 해석으로 이어지기도 한다.

 

안전 운전 교육 이수가 사고율에 미치는 영향을 조사하라는 임무를 받고 데이터를 전달 받았다. 분석을 해보니 아래와 같은 결과가 나왔다. 어떤 이유일까? (2가지가 동시에 나온 것이 아니라, 그냥 각각의 결과가 나온 상황을 하나씩 가정해 보자)

 

1. 안전 운전 교육을 들은 사람들이 오히려 사고율이 높더라

2. 안전 운전 교육을 들은 사람들이 사고율이 훨씬 낮더라

 

이 경우 1번이라면 차라리 다행이다. 뭔가 이상하다고 생각하고 뭔가 잘못되고 있는 원인을 파악해볼 것이기 떄문이다. 하지만 2번이라면 그냥 "효과가 있네"라는 결론을 내고 분석을 종료해버릴 수도 있다. 하지만 이 결과에 끼친 영향이 어떤 것인지 뒤늦게 알게 되면 애초에 제대로 분석할 수 없었다는 것을 알 수 있다.

 

1번은 알고 보니 강제 안전 운전 교육이었다. 즉 사고를 많이 내는 사람들에게 벌칙으로 교육을 듣게 한 것이다. 이런 사람들은 아무리 안전 운전 교육을 듣더라도 다른 운전자들보다 사고율이 높을 수 밖에 없다. 그러니 안전 교육을 들은 사람들이 오히려 사고율이 높게 결과가 나올 수 밖에

 

2번은 알고 보니 자율적으로 들을 수 있는 안전 운전 교육이었다. 평소에 안전에 관심이 많고 운전을 조심히 하는 사람들이 더 안전하기 위해 이 교육을 이수한 것으로 확인되었다. 결국 원래 운전을 안전하게 하던 사람들이었기 떄문에 안전 교육을 들은 사람들의 사고율이 낮게 나온 것이다. 결국 이를 통해 안전 운전 교육의 효과는 알아낼 수 없었다.

 

여기서, 그래프에 대입을 해보자면 아래와 같다.

 

C: 운전자의 평소 운전 습관 (또는 기존 사고율)

A: 안전 교육

B: 사고율

 

결국 C가 포함이 된 채로 분석을 해야, 운전을 원래 험하게 하고 사고를 많이 낸 사람들 중에서 교육을 이수한 사람과 이수하지 않은 사람의 차이를 분석할 수 있다. 마찬가지로 원래 사고를 잘 안내는, 운전을 안전하게 하는 사람들 중에서 교육을 이수한 사람과 이수하지 않은 사람을 비교할 수 있게 된다. 즉 C라는 혼란 변수가 빠졌기 때문에 잘못된 결과가 도출된 것이다.

반응형

댓글