(본 글에서 의미하는 심슨이 우리가 흔히 아는 캐릭터 '심슨'은 아닙니다^^)
심슨의 역설이라는 말을 들어보셨나요?
심슨의 역설은 영국의 통계학자 에드워드 심슨이 정리한 역설로 각각의 변수에 신경쓰지 않고 전체 통계 결과를 유추하다 일어나는 오류를 말합니다.
이라고 반드시
인 것은 아니다.
즉, 각 부분에 대한 평균이 크다고 해서 전체에 대한 평균까지 크지는 않다는 의미입니다.
심슨의 역설 : 여러 그룹의 자료를 합했을 때의 결과와 각 그룹을 구분했을 떄의 결과가 다른 경우
부분을 단순히 합친 것 뿐인데 그 결과가 각 부분을 비교했을 때의 결과와 달라지는 것이 일반적인 상식과는 다르기에 '심슨의 역설'이라고 부른다.
수식만 보면 잘 이해가 되지 않는데요,
예시를 통해 살펴보겠습니다.
1973년 캘리포니아 주립대학교 버클리 캠퍼스 대학원 입학에서 남자 지원자의 합격률이 약 50% 가까운 차이가 있다며 성차별로 소송을 건 일이 있었습니다.
위의 표를 보면 남학생은 71%의 합격률, 여학생은 23%의 합격률로 굉장히 큰 차이가 있죠.
그러나, 세부 사항을 쪼개보면 그 수치는 달라집니다.
실제로 각 학부마다 합격률을 살펴보면 생각보다 남여간의 합격률 차이가 크지 않고, 오히려 여학생의 합격률이 더 높았던 것이죠.
각 학부에서는 여학생 합격률이 남학생보다 높지만, 전체 합쳐서 평균을 내면 남학생 합격률이 높아지는 '상식을 뒤엎는 패러독스'가 발생합니다.
이처럼 일부분에서 성립하던 성질이 모든 부분을 합친 전체에서 성립하지 않는 것을
심슨의 역설(Simpson's Paradox)라고 부릅니다.
조금 더 실생활적인 예시를 보겠습니다.
A 기업 : 평균 연령 31세, 평균 연봉 9,000만원
B 기업 : 평균 연령 34세, 평균 연봉 6,000만원
여러분이 만약 두 기업 중 하나의 입사를 결정해야 한다면, 어떤 기업을 선택하시겠나요??
단적으로 생각하면 사원 연령이 젊고, 평균 연봉이 높은 A 기업을 선택할 것입니다.
하지만, 데이터를 상세히 보면 어떨까요?
앞서 말씀드린 평균은 A 기업이 훨씬 높지만, 임원 1명을 빼면 대다수 20대 초반의 젊은 직원이며, 대부분의 직원의 연봉 또한 적은 것을 볼 수 있습니다.
반면에 B 기업의 경우 대체적으로 연령 분포가 고르고, 평균 임금에도 큰 차이가 없는 것을 볼 수 있죠.
이렇게 평균만으로 판단한다면 해석의 오류가 발생할 수 있습니다.
즉, 우리는 평균값을 분석 결과로 활용할 때, 데이터를 시각화하여 전체 분포를 파악하고 범위 내에서의 데이터를 해석할 수 있어야 합니다!
이러한 현상이 발생하는 이유가 무엇일까요?
다양한 이유가 있을 수 있지만, 중요한 변수가 무시되었거나 각 부분의 샘플 크기 혹은 비율이 다른데도 가중치를 주지 않았기 때문입니다.
앞선 캘리포니아 대학교 사례를 살펴보면, 남녀의 성비가 달랐기 때문에 그런 현상이 나타났다고 할 수 있습니다.
즉, 여학생의 경우 합격이 어려운 학과에 지원자들이 집중되었기 떄문에 전체 여학생의 합격률이 낮아지는 결과가 나타났던 것입니다.
이렇게 결과에 영향을 주는 핵심 변수를 '혼재변수'라고 합니다.
즉 데이터 분석가들은 목표와 목적을 확실히 세우고, 연구의 핵심이 되는 변수를 제대로 파악하여 누락되는 혼재변수가 없도록 통계적 결과를 고려하여 결론을 도출해야만 합니다!!
심슨의 역설은 숫자를 조작한 것이 아닌, 고려해야할 변수를 제대로 생각하지 못한 통계의 함정의 일종이라고 할 수 있는데요,
이러한 심슨의 역설은 잘못된 의사결정을 할 위험도 있기 때문에 유의해야 하는 부분입니다.
복잡하지만 한편으로는 잘 이해되는 심슨의 역설인데요,
특히 현업에서 마주칠 수 있는 문제는
매일매일 지표가 나가는데, 이걸 일주일 합산으로 만들어달라고 하면
1. 이미 계산된 데일리 지표를 평균해서 나가야 하는지
2. 데이터를 일주일 치 모아 평균으로 새로 계산해야 하는지
의 두 가지로 나누어질 수 있습니다.
1번 경우로 계산한다면 매일의 성과과 평균이 되어 나가는 것이고,
2번의 경우로 계산한다면 일주일 중에 가장 매출이 많았던 날, 클릭이 많았던 날 등이 전체의 평균을 높이게 됩니다.
심슨의 역설을 대응하는 데이터 분석가의 자세
심슨의 역설은 데이터 분석가가 꼭 고려해야할 상황이라고 생각합니다.
통계 결과에 영향을 주는 핵심 변수를 '혼재변수'라고 하는데요,
즉, 데이터 분석가들은 항상 분석 목표와 목적을 확실히 세우고,
연구의 핵심이 되는 변수를 제대로 파악하여 누락되는 혼재변수가 없도록 통계적 결과를 고려하여 결론을 도출해야만 합니다!
정리하자면, 다른 비율로 수집된 샘플의 데이터를 합산할 때 항상 유의해야 한다는 점이지요.
부분의 결과와 전체의 결과가 다를 경우에는 혼재변수가 누락되어 전체의 결과가 나온 것은 아닌지 살펴보는 습관을 가져야겠다고
다짐하는 이론이었습니다.
** 잘 정리된 자료가 있어 참고로 첨부합니다.
https://speakerdeck.com/ysunmi0427/simseunyi-yeogseol