여기 묘한 퍼레이드가 시작한다. 처음 등장한 사람들은 머리를 땅속에 파묻은 채로 거꾸로 서서 지나간다. 이어서 불과 몇 cm밖에 되지 않는 매우 작은 사람들이 줄줄이 지나간다. 30분이 지루하게 흘러가지만 아직도 키가 1m 남짓한 난쟁이만 보인다. 48분이 지나자 드디어 키가 170cm인 사람들이 출연한다. 이후 사람들의 키가 비정상적으로 급격히 커지더니 어느새 구름에 가려져 얼굴도 보이지 않는 초거인이 등장한다. 이 내용은 네덜란드 경제학자인 얀 펜(Jan Pen)이 쓴 『소득분배』(1971)에 나오는 이야기다. 위의 퍼레이드에 소요되는 시간은 총 1시간이며, 당시 영국에 살고 있던 모든 사람들이 등장한다고 가정한다. 또한 사람들의 키는 소득에 비례하고 평균 소득을 가진 사람의 키, 즉 평균 신장은 170cm라고 설정한다. 그렇다면 땅속에 파묻힌 채로 나타났던 사람들은 누구일까? 바로 파산한 사업가 등 소득이 마이너스인 사람들이다. 파트타임으로 일하는 주부, 노인,실업자 등은 키가 1m 미만인 난쟁이로 표현된다. 여기서 주의 깊게 봐야할 부분은 평균 신장인 사람들이 등장하는 ‘시간’이다. 30분이 아니라 48분에 평균 신장인 사람이 나타났다는 말은 평균 소득이 낮은 사람부터 일렬로 쭉 세워 보았을 때 전체 인구의 한가운데가 아닌 80% 지점에 서 있는 사람이 평균 소득을 갖는다는 것을 의미한다.

우리나라의 소득분포
펜은 소득불평등을 ‘난쟁이 퍼레이드’를 통해 우화적으로 그려냈다. 그렇다면 우리나라의 소득은 어떻게 분포되어 있을까? 우리나라의 경우 통계청에서 매월 전국의 약 8,700개 표본가구를 대상으로 「가계동향조사」를 시행한다. 통계청은 이렇게 수집된 자료를 분기별로 통합하여 가구당 가계수지(월평균)를 발표한다. 이때 소득·지출 등의 금액자료는 전체가구의 가구당 월평균 금액이며 별도의 언급이 없는 한 물가상승분이 포함된 명목금액이다. 「가계동향조사」는 ‘소득구간별 가구당 가계수지’도 발표한다. 소득은 100만 원을 계급구간으로 하여 총 7개 구간으로 나뉜다. 소득구간별 비중은 <그림 1>과 같이 소득이 100만 원 미만인 가구가 총가구의 6.12%로 가장 적고, 소득이 300만원 이상 400만 원 미만인 가구가 총가구의 21.53%로 가장 높다.월평균 소득이 600만 원 이상인 가구는 14.32%를 차지한다.
5분위별 월평균 소득과 소득점유율을 통해 다른 측면에서 소득분포를 살펴보자. 5분위별 소득이란 가구를 소득 순서대로 나열한 후 최하위 가구부터 최상위 가구까지 5구간으로 등분하여 각 구간별 소득을 평균한 금액을 말한다. <그림 2>를 살펴보면 각 분위별 소득과 소득점유율을 파악할 수 있다. 예컨대 1분위의 월평균 소득은 약 125만 5천 원이고 전체 가구의 6.53%를 차지한다. 5분위 월평균 소득이 730만 3천 원이고 전체 가구의 38.03%에 달하는 소득을 벌어들인 것과는 대조적이다.
2011년 현재 우리나라 가구당 월평균 소득은 3분위 월 평균 소득인 약 350만 5천 원보다 33만 7천 원 높은 약 384만 2천 원에 달한다. 또한 50% 경곗값(중앙값)인 약 350만 원과 60% 경곗값인 약 394만 2천 원의 사이에 위치해 있다. 만약 우리나라 버전의 ‘난쟁이 퍼레이드’를 만든다면 30분부터 36분 사이에 평균 신장을 가진 사람을 발견할 수 있는 것이다.
어떻게 해석할 것인가
통계의 장점 중 하나는 많은 정보를 축약해서 한눈에 보여준다는 점이다. 자료의 수가 많으면 많을수록 정보요약이라는 통계의 특징은 빛을 발한다. 이때 자료의 특성을 뚜렷하게 보여주는 대푯값으로 주로 쓰이는 것이 평균값이다. 그러나 소득분포와 같이 한쪽으로 쏠린 그래프에서 평균만 가지고 자료를 판단한다면 어떻게 될까? 자료가 가지고 있는 정보를 틀리게 해석할 가능성이 존재한다. 따라서 통계의 정보를 바르게 해석하기 위해 히스토그램 등의 분포도를 그려보거나 평균값·중앙값·최빈값을 함께 비교해보는 것이 중요하다. 먼저 평균값·중앙값·최빈값에 대해 살펴보자. 일반적으로 평균값은 모든 수를 더한 총합을 총 개수로 나누어서 계산한다. 중앙값은 순서대로 자료를 나열했을 때 중앙에 있는 값이다. 자료의 수가 짝수인 경우에는 중앙에 있는 두 개의 값의 평균으로 구한다. 최빈값은 자료 속에서 가장 많이 나타나는 값이며, 특히 숫자의 연산이 의미가 없는 성별·우편번호·주민등록번호 등을 셈할 때나 투표와 같이 가장 높은 표를 받은 사람의 수를 세는 경우의 대푯값으로 유용하다.
이제 세 값을 그래프와 비교해서 살펴보자. 자료의 평균값·중앙값·최빈값이 거의 비슷하다면 <그림 3>의 ①과 같은 단봉분포가 된다. 단봉분포의 평균값은 대푯값으로써 의미가 있다. 반면 <그림 3>의 ②처럼 자료가 쌍봉분포라면 평균값만으로 자료를 판단하기에 부족하다. 또한 자료가 ‘최빈값 < 중앙값 < 평균값’ 형태를 취한다면 <그림 3>의 ③처럼 봉우리가 왼쪽으로 치우친 모습을, ‘평균값 < 중앙값 < 최빈값’ 형태라면 <그림 3>의 ④와 같이 오른쪽으로 치우친 모양을 갖는다. 예를 들어 시험 결과 저득점자가 극단적으로 많으면 왼쪽으로, 고득점자가 극단적으로 많으면 오른쪽으로 쏠린 형태의 분포가 나온다.

사실 우리는 신문이나 뉴스 등을 통해 자주 접하는 평균값을 대푯값으로 여과 없이 받아들이는 경우가 많다. 그러나 평균값을 통계적 사고 없이 무작정 받아들이기만 한다면 왜곡된 정보를 수용할 가능성이 있다. 영국 작가인 허버트 웰스(Herbert Wells)가 “머지않아 통계적인 사고는 읽기, 쓰기와 마찬가지로 유능한 시민이 되기 위한 필수조건이 될 것”이라고 말한 의미를 되새길 필요가 있다.
남선혜 KDI 경제정보센터 연구원/ shnam@kdi.re.kr