본문 내용으로 건더뛰기

모바일 대메뉴명

KDI 경제정보센터

KDI 경제정보센터의 다양한
경제교육을 만나 보세요.

경제교육 click 경제교육

click 경제교육

부분으로 전체를 파악하는 표본조사
남선혜 KDI 경제정보센터 연구원2012.11.30

1936년 미국의 대통령 선거를 앞두고 대중잡지인 <리터러리 다이제스트(Literary Digest)>와 여론조사 기관 갤럽(Gallup)은 각각 설문조사를 실시했다. <리터러리 다이제스트>는 1천만 명에게 우편으로 설문지를 보내 240만 명에게서 응답을 받았다. 그 분석 결과를 토대로 공화당 알프레드 랜던(Alfred Landon) 후보의 당선을 예측했다. 반면 갤럽은 1,500명을 대상으로 면접조사를 실시한 결과 민주당 프랭클린 루스벨트(Franklin Roosevelt) 후보가 56%의 지지율로 당선할 것이라고 발표했다. 결과는 갤럽의 승리였다. 루스벨트는 62%라는 압도적인 지지를 받으며 대통령에 당선되었다.

 

왜 <리터러리 다이제스트>는 240만 명이라는 엄청난 표본을 대상으로 조사를 했는데도 예측에 실패했을까? 1952년 이래 미국의 여론조사기관이 8,144명 이상의 표본을 사용한 경우가 없었다는 점을 감안한다면 이는 더욱 놀라운 사실이다. 문제는 표본의 수가 아니라 표본의 질이었다. 이 잡지사는 조사를 위한 표본을 잡지의 정기구독자, 전화번호부, 자동차 등록명부, 사교클럽 인명부에서 임의로 뽑았다. 그러나 당시 잡지를 구독하는 대부분의 사람은 중산층 이상이었다. 집에 전화와 자동차를 소유하고 있다면 가난과는 거리가 멀었다. 게다가 그 해 소득이 낮은 유권자들은 민주당, 소득이 높은 유권자들은 공화당을 선호했다. 잡지사가 공화당 후보의 당선을 전망한 것은 당연한 일이었다. 이는 왜곡된 표본추출이 어떤 결과를 초래하는지 보여주는 대표적인 사례이다.

 

전체를 조사하는 전수조사

우리는 음식의 간을 보기 위해 재료를 잘 섞은 후 한입 먹어 보고, 화장품을 구매하기 전에 샘플을 먼저 사용해 본다. 건강검진을 받을 때는 혈액의 일부를 채취해 분석한다. 여기에는 내가 뽑거나 뽑힌 일부가 전체를 대표한다는 전제가 깔려있다. 이처럼 전체 집합에서 일부를 뽑아 전체를 추정하는 것을 표본조사(sampling survey)라고 한다. 반면 일부가 아닌 전체를 조사한다면 전수조사(complete enumeration)다.

 

우리나라의 대표적인 전수조사에는 통계청이 5년마다 실시하는 인구주택총조사가 있다. 1925년 처음 실시되었을 때에는 인구의 기본현상에 국한되었으나 1960년부터 주택에 관한 조사도 병행하고 있다. 인구주택총조사는 인구 규모·분포·구조 및 주택에 관한 다양한 특성을 파악하여 각종 정책 입안을 위한 기초자료를 제공한다. 이렇게 수집한 자료는 국가 주요정책 수립을 위한 기초자료 제공, 인구·가구 및 장래인구 추계, 민간 기업의 마케팅 자료 등으로 다양하게 활용된다. 예를들어 통계청에서 발표하는 ‘장래인구추계: 2010 ~ 2060년’은 2010년 인구주택총조사 결과를 기초로 출생·사망·국제이동의 인구변동요인 추이를 반영하여 향후 50년간의 장래인구를 전망한다.

 

 

 

그렇다면 우리나라 인구는 어떻게 변화했을까? <그림>과 같이 우리나라 인구는 1925년에는 1,902만 명에 불과했으나 1970년에는 3,144만 명, 1985년에는 4,042만 명을 기록했다, ‘장래인구추계: 2010~2060년’에 따르면 2012년 6월 23일을 기점으로 5천만 명을 넘어섰다. 또한 2030년 5,216만 명을 정점으로 감소하여 2045년부터는 5천만 명 이하로 줄어들 것으로 예상되고 있다. 생산가능인구(15~64세)는 2016년 3,704명(인구의 72.9%)을 정점으로 감소하여 2060년에는 2,187만 명(인구의 49.7%)로 전망된다. 2060년 생산가능 인구 10명이 노인 8명과 어린이 2명을 부양하는 셈이다.

 

표본조사도 해석이 중요해

인구주택총조사도 그렇지만 사회현상 등을 알아볼 때는 전수조사가 가장 정확한 방법이다. 그러나 실제로 전수조사를 활용하는 경우는 드물다. 전체집단, 즉 모집단 전체를 전부 조사하는 데 드는 시간과 비용이 막대한 탓에 대부분 표본을 추출해 조사하는 방법을 택한다. 설문·여론조사, 제품의 성능·품질 검사 등이 대표적이다. 그중에서 다음의 가상 여론조사 결과를 통해 표본조사를 알아보자.  

 

 

우선 표본을 뽑는 방법부터 살펴보자. 일반적으로 무작위선택(random selection)은 표본을 뽑는 이상적인 방법으로 손꼽힌다. 이는 모집단에서 무작위로 일부를 선택하는 방법이다. 그러나 무작위선택을 임의선택(haphazard selection)과 혼동해서는 안 된다. 임의선택이란 응답 가능한 사람을 아무나 고르거나 우연히 목록의 앞에 위치한 사람을 뽑는 방법 등을 말한다. 예를 들어 모든 구독자의 이름을 쓴 종이를 상자에 넣고 잘 섞은 후에 표본을 뽑는 것(무작위선택)과 구독자 중 학생만을 상자에 넣고 표본을 뽑는 것(임의선택)은 다른 결과를 도출할 수 있다. 조사 방법은 어떨까? 여론조사에는 질문지를 보내고 답을 받는 방법, 직접 면접을 하는 방법, 전화를 거는 방법 등이 있다. 여기에서는 전화조사를 실시해 1천 명에게 응답을 받았다.

 

위의 결과를 보면 만화주인공으로 가장 많은 지지를 받은 후보는 클릭이다. 그런데 모든 "Click" 경제교육 구독자들이 실제 투표를 했을 때도 같은 결과가 나 올까? 주의깊게 살펴봐야 하는 것은 후보자들의 지지율이다. 지지율은 단순히 수치만 비교하는 게 아니라 신뢰수준 및 표본오차와 함께 살펴보는 것이 중요하다. 95% 신뢰수준과±3.1%p 표준오차라는 조건을 고려하면, 클릭의 지지율은 38.9~45.1%, 밤톨의 지지율은 35.9~42.1%가 된다.이는 동일한 여론조사를 100번 시행한다고 가정했을 때95번은 클릭의 지지율이 42±3.1%p, 밤톨의 지지율이39±3.1%p에 들어간다는 뜻이다. 표본오차를 고려한 지지율이 8.9~15.1%인 돼지를 제하면, 클릭과 밤톨은 우열을 가리기 어렵다. 요컨대 통계적 오차 범위 안에 속하므로 클릭이 밤톨보다 앞선다고 단정 지을 수 없다. 여론조사를 다시 시행했을 때 결과가 바뀔 가능성이 있기 때문이다. 

 

여론조사를 포함한 표본조사는 적절히 실시되기만 한다면 전수조사만큼 정확할 수 있다. 여기에는 모집단의 특성을 고려한 좋은 표본을 뽑는 것은 물론 읽는 사람이 그 뜻을 바르게 해석해야 한다는 전제가 깔려 있다. 『새빨간 거짓말, 통계』의 저자인 대럴 허프(Darrell Huff)는 말했다. “우리가 확실하다고 믿는 수많은 일이 결국 너무나도 적은 양의 표본이나 한쪽에 편향된 표본에 근거한 결론이라는 사실은 씁쓸하기 그지없다.” 그가 이 말을 한 지 벌써 50년이 지났지만 여전히 개선할 부분은 적지 않다.

 

남선혜 KDI 경제정보센터 연구원/ shnam@kdi.re.kr

남북한의 경제교육은 무엇이 다를까?
비밀번호 확인
  • 작성 시 등록하신 비밀번호를 입력하세요.
  • * 타인의 게시물을 허락없이 수정/삭제하는 경우
    경고조치 없이 사용상의 제약을 받을 수 있습니다.
KDI 경제정보센터