본문 내용으로 건더뛰기

KDI 경제정보센터

ENG
  • Economic

    Information

    and Education

    Center

칼럼
통계로 세상 읽기비확률표본, 빅데이터 시대 통계생산의 새로운 축
권순필 통계청 통계개발원 사무관 2024년 04월호

조사(survey)는 사회 연구나 건강과학과 같은 영역에서 데이터를 수집하기 위한 기본 도구로 쓰인다. 이러한 조사를 위해서는 ‘확률표본(probability sample)’을 주로 활용하는데, 확률표본은 오래전부터 공식통계와 관련 연구에 널리 채택된 방식이다.

확률표본이란 표본추출틀(표본 리스트)의 조사단위(관측을 행할 대상)가 확률적으로 선정되며 모든 조사단위의 포함확률(inclusion probability)이 양수이고 계산 가능한 표본을 말한다. 즉 모든 조사단위는 표본으로 뽑힐 가능성이 있어야 하며 표본 설계에 따라 알려진 포함확률로 표본이 뽑혀야 한다. 당연히 연구자는 모집단을 포괄하는 모든 조사단위에 대한 표본추출틀을 미리 파악하고 있어야 한다. 이러한 과정이 모두 계획된 대로 구현돼야 하기에 이를 ‘표본설계(sample design)’라고도 부른다.

이와 같은 설계 기반의 확률표본 추출 방식은 변수의 분포에 대해 어떠한 가정도 하지 않고, 이미 정해져 있고 통제된 이론에 따라 표본을 선정한다. 이 선정 과정에 연구자의 주관적 성향이 반영되지 않으므로 모집단의 대표성과 결과의 객관성을 확보할 수 있다는 특징이 있다.
 

무응답률 증가, 비용 급증 등으로
확률표본 기반 조사 유지에 어려움 발생


확률표본 추출 과정에서는 표본의 자기선택 편향이나 과소포함 등의 문제는 없다. 다만 잘 정비된 표본추출틀, 정교한 표본설계, 표본설계에 의한 표본의 추출, 완전한 응답을 전제로 하기 때문에 상당한 비용이 수반된다. 따라서 통계청이나 국책연구소에서 주로 활용한다.

그러나 최근 표본추출틀의 포함범위 축소, 무응답률 증가, 데이터 수집비용의 급격한 증가로 확률표본의 선택과 유지에 어려움이 생기고 있다. 코로나19 팬데믹과 같은 예측 불가능한 외부환경 변화가 이를 가속하고 있다. 일례로 2023년 우리나라 가계동향조사(6월 기준)의 단위 무응답률이 44.9%로 전년 동월에 비해 7.2%p나 증가했다.

최근 영국 통계청은 고용통계 응답률이 급격히 하락하자 세부 통계 발표를 중단했다. 2014년 50% 안팎이던 응답률이 2020년 팬데믹 이후 30% 밑으로 떨어졌다가 2023년 말에는 14.6%까지 하락한 것이다. 이처럼 확률표본을 활용하는 공식통계의 신뢰성에 우려가 제기되고 있는 상황이다.

모집단을 설명하기 위한 표본조사 분야에서 확률표본의 위기는 곧 비확률표본의 기회이기도 하다. 비확률표본이란 확률표본이 아닌 모든 표본을 말한다. 할당표본, 편의표본, 웹표본뿐 아니라 행정자료, 거래자료, 센서자료, 인터넷자료 등 데이터 생산 과정에서 부산물로 얻어진 구조적 데이터(organic data) 등을 비확률표본으로 통칭할 수 있다.

비확률표본은 확률표본에 비해 비용과 응답률에 부담이 적고, 실시간으로 대량의 정보를 확보할 수 있다는 장점이 있다. 통계 조사방식의 변화에 대한 사용자들의 요구와 함께 국가통계 생산에 빅데이터, 행정자료, 자발적 표본을 활용하자는 의견이 점점 더 힘을 얻고 있다. 

그러나 비확률표본은 모집단에 대한 대표성과 객관성을 장담할 수 없다. 비확률표본을 단순임의표본(simple random sample)인 것처럼 다루는 경우 심각한 표본 선택 편향 문제를 초래할 수 있다. 만약 선택 편향을 조정하지 않으면 샤오리 멍 하버드대 통계학과 교수의 연구처럼 ‘데이터가 커질수록 더 확실하게 우리 자신을 속이게 되는 빅데이터의 역설’에 빠질 수밖에 없다.

캐나다 등 전 세계에서
존재감 커지는 비확률표본 방식


통계개발원은 확률표본의 대안으로 비확률표본을 채택해 모집단 추론에 활용하는 연구를 수행하고 있다. 바로 고품질 확률표본으로부터 얻어진 가장 최신의 정보를 비확률표본과 통합해 비확률표본의 선택 편향을 조정하고 미지의 추출확률을 추정하는 방식이다.

비확률표본을 추출하기 위한 통계적 추론은 확률표본처럼 일관된 체계가 없어 아직은 경험적 연구에 의존하고 있다. 하지만 현재 이 분야에서 가장 뜨겁게 연구되고 있기 때문에 이러한 추세를 놓치지 않고 연구에 매진해 통계생산 패러다임의 변화에 적극 대응하고자 한다.

공식통계를 생산하는 여러 기관 중에서 혁신적으로 트렌드를 주도하는 캐나다 연방통계청도 비확률표본 활용이 확대되는 흐름에 부응하고 있다. 다양한 사용자의 데이터 요구에 신속하게 대응하기 위해 크라우드소싱(crowdsourcing; 대중 등 외부의 자발적인 참여를 통해 수집된 자원을 활용하는 방법론)을 활용해 자발적 표본을 대상으로 웹 조사를 수행한다. 이 자료수집 방법은 특히 팬데믹 기간에 코로나19가 캐나다에서 각 그룹의 삶과 복지에 어떤 영향을 미쳤는지에 대한 데이터를 신속하게 수집하고 제공함으로써 뚜렷한 존재감을 남겼다.

100여 년 전 통계를 생산하기 위한 표준은 센서스(census)였다. 그러나 1934년 통계학자 예지 네이만이 확률표본의 이론적 틀을 정립해 확률표본이 비확률표본에 비해 과학적이고 대표성이 높다는 점을 증명함으로써 지금까지 확률표본이 모집단 추론을 위한 표준으로 자리 잡았다.

이제는 확률표본의 시대는 끝나고 다시 비확률표본의 시대가 돌아오는 것처럼 보인다. 과연 비확률표본은 확률표본을 대체하고 새로운 표준이 될 수 있을 것인가. 모집단 추론을 위한 주류가 센서스에서 확률표본으로 넘어올 때 우리는 전수를 포기하면서 신뢰구간이라는 대안을 얻었다. 이를 통해 추정값에 대한 과학성과 대표성을 계량적으로 제시할 수 있었다.

비확률표본은 어떤 대안을 제시할 수 있을까? 비확률표본을 이용한 통계생산은 거스르기 어려운 시대적 요구로 보인다.

비확률표본의 활용은 통계 작성자들의 의지가 아니라 외부의 요구와 환경의 변화가 이끌어갈 것이기 때문이다. 빅데이터 시대를 맞은 지금, 그동안의 확률표본에 기반한 현장조사 중심 통계생산 패러다임의 변화는 불가피하다. 그 변화의 한 방향이 비확률표본의 활용이 될 것이다.
보기 과월호 보기
나라경제 인기 콘텐츠 많이 본 자료
확대이미지