본문 내용으로 건더뛰기

KDI 경제정보센터

ENG
  • Economic

    Information

    and Education

    Center

칼럼
통계로 세상 읽기AI 통계분류 자동화가 가져온 변화
임경민 통계청 통계개발원 사무관 2024년 03월호

AI는 다양한 데이터를 학습하고 정해진 기준에 따라 확률을 계산해 자료를 자동으로 분류하는 작업에 높은 정확성과 효율성을 갖는 것으로 알려져 있다. 의료영상 데이터를 이용해 환자의 질병을 식별하는 의료 진단이나 보행자, 차량, 교통표지판 등의 사물을 인식하는 자율주행차 등이 AI를 자동분류에 활용한 대표적 사례다. 최근에는 국가통계 분야에서도 AI를 활용한 자동분류 기법이 도입되면서 적용 대상과 범위가 확대되고 시의성 높은 통계생산이 가능하게 됐다.

규칙 기반 자동코딩에서 자연어처리 등
기계학습 분류모델 시스템으로 진화


현재 통계조사에서 통계분류 자료처리는 대부분 분류 관련 조사문항에 대한 텍스트 입력결과를 토대로 그에 부합하는 통계분류코드를 확정하는 방식으로 진행된다. 예를 들어 사업체 대상 조사에서 산업분류는 무엇을 갖고, 어떤 방법으로, 생산·제공했는지에 대한 응답자 입력에 기초해 1,196개에 해당하는 산업 세세분류 단위의 분류코드를 결정하게 된다. 

전통적인 통계분류 자료처리는 규칙(사례사전)에 기반한 자동코딩과 색인DB정보를 활용해 최종적으로는 내검원(설문 내용의 신뢰성을 높이기 위해 내용 오류 점검, 검증, 입력하는 업무를 담당하는 인력)이 분류코드를 확정하는 과정을 거치게 되는데, 여기에 많은 시간과 자원이 소요되고 있었다. 기존의 통계분류 자동코딩 시스템은 코드가 생성되는 경우에는 높은 정확도를 보이지만, 그렇지 않은 경우에는 인력에 의한 코드 부여 작업이 필요하며 새로운 사례가 발생할 때마다 규칙을 정비해 시스템에 반영해야 하는 어려움이 있었다.

이에 통계개발원은 AI와 같은 데이터과학 방법론을 국가통계 적용 분야로 채택, ‘통계분류 텍스트 정보를 이용한 AI 기반 통계분류 자동화’를 중장기 과제로 선정해 2020년부터 관련 연구를 추진해 왔다. 그리고 자연어처리 및 지도학습 방식의 기계학습 분류모델을 활용한 통계분류 자동코딩 기초연구를 토대로 2022년에는 ‘AI 기반 통계분류 자동화 시스템’을 개발해 현재 일부 조사를 대상으로 실무에 시범적용하고 있다.



AI 예측코드와 확률정보 토대로
우선순위 결정해 자료처리 효율성 높여


한편 AI 기반의 통계분류 자동화 시스템에 적용된 사전학습 언어모델로는 LLM(Large Language Model; 거대언어모델) 중 분석에 특화된 인코더(encoder)모델인 BERT(Bidirectional Encoder Representations from Transformers; 자연어를 이해하기 위한 양방향 학습모델을 모두 지원하는 알고리즘) 계열의 RoBERTa(a Robustly optimized BERT pretraining approach)를 사용했다. 계층형 통계분류 구조를 고려해 지도학습 방법론으로는 Hi-TC(Hierarchical Text Classification) 모델을 적용했다. AI 분류예측을 위해 총 1억6,700만 건의 과거 조사결과 텍스트 자료를 학습데이터로 사용해 평가한 결과, AI 분류예측의 정확도는 84.19% 수준으로 나왔다. 기존의 규칙 기반 자동코딩(56.88%)이나 색인DB(69.24%)에 비해 AI 통계분류 자동화 시스템이 정확도 및 활용범주 면에서 훨씬 더 우월한 성능을 보이고 있음을 확인한 것이다.

2023년부터는 AI 통계분류 예측결과를 통계청의 내검(내용검토) 과정에 시범적용해 실무에 활용하고 있다. 분류 관련 텍스트 자료에 해당하는 AI 통계분류 예측코드와 예측정확도에 대한 확률정보를 함께 제공해, 내검원이 이를 토대로 내용검토 우선순위를 결정하는 선택적 에디팅 방식을 통해 자료처리의 정확성 및 효율성을 높이도록 하고 있다.



또한 2023년 공표자료를 학습데이터에 추가해 재학습하고 분류예측 정확도를 다시 측정한 결과, 건설업 조사의 경우 정확도가 약 7%p 올라가는 결과를 얻었다. 이를 통해 학습데이터 갱신 및 재학습만으로도 AI 분류예측 정확도가 지속적으로 개선될 수 있음을 확인했다. 통계개발원은 이와 같은 연구를 통해 자연어처리 등 AI 기술을 적용할 수 있는 국가통계 전문영역을 개척하고, 관련 기술을 검증해 실무에 적용할 수 있는 토대를 마련했다. 이는 공공행정 분야에서 LLM 기반 시스템을 개발하고 실무에 적용한 선도 사례로, 통계청 통계분류 자료 처리의 정확성, 일관성 및 시의성을 높이는 한편 반복적 업무의 자동화, 지능화를 통한 행정 효율성 향상에도 이바지할 것으로 기대한다.
보기 과월호 보기
나라경제 인기 콘텐츠 많이 본 자료
확대이미지