본문 내용으로 건더뛰기

KDI 경제교육·정보센터

ENG
  • 경제배움
  • Economic

    Information

    and Education

    Center

특집
2025년까지 AI 학습용 데이터 1,300종 추가 구축
송규철 과학기술정보통신부 인공지능데이터팀장 2020년 11월호


정부가 지난 7월 14일 발표한 한국판 뉴딜의 한 축인 디지털 뉴딜은 올해 추경부터 2022년까지 총 23조4천억 원(국비 18조6천억 원), 2025년까지 58조2천억 원(국비 44조8천억 원)을 투자해 2022년까지 39만 개, 2025년까지 90만3천 개의 일자리를 창출하고 디지털 대전환을 선도하려는 목표로 추진되고 있다.
과학기술정보통신부가 주관하고 있는 디지털 뉴딜의 대표 사업인 데이터 댐 프로젝트는 데이터 수집·가공·결합·거래·활용을 통해 데이터경제를 가속화하고 5G 전국망에 기반해 모든 산업으로 5G와 인공지능(AI) 융합서비스를 확산하려는 사업이다. 과거 미국 대공황 때 후버 댐 건설은 많은 일자리 창출과 경기부양은 물론 전기 생산과 도시 개발 등 산업화 촉진의 원동력이 됐다. 데이터 댐의 개념도 유사하다. 대규모의 데이터를 수집·가공하는 사업을 통해 신규일자리를 창출함은 물론 이렇게 모은 데이터를 활용해 의료, 교육, 제조 등 연관 분야에서 새로운 비즈니스와 산업을 만들 것으로 기대된다.

올해 자연어·자율주행 등 10대 분야 150종 데이터 구축 시작
AI 학습용 데이터 구축 사업은 데이터 댐의 가장 기초이자 핵심으로 AI 스피커, 자율주행차, 정밀의료 등 AI 서비스 개발에 필수적인 AI 학습용 데이터를 대규모로 구축·개방(aihub.or.kr)하는 사업이다. 대량의 데이터 수집부터 가공·정제·품질검증 과정에서 많은 일자리가 창출될 것으로 기대된다. 지난 2017년부터 시작된 이 사업은 이번 디지털 뉴딜을 통해 사업 규모가 대폭 확대됐다. 올해 추경 2,925억 원을 시작으로 2025년까지 약 2조5천억 원을 투자해 올해 AI 학습용 데이터 150종을 포함해 2025년까지 1,300종을 추가로 구축할 계획이다.
시장수요가 높은 과제를 발굴하기 위해 민간수요(720개), 공공수요(531개), 해외 공개데이터(321개) 등 총 1,250개 후보과제에 대해 제조사, 통신사, 포털사 등 활용기업 평가와 전문가로 구성된 과제기획위원회의 검증을 통해 자연어, 헬스케어, 자율주행, 농축수산 등 10대 분야 150종의 데이터를 선정했으며, 유사한 데이터를 그룹화해 72개 그룹과제를 최종 도출했다.
AI 학습용 데이터 구축 사업은 코로나발 일자리 위기 극복을 위해 최대한 많은 일자리를 창출하고 취약계층을 배려할 수 있도록 설계됐다. 먼저, 정부출연금 지원 기준 1억 원당 최소 2.4명 이상의 신규인력 채용을 의무화해 AI 기술·서비스 개발자 등 직접고용이 확대되도록 했다. 둘째, 국민 누구나 쉽게 온라인 플랫폼을 통해 참여 가능한 크라우드소싱 방식을 적극적으로 도입할 수 있도록 크라우드소싱 관련 예산 비중에 따른 가점제를 운영했다. 셋째, 경력단절여성, 장애인, 기초생활수급자, 농어촌 주민 등 취약계층의 참여와 처우개선에도 가점을 부여했다.
이러한 노력에 힘입어 한국판 뉴딜에서 발표된 AI 학습용 데이터 구축 사업의 추경 일자리 기대효과는 약 2만여 명이었으나, 이번 참여기업들이 직접고용과 크라우드소싱 등으로 약 2만8천 명을 제안하는 등 당초 전망치를 상회할 것으로 기대된다.

분야별 전문 기업·기관 대거 참여…글로벌 수준의 데이터 품질관리와 표준화도 추진
이번 사업은 추경예산 확정(7월), 사업 공고(7월), 접수 및 평가(8월) 등의 절차를 거쳐 과제협약을 마무리하고 이미 착수했다. 짧은 기간에도 불구하고 민간기업을 중심으로 각 분야 공공기관이 함께 참여한 역대 최대 규모인 총 1,920개 기업·기관이 지원했으며 최종 584개 기업·기관(주관 72개, 참여 512개)을 첫해 지원 대상으로 확정했다.
특히 주요 AI 개발 전문기업, 크라우드소싱 기업 등은 물론 서울대, KAIST 등 37개 대학 산학협력단과 서울대병원, 국립암센터 등 21개 주요 병원을 비롯한 분야별 전문 기업·기관이 대거 참여했다. 올해 사업을 통해 한국어 말뭉치, 농작물 병해충 이미지, 암질환 영상 등 텍스트 7억 건, 음성 6만 시간, 이미지 6천만 건, 영상 1만5천 시간 등 대규모 데이터를 구축함으로써 국내 AI 산업의 획기적인 도약의 계기가 마련될 것으로 기대된다.
한편 사업의 성공적 추진을 위한 핵심인 데이터 품질 관련 글로벌 수준의 품질관리 체계도 마련했다. 글로벌 수준의 품질기준 및 검증방법 확립, 활용기업이 참여하는 품질자문위 운영, 품질평가 전문조직(정보통신기술진흥협회) 활용 등을 추진하고 있다. 대량의 데이터를 구축하는 사업의 특성상 구축 단계에서 완벽한 품질검증이 어려운 구조적 한계가 있는 만큼, 기 구축된 데이터(2017~2019년)를 포함해 품질평가 등을 통해 지속적으로 보완하고 유지보수해나갈 계획이다. 또한 수행기관의 책임감을 제고하기 위해 데이터별 구축기업 실명제 도입, 품질평가 결과 공개 및 내년 사업선정 시 반영 등의 방안도 마련했다.
아울러 AI 데이터 품질 및 상호호환성 확보를 위한 표준안을 개발하고 국내외 표준화를 추진한다. 2019년 개발된 ‘AI 학습용 데이터 구축 및 품질관리 공통기준’을 보완·구체화해 AI 데이터 관련 품질의 개념과 범위, 세부 요구사항 등을 정립한 표준안을 개발했고, 이를 한국정보통신기술협회(TTA) 단체표준으로 만들기 위해 지난 10월 6일 TTA 내 단체표준화기구(TTA PG 1005, AI 기반기술)에 공식 제안했다. 관련 전문가 등의 의견수렴 절차를 거쳐 내년 6월에 최종 채택·확정될 것으로 전망된다. 또한 앞으로 관련 내용이 국제표준화 성과로도 이어질 수 있도록 추진할 계획이다.
과학기술정보통신부는 앞으로 데이터 댐의 핵심인 AI 학습용 데이터 구축 사업의 성공적 추진에 만전을 기해 코로나발 경제위기를 극복할 수 있는 많은 일자리를 창출함은 물론 우리나라가 미래 변화에 먼저 대응해 디지털 선도국가로 도약하는 데 크게 기여할 수 있도록 더욱 노력할 계획이다.
보기 과월호 보기
나라경제 인기 콘텐츠 많이 본 자료
확대이미지