본문 내용으로 건더뛰기

KDI 경제교육·정보센터

ENG
  • 경제배움
  • Economic

    Information

    and Education

    Center

Now
한국어 말뭉치 구축·활용으로 언어문화산업 활성화 기대한다
황용주 국립국어원 언어정보과 학예연구관 2021년 10월호
 
인공지능(AI) 기술이 챗봇, 자율주행차 등 곳곳에서 사용되고 있어 낯설지 않다. 언어처리에서도 AI를 활용한 기술 발전이 최근 급속도로 이뤄지고 있다. AI 기술 발달이 처음부터 가능성을 보여준 것은 아니었다. 국가 언어자원 구축 계획인 ‘21세기 세종계획’(1998~2007년)을 시작했던 1990년대 말, 2010년 정도에는 사람의 말을 잘 이해하고 대답하는 컴퓨터가 나올 것이라 기대했었지만 그 결과는 만족스럽지 못했다. 또한 많은 사람이 기대했던 것 중 하나인 번역 프로그램도 성능이 좋아져 외국어를 배우지 않아도 외국인과 소통이 잘 될 거라 믿었지만 생각만큼 발전이 되지 않았다. 그러나 최근 몇 년 사이에 알파고와 같은 심층학습(딥러닝) 기술의 발전과 함께 컴퓨터의 성능도 좋아지고 언어처리 기술이 비약적으로 발전해 인간의 말을 적절하게 이해하는 컴퓨터 프로그램이 속속 등장하고 있다. 가까운 미래에 인간과 자연스러운 대화가 가능한 프로그램의 등장을 기대할 수 있게 됐다.
인간과 자연스런 대화를 하기 위해서는 고성능의 컴퓨터 하드웨어뿐 아니라 사람의 언어를 다양하게 배울 수 있는 다량의 학습 자료가 필요하다. 사람의 경우 책을 많이 읽은 사람과 적게 읽은 사람의 지식수준에 차이가 생기는 것처럼 컴퓨터의 언어처리 능력도 그러하다. 우리가 언어를 배우는 단계와 유사하다고 할 수 있는데 어린아이 때는 정보량이 부족해 모르는 것이 많고 서툴지만 학교 교육, 독서 등을 통해 언어 능력이나 지식이 증가하는 것과 같은 원리다.
AI 언어 기술개발의 학습 자료가 되는 것은 인간의 언어 자료다. 인간의 언어 자료는 신문, 소설, 수필 등과 같은 글로 써진 문어가 있고, 일상의 대화, 강연, 라디오 대담 등과 같은 구어가 있다. 이 같은 인간의 언어 자료를 컴퓨터가 이해할 수 있도록 만든 자료를 ‘말뭉치’라고 부른다. 말뭉치는 쉽게 말하면 우리말 자료를 컴퓨터 파일로 입력해 컴퓨터가 이해할 수 있도록 한 것으로, 언어 분야의 ‘빅데이터’라고 할 수 있다. 말뭉치는 있는 그대로 입력되기도 하지만 그 단어가 명사인지 대명사인지를 나타내는 정보를 부착하기도 한다.
AI 관련 언어 기술 선도 국가들은 AI 기술개발을 위해 오래전부터 상당량의 말뭉치를 구축해 기술개발에 활용하고 있다(2018년 기준 미국 2천억 어절, 중국 800억 어절 등). 국립국어원은 2019년 이후 선진국과 언어처리 기술 격차를 줄이고, 언어 자료가 필요한 새싹기업들에 제공하고자 대규모의 말뭉치를 본격적으로 구축하고 있다. 언어 자료 구축 사업에서 가장 중요한 점은 저작권 처리다. 저작재산권이 있는 자료를 개인이나 일반 기업에서 사용할 수 있도록 저작권 이용 허락을 받는 것이 중요하다.
국립국어원은 2018년 이후 구축된 약 19억 어절 규모의 말뭉치를 2020년 8월부터 ‘모두의 말뭉치’(corpus.korean.go.kr)를 통해 일반에 공개하고 있다. 2021년 7월 말 기준으로 약 7천 건의 신청 자료를 배포했으며 네이버, SK텔레콤, 한국전자통신연구원(ETRI) 등 공공기관과 기업 약 250여 개에서 활용하고 있다. 대규모 말뭉치 구축과 활용으로 관련 산업(AI 스피커, 챗봇, 자동 통번역 등)이 성장할 수 있다. 특히 통번역앱 개발은 우리의 언어와 문화를 해외에 알리고, 해외의 문화를 이해하는 데도 도움이 돼 문화적 활용을 기대할 수 있다.
국립국어원은 앞으로도 수요가 많은 대화 말뭉치와 언어 변화를 관찰할 수 있는 신문과 같은 말뭉치를 구축·배포하는 한편, AI 기술의 언어 능력을 평가하기 위한 AI 언어 능력 평가체계도 구축·운영해 한국어 AI 기술 발달에 중심이 되고자 한다. AI 언어 능력 평가는 AI의 언어처리 능력을 평가하는 것을 말한다. 또한 말뭉치를 다양하게 활용하는 교육 프로그램을 운영해 관련 언어문화산업을 육성하기 위해 노력할 것이다. 
보기 과월호 보기
나라경제 인기 콘텐츠 많이 본 자료
확대이미지