본문 내용으로 건더뛰기

KDI 경제교육·정보센터

ENG
  • 경제배움
  • Economic

    Information

    and Education

    Center

최신자료
기존 AI허브 데이터, 업사이클링 통해 추론용 학습 데이터로 새롭게 혁신
과학기술정보통신부 인공지능정책실 인공지능인프라정책관 인공지능데이터정책과
2026.05.07 3p
과학기술정보통신부는 ’26.4.30.(목)부터 기존 AI허브 데이터를 최신 생성형 AI 기술 환경에 맞게 재가공하는 ‘AI 학습용데이터 업사이클링’ 사업 공고를 시작한다고 밝혔다.

- 본 사업은 LLM(대규모 언어 모델) 및 피지컬AI 분야에서 각각 15종씩, 총 30종의 기존 AI허브 데이터셋을 추론 과정 및 행동 정보가 포함된 생성형 AI용 데이터로 재가공함을 주요 내용으로 하며, 재가공 대상 데이터는 ’22년까지 구축된 AI허브 데이터 691종에 대한 전수 분석 및 외부 전문가 검토를 거쳐 선정되었으며, 신규 학습 데이터 구축에 비해 예산 투입 대비 정책 효과가 클 것으로 기대됨.

- LLM 분야에서는 질문-근거 검토-오류 검증-답변 확정에 이르는 추론 과정이 포함되도록 데이터를 재구성하고, 피지컬AI 분야에서는 시각(V)·언어명령(L)·행동 및 제어(A) 정보를 통합하는 데이터 구조로 고도화함.

- 업사이클링된 데이터는 AI Hub를 통해 개방되어 기업, 연구기관, 스타트업 등이 자유롭게 활용할 수 있도록 제공될 예정임.

- 과기정통부는 이번 사업을 통해 AI 데이터 품질과 적합성을 지속적으로 높이고, 축적된 데이터를 최신 AI 환경에서 최대한 활용할 수 있도록 데이터 인프라를 지속적으로 확충해 나갈 계획임.

<붙임> 2026년 AI 학습용데이터 업사이클링 대상