과학기술정보통신부는 ’26.4.30.(목)부터 기존 AI허브 데이터를 최신 생성형 AI 기술 환경에 맞게 재가공하는 ‘AI 학습용데이터 업사이클링’ 사업 공고를 시작한다고 밝혔다.
- 본 사업은 LLM(대규모 언어 모델) 및 피지컬AI 분야에서 각각 15종씩, 총 30종의 기존 AI허브 데이터셋을 추론 과정 및 행동 정보가 포함된 생성형 AI용 데이터로 재가공함을 주요 내용으로 하며, 재가공 대상 데이터는 ’22년까지 구축된 AI허브 데이터 691종에 대한 전수 분석 및 외부 전문가 검토를 거쳐 선정되었으며, 신규 학습 데이터 구축에 비해 예산 투입 대비 정책 효과가 클 것으로 기대됨.
- LLM 분야에서는 질문-근거 검토-오류 검증-답변 확정에 이르는 추론 과정이 포함되도록 데이터를 재구성하고, 피지컬AI 분야에서는 시각(V)·언어명령(L)·행동 및 제어(A) 정보를 통합하는 데이터 구조로 고도화함.
- 업사이클링된 데이터는 AI Hub를 통해 개방되어 기업, 연구기관, 스타트업 등이 자유롭게 활용할 수 있도록 제공될 예정임.
- 과기정통부는 이번 사업을 통해 AI 데이터 품질과 적합성을 지속적으로 높이고, 축적된 데이터를 최신 AI 환경에서 최대한 활용할 수 있도록 데이터 인프라를 지속적으로 확충해 나갈 계획임.
<붙임> 2026년 AI 학습용데이터 업사이클링 대상