본문 내용으로 건더뛰기

KDI 경제교육·정보센터

ENG
  • 경제배움
  • Economic

    Information

    and Education

    Center

최신자료
대형 멀티모달 모델(LMM) 동향 조사
한국지능정보사회진흥원
2024.10.08
한국지능정보사회진흥원은 대형 멀티모달 모델(LMM) 동향 조사 결과를 분석한 보고서를 발표하였다.

- 최근 주요 대형 언어 모델들이 다양한 멀티모달 데이터를 처리할 수 있도록 확장되고 있음. OpenAI의 GPT4V02)와 GPT-4o03) , Anthropic의 Claude 3
04) , Google의 Gemini 1.505) 등이 대표적인 예임. LMM 연구가 빠르게 발전하면서 다양한 모델들이 쏟아져 나오고 있지만, 정작 이 모델들의 성능을 종합적으로 평가할 수 있는 벤치마크는 부족한 상황임. 기존의 단순한 이미지 분류나 캡셔닝 데이터셋으로는 LMM의 높은 수준의 시각-언어 이해와 추론 능력을 평가하기에 역부족임. 또한 각 LMM마다 사전학습에 사용한 데이터가 제각각이라 동일한 조건에서의 공정한 비교가 어려운 문제점도 있음. 새로운 LMM이 기존 모델 대비 어떤 장단점이 있는지, 성능이 실제 응용에 적용 가능한 수준인지 객관적으로 판단하기가 쉽지 않기도 함.

- 따라서 다양한 LMM들의 성능을 체계적으로 검증하고 발전 방향을 제시할 수 있는 새로운 벤치마크 구축이 시급한 과제로 떠오르고 있음. 잘 설계된 벤치마크는 LMM의 시각 인식, 추론, 설명, 질의응답 등의 능력을 다각도로 평가함으로써 현재 모델들의 한계점을 드러내고, 개선의 실마리를 제공할 수 있음. 학습 데이터나 모델 구조에 관계 없이 LMM의 실질적인 성능을 가늠해 볼 수 있는 공정한 잣대가 마련된다면 보다 효과적인 LMM을 개발하기 위한 근거가 마련될 수 있을 것임.

- 본 보고서는 시각-언어 모델을 중심으로 주요 LMM 벤치마크 소개와 최근 벤치마크 개발 동향을 담고 있음. 향후 새로운 LMM 벤치마크 구축을 위한 참고 정보와 의견을 제공하기 위함임.