일반인들은 흔히 헬스케어 데이터는 병원에서만 생산된다고 생각하기 쉽다. 하지만 헬스케어 데이터는 훨씬 다양한 곳에서 생산되고 있다. 최근에 정의된 헬스케어 빅데이터는 임상 데이터(Clinical Data), 유전체 데이터(Genome Data), 청구 데이터(Claim Data), 연구 데이터(Research Data), 환자에 의해 생산되는 건강 데이터(Patient-Generated Health Data), 건강의 사회적 결정인자(Social Determinant of Health) 등 여섯 가지로 구분하고 있다.
우선 임상 데이터는 의사가 환자를 진료하는 과정에서 자연스럽게 만들어지는 데이터로 의료기관인 병원을 중심으로 생산된다. 여기에는 텍스트 기반의 의무기록 데이터, 병원의 각종 검사장비로부터 추출되는 검사실 데이터, 그리고 엑스레이와 같은 영상 데이터가 포함된다. 한편 초고속 유전체 분석 기술의 발전으로 세포 수준의 DNA 및 RNA(리보핵산) 데이터가 생산되고 있는데 이는 현재 정밀의학에서 활발히 활용되고 있다. 최근에는 많은 병원에서 암의 유전학적 특성을 구분해 치료의 가이드라인으로 삼기 위해 암 패널(Cancer Panel) 검사를 시행하고 있어 유전체 검사가 본격적으로 임상 영역으로 확장되고 있는 중이다.
청구 데이터는 병원과 보험사 간 비용 청구를 주목적으로 구축됐으며 진단-치료-비용 청구로 귀결되는 일련의 데이터를 말한다. 우리나라는 전 국민 의료보험제도를 시행하고 있어 의료수가가 책정된 상병명과 치료항목에 대해 각 환자별로 시계열 청구 데이터를 보유하고 있다. 이는 환자들의 닥터쇼핑 여부와 상관없이 중앙화된 저장소에 개인의 의료기록이 모두 저장돼 파편화되지 않은 데이터가 생산된다는 것을 의미한다.
연구 데이터란 단위 연구실에서 실험의 결과나 임상시험의 관측치에서 획득된 헬스케어 데이터를 말한다. 또한 이미 출판된 연구결과물에서 제시하는 데이터와 이와 같은 결과물들을 특정 지식의 체계로 모아놓은 데이터의 더미 혹은 지식 베이스를 포괄하는 개념이다. 전통적으로 환자의 데이터는 병원, 연구기관, 국가의 건강 관련 기관을 통해 수집됐다. 하지만 웨어러블 기술의 눈부신 발전은 의료기관 밖에서 환자나 그 가족들이 직접 데이터를 생산하는 주체로서 주도적으로 참여할 수 있게 했다. 스마트기기를 통해 수집된 체온 및 맥박 같은 생체정보를 활용해 비만·운동·식이 관리와 같은 디지털 헬스케어 서비스가 속속 등장하고 있다.
사회적 위치, 부유함의 정도, 직장 내 스트레스 지수와 같이 우리를 둘러싼 다양한 주변 환경에 대한 데이터도 중요한 헬스케어 데이터다. 이를 건강의 사회적 결정인자라 부르며, 인간을 둘러싼 환경과 질병 간의 관계를 설명하는 데 매우 유용한 자료가 될 수 있다.
그렇다면 이러한 다양한 빅데이터가 현재 어떻게 활용되고 있을까? 무엇보다 가장 활발히 활용되는 분야는 바로 임상연구 분야다. 질병의 원인, 역학, 위험인자 및 치료효과 탐구와 같은 전통적인 의학연구 분야에서 대규모 데이터를 이용한 새로운 의학연구가 진행되고 있다. 한편 최근에는 헬스케어 빅데이터가 직간접적으로 산업화의 영역으로 확장되고 있다. 예를 들어 유전체와 임상 데이터를 이용해 신약 개발이 이뤄지고, 청구 데이터를 이용해 약물의 사용성 분석이 진행되고 있다. 또한 유전자, 임상 및 영상 데이터 등이 활용돼 IBM 왓슨으로 대변되는 인공지능 의사가 개발되고 있는 중이다.
하지만 이렇게 다양하고 막대한 양의 헬스케어 빅데이터가 생산되고 있음에도 아직까지 서로 이질적인 데이터들 간의 연결을 위한 접점이 없어 데이터 간 크로스 분석(cross analysis)을 통해 데이터로부터 숨은 가치를 찾아주지 못하고 있다. 이를 가능케 하기 위해서는 다양한 수준의 헬스케어 데이터를 합리적으로 표준화하고 유통할 수 있는 채널이 필요하다. 이런 문제점을 해결해 관련 생태계를 혁신시킬 새로운 기술로 최근 블록체인이 급부상하고 있다. 헬스케어 데이터의 유통과 연구를 활성화하기 위해 미래에는 데이터의 개방과 협력을 통해 다양한 수준의 헬스케어 데이터를 상호 연결하기 위한 기술적·정책적 지원이 필요할 것이다.