데이터는 거짓말을 하지 않지만, 데이터가 모두 진실일까

우리는 흔히 "데이터는 거짓말을 하지 않는다"고 말합니다. 특히 5천만 국민의 전수 자료인 건강보험심사평가원 데이터나 건보공단 데이터는 세계적으로도 유례없는 보물창고로 불립니다.

하지만 저는 데이터 분석가로 일하며, 그 보물창고의 입구에서 벌어지는 '아주 인간적인' 데이터 생성 과정을 목격했습니다. 그리고 지금은 모 회사에서 데이터 분석팀 팀장으로 일하며 그 데이터를 다시 연구에 활용하고 있습니다. 이 두 가지 경험을 통해 제가 깨달은 진실은 하나입니다.

"데이터 자체는 거짓말을 하지 않지만, 그 데이터를 입력하는 과정에는 수많은 '사정'이 개입된다."

병원에 근무하던 시절, 제가 가장 많이 마주했던 괴리는 '임상적 진실'과 '청구적 진실'의 차이였습니다. 의사 선생님이 환자를 진료하고 차트에 기록하는 행위는 치료가 목적이지만, 원무과나 심사과를 거쳐 전산에 남는 코드는 '보험 청구'가 목적이 됩니다.

이런 내부 사정을 모르는 외부 연구자가 단순히 ICD-10 코드만 믿고 분석을 돌린다면 어떻게 될까요? 결과는 왜곡될 수밖에 없습니다. 이것이 제가 통계학 석사를 넘어 약물역학 박사 학위까지 따게 된 이유이기도 합니다. 단순히 숫자를 돌리는 '분석(Analysis)'을 넘어, 데이터가 생성된 맥락을 이해하고 편향(Bias)을 통제하는 '설계(Design)'가 필요했기 때문입니다.

앞으로 이 아카이브에서는 화려한 빅데이터 예찬론 뒤에 숨겨진, 진짜 헬스케어 데이터의 민낯과 그것을 다루는 올바른 방법에 대해 이야기해보려 합니다. 또한, 정통 통계학자의 시선으로 최근의 AI/머신러닝 열풍을 어떻게 바라보고 접목하고 있는지, 치열한 현장의 고민도 함께 나누고 싶습니다.