규제기관은 RWD의 양보다 relevance와 reliability를 더 집요하게 본다

RWD를 이야기할 때 많은 사람들이 가장 먼저 데이터의 크기를 강조합니다. 수백만 명, 수천만 명, 전국 단위, 전수자료 같은 표현은 언제나 강한 인상을 줍니다.

하지만 최근 규제기관 문서를 읽어보면, 그들이 집요하게 묻는 것은 데이터의 양 자체가 아니라 전혀 다른 지점이라는 걸 알 수 있습니다.

"이 데이터가 이 질문에 정말 맞는가?"

그리고 한 걸음 더 나아가,

"이 데이터로 그 편향을 정말 통제할 수 있는가?"

반복되는 신호

최근 문서들에서 반복적으로 보이는 신호는 비슷합니다.

이 변화는 단순히 "좋은 데이터 쓰라"는 당연한 말의 반복이 아닙니다. 데이터 크기로 설득하던 시대에서, 질문 적합성과 측정 타당성으로 설득해야 하는 시대로 이동하고 있다는 뜻입니다.

Relevance는 데이터를 많이 모았느냐보다, 그 데이터가 연구 질문에 필요한 구조를 갖고 있느냐의 문제입니다.

예를 들어:

이 질문에 답하지 못하면, 데이터가 아무리 커도 연구는 약해집니다.

Reliability는 데이터의 일관성과 신뢰 가능성에 더 가깝습니다. 같은 코드가 같은 의미를 갖는지, 추출 과정이 재현 가능한지, 누락과 오분류를 어느 정도 설명할 수 있는지 같은 문제가 여기에 들어갑니다.

특히 claims, EHR, registry, linked data는 각각 다른 강점과 약점을 갖기 때문에, 규제기관은 점점 더 "어떤 데이터베이스인가"보다 "그 데이터베이스가 이 질문에 맞는 방식으로 얼마나 안정적으로 측정되는가"를 보게 됩니다.

이제는 "데이터가 많다"는 말만으로는 부족합니다. 연구자는 왜 이 데이터가 적절한지, 어떤 편향은 줄일 수 있고 어떤 편향은 남는지, 그리고 그 한계를 어떻게 해석할지를 더 명시적으로 써야 합니다.

그래서 자동 수집은 중요하지만, 결국 더 중요한 것은 이 데이터가 이 질문에 맞는가를 설명하는 글쓰기입니다. relevance와 reliability를 설명하지 못하면, 훌륭한 데이터 자산도 설득력 있는 증거가 되지 못합니다.