왜 comparator 선택이 관찰연구의 설득력을 결정하는가

문제의식

관찰연구를 읽다 보면 통계모형은 정교한데도 결과가 선뜻 믿기지 않는 경우가 있습니다. 많은 경우 문제는 분석법보다 comparator에 있습니다. 누구를 누구와 비교했는지가 불명확하면, 그 뒤에 어떤 회귀모형이나 가중치를 얹어도 해석은 흔들립니다.

연구를 처음 배울 때는 종종 "어떤 모델을 썼는가"에 마음이 먼저 갑니다. propensity score인지, weighting인지, doubly robust인지, 최근에는 causal machine learning까지도 이름만 들어도 그럴듯하게 느껴집니다. 그런데 실무에서 논문을 읽거나 직접 설계를 짜다 보면 훨씬 먼저 멈춰 서게 되는 질문이 있습니다.

"도대체 누구를 누구와 비교하고 있는가?"

이 질문이 흔들리면 뒤의 분석은 전부 방어적인 작업이 됩니다. 결과가 나와도 설명이 길어지고, 반론이 생기면 설계보다 통계 기법으로 방어하려 하게 됩니다. 그래서 comparator는 단순한 입력값이 아니라, 연구의 설득력을 결정하는 출발선이라고 생각하게 됐습니다.

왜 comparator가 먼저인가

치료 A를 받은 환자와 아무 치료도 받지 않은 환자를 비교하면, 두 집단은 이미 치료를 받게 된 이유 자체가 다를 가능성이 큽니다. 질병 중증도, 의료 접근성, 건강행동, 이전 치료 이력 같은 요소가 동시에 얽혀 있을 수 있습니다. 이 차이는 단순한 통계조정으로 충분히 사라지지 않는 경우가 많습니다.

반대로 치료 A와 치료 B가 같은 임상 장면에서 선택되는 대체 치료라면 이야기가 달라집니다. 두 집단은 적어도 "왜 이 시점에 치료가 시작됐는가"라는 질문에 대해 어느 정도 비슷한 맥락을 공유합니다. 그래서 active comparator 설계는 단순한 기술적 선택이 아니라, 연구 질문 자체를 공정하게 만드는 장치에 가깝습니다.

같은 질환을 가진 환자라고 해서 자동으로 비교 가능해지는 것은 아닙니다. 예를 들어 하나는 1차 치료에서 주로 쓰이고 다른 하나는 이전 치료 실패 후에 쓰이는 약이라면, 두 집단은 질환 단계 자체가 다릅니다. 겉으로는 둘 다 "같은 적응증의 약"처럼 보여도, 실제로는 임상 장면이 다르기 때문에 결과를 나란히 두는 순간 해석이 뒤틀립니다.

그래서 comparator를 고른다는 건 단순히 대조군을 찾는 일이 아니라, "이 질문을 현실에서 어떤 임상 장면의 비교로 번역할 것인가"를 정하는 작업에 가깝습니다.

active comparator / new-user design이 중요한 이유

active comparator와 new-user design은 함께 갈 때 가장 힘을 발휘합니다. active comparator는 비교 대상을 더 임상적으로 비슷하게 만들고, new-user design은 치료 시작 전 상태를 공정하게 측정할 수 있게 해줍니다.

이미 오래 약을 복용한 환자를 포함하면 문제가 생깁니다. 그 환자들은 초기 부작용을 통과한 생존자일 수 있고, 치료 시작 직전의 공변량을 같은 방식으로 측정하기도 어렵습니다. 그래서 신규사용자만 잡아야 baseline을 맞추고, 초기 위험구간도 같은 출발선에서 볼 수 있습니다.

실제로 제가 comparator를 다시 보게 되는 순간은 보통 이런 경우입니다. 분석 결과는 멀쩡한데, "이 환자는 왜 이 약을 시작했을까?"라는 임상적 질문에 답이 잘 안 될 때입니다. 그때는 대개 comparator도 애매하고, new-user 설계도 제대로 안 들어간 경우가 많았습니다.

신규사용자를 잡는다는 건 단순히 표본을 줄이는 일이 아니라, 치료가 시작되던 순간의 의료적 맥락을 다시 확보하는 일입니다. 어떤 환자가 어떤 상태에서 약을 시작했는지, 그 시점 이전에 무엇이 있었는지, 이후 얼마 동안 어떤 위험을 봐야 하는지를 정리할 수 있게 해줍니다. 결국 관찰연구가 RCT를 흉내 내려면, comparator와 index date가 함께 맞아야 합니다.

comparator를 잘못 고르면 생기는 일

첫째, 적응증 차이가 커집니다. 겉으로는 같은 질환 환자 같아 보여도 실제로는 치료 라인, 중증도, 동반질환 구조가 다를 수 있습니다.

둘째, time zero가 흐려집니다. 치료군은 처방 시작 시점이 분명하지만, 비교군은 관찰 시작 시점이 애매해질 수 있습니다. 이때 immortal time bias까지 섞이면 결과는 더 불안정해집니다.

셋째, propensity score를 써도 해결되지 않습니다. 좋은 comparator가 없으면 propensity score는 나쁜 비교를 조금 덜 나쁘게 보이게 할 뿐입니다. 설계의 결함을 근본적으로 치유하진 못합니다.

이 지점이 늘 중요합니다. 많은 사람들이 propensity score를 강력한 해결책처럼 받아들이지만, 사실 그건 "설계가 어느 정도 맞아 있을 때" 의미가 큽니다. comparator가 엉망이면 propensity score는 잘못된 비교를 더 세련되게 보이게 만드는 역할밖에 하지 못합니다.

그래서 결과표에서 balance가 좋아 보인다고 안심하기보다, 애초에 무엇을 균형 맞추고 있는지를 먼저 물어야 합니다. 서로 다른 임상 장면의 환자들을 억지로 균형 맞추는 건 통계적 정돈이지, 임상적 공정성이 아닐 수 있습니다.

실무에서 무엇을 점검해야 하나

좋은 comparator인지 판단할 때는 몇 가지를 먼저 봐야 합니다.

두 치료가 실제 임상에서 대체 가능성이 있는가
같은 치료 라인에서 시작되는가
baseline lookback과 washout window를 대칭적으로 줄 수 있는가
index date를 같은 규칙으로 정의할 수 있는가
중요한 중증도 변수를 둘 다 비슷한 품질로 측정할 수 있는가

이 질문에 자신 있게 답하기 어렵다면, 분석 모델을 바꾸기 전에 comparator를 다시 생각하는 편이 낫습니다.

덧붙이면, comparator 선택은 종종 데이터베이스의 한계와도 부딪힙니다. 이상적인 active comparator를 생각해도 실제 청구자료나 EHR에서 그 약을 충분히 확보할 수 없는 경우가 있습니다. 그러면 연구자는 두 가지 유혹을 받습니다. 첫째, 비교군 기준을 느슨하게 만들거나, 둘째, non-user로 내려가는 것입니다. 그런데 이 순간이 바로 연구의 톤이 달라지는 지점입니다.

그래서 comparator를 정할 때는 "통계적으로 가능한가"보다 먼저 "임상적으로 여전히 말이 되는가"를 확인해야 합니다. 표본수는 나중 문제이고, 비교의 정당성은 앞단 문제입니다.

논문을 읽을 때 보는 포인트

관찰연구 논문을 읽을 때 결과표보다 먼저 comparator 정의 문장을 보는 습관이 중요합니다. 연구자가 왜 이 비교군을 골랐는지, 실제 임상적 대체 가능성을 어떻게 설명하는지, 그리고 신규사용자 설계를 썼는지를 먼저 보면 논문의 해석 가능성이 빠르게 보입니다.

좋은 논문은 comparator 선택 이유를 임상적 언어로 설명합니다. 반대로 약한 논문은 "비교군"이 있다는 사실만 제시하고 왜 그 집단이 적절한지 충분히 설명하지 못하는 경우가 많습니다.

개인적으로는 논문의 discussion보다 methods 섹션 초반 몇 문장을 더 오래 봅니다. comparator를 왜 골랐는지, washout은 어떻게 뒀는지, 신규사용자 정의가 얼마나 엄격한지, index date를 어느 시점으로 놓았는지를 읽다 보면 그 연구가 어디까지 정직한지 빨리 보이기 때문입니다.

설계가 좋은 논문은 이 부분에서 숨지 않습니다. 자신 있게 설명합니다. 반대로 comparator 선택이 약한 논문은 통계 기법 설명은 길지만, 정작 임상적 비교 가능성 설명은 짧습니다. 이 차이가 생각보다 큽니다.

정리

관찰연구에서 comparator는 부차적인 기술 문제가 아닙니다. 연구의 설득력을 결정하는 첫 번째 설계 선택입니다. 좋은 comparator를 고르면 그 뒤의 조정과 민감도 분석이 살아나고, comparator가 나쁘면 가장 복잡한 모델도 결과를 구해주지 못합니다.

그래서 관찰연구를 설계할 때도, 읽을 때도, 가장 먼저 물어야 할 질문은 이것입니다.

이 연구는 정말 비교 가능한 상대를 골랐는가?