모형이 깔끔하다고 연구가 설득력을 갖는 것은 아니라는 걸 알게 된 순간

처음에는 숫자가 먼저 보였다

처음 관찰연구 논문을 읽을 때는 늘 결과표를 먼저 봤다. p-value가 얼마나 작은지, hazard ratio가 얼마나 예쁘게 떨어졌는지, 보정변수가 얼마나 많이 들어갔는지를 보면 왠지 연구가 단단해 보였다. 숫자가 정돈된 논문은 읽는 사람에게 묘한 안정감을 준다. 마치 복잡한 현실이 잘 정리되어 있다는 느낌을 주기 때문이다.

그런데 시간이 지나면서 이상한 장면을 자주 보게 됐다. 결과는 아주 깔끔한데, 정작 무엇을 누구와 비교한 것인지가 흐린 논문들이 있었다. 치료군은 명확한데 비교군은 애매했고, 시작 시점은 다른데 같은 효과를 말하고 있었고, 보정은 열심히 했는데 정작 왜 그 비교가 가능한지 설명되지 않는 경우도 많았다.

처음에는 그런 논문을 봐도 제 탓이라고 생각했다. 내가 아직 통계를 덜 알아서, 더 고급 모형을 모르는 상태라서 이 연구의 정교함을 제대로 못 읽는 건 아닐까 싶었다. 그런데 시간이 지나고 비슷한 구조의 논문을 반복해서 보다 보니 오히려 반대로 느껴졌다. 숫자가 깔끔하다는 사실이 연구의 설득력을 보장하지는 않는다는 걸요.

오히려 숫자가 너무 예쁘게 떨어질수록 더 조심하게 됐다. 현실의 의료 데이터는 원래 그렇게 매끈하지 않기 때문이다. 질문도, 비교군도, 시간축도 다 복잡한데 결과만 지나치게 정돈돼 있으면 "이 정돈이 과연 어디서 온 것인가"를 되묻게 된다.

그때부터 질문을 먼저 보기 시작했다

그 뒤로는 논문을 읽는 순서가 바뀌었다. 결과표보다 먼저 index date를 보고, comparator를 보고, 누가 언제 연구에 들어오는지를 본다. 그제야 비로소 이 연구가 정말 같은 출발선에서 비교하고 있는지 판단할 수 있기 때문이다.

결국 좋은 연구는 숫자가 멋지게 떨어지는 연구가 아니라, 질문을 정직하게 쓴 연구였다. 이 연구가 누구를 대상으로 무엇을 비교하는지, 언제부터 결과를 보기 시작하는지, 중간에 치료가 바뀌면 어떻게 해석하는지를 숨기지 않는 연구 말이다.

질문을 먼저 본다는 건 화려한 모델을 무시한다는 뜻이 아니다. 오히려 그 모델이 정말 질문을 위해 필요한 것인지 확인한다는 뜻에 가깝다. 복잡한 모형이 나쁜 게 아니라, 복잡함이 연구의 본질을 가릴 때 문제가 되는 것이다.

그래서 요즘 논문을 읽을 때는 스스로에게 같은 질문을 반복한다.

이 연구는 누구를 비교하고 있는가
왜 이 시점이 시작점인가
노출과 결과 사이의 시간이 정말 정직하게 놓여 있는가
이 설계가 현실의 임상 질문을 제대로 옮기고 있는가

이 질문들에 답이 되면 모델은 그다음에 와도 충분하다.

복잡한 모델은 때로 설계의 빈칸을 가린다

나는 복잡한 분석을 싫어하지 않는다. 오히려 필요한 경우에는 더 정교한 접근이 반드시 필요하다고 생각한다. 하지만 설계의 빈칸을 복잡한 모델로 덮으려는 순간부터 연구는 약해진다. comparator가 좋지 않은데 propensity score를 정교하게 만드는 것, time zero가 어긋나 있는데 가중치를 더 세밀하게 조정하는 것, 이런 장면은 생각보다 자주 나온다.

그래서 요즘은 모델이 복잡한 논문을 보면 오히려 한 번 더 멈추게 된다. 이 복잡성이 정말 질문을 더 정교하게 만들기 위한 것인지, 아니면 애초의 설계 한계를 조금 덜 보이게 하기 위한 것인지부터 확인하고 싶어진다.

실제로 설계가 약한데 모델만 복잡한 논문은 읽을수록 피곤하다. 결과표는 많고, 보조분석도 많고, 민감도 분석도 길게 붙어 있는데, 읽고 나면 여전히 핵심 질문은 흐려 있다. 이때 느끼는 피로감이 바로 "깨끗한 모델을 너무 쉽게 신뢰하지 않게 된 순간"이었던 것 같다.

반대로 설계가 단단한 논문은 모델이 비교적 단순해도 오래 남는다. 같은 질문을 명확하게 쓰고, comparator를 납득 가능하게 고르고, time zero를 맞추고, 해석의 범위를 과장하지 않는 논문은 읽고 나면 묘하게 편안하다. 숫자보다 질문이 먼저 정리되어 있기 때문이다.

내가 남기고 싶은 글의 방향

아마 이 아카이브도 그 문제의식에서 시작된 것 같다. 최신 논문을 빠르게 모으는 것도 중요하지만, 결국 더 남기고 싶은 건 무엇을 먼저 의심해야 하는지에 대한 기준이다. 좋은 연구를 알아보는 눈은 대개 결과표에서 나오지 않고, 질문을 읽는 습관에서 나온다고 믿기 때문이다.

그래서 앞으로도 이곳에는 단순 요약보다, 어떤 질문이 잘 쓰였고 어떤 설계가 불안한지를 계속 적고 싶다. 숫자를 읽는 법보다, 숫자가 놓이기 전에 무엇을 봐야 하는지를 더 많이 남기고 싶다.

아마 이 사이트가 글 중심으로 바뀐 것도 같은 이유다. 결국 남기고 싶은 건 결과값이 아니라 판단의 흔적이기 때문이다. 어떤 논문에서 왜 멈췄는지, 어떤 문장을 보고 연구가 정직하다고 느꼈는지, 어떤 숫자는 왜 예뻐 보여도 선뜻 믿지 못했는지. 이런 메모들이 쌓여야 나중에 다시 같은 함정에 빠지지 않는다.

그래서 앞으로 제가 쓰는 글도 가급적 짧은 요약보다, 판단이 형성되는 과정 자체를 더 길게 남기려고 한다. 좋은 연구를 알아보는 기준은 체크리스트만으로 생기지 않는다. 여러 번 멈추고 의심한 흔적이 쌓일 때 비로소 생긴다고 믿기 때문이다.