AUC 0.9의 함정: 좋은 모델이 좋은 연구는 아니다

요즘 의료 AI 논문들을 보면 서두에 이런 문장이 자주 등장합니다.

"AUC 0.93의 심부전 예측 모델을 개발하였다." "정확도 90% 이상의 재입원 예측 모델을 구현하였다."

숫자만 보면 감탄이 절로 나옵니다. 이 정도 성능이면 당장 실전에 사용해도 되지 않을까, 라는 생각도 들죠. 하지만 헬스케어 데이터 분석을 업으로 삼고 있는 제 입장에서 보면, 좋은 예측 모델이 곧 좋은 연구는 아니고, 더욱이 좋은 의사결정을 보장하지도 않는다는 걸 자주 느낍니다.

오늘은 화려한 숫자 뒤에 숨겨진, 모델과 연구의 결정적 차이를 정리해 보려 합니다.

1. 좋은 모델의 기준 vs 좋은 연구의 기준

머신러닝과 AI 모델 평가는 비교적 명쾌합니다.

지표: AUC, Accuracy, F1-score, RMSE 등
기준: 입력 X를 줬을 때, 정답 Y를 얼마나 잘 맞추는가

반면 의료와 역학에서 말하는 좋은 연구의 기준은 결이 다릅니다. 정답을 맞추는 것이 아니라 질문의 타당성을 따집니다.

1. 질문이 명확한가: "누가 질병이 잘 생기느냐"와 "이 약이 질병을 줄이느냐"를 구분했는가 2. 설계가 타당한가: 비교군 설정, 시간축 정의, 교란 처리 논리가 맞는가 3. 해석이 가능한가: 단순히 관련이 있다는 것을 넘어서, 개입 때문에 결과가 변했다고 말할 수 있는가

즉 좋은 연구는 "올바른 질문에, 덜 왜곡된 방법으로 답하고 있는가"를 봅니다. 모델이 아무리 Y값을 잘 맞춰도, 설계가 비틀려 있다면 그건 멋진 숫자를 가진 나쁜 연구일 뿐입니다.

2. 예측 성능이 높아도 위험한 세 가지 상황

헬스케어 데이터를 다루면서 자주 마주치는, "모델 성능은 좋은데 연구로서는 위험한" 패턴들입니다.

(1) 위험한 사람을 맞추는 모델을 약 효과 평가에 쓰는 경우

어떤 모델이 "3년 내 골절 고위험군"을 기가 막히게 찾아낸다고 합시다. 그렇다고 해서 이 모델이 지목한 사람에게 A약을 쓰면 골절이 줄어든다고 해석할 수는 없습니다.

이 모델은 누가 위험한가를 맞출 뿐, 어떤 개입이 그 위험을 줄이는가에 대해서는 아무런 답을 주지 않기 때문입니다.

(2) 치료 그 자체가 위험의 신호가 되는 경우

실제 데이터에서는 더 아픈 환자일수록 더 강한 약을 쓰는 일이 흔합니다. AI 모델은 이를 단순하게 학습합니다.

강한 약 -> 더 아픈 사람 -> 사건 발생

결국 AI는 "이 약을 쓰는 사람일수록 사건이 많이 발생한다"는 규칙을 찾아냅니다. 이걸 보고 "AI로 분석해 보니 이 약은 위험하다"고 결론 내리면 질문과 답이 뒤집힌 해석이 됩니다. 이것이 역학에서 말하는 적응증에 의한 교란입니다.

(3) 시간 정보가 뒤섞여 있을 때

청구 데이터에는 진단, 검사, 처방, 수술 코드가 한 바구니에 담겨 있습니다. 예측 모델은 이걸 전부 feature로 써서 미래를 잘 맞추면 그만입니다. 하지만 연구자는 따져야 합니다.

이 검사가 사건 이전의 위험요인인가, 사건이 터진 후 발생한 코드인가?
약 처방이 원인인가, 결과인가?

시간축을 정리하지 않으면 결과를 원인처럼 써서 예측 성능만 부풀린 모델이 나옵니다. 실무적으로 가장 경계해야 할 함정입니다.

3. 그래서 좋은 연구는 무엇을 보는가

제가 생각하는 좋은 연구는 적어도 네 가지를 챙겨야 합니다.

1. 질문 분리: 예측과 인과를 섞지 않는다. 2. 설계: 비교군을 정의하고 시작 시점을 맞춘다. 3. 데이터의 한계 인정: 데이터로는 알 수 없는 영역을 인정하고 해석 범위를 제한한다. 4. 맥락적 의사결정: 수치 하나로 끝내지 않고, 어떤 환자군에서 어느 정도 불확실성을 갖고 유효한지 설명한다.

이 조건들이 충족된 뒤에 고성능 예측 모델이 올라가야, 비로소 좋은 모델을 쓴 좋은 연구가 됩니다.

4. 역학자가 보는 AI 모델의 자리

저는 의료 AI를 이렇게 정의하고 싶습니다.

AI/ML 모델: 고위험군을 찾고 패턴을 요약하는 탁월한 도구
역학 연구 설계: 어떤 질문을 하고 어떻게 비교할지 정하는 게임의 규칙

좋은 예측 모델은 이 규칙 안에서 연구를 풍성하게 만들어 주지만, 규칙 자체를 대신 설계해 주지는 않습니다.

그래서 저는 좋은 AI 모델을 만드는 사람과 좋은 연구 설계를 만드는 사람이 더 자주 대화해야 한다고 믿습니다.