예방의학

진단의 타당도 - Sensitivity & Specificity

Dr CK 2023. 8. 10. 14:14
반응형
  Disease (+) Disease (-)  
Test (+) True positive
a
False positive
b
PPV = a / (a+b)
Test (-) False negative
c
True negative
d
NPV = d / (c+d)
  Sn = a / (a+c) Sp = d / (b+d)  

1. Sensitivity (Sn), Specificity (Sp)

Sn : 질병이 있을때, 검사에서 양성으로 나타날 확률 (있는것을 있다고 할 확률), False negative (FN) 와 관계있고, 통계적 검정에서는 Type-Ⅱ error = β error 와 관련있다.

Sp : 질병이 없을때, 검사에서 음성으로 나타날 확률 (없는것을 없다고 할 확률), False positive (FP) 와 관계있고, 통계적 검정에서는 Type Ⅰ error = ɑ error 와 관련있다.

 

민감도가 100%인 검사란 병이 있을때 (아주 작게 있더라도) 그것을 검증할 확률이 100%란 말이고, 암세포 하나만 있어도 잡아낼수 있다는 것이다. (환자를 얼마나 잘 찾아내는가)

특이도가 95%인 검사란 병이 없을때 병이 없다고 말할 확률이 95%란 소리고, 5%의 확률로 있다고 잘못말할 확률이 있다는 것이다. (환자를 얼마나 잘 R/O 하는가)

 

대우명제를 생각해보면 특이도가 높은 검사에서 양성일 경우는 바로 그 병이 있다는 것이고, 민감도가 높은 검사에서 음성이라면 그 병이 있을 가능성이 매우 떨어진다는 것이다.

 

예를들어 알레르기 피부반응검사의 경우 Sn이 매우 높은것으로 알려져 있지만 (anti-histamine 등 약물 복용력만 없다면 거의 100%), 위양성의 가능성이 있어 해당검사에서 양성이 나와도 원인 물질로 진단할 수는 없다 (eg. dermographism).

 

통계적 검정에서는 FN(Sn)는 β error 와 대응되는데, 이는 통계적 검정력, statistical power (1-β) 와 관련되고, 주로 N수와 관련된다. FP(Sp)는 ɑ error 와 대응되는데, 이는 p-value로 표현된다.

의학통계에서 p-value 0.05를 기준으로 유의성을 평가하는 것은 5%의 우연한 결과, 잘못된 결과(FP)를 허용하면서, 통계적검정력(1-β)을 최대로 가져가는 것이다. 통계적검정력을 최대로 가져간다는 것은, 예를들어 통계적검정력이 낮다면 임상시험에서 실제로 효과가 있음에도 불구하고, 통계적검정력이 낮아 효과가 없다고 나올수 있는 (FN) 상황을 줄인다는 것이다.

의학논문을 보다보면 p-value (ɑ) 만 중요시하는 경향이 있는데 실제로는 β가 더 중요하다. 병이 없는데 있다고 말하는것 보다 병이 있는데도 없다고 말하는게 더 critical 하기 때문이다.

 

2. Positive Predictive Value (PPV), Negative Predicrtive Value (NPV)

검사에서 양성(음성) 일때, 실제 질병이 있을(없을) 확률 (=검사결과를 얼마나 신뢰할만한지)

 

계산식을 보면 알수 있는데, PPV, NPV는 유병률에 따라 변화할 수 있다. 예를들어 에이즈 검사의 경우, 우리나라는 에이즈 유병률이 낮기 때문에 검사결과가 양성으로 나와도 False positive 일 가능성이 높을수 있다. 따라서 선별검사 후 특이도가 높은 검사법으로 확진검사를 실시하게 된다.

 

유병률에 따라 변화하는 값이기 때문에 어떤 검사법의 타당도를 제시하는데 PPV, NPV 보다는 Sp, Sn를 사용하게 된다.

Screening에 있어서 PPV가 중요한 의미를 가지게 된다. Screening의 경우 Sn이 높아 잘 잡아내는것도 중요하지만 Sp가 받혀주지 않는다면 과도한 위양성으로 인하여 필요없는 비용이 발생할 수 있다.

 

또한, 예를들어 PTE의 경우 D-dimer가 상승해있지 않다면 PTE를 배제할 수 있는데, 이는 D-dimer가 NPV가 높은 검사이기 때문이다.