who promised to 피 한 방울로 세상을 바꿉니다,
who raised billions on a test that never worked?
No more needles. No more vials. No more waiting.
Investors believed. Walgreens believed. The Pentagon believed.
They gave her $9 billion.
테스트가 잘못되었습니다. 아기는 건강했습니다.
But how many women, receiving the same news, made different decisions?
거짓말은 확실하게 차려입었고
아무도 아기에게 의문을 제기하지 않았습니다. "
이것이 우리가 진단 테스트 정확도를 연구하는 이유입니다.
오직 four possible truths.
두 가지만이 축복입니다. 두 가지는 저주입니다.
Every Test Result Has a Reality Behind It
Test: Positive
Test: Positive
Test: Negative
Test: Negative
True Positive (TP)
Sick person correctly identified.
테스트는 진실을 말했습니다.
False Positive (FP)
Healthy person wrongly alarmed.
테스트는 거짓말을 했습니다.
False Negative (FN)
Sick person wrongly reassured.
가장 치명적인 거짓말
True Negative (TN)
Healthy person correctly cleared.
테스트는 진실을 말했습니다.
2x2 혼동 행렬
| Disease Present | Disease Absent | |
|---|---|---|
| Test Positive | TP True Positive |
FP False Positive |
| Test Negative | FN False Negative |
TN True Negative |
Know them by name.
TP, TN: 테스트 결과는 사실입니다.
FP, FN: 테스트는 거짓말을 했습니다."
Sensitivity asks: Can it find the sick?
Specificity asks: Can it spare the healthy?
High sensitivity = few false negatives = few missed cases.
High specificity = few false positives = few false alarms.
Lower the threshold to catch more sick people? You'll alarm more healthy people.
Raise the threshold to spare healthy people? You'll miss more sick people.
This is the threshold effect—진단의 시소.
SnNout: Sensitive tests rule OUT
A highly sensitive test, when negative, rules out disease. If it didn't find it, it's probably not there.
SpPin: Specific tests rule IN
매우 구체적인 테스트가 양성일 경우 질병을 결정합니다. 갖고 있다고 하면 아마 그럴 것입니다.
SpPin: Specific Positive rules IN
특이성이 장점을 살려줍니다.
But no test masters both perfectly—
이것이 우리가 짊어져야 할 부담입니다. 곰."
세상에는 감염자를 빠르게 찾을 수 있는 테스트가 필요했습니다.
But what if the rapid test missed too many?
증상이 있는 사람들의 경우:
Sensitivity: 73% (missed 27% of cases)
In people WITHOUT symptoms:
Sensitivity: 55% (missed 45% of cases)
거의 절반 무증상 감염된 사람들은 깨끗하다는 말을 들었습니다.
Thanksgiving Dinners
Families tested negative in the morning, gathered indoors, unknowingly infected grandparents
Workplace Outbreaks
Workers tested negative, came to work, infected colleagues in the break room
Hospital Transmission
Patients tested negative, admitted to wards, infected vulnerable patients
그리고 그 가족은
할아버지는 손자들을 안고
겨울이 끝날 무렵 사라졌습니다."
그러나 환자는 다른 질문을 합니다.
"I tested positive. What are my chances?"
귀하의 환자는 희귀 질병에 대해 양성 반응을 보였습니다(유병률은 1000명 중 1명).
Question: 실제로 질병에 걸렸을 확률은 얼마나 됩니까?
대부분의 의사는 95%라고 말합니다. 실제 답변은 무엇입니까? About 2%.
Specificity tells how many well it will spare.
But only the likelihood ratio answers:
이 결과는 이 환자에게 무엇을 의미합니까?"
that found too much?
When does finding disease become causing harm?
Mammography could detect tumors too small to feel.
여성들은 다음과 같은 말을 들었습니다. "Annual mammograms save lives."
But what if some of those "cancers" would never have killed?
그 여성은 진단을 받고 수술, 방사선, 화학 요법으로 치료를 받습니다. 결코 그녀에게 해를 끼치지 않았을 질병 때문이었습니다.
Independent UK Panel on Breast Cancer Screening. Lancet. 2012;380:1778-1786
유방암에서
(treated unnecessarily)
(anxiety, biopsies)
이것은 좋은 거래입니까? 대답은 숫자뿐만 아니라 가치에 따라 달라집니다.
그리고 그것을 질병이라고 불렀습니다.
그리고 그 여자는 베임을 당하고 불에 타서 독살을 당했습니다.
그녀의 나날을 결코 어둡게 하지 않을 그림자를 위해."
과잉진단의 문제가 바로 이것이다.
하지만 모이면 모든 연구,
그들의 증거를 종합해보면—
The truth becomes harder to hide.
More Precision
Combining studies gives narrower confidence intervals, reducing uncertainty
Detect Heterogeneity
Why do different studies give different answers? Setting? Population? Threshold?
Expose Publication Bias
부정적인 연구가 숨겨져 있습니까? 깔때기 도표는 비대칭성을 드러냅니다.
Explore Thresholds
Build SROC curves to understand the sensitivity-specificity trade-off
They are correlated: 하나가 올라가면 다른 하나는 내려가는 경향이 있습니다(문턱효과).
The bivariate model 이 상관관계를 설명하여 유효한 통합 추정치를 제공합니다.
Reitsma JB et al. J Clin Epidemiol. 2005;58:982-990
ROC Space
곡선은 상충관계를 보여줍니다.
Higher = better test
Diagonal line = useless test (random guessing)
The curve = 모든 연구 성과 요약
진실을 밝히기 시작합니다.
SROC 곡선은 증거의 경로입니다.
showing what the test can truly do."
한 연구에서는 민감도가 95%라고 말합니다.
Another says 60%.
어떤 진실을 믿습니까?
High heterogeneity means 연구에서는 서로 다른 측정을 수행하고 있습니다. 사물— or the test performs differently in different settings.
Threshold Differences
"긍정적" 결과에 대한 서로 다른 기준(예: 당뇨병에 대한 서로 다른 HbA1c 역치)
Population Differences
Disease severity, age, comorbidities differ between studies
Setting Differences
Primary care vs. specialist clinic vs. emergency room
Quality Differences
Risk of bias, verification bias, spectrum bias
Studies agree
Some disagreement
Major disagreement
사과와 오렌지의 평균을 낼 수는 없습니다. explain why studies differ before pooling them.
반대 의견을 침묵시키지 마십시오.
Ask: Why do they see differently?
동의 불일치 자체가 교훈을 줍니다."
Sensitivity & Specificity
How well the test performs on sick vs. healthy people
Likelihood Ratios (LR+, LR-)
How much a result changes the probability of disease
Diagnostic Odds Ratio (DOR)
Single measure of test discrimination (DOR = LR+ / LR-)
SROC 아래 영역 Curve(AUC)
Overall test performance across all thresholds (0.5 = useless, 1.0 = perfect)
bivariate meta-analysis
DTA 검토용
오픈 액세스 도구
Rutter & Gatsonis 2001 - HSROC model
Cochrane Handbook Ch. 10 - DTA methods
Was there a valid reference standard?
Gold standard test applied to all patients?
통역사의 눈이 멀었나요?
Test readers unaware of diagnosis, and vice versa?
스펙트럼이 적절했습니까?
Patients similar to your clinical population?
임계값이 미리 지정되어 있습니까?
아니면 결과를 최대화하기 위해 선택되었습니까?
SROC와 일치 정도
로 무장하여 테스트의 거짓말을 꿰뚫어 볼 수 있으며
진실 여부를 판단할 수 있습니다. "
When a machine claims to see what no other machine can see,
아무도 묻지 않습니다: "증거를 보여주세요"?
FDA found:
• Results varied by 146% between runs on the same sample
• Edison machines failed 87% of proficiency tests
• Zero 동료 검토 검증 연구 발표
• 환자는 음성 샘플에 대해 HIV 양성 결과를 받았습니다
Sources: FDA Warning Letter 2016; Carreyrou J. Bad Blood. 2018; CMS Inspection Reports.
무엇을 선택하시겠습니까?
Face lawsuits
Harm patients
환자 보호
Avoid Scandal
A $9 billion valuation became a criminal fraud conviction.
서명하기 전에 검증 데이터를 요구한 모든 병원
거짓말로부터 보호되었습니다.
신뢰한 모든 병원 마케팅
became complicit in harming patients.
증거의 부재는 마케팅 문제가 아닙니다.
It is a patient safety emergency.
비용을 지불하는 사람 가격은?
The test result comes in 15 minutes.
그러나 결과가 15 minutes of false confidence?
Real-world performance (Cochrane 2022):
• Symptomatic individuals: 73% sensitivity (missed 27%)
• Asymptomatic individuals: 58% sensitivity (missed 42%)
• Early infection (days 0-3): ~50% sensitivity
감염된 무증상 감염자의 거의 절반이 "해독"이라는 말을 들었습니다.
Source: Dinnes J et al. Cochrane Database Syst Rev. 2022;7:CD013705
무엇을 선택하시겠습니까?
School closure
Three hospitalizations
Teacher isolates
Outbreak prevented
It means: "not detected."
이 두 문구의 차이점
is measured in lives.
is almost meaningless.
SnNout only works when sensitivity is HIGH.
Know your test's limits before trusting its verdict.
still cause harm?
암이 발견되면 어떻게 될까요
would never have hurt you?
Sensitivity: ~85% | Specificity: ~90%
10년 동안 매년 1,000명의 여성을 대상으로 검사를 실시했습니다.
• 1 death prevented 유방암에서
• 5 women overtreated 자신에게 해를 끼치지 않았을 암
• 100-500 false alarms leading to biopsies, anxiety, repeat imaging
Overdiagnosis rate: 19-30% of screen-detected cancers
Source: Independent UK Panel on Breast Cancer Screening. Lancet. 2012;380:1778-1786
무엇을 선택하시겠습니까?
종양은 잠잠했습니다. (DCIS)
Would never have harmed her
장점과 해악을 이해합니다
Autonomy preserved
A test can be accurate 그리고 여전히 harm.
When overdiagnosis exceeds lives saved,
we must ask: Is finding always helping?
은 true positives.
Always weigh benefits against harms.
검사가 항상 절약되는 것은 아닙니다.
is worse than missing it?
What if the treatment causes more suffering
than the disease ever would?
• 고등급 암에 대한 민감도: 21%
• Detects many indolent cancers that would never harm
Lower cutoff to 2.5 ng/mL:
• Sensitivity rises to: 40%
• But overdiagnosis doubles
Treatment consequences:
• 20-30% of men experience incontinence after prostatectomy
• 30-70% experience erectile dysfunction
Source: US Preventive Services Task Force. JAMA. 2018;319(18):1901-1913
어떤 임계값을 선택하십니까?
Thousands of unnecessary
생검 및 치료
But most missed are indolent
Fewer unnecessary treatments
Some preventable deaths
No overtreatment harm
Every threshold trades 감도 특이성,
과다진단 감지.
의학적 선택은 아닙니다. ethical.
어떤 피해를 기꺼이 받아들이느냐에 따라 다릅니다.
It is a values problem.
Before choosing a cutoff, ask:
What is worse: missing disease or overtreating the healthy?
Different truths.
How can identical numbers
mean opposite things?
Sensitivity: ~80% | Specificity: ~95%
In high-prevalence setting (TB prevalence 10%):
• Positive Predictive Value: 85%
• A positive test usually means TB
In low-prevalence setting (TB prevalence 0.1%):
• Positive Predictive Value: 15%
• A positive test is usually a false positive
Source: Pai M et al. Lancet Infect Dis. 2014;14(8):765-773
당신의 결론은 무엇입니까?
Patient infects family
진단이 수개월간 지연됩니다
Chest X-ray, sputum
Treat early if confirmed
PPV 및 NPV are properties of the population.
동일한 결과는 different things
in different people.
A positive test in a high-risk patient means disease.
The same positive in a low-risk patient means probably nothing.
Context is everything.
Theranos: Demand Validation
No peer-reviewed data = no trust, regardless of marketing claims
COVID Rapid Tests: Know Sensitivity Limits
"검출되지 않음"은 "감염되지 않음"과 동일하지 않음
Mammography: Weigh Benefits vs. Harms
Finding is not always helping; overdiagnosis causes real harm
PSA: The Threshold is a Values Choice
모든 컷오프는 특이성에 대한 민감도를 교환합니다. "정답"은 없습니다
TB Test: Context Determines Meaning
The same result means different things in different populations
여기에 인용된 주요 출처 과정
- Carreyrou J. Bad Blood: Secrets and Lies in a Silicon Valley Startup. Knopf, 2018.
- Dinnes J, et al. Rapid, point-of-care antigen tests for diagnosis of SARS-CoV-2 infection. Cochrane Database Syst Rev. 2022;7:CD013705.
- 유방암 검진에 관한 영국의 독립 패널. 유방암 검진의 이점과 해로움 Lancet. 2012;380:1778-1786.
- Reitsma JB, et al. 민감도와 특이도에 대한 이변량 분석은 진단 검토에서 유용한 요약 측정값을 생성합니다. J Clin Epidemiol. 2005;58:982-990.
- Rutter CM, Gatsonis CA. A hierarchical regression approach to meta-analysis of diagnostic test accuracy evaluations. Stat Med. 2001;20:2865-2884.
- Deeks JJ, et al. The performance of tests of publication bias in systematic reviews of diagnostic test accuracy. J Clin Epidemiol. 2005;58:882-893.
- Macaskill P, et al. Cochrane Handbook for Systematic Reviews of Diagnostic Test Accuracy. Chapter 10. 2023.
- Higgins JPT, Thompson SG. Quantifying heterogeneity in a meta-analysis. Stat Med. 2002;21:1539-1558.
- US Food and Drug Administration. Warning Letter to Theranos Inc. 2016.
- US Preventive Services Task Force. Screening for Prostate Cancer. JAMA. 2018;319(18):1901-1913.
- Pai M, et al. Tuberculosis. Lancet Infect Dis. 2014;14(8):765-773.
테스트의 두 가지 장점
임계값의 잔인한 절충
및 풀링 기술을 알게 되었습니다. 증거.
다음 테스트가 당신에게 놓여 있을 때—
you will know how to see through it."
테스트가 거짓말을 할 때 — 이제 당신은 알게 되었습니다.