시험이 있을 때: Ultimate DTA 과정(V4)

그 여자의 이야기를 들어보셨나요
who promised to 피 한 방울로 세상을 바꿉니다,
who raised billions on a test that never worked?

Palo Alto, 2003

STANFORD UNIVERSITY

19세 소년이 비전을 가지고 중퇴했습니다: 수백 개의 피 한 방울로 테스트를 진행했습니다.

Investors believed. Walgreens believed. The Pentagon believed.

They gave her $9 billion.

그러나 테스트 결과가 잘못된 결과가 나왔습니다. 환자들은 HIV에 감염되지 않았는데도 HIV에 걸렸다는 말을 들었습니다. 환자들은 dying.

Carreyrou J. Bad Blood. 2018

기만의 결정나무

What Theranos Did vs. What Should Happen

New Diagnostic Test

↓

SHOULD DO

Validate Against Gold Standard

↓

Publish TP/FP/FN/TN

↓

FDA Approval

THERANOS DID

Skip Validation

↓

Hide Failures

↓

Harm Patients

"그리고 테스트는 거짓말을 했습니다.
거짓말은 확실하게 차려입었고
아무도 2×2 테이블을 요청하지 않았습니다."

이것이 우리가 진단 테스트 정확도를 연구하는 이유입니다.

When a test speaks,
오직 four possible truths.

두 가지만이 축복입니다. 두 가지는 저주입니다.

체계적인 검토가 모든 연구를 동등하게 신뢰하면 어떻게 되나요?

REAL DATA

DTA 체계적 검토의 민감도 분석은 높은 비뚤림 위험 연구를 제외하면 통합 추정치가 변경된다는 사실을 일관되게 보여줍니다. 유방조영술 검사에서 맹검되지 않은 해석을 갖춘 환자 관리 설계는 민감도를 부풀리는 경향이 있습니다. 일반 원칙은 잘 문서화되어 있습니다. QUADAS-2 품질 평가는 다음과 같이 풀링된 민감도를 이동할 수 있습니다. 10-15 percentage points 편향된 연구가 제거되면.

QUADAS-2 유방 조영술 감사

검토 팀은 15개의 유방 조영술 DTA 연구를 통합합니다. 다섯 명은 사례 관리 설계와 맹검되지 않은 해석으로 인해 비뚤림 위험이 높습니다.

경로 A: 모든 연구 통합

Include all 15 studies regardless of quality

↓

Biased 2x2 tables inflate TP counts, producing a pooled sensitivity of 87%

OUTCOME: Overconfidence in screening accuracy

PATH B: Apply Quality Assessment

Exclude high risk-of-bias studies using QUADAS-2

↓

Remaining 10 low-RoB studies yield sensitivity of approximately 75%

OUTCOME: Honest numbers guide honest decisions

THE REVELATION

네 가지 결과(TP, FP, FN, TN)는 이를 생성한 연구가 신뢰할 수 있는 경우에만 신뢰할 수 있습니다. 편향된 연구가 전체 2x2 테이블을 오염시킵니다.

결과 트리

Every Test Result Has a Reality Behind It

Patient Tested

↓

진실은 무엇입니까?

Has Disease

D+

↓

TPTest +

FNTest -

No Disease

D-

↓

FPTest +

TNTest -

신성한 2×2 테이블

HIV Rapid Test Example (Real Data)

	HIV+	HIV-	Total
Test +	98	3	101
Test -	2	895	897
Total	100	898	998

이 표에서 모든 진실이 나옵니다

Sensitivity = 98/100 = 98%
Specificity = 895/898 = 99.7%

"Two outcomes save. Two outcomes harm.
TP, TN: 테스트 결과는 사실입니다.
FP, FN: 테스트는 거짓말이었습니다.
Know them by name, for they determine fate."

검사를 받고
found clean,
수천 명에게 주어진 혈액에 대해 들어보지 못하셨습니까?
while death swam within it?

1985년 혈액 공급 위기

UNITED STATES

When HIV testing began, doctors celebrated: they could now screen the blood supply.

그러나 검사 결과는 a window period—바이러스가 존재했지만 undetectable.

혈액 검사 결과가 "음성"이었습니다. 혈액이 수혈되었습니다.

8,000-12,000 Americans 더 나은 검사가 종료되기 전에 수혈을 통해 감염되었습니다.

CDC. MMWR. 1987;36(49):833-840

The Window Period Decision Tree

Why False Negatives Are Deadly

Person Recently Infected

↓

Time Since Infection?

< 2 weeks

Test NEGATIVEVirus present!

↓

Blood DonatedOthers infected

> 4 weeks

Test POSITIVECorrectly detected

↓

Blood DiscardedSupply safe

민감도 변화 시간

0%

Day 1-7
Eclipse period

~50%

Day 14
Seroconversion

~95%

Day 21
Most detected

99.9%

Day 45+
Window closed

THE LESSON

감도는 고정되어 있지 않습니다. It depends on when you test. A "99% sensitive" test may be 0% sensitive in early infection.

"그리고 검사 결과는 '깨끗함'
바이러스가 아직 모습을 드러내지 않았기 때문입니다.
그리고 혈액을 공유했고
감염이 퍼졌습니다. "

어머니에게 주어진 알약에 대해 들어보셨나요?
to protect their pregnancies,
that planted cancer in their daughters
twenty years before it bloomed?

1938-1971년 DES 비극

UNITED STATES & EUROPE

Diethylstilbestrol (DES) was given to millions of pregnant women to prevent miscarriage.

No proper clinical trial was ever conducted. Doctors assumed it worked because it seemed reasonable.

Decades later, their daughters developed a rare cancer: clear cell adenocarcinoma of the vagina. A cancer so rare it was a diagnostic signal in itself.

5-10 million women 해로움이 드러났습니다.

Herbst AL et al. N Engl J Med. 1971;284:878-881

검증 결정 트리

What Should Have Happened

New Medical Intervention

↓

제대로 테스트되었습니까?

YES

Randomized Trial

↓

Long-term Follow-up

↓

Know True Effects장점과 해로움

NO (DES)

Assumption Only

↓

Widespread Use

↓

Hidden HarmDiscovered too late

진단 신호

희귀성이 높아지는 경우 증거

질의 투명 세포 선암종은 젊은 여성에게는 매우 드물기 때문에 7 cases in one hospital triggered an investigation.

클러스터 자체가 진단 테스트였습니다.
Sensitivity to DES exposure: nearly 100%
이 나이에 이 암에 걸렸다면 거의 확실히 노출된 것입니다.

1:1000

Risk of clear cell
cancer in DES daughters

5-10M

Women exposed
worldwide

"그리고 어머니들은 약을 복용했습니다.
그리고 딸들은 그림자 속에서 자랐고
20년 후에 암이 피어났습니다.
a diagnosis that indicted a generation of medicine."

A test has two virtues and two vices.

Sensitivity: 아픈 사람을 찾을 수 있습니까?

Specificity: 건강한 사람을 살려줄 수 있을까요?

테스트가 실제 세계에서 사용될 때 실험실의 민감도 수치를 신뢰할 수 있습니까?

REAL DATA

The BinaxNOW COVID-19 rapid antigen test reported sensitivity of approximately 84-97% in symptomatic individuals in manufacturer studies. However, real-world evaluations found sensitivity as low as 35-64% 무증상 개인의 경우 바이러스 양과 시기에 따라 다릅니다. 신속 항원 검사에 대한 Cochrane 검토(Dinnes 2022)에서는 다음의 평균 민감도를 확인했습니다. 73% 증상이 있는 경우에만 55% 100개가 넘는 연구 평가를 통해 무증상 인구를 대상으로 했습니다.

The COVID Rapid Test Paradox: 2020-2021

A university plans to screen asymptomatic students weekly before allowing campus access. They read the manufacturer's claim of high sensitivity.

PATH A: Trust Lab Sensitivity

Rely on manufacturer's high sensitivity figure

↓

바이러스 수치가 낮은 무증상 보균자는 음성 판정을 받고 수업에 참석해 바이러스를 퍼뜨린다.

OUTCOME: False sense of safety; campus outbreaks

경로 B: 실제 데이터 요구

실제 대상 인구(무증상 학생)를 대상으로 연구 추구

↓

Discover sensitivity is roughly 55% in asymptomatic people; add serial testing and other safeguards

OUTCOME: Layered safety catches more cases

THE REVELATION

감도는 테스트의 고정된 속성이 아닙니다. 이는 인구, 질병 단계 및 환경에 따라 달라집니다. 항상 물어보세요: 민감도 whom?

감도: 헌터

THE FORMULA

Sensitivity = TP / (TP + FN)

"Of all the sick, how many did we catch?"

Worked Example: COVID PCR Test

Given: 200 infected patients tested

TP = 196 (correctly positive), FN = 4 (missed)

Sensitivity = 196 / (196 + 4) = 196/200 = 98%

Interpretation: Test catches 98 of every 100 infected people

특이성: 가디언

THE FORMULA

Specificity = TN / (TN + FP)

"Of all the healthy, how many did we spare?"

Worked Example: Same COVID PCR Test

Given: 1000 uninfected people tested

TN = 999 (correctly negative), FP = 1 (false alarm)

Specificity = 999 / (999 + 1) = 999/1000 = 99.9%

Interpretation: Test correctly clears 999 of every 1000 healthy people

기억 규칙

When to Use Which Test

무엇이 필요합니까?

RULE OUT disease

Use HIGH SENSITIVITY

↓

SnNoutSensitive Negative = OUT

RULE IN disease

Use HIGH SPECIFICITY

↓

SpPinSpecific Positive = IN

"민감함이 병을 잡습니다.
특이성이 장점을 살려줍니다.
But no test masters both perfectly—
이것이 우리가 짊어져야 할 부담입니다. 곰."

의사를 만나본 적 없나요
who saw 99% accurate
and believed a positive result meant 99% certainty?

이건 의학계에서 가장 치명적인 오류입니다.

기본율 오류

THE PUZZLE

A disease affects 1 in 1000 people.
검사의 민감도는 99%, 특이도는 99%입니다.
A patient tests positive.

질병에 걸릴 확률은 얼마나 됩니까?

Most doctors say ~99%. 실제 대답은 대략 다음과 같습니다. 9%.

밝혀진 수학

Testing 100,000 People (Prevalence 1/1000)

Step 1: 100 have disease, 99,900 healthy

Step 2: Of 100 sick: 99 test positive (TP), 1 negative (FN)

Step 3: Of 99,900 healthy: 999 test positive (FP), 98,901 negative (TN)

Step 4: Total positives = 99 + 999 = 1,098

PPV = TP / All Positives = 99 / 1,098 = 9%

긍정적인 결과의 91%는 거짓 긍정입니다!

Interactive Base Rate Calculator

See How Prevalence Changes PPV

Prevalence:

1%

Sensitivity:

99%

Specificity:

99%

9%

Positive Predictive Value (PPV)

91%의 긍정이 거짓입니다. 알람

확산의 결정 트리

Same Test, Different Settings

Test: 99% Sens, 99% Spec

↓

Where Is Testing Done?

General Pop
0.1%

PPV = 9%91% false +

High-Risk
10%

PPV = 92%8% false +

Confirmatory
50%

PPV = 99%1% false +

"그리고 의사가 '99% 정확하다'고 하더군요."
환자는 '99% 확실하다'는 말을 들었습니다.
그리고 둘 다 속았습니다.
왜냐하면 그들은 '이 질병은 얼마나 희귀한가?'라고 묻는 것을 잊어버렸기 때문입니다."

호출
that could find TB in two hours,
그게 불려졌어 revolutionary—
했지만 놓친 drug-resistant strains?

남아프리카공화국의 GeneXpert 스토리

CAPE TOWN, 2010

100년 동안 결핵 진단을 위해서는 몇 주 동안 박테리아를 키워야 했습니다. 그런 다음 GeneXpert가 등장했습니다. 결과는 2 hours.

South Africa deployed it nationwide. The WHO endorsed it.

그러나 환자의 경우 low bacterial loads—often HIV co-infected— sensitivity dropped to 67%. One in three cases missed.

그리고 리팜피신 내성을 검출하기 위해 내성 사례를 놓쳤습니다 5% . 그 환자들은 잘못된 치료를 받았습니다. 저항성 결핵 확산.

Steingart KR et al. Cochrane Database Syst Rev. 2014;1:CD009593

TB Diagnosis Decision Tree

GeneXpert가 충분하지 않은 경우

Suspected TB Patient

↓

GeneXpert Test

↓

Positive

↓

Rifampicin?

SensitiveStandard Tx

ResistantMDR-TB Tx

Negative

↓

HIV+ or High Suspicion?

YesCulture needed

NoLikely negative

Sensitivity by Patient Type

98%

Smear-positive
(high bacterial load)

67%

Smear-negative
(low bacterial load)

61%

HIV co-infected
(immune suppressed)

THE LESSON

임상 시험에서 검사의 민감도가 환자의 민감도와 일치하지 않을 수 있습니다. 인구를 파악하세요.

"그리고 기계는 이렇게 말했습니다. '음성'
의사는 기계를 믿었고
환자는 폐결핵을 앓고
폐에 기침 저항이 생겨 집으로 돌아갔습니다. "

남자에 대한 시험을 들어본 적이 없나요?
암을 발견한 것은 never kill,
그리고 다음과 같은 치료로 이어졌습니다. destroyed lives?

PSA 검사의 비극

UNITED STATES, 1990s-2010s

PSA (Prostate-Specific Antigen) could detect prostate cancer early.

의사들은 수백만 명의 남성을 검사했습니다. 암이 발견되었습니다. 전립선이 제거되었습니다.

그러나 이러한 "암" 중 상당수는 증상을 유발하지 않았을 것입니다. 수술로 인해 발생한 발기부전과 요실금 in men who would have died of old age, not cancer.

Moyer VA. Ann Intern Med. 2012;157:120-134

PSA 심사 딜레마: 2012

60세 남성이 의사에게 PSA 검사에 대해 문의했습니다. 4.0ng/mL 컷오프의 PSA는 고등급 암에 대해 약 21%의 민감도를 가지지만 많은 무통성 암을 감지합니다.

PATH A: Screen All Men

50세 이상의 모든 남성을 대상으로 하는 정기 PSA 검사

↓

13년 동안 검사를 받은 1,000명당: 1~2명의 사망은 방지되었으나 100명 이상의 잘못된 경보와 30~40명의 남성이 무기력한 암 치료로 인해 발기 부전 또는 실금 상태로 남음

OUTCOME: Net harm exceeds benefit at population level

PATH B: Shared Decision-Making

손해와 이익에 대해 논의하십시오. 위험 요인, 기대 수명, 환자 가치를 고려하여 개별화

↓

High-risk men can choose screening; low-risk men can decline; active surveillance replaces immediate surgery for low-grade findings

OUTCOME: Fewer unnecessary treatments; patient autonomy preserved

THE REVELATION

탐지율이 높은 테스트는 찾을 필요가 없는 조건을 발견할 때 득보다 실이 더 클 수 있습니다. 과잉진단은 나태한 질병에서 높은 민감도의 숨겨진 비용입니다.

피해의 수

1

생명을 구한
prostate cancer
per 1000 screened

30-40

Men made impotent
or incontinent
per 1000 screened

100+

False positives
(biopsies, anxiety)
per 1000 screened

THE REVERSAL

In 2012, the US Preventive Services Task Force recommended against 정기적인 PSA 검사. 테스트에서는 찾을 필요가 없는 것을 너무 많이 찾았습니다.

Patient Decision Aid: PSA Screening

55~69세 남성 1,000명이 13년 동안 검사를 받는 경우

Deaths from prostate cancer prevented

1-2 men

Men who will have false positive requiring biopsy

100-120 men

결코 해롭지 않은 암 진단을 받은 남성

20-50 men

Men left impotent or incontinent from treatment

30-40 men

이러한 절충안이 귀하에게 허용됩니까?

"그리고 테스트 결과 그림자가 발견되었습니다.
그리고 외과 의사가 잘라냈어요.
그 사람은 살았습니다. 무력하고 자제할 수 없었습니다.
결코 깨어나지 않을 암에서."

가슴 통증이 있는
첫 번째 트로포닌이 normal,
집으로 보내졌고
그 전에 사망한 남자에 대해 들어본 적이 있습니까? 아침인가요?

트로포닌 타이밍 문제

EMERGENCY DEPARTMENTS WORLDWIDE

트로포닌은 심장 마비 진단의 표준입니다. 하지만 3-6 hours to rise after myocardial injury.

A patient arrives one hour after chest pain begins. Troponin is tested: normal. "You're fine. Go home."

심장이 죽어가고 있었습니다. 단백질은 아직 누출되지 않았습니다.

Studies show 2-5% of MI patients sent home from ED die within 30 days.

Pope JH et al. N Engl J Med. 2000;342:1163-1170

Serial Testing Decision Tree

2-트로포닌 프로토콜

Chest Pain Patient

↓

First Troponin

↓

Elevated

↓

Treat as MI

Normal

↓

When Did Pain Start?

<6 hrs

Wait 3 hrsRepeat troponin

>6 hrs

Low riskConsider d/c

High-Sensitivity Troponin

~70%

Conventional troponin
sensitivity at 0 hrs

~95%

hs-Troponin
sensitivity at 0 hrs

99%

hs-Troponin
at 3 hrs serial

THE TRADE-OFF

High-sensitivity troponin catches more heart attacks early. But it also has more false positives—elevated in kidney disease, heart failure, sepsis, and marathon runners.

"그리고 검사 결과는 '정상'으로 나타났습니다.
심장이 막 죽기 시작했습니다.
그리고 환자는 안심하세요,
and went home to finish dying."

감도는 테스트를 설명합니다.
특이성은 테스트를 설명합니다.

그런데 환자가 이렇게 묻는다.
"I tested positive. What are MY chances?"

테스트의 게시된 민감도가 진실보다 높고 따라서 계산한 우도 비율이 잘못된 경우에는 어떻게 되나요?

REAL DATA

Rapid strep tests (RADT) showed pooled sensitivity of approximately 86% Cochrane 리뷰에 포함된 출판된 연구에서. 그러나 미공개 제조업체 데이터를 포함하는 FDA 510(k) 규제 제출에서는 다음과 같은 민감도 추정치가 공개되었습니다. 70-75%. 민감도가 더 높은 출판된 연구는 출판을 위해 제출될 가능성이 더 높았습니다. 이는 겉보기 정확도를 부풀리는 출판 편향의 전형적인 사례입니다.

The Rapid Strep Test Publication Gap

임상의는 공개된 데이터(민감도 86%, 특이도 95%)로부터 LR+를 계산하여 어린이의 인후염 치료 여부를 결정합니다. 그러나 실제 민감도는 70%에 불과할 수 있습니다.

PATH A: Trust Published Meta-Analysis

게시된 데이터의 LR+ 사용(86/5 = 17.2)

↓

과대평가된 LR+는 부정적인 결과에 대한 과신으로 이어집니다. 연쇄상구균에 걸린 어린이는 항생제 없이 집으로 보내집니다.

OUTCOME: Missed strep leads to rheumatic fever risk

경로 B: 규제 데이터 찾기

FDA 제출(70/5 = 14)의 LR+를 사용하고 LR-가 더 나쁘다는 점에 유의하세요(0.32 대 0.15).

↓

Recognize a negative RADT cannot confidently exclude strep; back up with throat culture when clinical suspicion is high

OUTCOME: Appropriate caution protects children

THE REVELATION

우도비는 이를 생성하는 민감도와 특이도만큼만 정직합니다. 출판 편향은 정확성을 부풀려 LR+를 너무 낙관적으로 만들고 LR-를 너무 안심하게 만듭니다. 항상 물어보세요: 미발표 연구가 누락되었습니까?

Likelihood Ratios

POSITIVE LIKELIHOOD RATIO

LR+ = Sensitivity / (1 - Specificity)

How much more likely is a + result in sick vs healthy?

NEGATIVE LIKELIHOOD RATIO

LR- = (1 - Sensitivity) / Specificity

How much more likely is a - result in sick vs healthy?

페이건 노모그램

사전 테스트에서 사후 테스트 확률까지

Pre-Test
Probability

99%

50%

20%

5%

1%

Likelihood
Ratio

100

10

1

0.1

0.01

Post-Test
Probability

99%

80%

50%

20%

1%

Draw a line from pre-test through LR to find post-test probability

Interpreting Likelihood Ratios

이 테스트는 얼마나 강력한가요?

LR+ Value?

LR+ > 10Strong rule-in

5-10Moderate

2-5Weak

1-2Useless

LR- Value?

< 0.1Strong rule-out

0.1-0.2Moderate

0.2-0.5Weak

0.5-1Useless

"민감함은 아픈 사람을 말해준다.
특이성은 우물을 말해줍니다.
But the likelihood ratio answers:
이 결과는 이 환자에게 무엇을 의미합니까?"

마을에서 열병에 걸린 아이를 본 적이 없나요?
그 급속한 테스트는 말했다 negative,
and the Plasmodium 그게 계속 늘어나는 거야?

말라리아 RDT 문제

SUB-SAHARAN AFRICA

Malaria kills 600,000 people yearly, mostly children under 5.

Rapid Diagnostic Tests were meant to guide treatment in remote areas without microscopes or laboratories.

But when parasitemia is low—RDT는 사례를 놓쳤습니다. And when P. falciparum HRP2 유전자를 삭제합니다. the RDT sees nothing at all.

WHO. Malaria RDT Performance. 2022

임상 결정 트리

Child with Fever in Malaria-Endemic Area

Febrile Child

↓

Perform RDT

↓

RDT Positive

↓

말라리아 치료

RDT Negative

↓

Clinical Suspicion?

High

Treat Anywayor Microscopy

Low

Look forOther Cause

Sensitivity Varies by Parasitemia

95%

High parasitemia
(>200/μL)

75%

Low parasitemia
(100-200/μL)

50%

Very low
(<100/μL)

임상 수업

A negative RDT does not rule out malaria in endemic areas. Clinical judgment must override the test when suspicion is high.

"그리고 검사 결과는 '음성'으로 나왔고
그리고 아이는 집으로 보내졌고
어둠 속에서 기생충이 번식했고
아침이 되자 아이는 wake."

역병이 창궐하던 해에
세계는 다음과 같은 테스트가 필요했습니다. fast.

그러나 빠른 것은 accurate.

감도가 더 높은 새로운 세대의 테스트가 출시되면 자동으로 결과가 더 좋아지나요?

REAL DATA

고감도 트로포닌(hs-cTn) 분석은 급성 심근경색에 대한 민감도를 기존 트로포닌보다 약 70% 증가시켰습니다. hs-cTn은 MI 이외의 많은 원인(심부전, 패혈증, 신장 질환, 폐색전증)으로 인한 심근 손상을 감지하기 때문에 발표 시)을 초과 95%. But specificity dropped from approximately 95% to around 80% 합니다. 순 임상 효과를 보려면 여러 연구에 걸친 HSROC 모델링이 필요했습니다.

트로포닌 생성 변화: 2010년대

An emergency department adopts hs-troponin. More patients now test positive, but many do not have acute MI.

PATH A: Adopt Based on Sensitivity Alone

MI 감지율이 70%에서 95% 이상으로 뛰어올랐다는 사실을 기념하세요.

↓

오류가 많을수록 불필요한 카테터 삽입, 병원 입원 및 환자 불안이 발생합니다. 비심장성 트로포닌 상승의 경우

OUTCOME: Overdiagnosis and wasted resources

경로 B: 상충관계 모델링

Use serial measurements (0h/1h or 0h/3h protocols) and clinical context to maintain specificity

↓

Rapid rule-out algorithms safely discharge low-risk patients; sensitivity remains high while managing the false positive rate

OUTCOME: Faster, safer triage of chest pain

THE REVELATION

민감도와 특이도는 서로 상충됩니다. 민감도를 높이는 새로운 테스트 세대는 특이도를 낮추는 경우가 많습니다. HSROC 곡선은 순 상충관계가 환자에게 도움이 되는지 아니면 해를 끼치는지 나타내는 도구입니다.

코크란 평결

COVID-19 Rapid Antigen Tests (Dinnes 2022 Cochrane Review)

Population	Sensitivity	Missed
Symptomatic	73%	27%
Asymptomatic	55%	45%
First 7 days	80%	20%

Dinnes J et al. Cochrane Database Syst Rev. 2022;7:CD013705

The False Security Decision Tree

Thanksgiving 2020: What Happened

Family Member Tests Negative

↓

Truly Negative?

55% if asymptomatic

True NegativeSafe to gather

45% if asymptomatic

FALSE NegativeInfectious!

↓

가족과 함께Grandparents infected

"그리고 검사 결과는 '음성'으로 나왔고
모이는 것과는 다릅니다. 포옹하고
겨울이 끝날 무렵
할아버지는 땅에 묻혔습니다."

검진
암을 발견했다는 소식을 들어보신 적이 있으신가요? would never kill,
그리고 다음과 같은 치료로 이어졌습니다. caused more harm than the disease?

Can you trust a DTA meta-analysis done in a spreadsheet?

REAL DATA

DTA 메타 분석에는 이변량 모델 또는 HSROC가 필요합니다. 둘 다 로짓 척도에서 상관 관계 민감도 및 특이성의 최대 우도 추정이 필요합니다. 연구에 따르면 수동 Excel 계산으로 인해 오류가 자주 발생하는 것으로 나타났습니다. Reinhart & Rogoff(2010, 경제학)의 획기적인 연구에서는 단순한 스프레드시트 오류가 어떻게 글로벌 정책 변경으로 이어지는지 보여주었습니다. DTA에서 수동으로 로짓 변환을 적용하고 Excel에서 민감도/특이성을 별도로 풀링하면 이들 사이의 상관관계가 무시되고 소프트웨어(R mada/reitsma, Stata metandi, SAS NLMIXED)의 검증된 이변량 모델과 의미있게 다른 풀링된 추정치를 생성할 수 있습니다.

QUADAS Excel 오류

연구팀에는 풀링된 민감도와 특이성이 필요합니다. DTA 체계적 검토를 위해. 그들은 12개의 연구를 가지고 있습니다. 한 팀원은 Excel 모델을 구축합니다. 다른 하나는 R의 mada 패키지를 사용합니다.

경로 A: 스프레드시트 사용

Pool sensitivity and specificity separately in Excel using simple averages or fixed-effect formulas

↓

민감도와 특이도 간의 상관 관계를 무시합니다. 로짓 변환 오류 복합; 풀링된 민감도는 약 12% 포인트 감소

OUTCOME: Wrong numbers published; clinical guidelines misled

PATH B: Use Validated Software

이변량 모델과 함께 R(mada/reitsma), Stata(metandi) 또는 SAS(NLMIXED) 사용

↓

적절한 이변량 GLMM은 민감도-특이성 트레이드오프를 설명하고 유효한 신뢰 영역을 생성하며 연구 간 처리를 처리합니다. 이질성

OUTCOME: Reproducible, auditable, correct results

THE REVELATION

DTA 메타 분석은 단순한 풀링이 아닙니다. 데이터의 이변량 특성(민감도 및 특이성 쌍)에는 특수 통계 소프트웨어가 필요합니다. 스프레드시트 오류는 단순한 불편이 아니라 임상 관행을 변화시킬 수 있습니다.

과잉 진단 문제

3-4

Lives saved
per 10,000 screened

50-130

Overdiagnosed
(treated unnecessarily)

~500

False alarms
(anxiety, biopsies)

THE QUESTION

약 50~130명의 여성이 3~4명의 생명을 구하기 위해 자신에게 해를 끼치지 않았을 암에 대한 수술, 방사선 또는 화학 요법을 받습니다.

이렇게 절충할 가치가 있습니까?

Patient Decision Aid: Mammography

50~69세 여성 10,000명을 10년 동안 검사

Deaths from breast cancer prevented

3-4 women

Women called back for false alarms

~500 women

Unnecessary biopsies

~200 women

자신에게 해를 끼치지 않는 암 치료를 받은 여성

~15 women

검사가 귀하에게 적합합니까?

The Screening Cascade Decision Tree

10회 이상 선별검사를 받은 10,000명의 여성 몇 년 동안

10,000 Women

↓

~1,000 RecalledAbnormal

↓

~500 False
Alarm

~500 Biopsy
~50 cancer

~9,000 Cleared

Of ~50 Cancers Found

~35 Would Kill3-4 saved

~15 Would Never KillOverdiagnosed

"그리고 테스트 결과 그림자가 발견되었습니다.
암이라고 불렀고
그 여자는 상처를 입고 화상을 입었습니다.
그녀의 나날을 결코 어둡게 하지 않을 그림자를 위해."

뇌의 플라크를 발견하지만
알려줄 수는 없는
스캔에 대해 들어보신 적이 있으신가요?
마음은 fade?

아밀로이드 역설

ALZHEIMER'S RESEARCH, 2010s-2020s

PET scans can now detect amyloid plaques—the hallmark of Alzheimer's.

But 30% of cognitively normal elderly have amyloid plaques. They may never develop dementia.

And 치매 환자의 10-20% have no amyloid.

검사는 플라크를 발견하지만 플라크는 질병이 아닙니다. 우리는 치매 환자가 아닌 대리자를 위해 테스트하고 있습니다. 결과.

Jack CR et al. Lancet Neurol. 2018;17:760-773

Surrogate vs. Outcome Decision Tree

실제로 테스트하는 것은 무엇입니까?

Diagnostic Test

↓

What Does It Detect?

Outcome itself

Direct Diagnosis예: 암 생검

↓

High clinical value

Surrogate marker

Indirect Signal예: 치매에 대한 아밀로이드

↓

Validated link?

YesUse cautiously

NoLimited value

"그리고 스캔에서 플라크가 발견되었습니다.
그리고 의사는 알츠하이머병이라고 명명했고
환자는 공포 속에 살았습니다.
of a forgetting that might never come."

모든 연구가 동일하게 생성되는 것은 아닙니다.

Some are biased.
Some are poorly designed.
일부 연구는 동일하지 않습니다. trusted.

밀과 왕겨를 어떻게 분리합니까?

대부분의 DTA 연구에서 자신의 상태를 판단할 만큼 충분한 정보조차 보고하지 않는다면 어떻게 될까요? 품질?

REAL DATA

2003년 STARD 이니셔티브가 발표되기 전에 체계적 평가를 통해 DTA 연구 중 half 미만이 지수 테스트 해석이 맹검되었는지 여부를 보고했으며 참조 표준 설명이 종종 부적절하다는 사실이 밝혀졌습니다. STARD 이후 보고 기능이 향상되었습니다. 여러 메타 역학 평가에서 STARD 항목에 대한 준수가 크게 증가한 것으로 나타났습니다. 하지만 많은 연구에서는 흐름도 및 불확실한 결과 처리와 같은 핵심 항목이 여전히 부족했습니다.

STARD 혁명: 2003

팀이 새로운 현장 검사에 대한 DTA 연구를 완료했습니다. 그들은 빨리 출판하고 싶어합니다. 2x2 데이터가 있지만 문서화된 맹검, 환자 흐름 또는 불확실한 결과는 없습니다.

PATH A: Publish Quickly

STARD 흐름도나 방법에 대한 완전한 보고 없이 제출

↓

독자는 맹검, 환자 스펙트럼 또는 검증을 평가할 수 없습니다. QUADAS-2 평가에서는 모든 도메인을 "불분명"으로 평가합니다. 해당 연구는 향후 체계적 검토에서 제외되거나 더 나쁘게는 가중치가 부풀려 포함될 수 있습니다.

OUTCOME: Waste of research; uninterpretable results

PATH B: Follow STARD Guidelines

STARD 체크리스트를 작성하고, 환자 흐름도를 작성하고, 불확실한 결과를 보고하고, 눈가림 설명

↓

검토자는 품질을 완전히 평가할 수 있습니다. QUADAS-2 도메인은 응답 가능합니다. 이 연구는 체계적인 검토와 임상 지침에 의미 있는 기여를 합니다.

결과: 진료를 발전시키는 신뢰할 수 있는 증거

THE REVELATION

연구에서 방법을 보고하지 않으면 품질을 평가할 수 없습니다. STARD는 DTA 연구가 QUADAS-2의 판단을 받을 만큼 충분히 완료되었는지 확인합니다. 불완전한 보고는 중립적이지 않으며 편향을 숨깁니다.

QUADAS-2: 품질 체크리스트

Four Domains of Risk of Bias

1

Patient Selection

연속 또는 무작위 표본이 등록되었습니까? 케이스 제어 디자인을 피했습니까?

2

Index Test

참조 표준에 대한 지식 없이 테스트가 해석되었습니까? 임계값이 미리 지정되었나요?

3

Reference Standard

참조 표준이 상태를 올바르게 분류할 가능성이 있습니까? 맹목적으로 해석됐나요?

4

흐름과 타이밍

테스트 사이에 적절한 간격이 있었습니까? 모든 환자가 동일한 참조 표준을 받았습니까?

QUADAS-2 Decision Tree

이 연구를 신뢰해야 합니까?

DTA Study

↓

Check All 4 Domains

All Low Risk

High QualityTrust results

Some Unclear

Moderate주의해서 사용하세요

Any High Risk

Low Quality결과가 편향될 수 있음

DTA 연구의 일반적인 편견

!

Verification Bias

Only positive tests get the reference standard → inflates sensitivity

!

Spectrum Bias

연구 집단이 임상 현실과 다름 → 결과가 일반화되지 않음

!

Incorporation Bias

Index test is part of reference standard → artificially high accuracy

!

Review Bias

Index test interpreted knowing reference result → inflates both metrics

"숫자를 믿기 전에,
ask: How were they gathered?
편향된 연구는 자신있게 말합니다.
but its confidence is a lie."

한 연구는 속일 수도 있습니다.
한 연구는 더 그럴듯할 수도 있습니다.

하지만 모이면 증거—
the truth becomes harder to hide.

다른 연구에서 동일한 테스트에 대해 서로 다른 임계값을 사용하고 이를 통합하려고 하면 어떻게 되나요?

REAL DATA

D-dimer testing for pulmonary embolism (PE) traditionally used a fixed cutoff of 500 µg/L. ADJUST-PE 시험(Righini et al., JAMA 2014)에서는 연령 조정 기준(50세 이상 환자의 경우age × 10 µg/L )으로 인해 ~6% to ~30%에서 D-이량체 음성 결과를 얻은 노인 환자의 비율이 증가했으며, 연령 조정 음성 그룹에서 3개월 VTE 위험은 0.3%에 불과한 것으로 나타났습니다. D-이합체 연구의 DTA 메타 분석에서는 서로 다른 임계값이 SROC 곡선에 표시되는 민감도-특이성 상충 관계를 생성하기 때문에 이변량 모델을 사용해야 합니다.

The D-dimer Threshold Dilemma: ADJUST-PE 2014

고령자 환자(75세)가 PE 가능성이 있는 것으로 응급실에 왔습니다. D-이량체는 620μg/L입니다. 고정 컷오프를 사용하면 이는 긍정적입니다. 연령 조정 기준치(750μg/L)를 사용하면 이는 음수입니다.

PATH A: Use Fixed Cutoff (500 µg/L)

Apply one threshold to all patients regardless of age

↓

노인 환자는 거의 항상 500μg/L를 초과합니다. 80세 이상에서는 특이도가 10% 미만으로 떨어집니다. 거의 모든 노인 환자는 조영제, 방사선 및 부수적 소견이 포함된 CT 폐 혈관 조영술을 받습니다.

OUTCOME: D-dimer becomes useless in the elderly

PATH B: Use Bivariate Model with Threshold Covariate

연령 조정 기준치를 적용합니다. 메타 분석의 모델 임계값 변동

↓

SROC 곡선은 연령 조정 임계값이 곡선을 따라 이동하여 특이성의 큰 이득을 위해 작은 양의 민감도를 교환하는 것을 보여줍니다. 30% 더 많은 노인 환자가 CT 촬영을 안전하게 피합니다.

OUTCOME: Fewer unnecessary scans; no missed PEs

THE REVELATION

임계값 변동은 DTA 메타 분석에 이변량 모델이 필요한 이유입니다. 다양한 연구에서는 서로 다른 컷오프를 사용하여 민감도와 특이도 간의 균형을 유지합니다. SROC 곡선은 이러한 상충관계를 보여주는 지도입니다.

Why DTA Meta-Analysis Is Different

THE PROBLEM

민감도와 특이도는 correlated. When one goes up, the other tends to go down.

치료 효과처럼 따로 모아둘 수는 없습니다. bivariate model.

SROC 곡선

Summary Receiver Operating Characteristic

Sensitivity

1 - Specificity (False Positive Rate)

Individual studies

Summary estimate

SROC 읽기

곡선은 무엇을 말해주는가?

SROC Curve Position

↓

Top-Left Corner

Excellent TestHigh sens + spec

Near Diagonal

Useless TestNo better than chance

Points Scattered

High HeterogeneityInvestigate sources

"한 연구는 속일 수 있습니다.
많은 연구, 함께 무게를 달아
진실의 경로를 추적하세요.
테스트가 실제로 수행할 수 있는 작업을 보여주는 SROC 곡선입니다."

하지만 연구를 한다면 어떨까요? disagree?

One says sensitivity is 95%.
Another says 60%.

어떤 진실을 믿습니까?

테스트가 일반 집단에서는 잘 작동하지만 가장 필요한 환자에게는 실패하면 어떻게 됩니까?

REAL DATA

HRP2-based malaria rapid diagnostic tests (RDTs) achieve sensitivity of approximately 95% in the general population in endemic areas. However, in pregnant women, sensitivity can drop to as low as 56-76% 태반을 통한 기생충 격리로 인해 기생충이 태반에 숨어 말초 혈액 기생충혈증을 RDT 검출 역치보다 낮게 유지합니다. 말라리아 RDT에 대한 Cochrane 검토에서는 임신, 5세 미만 어린이, HIV 동시 감염을 포함한 인구 하위 그룹에 의해 발생하는 상당한 이질성(I²가 종종 80%를 초과함)을 발견했습니다.

임신 중 말라리아 RDT

메타 분석에서는 25개의 말라리아 RDT 연구를 통합하고 93%의 통합 민감도를 보고합니다. 산전 진료소의 임상의는 이를 사용하여 RDT가 음성인 임산부를 안심시킵니다.

PATH A: Trust the Overall Pooled Estimate

일반 인구 메타 분석에서 93% 민감도를 적용합니다

↓

임신한 여성의 경우 실제 민감도는 56~76%만큼 낮을 수 있습니다. 감염된 임산부의 상당 부분이 잘못된 확신을 갖고 있습니다. 임신 중 말라리아를 치료하지 않으면 심각한 산모 빈혈, 저체중아 출산, 사산이 발생합니다.

OUTCOME: Preventable maternal and neonatal deaths

PATH B: Investigate Heterogeneity by Subgroup

임산부를 대상으로 하위 그룹 메타 분석을 실시합니다. I² 및 변형 소스 탐색

↓

임신이 이질성의 주요 원인임을 발견하십시오. 풍토병 지역에서 RDT가 음성인 모든 임산부에게 현미경 확인을 권장합니다.

OUTCOME: Targeted protocols save mothers and babies

THE REVELATION

이질성은 단순한 통계적 잡음이 아닙니다. 이는 종종 테스트가 모집단마다 다르게 수행된다는 신호를 보냅니다. I²를 무시하고 모든 것을 함께 모으는 것은 취약한 하위 그룹에게 치명적일 수 있습니다.

Sources of Heterogeneity

연구 결과가 일치하지 않는 이유

같은 테스트, 다른 결과?

ThresholdDifferent cutoffs

PopulationSeverity, age

SettingPrimary vs specialist

QualityBias, blinding

Measuring Disagreement: I²

I² < 25%

Low
Studies agree

I² 25-75%

Moderate
Some variation

I² > 75%

High
Major disagreement

THE WARNING

When I² > 75%, the pooled estimate may be meaningless. Explain the disagreement before averaging.

"연구 결과에 동의하지 않을 경우
반대 의견을 침묵시키지 마십시오.
Ask: Why do they see differently?
동의 불일치 자체가 교훈을 줍니다."

DTA 툴킷

필수 조치 및 사용 시기

AI가 의사보다 더 나은 진단을 한다고 주장할 때 전체 AUC를 신뢰해야 합니까?

REAL DATA

Deep learning models for skin cancer detection have reported AUC values as high as 0.91-0.94 in development datasets. However, external validation revealed alarming disparities: Daneshjou et al. (2022, Nature Medicine)에서는 상용 AI 피부과 도구가 AUC가 낮은 어두운 피부(Fitzpatrick 유형 V-VI)에서 거의 확률에 가까운 수준으로 수행된다는 사실을 발견했습니다. as 0.50-0.57 — 본질적으로 무작위입니다. 훈련 데이터 세트는 밝은 피부색에 크게 편향되어 있어 2x2 테이블이 모든 인구에 대해 제대로 채워지지 않았음을 의미합니다.

AI 피부과 약속: 2020년대

한 병원은 다양한 도시 인구를 대상으로 하는 피부과 진료소에 AI 피부암 검사 도구를 배포하는 것을 고려하고 있습니다. 제조업체는 AUC를 0.94로 보고합니다.

PATH A: Deploy Based on Overall AUC

헤드라인 AUC를 0.94로 믿고 모든 환자에게 적용합니다.

↓

어두운 피부의 흑색종을 놓치는 비율이 더 높습니다. 전반적인 감도 수치에는 위험한 격차가 숨겨져 있습니다. 후기 진단으로 인한 사망률이 가장 높은 환자는 AI가 가장 실패하는 환자입니다.

OUTCOME: Health disparity amplified by technology

PATH B: Demand Fairness-Stratified Evaluation

피부색(Fitzpatrick 척도), 연령, 병변 위치별로 세분화된 민감도와 특이도가 필요합니다

↓

성능 격차를 확인하세요. 다양한 데이터 세트에 대한 재교육을 요구하거나 검증된 모집단에 대한 사용을 제한합니다. 소수 집단을 위해 AI와 피부과 전문의 감독을 결합하세요.

OUTCOME: Equitable deployment; no one left behind

THE REVELATION

단일 AUC 수치로 위험한 격차를 숨길 수 있습니다. 새로운 AI 기반 진단 도구는 모든 진단 테스트와 동일하게 엄격하게 평가되어야 합니다. 모집단별로 계층화되고 외부에서 검증되며 STARD 및 QUADAS-2 표준을 준수해야 합니다.

The Checklist

✓

Was there a valid reference standard?

Gold standard applied to ALL patients?

✓

통역사의 눈이 멀었나요?

Test readers unaware of diagnosis?

✓

스펙트럼이 적절했습니까?

귀하의 모집단과 유사한 환자가 있습니까?

✓

임계값이 미리 지정되어 있습니까?

아니면 결과를 최대화하기 위해 선택되었습니까?

When Results Don't Match Suspicion

The Clinical Override Decision Tree

Test Negative, High Suspicion

↓

What Is the LR-?

LR- < 0.1

Strong rule-outAccept negative

LR- 0.1-0.5

Repeat testOr different test

LR- > 0.5

Trust judgmentTest is weak

Sequential Testing Decision Tree

When One Test Isn't Enough

Initial Screening Test

↓

Positive

↓

Confirmatory TestHigh specificity

↓

PositiveDiagnose

NegativeFalse alarm

Negative

↓

Likely negativeIf high sens screen

"Armed with sensitivity, specificity, likelihood,
SROC와 일치 정도
로 무장하여 테스트의 거짓말을 꿰뚫어 볼 수 있으며
진실 여부를 판단할 수 있습니다. "

환자 소식을 듣지 못하셨나요?
누가 받았는지 wrong blood,
시험이 틀려서가 아니라
but because no one performed it?

끝나지 않은 테스트

HOSPITALS WORLDWIDE

ABO blood typing is nearly 100% accurate when performed.

Yet transfusion reactions still kill—테스트 실패가 아니라 human failure:

• Wrong blood drawn from wrong patient
• 실험실에서 라벨이 전환됨
• Bedside check skipped in emergency

In the UK, 1 in 13,000 transfusions 엉뚱한 환자에게 가네요. 테스트가 작동했습니다. 시스템이 실패했습니다.

Bolton-Maggs PHB. Transfus Med. 2016;26:303-311

Test vs. System Decision Tree

Where Can Things Go Wrong?

Diagnostic Process

↓

Error Source?

Test itself

Analytical ErrorSens/Spec issue

↓

Better test needed

Pre-analytical

Wrong sampleID error

↓

System fix needed

Post-analytical

Wrong actionReporting error

↓

Process fix needed

"The perfect test means nothing
잘못된 혈액을 채취한 경우
잘못된 라벨이 적용되었습니다.
잘못된 가방이 걸려 있어요."

DTA 연구는 테스트 정확도를 측정합니다. 시스템 정확도를 측정하지 않습니다.

References

Key Sources

Carreyrou J. Bad Blood. Knopf, 2018. [Theranos]
CDC. MMWR. 1987;36(49):833-840. [HIV blood supply]
Herbst AL et al. N Engl J Med. 1971;284:878-881. [DES]
Moyer VA. Ann Intern Med. 2012;157:120-134. [PSA]
Pope JH et al. N Engl J Med. 2000;342:1163-1170. [Troponin]
Steingart KR et al. Cochrane 2014;1:CD009593. [GeneXpert]
Dinnes J et al. Cochrane 2022;7:CD013705. [COVID RAT]
UK Panel. Lancet. 2012;380:1778-1786. [Mammography]
Jack CR et al. Lancet Neurol. 2018;17:760-773. [Amyloid]
WHO. Malaria RDT Performance. 2022.
Reitsma JB et al. J Clin Epidemiol. 2005;58:982-990. [Bivariate]
Whiting PF et al. Ann Intern Med. 2011;155:529-536. [QUADAS-2]
Bolton-Maggs PHB. Transfus Med. 2016;26:303-311.

테스트는 민감도가 99%이고 구체적이 99%입니다. 질병 유병률은 1/1000입니다. 환자가 양성 반응을 보였습니다. 그 사람이 질병에 걸릴 확률은 얼마나 됩니까?

99%

90%

About 9%

50%

What does "SnNout" mean?

A highly Sensitive test, when Negative, rules OUT disease

A highly Specific test, when Negative, rules OUT disease

Sensitivity should be used for screening

Specificity should be above 90%

검사에도 불구하고 혈액 공급이 HIV에 오염된 이유는 무엇입니까?

The tests had low specificity

Tests had a window period with zero sensitivity in early infection

검사가 제대로 수행되지 않았습니다

검사 비용이 너무 많이 들었습니다

어떤 QUADAS-2 도메인이 테스트가 해석되었는지 여부를 알지 못한 채 평가합니다. 진단?

Patient Selection

Index Test

Reference Standard

흐름과 타이밍

✔

Course Complete

"이제 네 가지 결과,
테스트의 두 가지 장점
기본의 오류
증거를 모으는 기술
그리고 진실을 숨기는 편견

다음 테스트가 당신에게 놓여 있을 때—
알게 될 것입니다."