When The Test Lies: Ultimate DTA Course (V4)

Non hai sentito la storia della donna
who promised to cambiare il mondo con una goccia di sangue,
who raised billions on a test that never worked?

Palo Alto, 2003

STANFORD UNIVERSITY

Un diciannovenne si è ritirato con una visione: centinaia di sangue test da una singola goccia.

Investors believed. Walgreens believed. The Pentagon believed.

They gave her $9 billion.

Ma i test hanno dato risultati errati. Ai pazienti veniva detto che avevano l'HIV quando non era così. Ai pazienti è stato detto che il loro sangue era normale quando erano dying.

Carreyrou J. Bad Blood. 2018

L'albero decisionale dell'inganno

What Theranos Did vs. What Should Happen

New Diagnostic Test

↓

SHOULD DO

Validate Against Gold Standard

↓

Publish TP/FP/FN/TN

↓

FDA Approval

THERANOS DID

Skip Validation

↓

Hide Failures

↓

Harm Patients

"E il test mentì,
e la menzogna era vestita di certezza,
e nessuno ha chiesto la tavola 2×2."

Ecco perché studiamo l'accuratezza dei test diagnostici.

When a test speaks,
ci sono solo four possible truths.

Due sono benedizioni. Due sono maledizioni.

Cosa succede quando una revisione sistematica si fida equamente di ogni studio?

REAL DATA

Le analisi di sensibilità nelle revisioni sistematiche DTA dimostrano costantemente che l'esclusione di studi ad alto rischio di bias modifica le stime aggregate. Nello screening mammografico, i disegni caso-controllo con interpretazione in cieco tendono a gonfiare la sensibilità. Il principio generale è ben documentato: la valutazione della qualità QUADAS-2 può modificare la sensibilità raggruppata 10-15 percentage points quando gli studi distorti vengono rimossi.

L'audit mammografico QUADAS-2

Un team di revisione raggruppa 15 studi DTA mammografici. Cinque presentano un alto rischio di bias a causa del disegno caso-controllo e dell'interpretazione non cieca.

PERCORSO A: raggruppare tutti gli studi

Include all 15 studies regardless of quality

↓

Biased 2x2 tables inflate TP counts, producing a pooled sensitivity of 87%

OUTCOME: Overconfidence in screening accuracy

PATH B: Apply Quality Assessment

Exclude high risk-of-bias studies using QUADAS-2

↓

Remaining 10 low-RoB studies yield sensitivity of approximately 75%

OUTCOME: Honest numbers guide honest decisions

THE REVELATION

I quattro risultati (TP, FP, FN, TN) sono affidabili solo se lo studio che li ha prodotti è affidabile. Uno studio parziale contamina l'intera tabella 2x2.

L'albero dei risultati

Every Test Result Has a Reality Behind It

Patient Tested

↓

Qual è la VERITÀ?

Has Disease

D+

↓

TPTest +

FNTest -

No Disease

D-

↓

FPTest +

TNTest -

La Sacra Tavola 2×2

HIV Rapid Test Example (Real Data)

	HIV+	HIV-	Total
Test +	98	3	101
Test -	2	895	897
Total	100	898	998

DA QUESTA TABELLA NASCE TUTTA LA VERITÀ

Sensitivity = 98/100 = 98%
Specificity = 895/898 = 99.7%

"Two outcomes save. Two outcomes harm.
TP, TN: il test ha parlato vero.
FP, FN: il test ha mentito.
Know them by name, for they determine fate."

Non hai sentito parlare del sangue che fu analizzato,
found clean,
e donato a migliaia di persone—
while death swam within it?

La crisi dell'approvvigionamento di sangue, 1985

UNITED STATES

When HIV testing began, doctors celebrated: they could now screen the blood supply.

Ma il test aveva a window period—settimane dopo l'infezione quando il virus era presente ma undetectable.

Il sangue è stato testato. Il sangue è stato "negativo". Il sangue è stato trasfuso.

8,000-12,000 Americans sono stati infettati tramite trasfusioni prima che test migliori chiudessero la finestra.

CDC. MMWR. 1987;36(49):833-840

The Window Period Decision Tree

Why False Negatives Are Deadly

Person Recently Infected

↓

Time Since Infection?

< 2 weeks

Test NEGATIVEVirus present!

↓

Blood DonatedOthers infected

> 4 weeks

Test POSITIVECorrectly detected

↓

Blood DiscardedSupply safe

La sensibilità cambia Ora

0%

Day 1-7
Eclipse period

~50%

Day 14
Seroconversion

~95%

Day 21
Most detected

99.9%

Day 45+
Window closed

THE LESSON

La sensibilità non è fissa. It depends on when you test. A "99% sensitive" test may be 0% sensitive in early infection.

"E il test ha detto 'pulito'
perché il virus non si era ancora mostrato il suo volto.
E il sangue è stato condiviso,
e l'infezione diffondersi agli innocenti."

Non hai sentito parlare della pillola somministrata alle madri
to protect their pregnancies,
that planted cancer in their daughters
twenty years before it bloomed?

La tragedia del DES, 1938-1971

UNITED STATES & EUROPE

Diethylstilbestrol (DES) was given to millions of pregnant women to prevent miscarriage.

No proper clinical trial was ever conducted. Doctors assumed it worked because it seemed reasonable.

Decades later, their daughters developed a rare cancer: clear cell adenocarcinoma of the vagina. A cancer so rare it was a diagnostic signal in itself.

5-10 million women sono stati esposti al danno attraversato generazioni.

Herbst AL et al. N Engl J Med. 1971;284:878-881

L'albero decisionale di convalida

What Should Have Happened

New Medical Intervention

↓

È stato testato adeguatamente?

YES

Randomized Trial

↓

Long-term Follow-up

↓

Know True EffectsVantaggi e danni

NO (DES)

Assumption Only

↓

Widespread Use

↓

Hidden HarmDiscovered too late

Il segnale diagnostico

QUANDO LA RARITÀ DIVENTA PROVE

L'adenocarcinoma a cellule chiare della vagina era così raro nelle giovani donne che 7 cases in one hospital triggered an investigation.

Il cluster stesso era il test diagnostico:
Sensitivity to DES exposure: nearly 100%
Se hai questo cancro a questa età, sei quasi certamente esposto.

1:1000

Risk of clear cell
cancer in DES daughters

5-10M

Women exposed
worldwide

"E le madri prendevano la pillola nella speranza,
e le figlie crebbero nell'ombra,
e vent'anni dopo sbocciò il cancro—
a diagnosis that indicted a generation of medicine."

A test has two virtues and two vices.

Sensitivity: Può trovare i malati?

Specificity: Può risparmiare i sani?

Puoi fidarti di un numero di sensibilità di un laboratorio quando il test viene utilizzato nel mondo reale?

REAL DATA

The BinaxNOW COVID-19 rapid antigen test reported sensitivity of approximately 84-97% in symptomatic individuals in manufacturer studies. However, real-world evaluations found sensitivity as low as 35-64% in individui asintomatici, a seconda della carica virale e dei tempi. La revisione Cochrane dei test antigenici rapidi (Dinnes 2022) ha confermato la sensibilità media di 73% nelle popolazioni sintomatiche e solo 55% nelle popolazioni asintomatiche in oltre 100 valutazioni di studio.

The COVID Rapid Test Paradox: 2020-2021

A university plans to screen asymptomatic students weekly before allowing campus access. They read the manufacturer's claim of high sensitivity.

PATH A: Trust Lab Sensitivity

Rely on manufacturer's high sensitivity figure

↓

I portatori asintomatici con basse cariche virali risultano negativi e frequentano le lezioni, diffondendo il virus

OUTCOME: False sense of safety; campus outbreaks

PERCORSO B: richiesta di dati dal mondo reale

Cercare studi nella popolazione target effettiva (studenti asintomatici)

↓

Discover sensitivity is roughly 55% in asymptomatic people; add serial testing and other safeguards

OUTCOME: Layered safety catches more cases

THE REVELATION

La sensibilità non è una proprietà fissa di un test. Cambia con la popolazione, lo stadio della malattia e il contesto. Chiedi sempre: sensibilità in whom?

Sensibilità: Il cacciatore

THE FORMULA

Sensitivity = TP / (TP + FN)

"Of all the sick, how many did we catch?"

Worked Example: COVID PCR Test

Given: 200 infected patients tested

TP = 196 (correctly positive), FN = 4 (missed)

Sensitivity = 196 / (196 + 4) = 196/200 = 98%

Interpretation: Test catches 98 of every 100 infected people

Specificità: Il guardiano

THE FORMULA

Specificity = TN / (TN + FP)

"Of all the healthy, how many did we spare?"

Worked Example: Same COVID PCR Test

Given: 1000 uninfected people tested

TN = 999 (correctly negative), FP = 1 (false alarm)

Specificity = 999 / (999 + 1) = 999/1000 = 99.9%

Interpretation: Test correctly clears 999 of every 1000 healthy people

Le regole della memoria

When to Use Which Test

Di cosa hai bisogno?

RULE OUT disease

Use HIGH SENSITIVITY

↓

SnNoutSensitive Negative = OUT

RULE IN disease

Use HIGH SPECIFICITY

↓

SpPinSpecific Positive = IN

"La sensibilità cattura i malati.
La specificità risparmia i buoni.
But no test masters both perfectly—
questo è il fardello che dobbiamo affrontare sopportare."

Non hai visto il medico
who saw 99% accurate
and believed a positive result meant 99% certainty?

Questa è la cosa più mortale errore in medicina.

L'errore del tasso di base

THE PUZZLE

A disease affects 1 in 1000 people.
Un test è sensibile al 99% e specifico al 99%.
A patient tests positive.

Qual è la probabilità che abbiano la malattia?

Most doctors say ~99%. La vera risposta riguarda 9%.

La matematica rivelata

Testing 100,000 People (Prevalence 1/1000)

Step 1: 100 have disease, 99,900 healthy

Step 2: Of 100 sick: 99 test positive (TP), 1 negative (FN)

Step 3: Of 99,900 healthy: 999 test positive (FP), 98,901 negative (TN)

Step 4: Total positives = 99 + 999 = 1,098

PPV = TP / All Positives = 99 / 1,098 = 9%

Il 91% dei risultati positivi sono FALSI POSITIVI!

Interactive Base Rate Calculator

See How Prevalence Changes PPV

Prevalence:

1%

Sensitivity:

99%

Specificity:

99%

9%

Positive Predictive Value (PPV)

Il 91% dei positivi è falso allarmi

L'albero decisionale della prevalenza

Same Test, Different Settings

Test: 99% Sens, 99% Spec

↓

Where Is Testing Done?

General Pop
0.1%

PPV = 9%91% false +

High-Risk
10%

PPV = 92%8% false +

Confirmatory
50%

PPV = 99%1% false +

"E il medico disse 'accurato al 99%'
e il paziente sentì 'certo al 99%'
ed entrambi furono ingannati—
perché si erano dimenticati di chiedere: quanto è raro questo ?"

Non hai sentito parlare della macchina
that could find TB in two hours,
che si chiamava revolutionary—
ma ti sei perso drug-resistant strains?

La storia di GeneXpert, Sud Africa

CAPE TOWN, 2010

Per un secolo, la diagnosi della tubercolosi ha richiesto la crescita di batteri per settimane. Poi è arrivato GeneXpert: risultati in 2 hours.

South Africa deployed it nationwide. The WHO endorsed it.

Ma nei pazienti con low bacterial loads—often HIV co-infected— sensitivity dropped to 67%. One in three cases missed.

E per rilevare la resistenza alla rifampicina, ha mancato 5% casi resistenti. Quei pazienti hanno ricevuto il trattamento sbagliato. La diffusione della tubercolosi resistente.

Steingart KR et al. Cochrane Database Syst Rev. 2014;1:CD009593

TB Diagnosis Decision Tree

Quando GeneXpert non basta

Suspected TB Patient

↓

GeneXpert Test

↓

Positive

↓

Rifampicin?

SensitiveStandard Tx

ResistantMDR-TB Tx

Negative

↓

HIV+ or High Suspicion?

YesCulture needed

NoLikely negative

Sensitivity by Patient Type

98%

Smear-positive
(high bacterial load)

67%

Smear-negative
(low bacterial load)

61%

HIV co-infected
(immune suppressed)

THE LESSON

La sensibilità di un test negli studi clinici potrebbe non corrispondere alla sua sensibilità nei pazienti. Conosci la tua popolazione.

"E la macchina disse 'negativo,'
e il medico credette alla macchina,
e il paziente tornò a casa con la tubercolosi nei polmoni,
resistenza alla tosse nel mondo."

Non hai sentito parlare del test per gli uomini
che ha scoperto tumori che avrebbe never kill,
e avrebbe portato a trattamenti che destroyed lives?

La tragedia dello screening del PSA

UNITED STATES, 1990s-2010s

PSA (Prostate-Specific Antigen) could detect prostate cancer early.

I medici hanno sottoposto a screening milioni di uomini. Sono stati trovati tumori. Le prostate furono rimosse.

Ma molti di questi "tumori" non avrebbero mai causato sintomi. L'intervento ha causato impotenza e incontinenza in men who would have died of old age, not cancer.

Moyer VA. Ann Intern Med. 2012;157:120-134

Il dilemma dello screening del PSA: 2012

Un uomo di 60 anni chiede al suo medico informazioni sullo screening del PSA. Il PSA al cut-off di 4,0 ng/mL ha una sensibilità di circa il 21% per il cancro ad alto grado, ma rileva molti tumori indolenti.

PATH A: Screen All Men

Screening di routine del PSA per tutti gli uomini sopra i 50 anni

↓

Per 1.000 sottoposti a screening in 13 anni: 1-2 decessi prevenuti, ma oltre 100 falsi allarmi e 30-40 uomini rimasti impotenti o incontinenti a causa del trattamento di tumori indolenti

OUTCOME: Net harm exceeds benefit at population level

PATH B: Shared Decision-Making

Discutere i danni rispetto ai benefici; individualizzare con fattori di rischio, aspettativa di vita e valori del paziente

↓

High-risk men can choose screening; low-risk men can decline; active surveillance replaces immediate surgery for low-grade findings

OUTCOME: Fewer unnecessary treatments; patient autonomy preserved

THE REVELATION

Un test con tassi di rilevamento elevati può causare più danni che benefici quando rileva condizioni che non necessitano di essere trovate. La sovradiagnosi è il costo nascosto dell'elevata sensibilità nella malattia indolente.

I numeri del danno

1

Vita salvata dallo
prostate cancer
per 1000 screened

30-40

Men made impotent
or incontinent
per 1000 screened

100+

False positives
(biopsies, anxiety)
per 1000 screened

THE REVERSAL

In 2012, the US Preventive Services Task Force recommended against screening PSA di routine. Il test stava rilevando troppe cose che non era necessario trovare.

Patient Decision Aid: PSA Screening

Se 1.000 uomini di età compresa tra 55 e 69 anni vengono sottoposti a screening per 13 anni

Deaths from prostate cancer prevented

1-2 men

Men who will have false positive requiring biopsy

100-120 men

Uomini a cui è stato diagnosticato un cancro che non farebbe mai loro del male

20-50 men

Men left impotent or incontinent from treatment

30-40 men

È questo compromesso accettabile per te?

"E il test ha trovato l'ombra,
e il chirurgo tagliato,
e l'uomo viveva – impotente, incontinente –
da un cancro che non si sarebbe mai risvegliato."

Non hai sentito parlare dell'uomo con dolore al petto
la cui prima troponina era normal,
che fu mandato a casa—
e morì prima mattina?

Il problema della tempistica della troponina

EMERGENCY DEPARTMENTS WORLDWIDE

La troponina è il gold standard per la diagnosi di infarto. Ma ci vuole 3-6 hours to rise after myocardial injury.

A patient arrives one hour after chest pain begins. Troponin is tested: normal. "You're fine. Go home."

Il cuore stava morendo. La proteina non era ancora fuoriuscita.

Studies show 2-5% of MI patients sent home from ED die within 30 days.

Pope JH et al. N Engl J Med. 2000;342:1163-1170

Serial Testing Decision Tree

Il protocollo delle due troponine

Chest Pain Patient

↓

First Troponin

↓

Elevated

↓

Treat as MI

Normal

↓

When Did Pain Start?

<6 hrs

Wait 3 hrsRepeat troponin

>6 hrs

Low riskConsider d/c

High-Sensitivity Troponin

~70%

Conventional troponin
sensitivity at 0 hrs

~95%

hs-Troponin
sensitivity at 0 hrs

99%

hs-Troponin
at 3 hrs serial

THE TRADE-OFF

High-sensitivity troponin catches more heart attacks early. But it also has more false positives—elevated in kidney disease, heart failure, sepsis, and marathon runners.

"E il test ha detto 'normale'
perché il cuore aveva appena iniziato a morire.
E il paziente era rassicurato,
and went home to finish dying."

La sensibilità descrive il test.
La specificità descrive il test.

Ma il paziente chiede:
"I tested positive. What are MY chances?"

E se la sensibilità pubblicata di un test fosse superiore alla verità e i rapporti di verosimiglianza calcolati fossero quindi errati?

REAL DATA

Rapid strep tests (RADT) showed pooled sensitivity of approximately 86% negli studi pubblicati inclusi nelle revisioni Cochrane. Tuttavia, le richieste normative della FDA 510(k), che includono dati non pubblicati del produttore, hanno rivelato stime di sensibilità di soli 70-75%. Gli studi pubblicati con sensibilità più elevata avevano maggiori probabilità di essere inviati per la pubblicazione: un classico caso di bias di pubblicazione che ne gonfia l'accuratezza apparente.

The Rapid Strep Test Publication Gap

Un medico calcola LR+ dai dati pubblicati (sensibilità 86%, specificità 95%) per decidere se trattare il mal di gola di un bambino. Ma la vera sensibilità può essere solo del 70%.

PATH A: Trust Published Meta-Analysis

Utilizzare LR+ dai dati pubblicati (86/5 = 17,2)

↓

Lr+ sovrastimato porta a un'eccessiva fiducia in un risultato negativo; i bambini affetti da streptococco vengono mandati a casa senza antibiotici

OUTCOME: Missed strep leads to rheumatic fever risk

PERCORSO B: ricerca di dati normativi

Utilizzare LR+ dalle proposte della FDA (70/5 = 14) e notare che LR- è peggiore (0,32 vs 0,15)

↓

Recognize a negative RADT cannot confidently exclude strep; back up with throat culture when clinical suspicion is high

OUTCOME: Appropriate caution protects children

THE REVELATION

I rapporti di verosimiglianza sono onesti tanto quanto la sensibilità e la specificità che li producono. I bias di pubblicazione gonfiano l’accuratezza, rendendo LR+ troppo ottimista e LR- troppo rassicurante. Chiediti sempre: mancano studi non pubblicati?

Likelihood Ratios

POSITIVE LIKELIHOOD RATIO

LR+ = Sensitivity / (1 - Specificity)

How much more likely is a + result in sick vs healthy?

NEGATIVE LIKELIHOOD RATIO

LR- = (1 - Sensitivity) / Specificity

How much more likely is a - result in sick vs healthy?

Il Fagan Nomogramma

Dalla probabilità pre-test a quella post-test

Pre-Test
Probability

99%

50%

20%

5%

1%

Likelihood
Ratio

100

10

1

0.1

0.01

Post-Test
Probability

99%

80%

50%

20%

1%

Draw a line from pre-test through LR to find post-test probability

Interpreting Likelihood Ratios

Quanto è potente questo test?

LR+ Value?

LR+ > 10Strong rule-in

5-10Moderate

2-5Weak

1-2Useless

LR- Value?

< 0.1Strong rule-out

0.1-0.2Moderate

0.2-0.5Weak

0.5-1Useless

"La sensibilità racconta dei malati.
La specificità racconta dei malati bene.
But the likelihood ratio answers:
Cosa significa questo risultato per QUESTO paziente?"

Non hai visto il bambino con la febbre nel villaggio,
il test rapido detto questo negative,
and the Plasmodium che continuava a moltiplicarsi?

Il problema dell'RDT sulla malaria

SUB-SAHARAN AFRICA

Malaria kills 600,000 people yearly, mostly children under 5.

Rapid Diagnostic Tests were meant to guide treatment in remote areas without microscopes or laboratories.

But when parasitemia is low—l'RDT non rileva i casi. And when P. falciparum elimina il gene HRP2— the RDT sees nothing at all.

WHO. Malaria RDT Performance. 2022

La decisione clinica Albero

Child with Fever in Malaria-Endemic Area

Febrile Child

↓

Perform RDT

↓

RDT Positive

↓

Trattamento per la malaria

RDT Negative

↓

Clinical Suspicion?

High

Treat Anywayor Microscopy

Low

Look forOther Cause

Sensitivity Varies by Parasitemia

95%

High parasitemia
(>200/μL)

75%

Low parasitemia
(100-200/μL)

50%

Very low
(<100/μL)

LA LEZIONE CLINICA

A negative RDT does not rule out malaria in endemic areas. Clinical judgment must override the test when suspicion is high.

"E il test ha dato 'negativo'
e il bambino fu mandato a casa,
e i parassiti si moltiplicarono nell'oscurità,
e al mattino il bambino non poteva più wake."

Nell'anno della pestilenza,
il mondo aveva bisogno di un test che era fast.

Ma veloce non è la stessa cosa di accurate.

Quando arriva una nuova generazione di test con una sensibilità più elevata, questo lo migliora automaticamente?

REAL DATA

I test della troponina ad alta sensibilità (hs-cTn) hanno aumentato la sensibilità per l'infarto miocardico acuto da circa 70% (troponina convenzionale a presentazione) a over 95%. But specificity dropped from approximately 95% to around 80% perché hs-cTn rileva il danno miocardico da molte cause non-IM (insufficienza cardiaca, sepsi, malattia renale, embolia polmonare). L'effetto clinico netto ha richiesto la modellazione HSROC in più studi per comprendere il compromesso.

Il cambiamento nella generazione della troponina: anni 2010

An emergency department adopts hs-troponin. More patients now test positive, but many do not have acute MI.

PATH A: Adopt Based on Sensitivity Alone

Celebrare che il rilevamento dell'IM è passato dal 70% a oltre il 95%

↓

Un numero maggiore di falsi positivi porta a cateterizzazioni non necessarie, ricoveri ospedalieri, e ansia del paziente per aumenti della troponina non cardiaci

OUTCOME: Overdiagnosis and wasted resources

PERCORSO B: modellare il compromesso

Use serial measurements (0h/1h or 0h/3h protocols) and clinical context to maintain specificity

↓

Rapid rule-out algorithms safely discharge low-risk patients; sensitivity remains high while managing the false positive rate

OUTCOME: Faster, safer triage of chest pain

THE REVELATION

Sensibilità e specificità si compensano a vicenda. Una nuova generazione di test che aumenta la sensibilità spesso riduce la specificità. La curva HSROC è lo strumento che rivela se il compromesso netto aiuta o danneggia i pazienti.

Il verdetto Cochrane

COVID-19 Rapid Antigen Tests (Dinnes 2022 Cochrane Review)

Population	Sensitivity	Missed
Symptomatic	73%	27%
Asymptomatic	55%	45%
First 7 days	80%	20%

Dinnes J et al. Cochrane Database Syst Rev. 2022;7:CD013705

The False Security Decision Tree

Thanksgiving 2020: What Happened

Family Member Tests Negative

↓

Truly Negative?

55% if asymptomatic

True NegativeSafe to gather

45% if asymptomatic

FALSE NegativeInfectious!

↓

Si riunisce con la famigliaGrandparents infected

"E il test ha dato 'negativo'
e la famiglia abbracciato,
e alla fine dell'inverno,
il nonno fu sepolto."

Non hai sentito parlare dello screening
che ha scoperto tumori che would never kill,
e avrebbe portato a trattamenti che caused more harm than the disease?

Can you trust a DTA meta-analysis done in a spreadsheet?

REAL DATA

La meta-analisi DTA richiede il modello bivariato o HSROC: entrambi necessitano di una stima della massima verosimiglianza della sensibilità e specificità correlate sulla scala logit. La ricerca ha documentato che i calcoli manuali di Excel introducono spesso errori: uno studio fondamentale di Reinhart & Rogoff (2010, economia) ha dimostrato come un semplice errore nel foglio di calcolo abbia portato a cambiamenti politici globali. In DTA, l'applicazione manuale delle trasformazioni logit e il raggruppamento di sensibilità/specificità separatamente in Excel ignora la correlazione tra di loro e può produrre stime aggregate che differiscono in modo significativo dai modelli bivariati convalidati nel software (R mada/reitsma, Stata metandi, SAS NLMIXED).

L'errore QUADAS Excel

Un gruppo di ricerca ha bisogno di sensibilità e specificità per una revisione sistematica DTA. Hanno 12 studi. Un membro del team crea un modello Excel; un altro utilizza il pacchetto mada di R.

PERCORSO A: utilizza il foglio di calcolo

Pool sensitivity and specificity separately in Excel using simple averages or fixed-effect formulas

↓

Ignora la correlazione tra sensibilità e specificità; composti degli errori di trasformazione logit; sensibilità raggruppata di circa 12 punti percentuali

OUTCOME: Wrong numbers published; clinical guidelines misled

PATH B: Use Validated Software

Utilizzare R (mada/reitsma), Stata (metandi) o SAS (NLMIXED) con il modello bivariato

↓

Il GLMM bivariato corretto tiene conto del compromesso sensibilità-specificità, produce regioni di confidenza valide e gestisce gli studi tra studi eterogeneità

OUTCOME: Reproducible, auditable, correct results

THE REVELATION

la meta-analisi DTA non è un semplice raggruppamento. La natura bivariata dei dati (sensibilità e specificità accoppiate) richiede un software statistico specializzato. Un errore nel foglio di calcolo non è solo un inconveniente: può cambiare la pratica clinica.

La sovradiagnosi Problema

3-4

Lives saved
per 10,000 screened

50-130

Overdiagnosed
(treated unnecessarily)

~500

False alarms
(anxiety, biopsies)

THE QUESTION

Per salvare 3-4 vite, circa 50-130 donne vengono sottoposte a intervento chirurgico, radioterapia o chemioterapia per tumori che non avrebbero mai potuto danneggiarle.

Vale la pena questo compromesso?

Patient Decision Aid: Mammography

Se 10.000 donne di età compresa tra 50 e 69 anni vengono sottoposte a screening per 10 anni

Deaths from breast cancer prevented

3-4 women

Women called back for false alarms

~500 women

Unnecessary biopsies

~200 women

Donne curate per un cancro che non farebbe mai loro del male

~15 women

Lo screening è adatto a te?

The Screening Cascade Decision Tree

10.000 donne sottoposte a screening in oltre 10 Anni

10,000 Women

↓

~1,000 RecalledAbnormal

↓

~500 False
Alarm

~500 Biopsy
~50 cancer

~9,000 Cleared

Of ~50 Cancers Found

~35 Would Kill3-4 saved

~15 Would Never KillOverdiagnosed

"E il test ha trovato l'ombra,
e lo chiamavano cancro,
e la donna veniva tagliata e bruciata—
per un'ombra che non l'avrebbe mai oscurata giorni."

Non hai sentito parlare della scansione
che trova le placche nel cervello,
ma non puoi dirti
se mente volontà fade?

Il paradosso dell'amiloide

ALZHEIMER'S RESEARCH, 2010s-2020s

PET scans can now detect amyloid plaques—the hallmark of Alzheimer's.

But 30% of cognitively normal elderly have amyloid plaques. They may never develop dementia.

And 10-20% delle persone affette da demenza have no amyloid.

Il test rileva le placche, ma le placche non sono la malattia. Stiamo testando un surrogato, non il. risultato.

Jack CR et al. Lancet Neurol. 2018;17:760-773

Surrogate vs. Outcome Decision Tree

Che cosa stiamo realmente analizzando?

Diagnostic Test

↓

What Does It Detect?

Outcome itself

Direct Diagnosisad esempio, biopsia per il cancro

↓

High clinical value

Surrogate marker

Indirect Signalad esempio, amiloide per la demenza

↓

Validated link?

YesUse cautiously

NoLimited value

"E la scansione ha trovato il placche,
e il medico lo chiamò Alzheimer,
e il paziente viveva nel terrore—
of a forgetting that might never come."

Non tutti gli studi sono uguali.

Some are biased.
Some are poorly designed.
Alcuni non dovrebbero esserlo trusted.

Come separiamo il grano dalla pula?

E se la maggior parte degli studi DTA non riportassero nemmeno informazioni sufficienti per giudicare i loro risultati? qualità?

REAL DATA

Prima che l'iniziativa STARD fosse pubblicata nel 2003, una valutazione sistematica ha rilevato che meno di half degli studi DTA riportavano se l'interpretazione del test indice era in cieco e le descrizioni degli standard di riferimento erano spesso inadeguate. Dopo STARD, la segnalazione è migliorata: molteplici valutazioni meta-epidemiologiche hanno rilevato che l'adesione agli elementi STARD è aumentata sostanzialmente, sebbene molti studi non fossero ancora all'altezza degli elementi chiave come i diagrammi di flusso e la gestione indeterminata dei risultati.

La rivoluzione STARD: 2003

Un team completa uno studio DTA di un nuovo test point-of-care. Sono ansiosi di pubblicare rapidamente. Dispongono dei dati 2x2 ma non hanno documentato l'accecamento, il flusso dei pazienti o risultati indeterminati.

PATH A: Publish Quickly

Invia senza un diagramma di flusso STARD o un reporting completo dei metodi

↓

I lettori non possono valutare l'accecamento, lo spettro dei pazienti o la verifica. La valutazione QUADAS-2 valuta ogni dominio come "poco chiaro". Lo studio potrebbe essere escluso da future revisioni sistematiche o, peggio, incluso con un peso gonfiato.

OUTCOME: Waste of research; uninterpretable results

PATH B: Follow STARD Guidelines

Completa la checklist STARD, crea un diagramma di flusso del paziente, riporta risultati indeterminati e descrivi l'accecamento

↓

I revisori possono valutare pienamente la qualità. I domini QUADAS-2 sono responsabili. Lo studio contribuisce in modo significativo alle revisioni sistematiche e alle linee guida cliniche.

RISULTATO: prove affidabili che fanno avanzare la cura

THE REVELATION

Non è possibile valutare la qualità se lo studio non riporta i suoi metodi. STARD garantisce che gli studi DTA siano sufficientemente completi per essere giudicati da QUADAS-2. Un reporting incompleto non è neutrale: nasconde pregiudizi.

QUADAS-2: La lista di controllo della qualità

Four Domains of Risk of Bias

1

Patient Selection

È stato arruolato un campione consecutivo o casuale? È stato evitato un disegno caso-controllo?

2

Index Test

Il test è stato interpretato senza conoscere la norma di riferimento? La soglia è stata pre-specificata?

3

Reference Standard

È probabile che lo standard di riferimento classifichi correttamente la condizione? È stato interpretato alla cieca?

4

Flusso e tempistiche

C'era un intervallo appropriato tra i test? Tutti i pazienti hanno ricevuto lo stesso standard di riferimento?

QUADAS-2 Decision Tree

Dovreste fidarvi di questo studio?

DTA Study

↓

Check All 4 Domains

All Low Risk

High QualityTrust results

Some Unclear

ModerateUtilizzare con cautela

Any High Risk

Low QualityI risultati potrebbero essere distorti

Distorsioni comuni nella DTA Studi

!

Verification Bias

Only positive tests get the reference standard → inflates sensitivity

!

Spectrum Bias

La popolazione studiata differisce dalla realtà clinica → i risultati non si generalizzano

!

Incorporation Bias

Index test is part of reference standard → artificially high accuracy

!

Review Bias

Index test interpreted knowing reference result → inflates both metrics

"Prima di fidarsi dei numeri,
ask: How were they gathered?
Uno studio parziale parla con sicurezza—
but its confidence is a lie."

Uno studio può ingannare.
Uno studio può lusingare.

Ma quando raccogli tutti i prove—
the truth becomes harder to hide.

Cosa succede quando studi diversi utilizzano soglie diverse per lo stesso test e si tenta di metterle in comune?

REAL DATA

D-dimer testing for pulmonary embolism (PE) traditionally used a fixed cutoff of 500 µg/L. Lo studio ADJUST-PE (Righini et al., JAMA 2014) ha dimostrato che un cut-off aggiustato per l'età (age × 10 µg/L per pazienti sopra i 50 anni) ha aumentato la percentuale di pazienti anziani con risultati negativi per il D-dimero da ~6% to ~30%, con un rischio di TEV a 3 mesi di solo lo 0,3% nel gruppo negativo aggiustato per età. Una meta-analisi DTA degli studi sul D-dimero deve utilizzare il modello bivariato poiché soglie diverse creano un compromesso sensibilità-specificità visibile sulla curva SROC.

The D-dimer Threshold Dilemma: ADJUST-PE 2014

Un paziente anziano (75 anni) si presenta al pronto soccorso con possibile EP. Il D-dimero è 620 µg/L. Utilizzando il cutoff fisso, questo è positivo. Utilizzando il valore limite corretto per l'età (750 µg/L), questo è negativo.

PATH A: Use Fixed Cutoff (500 µg/L)

Apply one threshold to all patients regardless of age

↓

I pazienti anziani superano quasi sempre i 500 µg/L. La specificità scende al di sotto del 10% negli ultraottantenni. Quasi tutti i pazienti anziani vengono sottoposti a un'angiografia polmonare TC, con mezzo di contrasto, radiazioni e reperti incidentali.

OUTCOME: D-dimer becomes useless in the elderly

PATH B: Use Bivariate Model with Threshold Covariate

Applicare il cut-off aggiustato per l'età; variazione della soglia del modello nella meta-analisi

↓

La curva SROC mostra che le soglie adeguate all'età si muovono lungo la curva, scambiando una piccola quantità di sensibilità con un grande guadagno di specificità. Il 30% in più di pazienti anziani evita in modo sicuro l'imaging TC.

OUTCOME: Fewer unnecessary scans; no missed PEs

THE REVELATION

La variazione della soglia è la ragione per cui la meta-analisi DTA necessita del modello bivariato. Studi diversi utilizzano cut-off diversi, creando un compromesso tra sensibilità e specificità. La curva SROC è la mappa di questo compromesso.

Why DTA Meta-Analysis Is Different

THE PROBLEM

La sensibilità e la specificità sono correlated. When one goes up, the other tends to go down.

Non è possibile raggrupparle separatamente come gli effetti del trattamento. Hai bisogno di bivariate model.

La curva SROC

Summary Receiver Operating Characteristic

Sensitivity

1 - Specificity (False Positive Rate)

Individual studies

Summary estimate

Leggere lo SROC

Cosa ti dice la curva?

SROC Curve Position

↓

Top-Left Corner

Excellent TestHigh sens + spec

Near Diagonal

Useless TestNo better than chance

Points Scattered

High HeterogeneityInvestigate sources

"Uno studio può ingannare.
Molti studi, soppesati insieme,
tracciano il percorso della verità:
la curva SROC che rivela ciò che il test può veramente fare."

Ma cosa accadrebbe se gli studi disagree?

One says sensitivity is 95%.
Another says 60%.

A quale verità credi?

E se un test funziona bene nella popolazione generale ma fallisce nei pazienti che ne hanno più bisogno?

REAL DATA

HRP2-based malaria rapid diagnostic tests (RDTs) achieve sensitivity of approximately 95% in the general population in endemic areas. However, in pregnant women, sensitivity can drop to as low as 56-76% a causa del sequestro placentare dei parassiti: i parassiti si nascondono nella placenta, mantenendo la parassitemia del sangue periferico bassa e al di sotto della soglia di rilevamento RDT. Una revisione Cochrane degli RDT sulla malaria ha rilevato una sostanziale eterogeneità (I² spesso superiore all'80%) determinata da sottogruppi di popolazione tra cui gravidanza, bambini sotto i 5 anni e co-infezione da HIV.

L'RDT sulla malaria in gravidanza

Una meta-analisi raggruppa 25 studi RDT sulla malaria e riporta una sensibilità complessiva del 93%. Un medico in una clinica prenatale lo utilizza per rassicurare una donna incinta con un RDT negativo.

PATH A: Trust the Overall Pooled Estimate

Applicare la sensibilità del 93% ricavata dalla meta-analisi della popolazione generale

↓

Nelle donne in gravidanza, la sensibilità reale può essere pari al 56-76%. Una parte sostanziale delle donne incinte infette viene falsamente rassicurata. La malaria non trattata in gravidanza causa grave anemia materna, basso peso alla nascita e nati morti.

OUTCOME: Preventable maternal and neonatal deaths

PATH B: Investigate Heterogeneity by Subgroup

Condurre una meta-analisi di sottogruppi per le donne in gravidanza; esplorare I² e le fonti di variazione

↓

Scoprire che la gravidanza è una delle principali fonti di eterogeneità. Raccomandare la conferma microscopica per tutte le donne incinte con RDT negativi nelle aree endemiche.

OUTCOME: Targeted protocols save mothers and babies

THE REVELATION

L'eterogeneità non è solo rumore statistico. Spesso segnala che il test funziona in modo diverso nelle diverse popolazioni. Ignorare l'I² e mettere insieme tutto può essere fatale per i sottogruppi vulnerabili.

Sources of Heterogeneity

Perché gli studi non concordano

Stesso test, risultati diversi?

ThresholdDifferent cutoffs

PopulationSeverity, age

SettingPrimary vs specialist

QualityBias, blinding

Measuring Disagreement: I²

I² < 25%

Low
Studies agree

I² 25-75%

Moderate
Some variation

I² > 75%

High
Major disagreement

THE WARNING

When I² > 75%, the pooled estimate may be meaningless. Explain the disagreement before averaging.

"Quando gli studi sono in disaccordo,
non tacere il dissenso.
Ask: Why do they see differently?
Il disaccordo stesso insegna."

Il tuo DTA Toolkit

Le misure essenziali e quando utilizzarle

Quando un'intelligenza artificiale afferma di diagnosticare meglio dei medici, dovresti fidarti dell'AUC complessiva?

REAL DATA

Deep learning models for skin cancer detection have reported AUC values as high as 0.91-0.94 in development datasets. However, external validation revealed alarming disparities: Daneshjou et al. (2022, Nature Medicine) ha scoperto che gli strumenti dermatologici di intelligenza artificiale commerciali hanno funzionato a livelli quasi casuali sulla pelle più scura (tipi Fitzpatrick V-VI), con un'AUC più bassa come 0.50-0.57 — essenzialmente casuale. I set di dati di addestramento erano fortemente sbilanciati verso tonalità della pelle più chiare, il che significa che la tabella 2x2 non è mai stata compilata correttamente per tutte le popolazioni.

La promessa della dermatologia dell'intelligenza artificiale: anni 2020

Un ospedale considera l'implementazione di uno strumento di screening del cancro della pelle basato sull'intelligenza artificiale in una clinica dermatologica che serve una popolazione urbana diversificata. Il produttore riporta un'AUC di 0,94.

PATH A: Deploy Based on Overall AUC

Fidati dell'AUC del titolo di 0,94 e distribuiscilo a tutti i pazienti

↓

I melanomi sulla pelle più scura vengono trascurati con tassi più elevati. Il dato complessivo sulla sensibilità nasconde un divario pericoloso. I pazienti con la più alta mortalità dovuta a diagnosi tardiva sono quelli in cui l'intelligenza artificiale fallisce maggiormente.

OUTCOME: Health disparity amplified by technology

PATH B: Demand Fairness-Stratified Evaluation

Richiedono sensibilità e specificità suddivise per tono della pelle (scala Fitzpatrick), età e posizione della lesione

↓

Scopri il divario di prestazioni. Richiedere la riqualificazione su set di dati diversi o limitare l'uso a popolazioni convalidate. Associa l'intelligenza artificiale alla supervisione di un dermatologo per i gruppi sottorappresentati.

OUTCOME: Equitable deployment; no one left behind

THE REVELATION

Un singolo numero AUC può nascondere pericolose disparità. Gli strumenti diagnostici emergenti basati sull'intelligenza artificiale devono essere valutati con lo stesso rigore di qualsiasi test diagnostico: stratificati per popolazione, convalidati esternamente e conformi agli standard STARD e QUADAS-2.

The Checklist

✓

Was there a valid reference standard?

Gold standard applied to ALL patients?

✓

Gli interpreti erano accecati?

Test readers unaware of diagnosis?

✓

Lo spettro era appropriato?

Pazienti simili alla vostra popolazione?

✓

Era la soglia pre-specificata?

O scelti per massimizzare i risultati?

When Results Don't Match Suspicion

The Clinical Override Decision Tree

Test Negative, High Suspicion

↓

What Is the LR-?

LR- < 0.1

Strong rule-outAccept negative

LR- 0.1-0.5

Repeat testOr different test

LR- > 0.5

Trust judgmentTest is weak

Sequential Testing Decision Tree

When One Test Isn't Enough

Initial Screening Test

↓

Positive

↓

Confirmatory TestHigh specificity

↓

PositiveDiagnose

NegativeFalse alarm

Negative

↓

Likely negativeIf high sens screen

"Armed with sensitivity, specificity, likelihood,
armato dello SROC e della misura dell'accordo,
puoi vedere oltre la menzogna del test—
e giudicarne la verità te stesso."

Non hai sentito parlare del paziente
che ha ricevuto il wrong blood,
non perché il test fosse sbagliato,
but because no one performed it?

Il test che non era Fatto

HOSPITALS WORLDWIDE

ABO blood typing is nearly 100% accurate when performed.

Yet transfusion reactions still kill—non a causa del fallimento del test, ma da human failure:

• Wrong blood drawn from wrong patient
• Le etichette scambiate in laboratorio
• Bedside check skipped in emergency

In the UK, 1 in 13,000 transfusions sono state inviate al paziente sbagliato. Il test ha funzionato. Il sistema non è riuscito.

Bolton-Maggs PHB. Transfus Med. 2016;26:303-311

Test vs. System Decision Tree

Where Can Things Go Wrong?

Diagnostic Process

↓

Error Source?

Test itself

Analytical ErrorSens/Spec issue

↓

Better test needed

Pre-analytical

Wrong sampleID error

↓

System fix needed

Post-analytical

Wrong actionReporting error

↓

Process fix needed

"The perfect test means nothing
se il sangue è sbagliato disegnato,
viene applicata l'etichetta sbagliata,
è appesa la borsa sbagliata."

Gli studi DTA misurano l'accuratezza del test. Non misurano la precisione del sistema.

References

Key Sources

Carreyrou J. Bad Blood. Knopf, 2018. [Theranos]
CDC. MMWR. 1987;36(49):833-840. [HIV blood supply]
Herbst AL et al. N Engl J Med. 1971;284:878-881. [DES]
Moyer VA. Ann Intern Med. 2012;157:120-134. [PSA]
Pope JH et al. N Engl J Med. 2000;342:1163-1170. [Troponin]
Steingart KR et al. Cochrane 2014;1:CD009593. [GeneXpert]
Dinnes J et al. Cochrane 2022;7:CD013705. [COVID RAT]
UK Panel. Lancet. 2012;380:1778-1786. [Mammography]
Jack CR et al. Lancet Neurol. 2018;17:760-773. [Amyloid]
WHO. Malaria RDT Performance. 2022.
Reitsma JB et al. J Clin Epidemiol. 2005;58:982-990. [Bivariate]
Whiting PF et al. Ann Intern Med. 2011;155:529-536. [QUADAS-2]
Bolton-Maggs PHB. Transfus Med. 2016;26:303-311.

Un test è sensibile al 99% e specifico al 99%. La prevalenza della malattia è 1/1000. Un paziente risulta positivo. Qual è la probabilità che abbiano la malattia?

99%

90%

About 9%

50%

What does "SnNout" mean?

A highly Sensitive test, when Negative, rules OUT disease

A highly Specific test, when Negative, rules OUT disease

Sensitivity should be used for screening

Specificity should be above 90%

Perché il sangue è stato contaminato dall'HIV nonostante i test?

The tests had low specificity

Tests had a window period with zero sensitivity in early infection

I test non sono stati eseguiti correttamente

I test erano troppo costosi

Quale dominio QUADAS-2 valuta se il test è stato interpretato senza conoscere il diagnosi?

Patient Selection

Index Test

Reference Standard

Flusso e tempistiche

✔

Course Complete

"Ora conosci i quattro risultati,
le due virtù di un test,
L'errore della base tasso,
l'arte di mettere in comune le prove,
e i pregiudizi che nascondono la verità.

Quando la prossima prova ti mentirà:
lo saprai."