==================== MODULO 1: LA FRODE (Theranos) ====================
Non hai sentito la storia della donna
who promised to cambiare il mondo con una goccia di sangue,
who raised billions on a test that never worked?
Palo Alto, 2003
STANFORD UNIVERSITY
Un diciannovenne si è ritirato con una visione: centinaia di sangue test da una singola goccia.

Investors believed. Walgreens believed. The Pentagon believed.

They gave her $9 billion.

Ma i test hanno dato risultati errati. Ai pazienti veniva detto che avevano l'HIV quando non era così. Ai pazienti è stato detto che il loro sangue era normale quando erano dying.
Carreyrou J. Bad Blood. 2018
L'albero decisionale dell'inganno

What Theranos Did vs. What Should Happen

New Diagnostic Test
SHOULD DO
Validate Against Gold Standard
Publish TP/FP/FN/TN
FDA Approval
THERANOS DID
Skip Validation
Hide Failures
Harm Patients
"E il test mentì,
e la menzogna era vestita di certezza,
e nessuno ha chiesto la tavola 2×2."

Ecco perché studiamo l'accuratezza dei test diagnostici.

==================== MODULO 2: I QUATTRO RISULTATI ====================
When a test speaks,
ci sono solo four possible truths.

Due sono benedizioni. Due sono maledizioni.

Cosa succede quando una revisione sistematica si fida equamente di ogni studio?

REAL DATA

Le analisi di sensibilità nelle revisioni sistematiche DTA dimostrano costantemente che l'esclusione di studi ad alto rischio di bias modifica le stime aggregate. Nello screening mammografico, i disegni caso-controllo con interpretazione in cieco tendono a gonfiare la sensibilità. Il principio generale è ben documentato: la valutazione della qualità QUADAS-2 può modificare la sensibilità raggruppata 10-15 percentage points quando gli studi distorti vengono rimossi.

L'audit mammografico QUADAS-2
Un team di revisione raggruppa 15 studi DTA mammografici. Cinque presentano un alto rischio di bias a causa del disegno caso-controllo e dell'interpretazione non cieca.
PERCORSO A: raggruppare tutti gli studi
Include all 15 studies regardless of quality
Biased 2x2 tables inflate TP counts, producing a pooled sensitivity of 87%
OUTCOME: Overconfidence in screening accuracy
PATH B: Apply Quality Assessment
Exclude high risk-of-bias studies using QUADAS-2
Remaining 10 low-RoB studies yield sensitivity of approximately 75%
OUTCOME: Honest numbers guide honest decisions
THE REVELATION
I quattro risultati (TP, FP, FN, TN) sono affidabili solo se lo studio che li ha prodotti è affidabile. Uno studio parziale contamina l'intera tabella 2x2.
L'albero dei risultati

Every Test Result Has a Reality Behind It

Patient Tested
Qual è la VERITÀ?
Has Disease
D+
TPTest +
FNTest -
No Disease
D-
FPTest +
TNTest -
La Sacra Tavola 2×2

HIV Rapid Test Example (Real Data)

HIV+HIV-Total
Test +983101
Test -2895897
Total100898998
DA QUESTA TABELLA NASCE TUTTA LA VERITÀ
Sensitivity = 98/100 = 98%
Specificity = 895/898 = 99.7%
"Two outcomes save. Two outcomes harm.
TP, TN: il test ha parlato vero.
FP, FN: il test ha mentito.
Know them by name, for they determine fate."
==================== MODULO 3: PERIODO FINESTRA HIV ====================
Non hai sentito parlare del sangue che fu analizzato,
found clean,
e donato a migliaia di persone—
while death swam within it?
La crisi dell'approvvigionamento di sangue, 1985
UNITED STATES
When HIV testing began, doctors celebrated: they could now screen the blood supply.

Ma il test aveva a window period—settimane dopo l'infezione quando il virus era presente ma undetectable.

Il sangue è stato testato. Il sangue è stato "negativo". Il sangue è stato trasfuso.

8,000-12,000 Americans sono stati infettati tramite trasfusioni prima che test migliori chiudessero la finestra.
CDC. MMWR. 1987;36(49):833-840
The Window Period Decision Tree

Why False Negatives Are Deadly

Person Recently Infected
Time Since Infection?
< 2 weeks
Test NEGATIVEVirus present!
Blood DonatedOthers infected
> 4 weeks
Test POSITIVECorrectly detected
Blood DiscardedSupply safe
La sensibilità cambia Ora
0%
Day 1-7
Eclipse period
~50%
Day 14
Seroconversion
~95%
Day 21
Most detected
99.9%
Day 45+
Window closed
THE LESSON
La sensibilità non è fissa. It depends on when you test. A "99% sensitive" test may be 0% sensitive in early infection.
"E il test ha detto 'pulito'
perché il virus non si era ancora mostrato il suo volto.
E il sangue è stato condiviso,
e l'infezione diffondersi agli innocenti."
==================== MODULO 4: DES TRAGEDY ====================
Non hai sentito parlare della pillola somministrata alle madri
to protect their pregnancies,
that planted cancer in their daughters
twenty years before it bloomed?
La tragedia del DES, 1938-1971
UNITED STATES & EUROPE
Diethylstilbestrol (DES) was given to millions of pregnant women to prevent miscarriage.

No proper clinical trial was ever conducted. Doctors assumed it worked because it seemed reasonable.

Decades later, their daughters developed a rare cancer: clear cell adenocarcinoma of the vagina. A cancer so rare it was a diagnostic signal in itself.

5-10 million women sono stati esposti al danno attraversato generazioni.
Herbst AL et al. N Engl J Med. 1971;284:878-881
L'albero decisionale di convalida

What Should Have Happened

New Medical Intervention
È stato testato adeguatamente?
YES
Randomized Trial
Long-term Follow-up
Know True EffectsVantaggi e danni
NO (DES)
Assumption Only
Widespread Use
Hidden HarmDiscovered too late
Il segnale diagnostico
QUANDO LA RARITÀ DIVENTA PROVE
L'adenocarcinoma a cellule chiare della vagina era così raro nelle giovani donne che 7 cases in one hospital triggered an investigation.

Il cluster stesso era il test diagnostico:
Sensitivity to DES exposure: nearly 100%
Se hai questo cancro a questa età, sei quasi certamente esposto.
1:1000
Risk of clear cell
cancer in DES daughters
5-10M
Women exposed
worldwide
"E le madri prendevano la pillola nella speranza,
e le figlie crebbero nell'ombra,
e vent'anni dopo sbocciò il cancro—
a diagnosis that indicted a generation of medicine."
==================== MODULO 5: SENSIBILITÀ E SPECIFICITÀ ====================
A test has two virtues and two vices.

Sensitivity: Può trovare i malati?

Specificity: Può risparmiare i sani?

Puoi fidarti di un numero di sensibilità di un laboratorio quando il test viene utilizzato nel mondo reale?

REAL DATA

The BinaxNOW COVID-19 rapid antigen test reported sensitivity of approximately 84-97% in symptomatic individuals in manufacturer studies. However, real-world evaluations found sensitivity as low as 35-64% in individui asintomatici, a seconda della carica virale e dei tempi. La revisione Cochrane dei test antigenici rapidi (Dinnes 2022) ha confermato la sensibilità media di 73% nelle popolazioni sintomatiche e solo 55% nelle popolazioni asintomatiche in oltre 100 valutazioni di studio.

The COVID Rapid Test Paradox: 2020-2021
A university plans to screen asymptomatic students weekly before allowing campus access. They read the manufacturer's claim of high sensitivity.
PATH A: Trust Lab Sensitivity
Rely on manufacturer's high sensitivity figure
I portatori asintomatici con basse cariche virali risultano negativi e frequentano le lezioni, diffondendo il virus
OUTCOME: False sense of safety; campus outbreaks
PERCORSO B: richiesta di dati dal mondo reale
Cercare studi nella popolazione target effettiva (studenti asintomatici)
Discover sensitivity is roughly 55% in asymptomatic people; add serial testing and other safeguards
OUTCOME: Layered safety catches more cases
THE REVELATION
La sensibilità non è una proprietà fissa di un test. Cambia con la popolazione, lo stadio della malattia e il contesto. Chiedi sempre: sensibilità in whom?
Sensibilità: Il cacciatore
THE FORMULA
Sensitivity = TP / (TP + FN)
"Of all the sick, how many did we catch?"

Worked Example: COVID PCR Test

Given: 200 infected patients tested
TP = 196 (correctly positive), FN = 4 (missed)
Sensitivity = 196 / (196 + 4) = 196/200 = 98%
Interpretation: Test catches 98 of every 100 infected people
Specificità: Il guardiano
THE FORMULA
Specificity = TN / (TN + FP)
"Of all the healthy, how many did we spare?"

Worked Example: Same COVID PCR Test

Given: 1000 uninfected people tested
TN = 999 (correctly negative), FP = 1 (false alarm)
Specificity = 999 / (999 + 1) = 999/1000 = 99.9%
Interpretation: Test correctly clears 999 of every 1000 healthy people
Le regole della memoria

When to Use Which Test

Di cosa hai bisogno?
RULE OUT disease
Use HIGH SENSITIVITY
SnNoutSensitive Negative = OUT
RULE IN disease
Use HIGH SPECIFICITY
SpPinSpecific Positive = IN
"La sensibilità cattura i malati.
La specificità risparmia i buoni.
But no test masters both perfectly—
questo è il fardello che dobbiamo affrontare sopportare."
==================== MODULO 6: L'ERRORE DEL TASSO DI BASE ====================
Non hai visto il medico
who saw 99% accurate
and believed a positive result meant 99% certainty?

Questa è la cosa più mortale errore in medicina.
L'errore del tasso di base
THE PUZZLE
A disease affects 1 in 1000 people.
Un test è sensibile al 99% e specifico al 99%.
A patient tests positive.

Qual è la probabilità che abbiano la malattia?

Most doctors say ~99%. La vera risposta riguarda 9%.
La matematica rivelata

Testing 100,000 People (Prevalence 1/1000)

Step 1: 100 have disease, 99,900 healthy
Step 2: Of 100 sick: 99 test positive (TP), 1 negative (FN)
Step 3: Of 99,900 healthy: 999 test positive (FP), 98,901 negative (TN)
Step 4: Total positives = 99 + 999 = 1,098
PPV = TP / All Positives = 99 / 1,098 = 9%
Il 91% dei risultati positivi sono FALSI POSITIVI!
Interactive Base Rate Calculator

See How Prevalence Changes PPV

Prevalence:
1%
Sensitivity:
99%
Specificity:
99%
9%
Positive Predictive Value (PPV)
Il 91% dei positivi è falso allarmi
L'albero decisionale della prevalenza

Same Test, Different Settings

Test: 99% Sens, 99% Spec
Where Is Testing Done?
General Pop
0.1%
PPV = 9%91% false +
High-Risk
10%
PPV = 92%8% false +
Confirmatory
50%
PPV = 99%1% false +
"E il medico disse 'accurato al 99%'
e il paziente sentì 'certo al 99%'
ed entrambi furono ingannati—
perché si erano dimenticati di chiedere: quanto è raro questo ?"
Non hai sentito parlare della macchina
that could find TB in two hours,
che si chiamava revolutionary
ma ti sei perso drug-resistant strains?
La storia di GeneXpert, Sud Africa
CAPE TOWN, 2010
Per un secolo, la diagnosi della tubercolosi ha richiesto la crescita di batteri per settimane. Poi è arrivato GeneXpert: risultati in 2 hours.

South Africa deployed it nationwide. The WHO endorsed it.

Ma nei pazienti con low bacterial loads—often HIV co-infected— sensitivity dropped to 67%. One in three cases missed.

E per rilevare la resistenza alla rifampicina, ha mancato 5% casi resistenti. Quei pazienti hanno ricevuto il trattamento sbagliato. La diffusione della tubercolosi resistente.
Steingart KR et al. Cochrane Database Syst Rev. 2014;1:CD009593
TB Diagnosis Decision Tree

Quando GeneXpert non basta

Suspected TB Patient
GeneXpert Test
Positive
Rifampicin?
SensitiveStandard Tx
ResistantMDR-TB Tx
Negative
HIV+ or High Suspicion?
YesCulture needed
NoLikely negative
Sensitivity by Patient Type
98%
Smear-positive
(high bacterial load)
67%
Smear-negative
(low bacterial load)
61%
HIV co-infected
(immune suppressed)
THE LESSON
La sensibilità di un test negli studi clinici potrebbe non corrispondere alla sua sensibilità nei pazienti. Conosci la tua popolazione.
"E la macchina disse 'negativo,'
e il medico credette alla macchina,
e il paziente tornò a casa con la tubercolosi nei polmoni,
resistenza alla tosse nel mondo."
==================== MODULO 8: CONTROVERSIA PSA ====================
Non hai sentito parlare del test per gli uomini
che ha scoperto tumori che avrebbe never kill,
e avrebbe portato a trattamenti che destroyed lives?
La tragedia dello screening del PSA
UNITED STATES, 1990s-2010s
PSA (Prostate-Specific Antigen) could detect prostate cancer early.

I medici hanno sottoposto a screening milioni di uomini. Sono stati trovati tumori. Le prostate furono rimosse.

Ma molti di questi "tumori" non avrebbero mai causato sintomi. L'intervento ha causato impotenza e incontinenza in men who would have died of old age, not cancer.
Moyer VA. Ann Intern Med. 2012;157:120-134
Il dilemma dello screening del PSA: 2012
Un uomo di 60 anni chiede al suo medico informazioni sullo screening del PSA. Il PSA al cut-off di 4,0 ng/mL ha una sensibilità di circa il 21% per il cancro ad alto grado, ma rileva molti tumori indolenti.
PATH A: Screen All Men
Screening di routine del PSA per tutti gli uomini sopra i 50 anni
Per 1.000 sottoposti a screening in 13 anni: 1-2 decessi prevenuti, ma oltre 100 falsi allarmi e 30-40 uomini rimasti impotenti o incontinenti a causa del trattamento di tumori indolenti
OUTCOME: Net harm exceeds benefit at population level
PATH B: Shared Decision-Making
Discutere i danni rispetto ai benefici; individualizzare con fattori di rischio, aspettativa di vita e valori del paziente
High-risk men can choose screening; low-risk men can decline; active surveillance replaces immediate surgery for low-grade findings
OUTCOME: Fewer unnecessary treatments; patient autonomy preserved
THE REVELATION
Un test con tassi di rilevamento elevati può causare più danni che benefici quando rileva condizioni che non necessitano di essere trovate. La sovradiagnosi è il costo nascosto dell'elevata sensibilità nella malattia indolente.
I numeri del danno
1
Vita salvata dallo
prostate cancer
per 1000 screened
30-40
Men made impotent
or incontinent
per 1000 screened
100+
False positives
(biopsies, anxiety)
per 1000 screened
THE REVERSAL
In 2012, the US Preventive Services Task Force recommended against screening PSA di routine. Il test stava rilevando troppe cose che non era necessario trovare.
Patient Decision Aid: PSA Screening

Se 1.000 uomini di età compresa tra 55 e 69 anni vengono sottoposti a screening per 13 anni

Deaths from prostate cancer prevented
1-2 men
Men who will have false positive requiring biopsy
100-120 men
Uomini a cui è stato diagnosticato un cancro che non farebbe mai loro del male
20-50 men
Men left impotent or incontinent from treatment
30-40 men
È questo compromesso accettabile per te?
"E il test ha trovato l'ombra,
e il chirurgo tagliato,
e l'uomo viveva – impotente, incontinente –
da un cancro che non si sarebbe mai risvegliato."
==================== MODULO 9: TROPONINA E ATTACCHI DI CUORE ====================
Non hai sentito parlare dell'uomo con dolore al petto
la cui prima troponina era normal,
che fu mandato a casa—
e morì prima mattina?
Il problema della tempistica della troponina
EMERGENCY DEPARTMENTS WORLDWIDE
La troponina è il gold standard per la diagnosi di infarto. Ma ci vuole 3-6 hours to rise after myocardial injury.

A patient arrives one hour after chest pain begins. Troponin is tested: normal. "You're fine. Go home."

Il cuore stava morendo. La proteina non era ancora fuoriuscita.

Studies show 2-5% of MI patients sent home from ED die within 30 days.
Pope JH et al. N Engl J Med. 2000;342:1163-1170
Serial Testing Decision Tree

Il protocollo delle due troponine

Chest Pain Patient
First Troponin
Elevated
Treat as MI
Normal
When Did Pain Start?
<6 hrs
Wait 3 hrsRepeat troponin
>6 hrs
Low riskConsider d/c
High-Sensitivity Troponin
~70%
Conventional troponin
sensitivity at 0 hrs
~95%
hs-Troponin
sensitivity at 0 hrs
99%
hs-Troponin
at 3 hrs serial
THE TRADE-OFF
High-sensitivity troponin catches more heart attacks early. But it also has more false positives—elevated in kidney disease, heart failure, sepsis, and marathon runners.
"E il test ha detto 'normale'
perché il cuore aveva appena iniziato a morire.
E il paziente era rassicurato,
and went home to finish dying."
==================== MODULO 10: RAPPORTI DI PROBABILITÀ ====================
La sensibilità descrive il test.
La specificità descrive il test.

Ma il paziente chiede:
"I tested positive. What are MY chances?"

E se la sensibilità pubblicata di un test fosse superiore alla verità e i rapporti di verosimiglianza calcolati fossero quindi errati?

REAL DATA

Rapid strep tests (RADT) showed pooled sensitivity of approximately 86% negli studi pubblicati inclusi nelle revisioni Cochrane. Tuttavia, le richieste normative della FDA 510(k), che includono dati non pubblicati del produttore, hanno rivelato stime di sensibilità di soli 70-75%. Gli studi pubblicati con sensibilità più elevata avevano maggiori probabilità di essere inviati per la pubblicazione: un classico caso di bias di pubblicazione che ne gonfia l'accuratezza apparente.

The Rapid Strep Test Publication Gap
Un medico calcola LR+ dai dati pubblicati (sensibilità 86%, specificità 95%) per decidere se trattare il mal di gola di un bambino. Ma la vera sensibilità può essere solo del 70%.
PATH A: Trust Published Meta-Analysis
Utilizzare LR+ dai dati pubblicati (86/5 = 17,2)
Lr+ sovrastimato porta a un'eccessiva fiducia in un risultato negativo; i bambini affetti da streptococco vengono mandati a casa senza antibiotici
OUTCOME: Missed strep leads to rheumatic fever risk
PERCORSO B: ricerca di dati normativi
Utilizzare LR+ dalle proposte della FDA (70/5 = 14) e notare che LR- è peggiore (0,32 vs 0,15)
Recognize a negative RADT cannot confidently exclude strep; back up with throat culture when clinical suspicion is high
OUTCOME: Appropriate caution protects children
THE REVELATION
I rapporti di verosimiglianza sono onesti tanto quanto la sensibilità e la specificità che li producono. I bias di pubblicazione gonfiano l’accuratezza, rendendo LR+ troppo ottimista e LR- troppo rassicurante. Chiediti sempre: mancano studi non pubblicati?
Likelihood Ratios
POSITIVE LIKELIHOOD RATIO
LR+ = Sensitivity / (1 - Specificity)
How much more likely is a + result in sick vs healthy?
NEGATIVE LIKELIHOOD RATIO
LR- = (1 - Sensitivity) / Specificity
How much more likely is a - result in sick vs healthy?
Il Fagan Nomogramma

Dalla probabilità pre-test a quella post-test

Pre-Test
Probability
99%
50%
20%
5%
1%
Likelihood
Ratio
100
10
1
0.1
0.01
Post-Test
Probability
99%
80%
50%
20%
1%
Draw a line from pre-test through LR to find post-test probability
Interpreting Likelihood Ratios

Quanto è potente questo test?

LR+ Value?
LR+ > 10Strong rule-in
5-10Moderate
2-5Weak
1-2Useless
LR- Value?
< 0.1Strong rule-out
0.1-0.2Moderate
0.2-0.5Weak
0.5-1Useless
"La sensibilità racconta dei malati.
La specificità racconta dei malati bene.
But the likelihood ratio answers:
Cosa significa questo risultato per QUESTO paziente?"
==================== MODULO 11: RDT MALARIA ====================
Non hai visto il bambino con la febbre nel villaggio,
il test rapido detto questo negative,
and the Plasmodium che continuava a moltiplicarsi?
Il problema dell'RDT sulla malaria
SUB-SAHARAN AFRICA
Malaria kills 600,000 people yearly, mostly children under 5.

Rapid Diagnostic Tests were meant to guide treatment in remote areas without microscopes or laboratories.

But when parasitemia is low—l'RDT non rileva i casi. And when P. falciparum elimina il gene HRP2— the RDT sees nothing at all.
WHO. Malaria RDT Performance. 2022
La decisione clinica Albero

Child with Fever in Malaria-Endemic Area

Febrile Child
Perform RDT
RDT Positive
Trattamento per la malaria
RDT Negative
Clinical Suspicion?
High
Treat Anywayor Microscopy
Low
Look forOther Cause
Sensitivity Varies by Parasitemia
95%
High parasitemia
(>200/μL)
75%
Low parasitemia
(100-200/μL)
50%
Very low
(<100/μL)
LA LEZIONE CLINICA
A negative RDT does not rule out malaria in endemic areas. Clinical judgment must override the test when suspicion is high.
"E il test ha dato 'negativo'
e il bambino fu mandato a casa,
e i parassiti si moltiplicarono nell'oscurità,
e al mattino il bambino non poteva più wake."
==================== MODULO 12: TEST RAPIDI COVID ====================
Nell'anno della pestilenza,
il mondo aveva bisogno di un test che era fast.

Ma veloce non è la stessa cosa di accurate.

Quando arriva una nuova generazione di test con una sensibilità più elevata, questo lo migliora automaticamente?

REAL DATA

I test della troponina ad alta sensibilità (hs-cTn) hanno aumentato la sensibilità per l'infarto miocardico acuto da circa 70% (troponina convenzionale a presentazione) a over 95%. But specificity dropped from approximately 95% to around 80% perché hs-cTn rileva il danno miocardico da molte cause non-IM (insufficienza cardiaca, sepsi, malattia renale, embolia polmonare). L'effetto clinico netto ha richiesto la modellazione HSROC in più studi per comprendere il compromesso.

Il cambiamento nella generazione della troponina: anni 2010
An emergency department adopts hs-troponin. More patients now test positive, but many do not have acute MI.
PATH A: Adopt Based on Sensitivity Alone
Celebrare che il rilevamento dell'IM è passato dal 70% a oltre il 95%
Un numero maggiore di falsi positivi porta a cateterizzazioni non necessarie, ricoveri ospedalieri, e ansia del paziente per aumenti della troponina non cardiaci
OUTCOME: Overdiagnosis and wasted resources
PERCORSO B: modellare il compromesso
Use serial measurements (0h/1h or 0h/3h protocols) and clinical context to maintain specificity
Rapid rule-out algorithms safely discharge low-risk patients; sensitivity remains high while managing the false positive rate
OUTCOME: Faster, safer triage of chest pain
THE REVELATION
Sensibilità e specificità si compensano a vicenda. Una nuova generazione di test che aumenta la sensibilità spesso riduce la specificità. La curva HSROC è lo strumento che rivela se il compromesso netto aiuta o danneggia i pazienti.
Il verdetto Cochrane

COVID-19 Rapid Antigen Tests (Dinnes 2022 Cochrane Review)

PopulationSensitivityMissed
Symptomatic73%27%
Asymptomatic55%45%
First 7 days80%20%

Dinnes J et al. Cochrane Database Syst Rev. 2022;7:CD013705

The False Security Decision Tree

Thanksgiving 2020: What Happened

Family Member Tests Negative
Truly Negative?
55% if asymptomatic
True NegativeSafe to gather
45% if asymptomatic
FALSE NegativeInfectious!
Si riunisce con la famigliaGrandparents infected
"E il test ha dato 'negativo'
e la famiglia abbracciato,
e alla fine dell'inverno,
il nonno fu sepolto."
Non hai sentito parlare dello screening
che ha scoperto tumori che would never kill,
e avrebbe portato a trattamenti che caused more harm than the disease?

Can you trust a DTA meta-analysis done in a spreadsheet?

REAL DATA

La meta-analisi DTA richiede il modello bivariato o HSROC: entrambi necessitano di una stima della massima verosimiglianza della sensibilità e specificità correlate sulla scala logit. La ricerca ha documentato che i calcoli manuali di Excel introducono spesso errori: uno studio fondamentale di Reinhart & Rogoff (2010, economia) ha dimostrato come un semplice errore nel foglio di calcolo abbia portato a cambiamenti politici globali. In DTA, l'applicazione manuale delle trasformazioni logit e il raggruppamento di sensibilità/specificità separatamente in Excel ignora la correlazione tra di loro e può produrre stime aggregate che differiscono in modo significativo dai modelli bivariati convalidati nel software (R mada/reitsma, Stata metandi, SAS NLMIXED).

L'errore QUADAS Excel
Un gruppo di ricerca ha bisogno di sensibilità e specificità per una revisione sistematica DTA. Hanno 12 studi. Un membro del team crea un modello Excel; un altro utilizza il pacchetto mada di R.
PERCORSO A: utilizza il foglio di calcolo
Pool sensitivity and specificity separately in Excel using simple averages or fixed-effect formulas
Ignora la correlazione tra sensibilità e specificità; composti degli errori di trasformazione logit; sensibilità raggruppata di circa 12 punti percentuali
OUTCOME: Wrong numbers published; clinical guidelines misled
PATH B: Use Validated Software
Utilizzare R (mada/reitsma), Stata (metandi) o SAS (NLMIXED) con il modello bivariato
Il GLMM bivariato corretto tiene conto del compromesso sensibilità-specificità, produce regioni di confidenza valide e gestisce gli studi tra studi eterogeneità
OUTCOME: Reproducible, auditable, correct results
THE REVELATION
la meta-analisi DTA non è un semplice raggruppamento. La natura bivariata dei dati (sensibilità e specificità accoppiate) richiede un software statistico specializzato. Un errore nel foglio di calcolo non è solo un inconveniente: può cambiare la pratica clinica.
La sovradiagnosi Problema
3-4
Lives saved
per 10,000 screened
50-130
Overdiagnosed
(treated unnecessarily)
~500
False alarms
(anxiety, biopsies)
THE QUESTION
Per salvare 3-4 vite, circa 50-130 donne vengono sottoposte a intervento chirurgico, radioterapia o chemioterapia per tumori che non avrebbero mai potuto danneggiarle.

Vale la pena questo compromesso?
Patient Decision Aid: Mammography

Se 10.000 donne di età compresa tra 50 e 69 anni vengono sottoposte a screening per 10 anni

Deaths from breast cancer prevented
3-4 women
Women called back for false alarms
~500 women
Unnecessary biopsies
~200 women
Donne curate per un cancro che non farebbe mai loro del male
~15 women
Lo screening è adatto a te?
The Screening Cascade Decision Tree

10.000 donne sottoposte a screening in oltre 10 Anni

10,000 Women
~1,000 RecalledAbnormal
~500 False
Alarm
~500 Biopsy
~50 cancer
~9,000 Cleared
Of ~50 Cancers Found
~35 Would Kill3-4 saved
~15 Would Never KillOverdiagnosed
"E il test ha trovato l'ombra,
e lo chiamavano cancro,
e la donna veniva tagliata e bruciata—
per un'ombra che non l'avrebbe mai oscurata giorni."
==================== MODULO 14: AMILOIDE DI ALZHEIMER ====================
Non hai sentito parlare della scansione
che trova le placche nel cervello,
ma non puoi dirti
se mente volontà fade?
Il paradosso dell'amiloide
ALZHEIMER'S RESEARCH, 2010s-2020s
PET scans can now detect amyloid plaques—the hallmark of Alzheimer's.

But 30% of cognitively normal elderly have amyloid plaques. They may never develop dementia.

And 10-20% delle persone affette da demenza have no amyloid.

Il test rileva le placche, ma le placche non sono la malattia. Stiamo testando un surrogato, non il. risultato.
Jack CR et al. Lancet Neurol. 2018;17:760-773
Surrogate vs. Outcome Decision Tree

Che cosa stiamo realmente analizzando?

Diagnostic Test
What Does It Detect?
Outcome itself
Direct Diagnosisad esempio, biopsia per il cancro
High clinical value
Surrogate marker
Indirect Signalad esempio, amiloide per la demenza
Validated link?
YesUse cautiously
NoLimited value
"E la scansione ha trovato il placche,
e il medico lo chiamò Alzheimer,
e il paziente viveva nel terrore—
of a forgetting that might never come."
==================== MODULO 15: QUALITÀ QUADAS-2 ====================
Non tutti gli studi sono uguali.

Some are biased.
Some are poorly designed.
Alcuni non dovrebbero esserlo trusted.

Come separiamo il grano dalla pula?

E se la maggior parte degli studi DTA non riportassero nemmeno informazioni sufficienti per giudicare i loro risultati? qualità?

REAL DATA

Prima che l'iniziativa STARD fosse pubblicata nel 2003, una valutazione sistematica ha rilevato che meno di half degli studi DTA riportavano se l'interpretazione del test indice era in cieco e le descrizioni degli standard di riferimento erano spesso inadeguate. Dopo STARD, la segnalazione è migliorata: molteplici valutazioni meta-epidemiologiche hanno rilevato che l'adesione agli elementi STARD è aumentata sostanzialmente, sebbene molti studi non fossero ancora all'altezza degli elementi chiave come i diagrammi di flusso e la gestione indeterminata dei risultati.

La rivoluzione STARD: 2003
Un team completa uno studio DTA di un nuovo test point-of-care. Sono ansiosi di pubblicare rapidamente. Dispongono dei dati 2x2 ma non hanno documentato l'accecamento, il flusso dei pazienti o risultati indeterminati.
PATH A: Publish Quickly
Invia senza un diagramma di flusso STARD o un reporting completo dei metodi
I lettori non possono valutare l'accecamento, lo spettro dei pazienti o la verifica. La valutazione QUADAS-2 valuta ogni dominio come "poco chiaro". Lo studio potrebbe essere escluso da future revisioni sistematiche o, peggio, incluso con un peso gonfiato.
OUTCOME: Waste of research; uninterpretable results
PATH B: Follow STARD Guidelines
Completa la checklist STARD, crea un diagramma di flusso del paziente, riporta risultati indeterminati e descrivi l'accecamento
I revisori possono valutare pienamente la qualità. I domini QUADAS-2 sono responsabili. Lo studio contribuisce in modo significativo alle revisioni sistematiche e alle linee guida cliniche.
RISULTATO: prove affidabili che fanno avanzare la cura
THE REVELATION
Non è possibile valutare la qualità se lo studio non riporta i suoi metodi. STARD garantisce che gli studi DTA siano sufficientemente completi per essere giudicati da QUADAS-2. Un reporting incompleto non è neutrale: nasconde pregiudizi.
QUADAS-2: La lista di controllo della qualità

Four Domains of Risk of Bias

1
Patient Selection

È stato arruolato un campione consecutivo o casuale? È stato evitato un disegno caso-controllo?

2
Index Test

Il test è stato interpretato senza conoscere la norma di riferimento? La soglia è stata pre-specificata?

3
Reference Standard

È probabile che lo standard di riferimento classifichi correttamente la condizione? È stato interpretato alla cieca?

4
Flusso e tempistiche

C'era un intervallo appropriato tra i test? Tutti i pazienti hanno ricevuto lo stesso standard di riferimento?

QUADAS-2 Decision Tree

Dovreste fidarvi di questo studio?

DTA Study
Check All 4 Domains
All Low Risk
High QualityTrust results
Some Unclear
ModerateUtilizzare con cautela
Any High Risk
Low QualityI risultati potrebbero essere distorti
Distorsioni comuni nella DTA Studi
!

Verification Bias

Only positive tests get the reference standard → inflates sensitivity

!

Spectrum Bias

La popolazione studiata differisce dalla realtà clinica → i risultati non si generalizzano

!

Incorporation Bias

Index test is part of reference standard → artificially high accuracy

!

Review Bias

Index test interpreted knowing reference result → inflates both metrics

"Prima di fidarsi dei numeri,
ask: How were they gathered?
Uno studio parziale parla con sicurezza—
but its confidence is a lie."
==================== MODULO 16: META-ANALISI E SROC ====================
Uno studio può ingannare.
Uno studio può lusingare.

Ma quando raccogli tutti i prove
the truth becomes harder to hide.

Cosa succede quando studi diversi utilizzano soglie diverse per lo stesso test e si tenta di metterle in comune?

REAL DATA

D-dimer testing for pulmonary embolism (PE) traditionally used a fixed cutoff of 500 µg/L. Lo studio ADJUST-PE (Righini et al., JAMA 2014) ha dimostrato che un cut-off aggiustato per l'età (age × 10 µg/L per pazienti sopra i 50 anni) ha aumentato la percentuale di pazienti anziani con risultati negativi per il D-dimero da ~6% to ~30%, con un rischio di TEV a 3 mesi di solo lo 0,3% nel gruppo negativo aggiustato per età. Una meta-analisi DTA degli studi sul D-dimero deve utilizzare il modello bivariato poiché soglie diverse creano un compromesso sensibilità-specificità visibile sulla curva SROC.

The D-dimer Threshold Dilemma: ADJUST-PE 2014
Un paziente anziano (75 anni) si presenta al pronto soccorso con possibile EP. Il D-dimero è 620 µg/L. Utilizzando il cutoff fisso, questo è positivo. Utilizzando il valore limite corretto per l'età (750 µg/L), questo è negativo.
PATH A: Use Fixed Cutoff (500 µg/L)
Apply one threshold to all patients regardless of age
I pazienti anziani superano quasi sempre i 500 µg/L. La specificità scende al di sotto del 10% negli ultraottantenni. Quasi tutti i pazienti anziani vengono sottoposti a un'angiografia polmonare TC, con mezzo di contrasto, radiazioni e reperti incidentali.
OUTCOME: D-dimer becomes useless in the elderly
PATH B: Use Bivariate Model with Threshold Covariate
Applicare il cut-off aggiustato per l'età; variazione della soglia del modello nella meta-analisi
La curva SROC mostra che le soglie adeguate all'età si muovono lungo la curva, scambiando una piccola quantità di sensibilità con un grande guadagno di specificità. Il 30% in più di pazienti anziani evita in modo sicuro l'imaging TC.
OUTCOME: Fewer unnecessary scans; no missed PEs
THE REVELATION
La variazione della soglia è la ragione per cui la meta-analisi DTA necessita del modello bivariato. Studi diversi utilizzano cut-off diversi, creando un compromesso tra sensibilità e specificità. La curva SROC è la mappa di questo compromesso.
Why DTA Meta-Analysis Is Different
THE PROBLEM
La sensibilità e la specificità sono correlated. When one goes up, the other tends to go down.

Non è possibile raggrupparle separatamente come gli effetti del trattamento. Hai bisogno di bivariate model.
La curva SROC

Summary Receiver Operating Characteristic

Sensitivity
1 - Specificity (False Positive Rate)
Individual studies
Summary estimate
Leggere lo SROC

Cosa ti dice la curva?

SROC Curve Position
Top-Left Corner
Excellent TestHigh sens + spec
Near Diagonal
Useless TestNo better than chance
Points Scattered
High HeterogeneityInvestigate sources
"Uno studio può ingannare.
Molti studi, soppesati insieme,
tracciano il percorso della verità:
la curva SROC che rivela ciò che il test può veramente fare."
Ma cosa accadrebbe se gli studi disagree?

One says sensitivity is 95%.
Another says 60%.

A quale verità credi?

E se un test funziona bene nella popolazione generale ma fallisce nei pazienti che ne hanno più bisogno?

REAL DATA

HRP2-based malaria rapid diagnostic tests (RDTs) achieve sensitivity of approximately 95% in the general population in endemic areas. However, in pregnant women, sensitivity can drop to as low as 56-76% a causa del sequestro placentare dei parassiti: i parassiti si nascondono nella placenta, mantenendo la parassitemia del sangue periferico bassa e al di sotto della soglia di rilevamento RDT. Una revisione Cochrane degli RDT sulla malaria ha rilevato una sostanziale eterogeneità (I² spesso superiore all'80%) determinata da sottogruppi di popolazione tra cui gravidanza, bambini sotto i 5 anni e co-infezione da HIV.

L'RDT sulla malaria in gravidanza
Una meta-analisi raggruppa 25 studi RDT sulla malaria e riporta una sensibilità complessiva del 93%. Un medico in una clinica prenatale lo utilizza per rassicurare una donna incinta con un RDT negativo.
PATH A: Trust the Overall Pooled Estimate
Applicare la sensibilità del 93% ricavata dalla meta-analisi della popolazione generale
Nelle donne in gravidanza, la sensibilità reale può essere pari al 56-76%. Una parte sostanziale delle donne incinte infette viene falsamente rassicurata. La malaria non trattata in gravidanza causa grave anemia materna, basso peso alla nascita e nati morti.
OUTCOME: Preventable maternal and neonatal deaths
PATH B: Investigate Heterogeneity by Subgroup
Condurre una meta-analisi di sottogruppi per le donne in gravidanza; esplorare I² e le fonti di variazione
Scoprire che la gravidanza è una delle principali fonti di eterogeneità. Raccomandare la conferma microscopica per tutte le donne incinte con RDT negativi nelle aree endemiche.
OUTCOME: Targeted protocols save mothers and babies
THE REVELATION
L'eterogeneità non è solo rumore statistico. Spesso segnala che il test funziona in modo diverso nelle diverse popolazioni. Ignorare l'I² e mettere insieme tutto può essere fatale per i sottogruppi vulnerabili.
Sources of Heterogeneity

Perché gli studi non concordano

Stesso test, risultati diversi?
ThresholdDifferent cutoffs
PopulationSeverity, age
SettingPrimary vs specialist
QualityBias, blinding
Measuring Disagreement: I²
I² < 25%
Low
Studies agree
I² 25-75%
Moderate
Some variation
I² > 75%
High
Major disagreement
THE WARNING
When I² > 75%, the pooled estimate may be meaningless. Explain the disagreement before averaging.
"Quando gli studi sono in disaccordo,
non tacere il dissenso.
Ask: Why do they see differently?
Il disaccordo stesso insegna."
==================== MODULO 18: IL TOOLKIT ====================
Il tuo DTA Toolkit
Le misure essenziali e quando utilizzarle

Quando un'intelligenza artificiale afferma di diagnosticare meglio dei medici, dovresti fidarti dell'AUC complessiva?

REAL DATA

Deep learning models for skin cancer detection have reported AUC values as high as 0.91-0.94 in development datasets. However, external validation revealed alarming disparities: Daneshjou et al. (2022, Nature Medicine) ha scoperto che gli strumenti dermatologici di intelligenza artificiale commerciali hanno funzionato a livelli quasi casuali sulla pelle più scura (tipi Fitzpatrick V-VI), con un'AUC più bassa come 0.50-0.57 — essenzialmente casuale. I set di dati di addestramento erano fortemente sbilanciati verso tonalità della pelle più chiare, il che significa che la tabella 2x2 non è mai stata compilata correttamente per tutte le popolazioni.

La promessa della dermatologia dell'intelligenza artificiale: anni 2020
Un ospedale considera l'implementazione di uno strumento di screening del cancro della pelle basato sull'intelligenza artificiale in una clinica dermatologica che serve una popolazione urbana diversificata. Il produttore riporta un'AUC di 0,94.
PATH A: Deploy Based on Overall AUC
Fidati dell'AUC del titolo di 0,94 e distribuiscilo a tutti i pazienti
I melanomi sulla pelle più scura vengono trascurati con tassi più elevati. Il dato complessivo sulla sensibilità nasconde un divario pericoloso. I pazienti con la più alta mortalità dovuta a diagnosi tardiva sono quelli in cui l'intelligenza artificiale fallisce maggiormente.
OUTCOME: Health disparity amplified by technology
PATH B: Demand Fairness-Stratified Evaluation
Richiedono sensibilità e specificità suddivise per tono della pelle (scala Fitzpatrick), età e posizione della lesione
Scopri il divario di prestazioni. Richiedere la riqualificazione su set di dati diversi o limitare l'uso a popolazioni convalidate. Associa l'intelligenza artificiale alla supervisione di un dermatologo per i gruppi sottorappresentati.
OUTCOME: Equitable deployment; no one left behind
THE REVELATION
Un singolo numero AUC può nascondere pericolose disparità. Gli strumenti diagnostici emergenti basati sull'intelligenza artificiale devono essere valutati con lo stesso rigore di qualsiasi test diagnostico: stratificati per popolazione, convalidati esternamente e conformi agli standard STARD e QUADAS-2.
The Checklist

Was there a valid reference standard?

Gold standard applied to ALL patients?

Gli interpreti erano accecati?

Test readers unaware of diagnosis?

Lo spettro era appropriato?

Pazienti simili alla vostra popolazione?

Era la soglia pre-specificata?

O scelti per massimizzare i risultati?

When Results Don't Match Suspicion

The Clinical Override Decision Tree

Test Negative, High Suspicion
What Is the LR-?
LR- < 0.1
Strong rule-outAccept negative
LR- 0.1-0.5
Repeat testOr different test
LR- > 0.5
Trust judgmentTest is weak
Sequential Testing Decision Tree

When One Test Isn't Enough

Initial Screening Test
Positive
Confirmatory TestHigh specificity
PositiveDiagnose
NegativeFalse alarm
Negative
Likely negativeIf high sens screen
"Armed with sensitivity, specificity, likelihood,
armato dello SROC e della misura dell'accordo,
puoi vedere oltre la menzogna del test—
e giudicarne la verità te stesso."
==================== MODULO 19: ERRORI DI TRASFUSIONE DI SANGUE ====================
Non hai sentito parlare del paziente
che ha ricevuto il wrong blood,
non perché il test fosse sbagliato,
but because no one performed it?
Il test che non era Fatto
HOSPITALS WORLDWIDE
ABO blood typing is nearly 100% accurate when performed.

Yet transfusion reactions still kill—non a causa del fallimento del test, ma da human failure:

• Wrong blood drawn from wrong patient
• Le etichette scambiate in laboratorio
• Bedside check skipped in emergency

In the UK, 1 in 13,000 transfusions sono state inviate al paziente sbagliato. Il test ha funzionato. Il sistema non è riuscito.
Bolton-Maggs PHB. Transfus Med. 2016;26:303-311
Test vs. System Decision Tree

Where Can Things Go Wrong?

Diagnostic Process
Error Source?
Test itself
Analytical ErrorSens/Spec issue
Better test needed
Pre-analytical
Wrong sampleID error
System fix needed
Post-analytical
Wrong actionReporting error
Process fix needed
"The perfect test means nothing
se il sangue è sbagliato disegnato,
viene applicata l'etichetta sbagliata,
è appesa la borsa sbagliata."

Gli studi DTA misurano l'accuratezza del test. Non misurano la precisione del sistema.

==================== MODULO 20: QUIZ E RIFERIMENTI ====================
References

Key Sources

  1. Carreyrou J. Bad Blood. Knopf, 2018. [Theranos]
  2. CDC. MMWR. 1987;36(49):833-840. [HIV blood supply]
  3. Herbst AL et al. N Engl J Med. 1971;284:878-881. [DES]
  4. Moyer VA. Ann Intern Med. 2012;157:120-134. [PSA]
  5. Pope JH et al. N Engl J Med. 2000;342:1163-1170. [Troponin]
  6. Steingart KR et al. Cochrane 2014;1:CD009593. [GeneXpert]
  7. Dinnes J et al. Cochrane 2022;7:CD013705. [COVID RAT]
  8. UK Panel. Lancet. 2012;380:1778-1786. [Mammography]
  9. Jack CR et al. Lancet Neurol. 2018;17:760-773. [Amyloid]
  10. WHO. Malaria RDT Performance. 2022.
  11. Reitsma JB et al. J Clin Epidemiol. 2005;58:982-990. [Bivariate]
  12. Whiting PF et al. Ann Intern Med. 2011;155:529-536. [QUADAS-2]
  13. Bolton-Maggs PHB. Transfus Med. 2016;26:303-311.
Un test è sensibile al 99% e specifico al 99%. La prevalenza della malattia è 1/1000. Un paziente risulta positivo. Qual è la probabilità che abbiano la malattia?
99%
90%
About 9%
50%
What does "SnNout" mean?
A highly Sensitive test, when Negative, rules OUT disease
A highly Specific test, when Negative, rules OUT disease
Sensitivity should be used for screening
Specificity should be above 90%
Perché il sangue è stato contaminato dall'HIV nonostante i test?
The tests had low specificity
Tests had a window period with zero sensitivity in early infection
I test non sono stati eseguiti correttamente
I test erano troppo costosi
Quale dominio QUADAS-2 valuta se il test è stato interpretato senza conoscere il diagnosi?
Patient Selection
Index Test
Reference Standard
Flusso e tempistiche
Course Complete
"Ora conosci i quattro risultati,
le due virtù di un test,
L'errore della base tasso,
l'arte di mettere in comune le prove,
e i pregiudizi che nascondono la verità.

Quando la prossima prova ti mentirà:
lo saprai."