Quand le test ment : un cours sur la précision des tests de diagnostic (amélioré)

N'avez-vous pas entendu l'histoire de la femme
who promised to changer le monde avec une goutte de sang,
who raised billions on a test that never worked?

Palo Alto, 2003

STANFORD UNIVERSITY

Un jeune de dix-neuf ans a abandonné ses études avec une vision : des centaines de tests sanguins avec une seule goutte.

Investors believed. Walgreens believed. The Pentagon believed.

They gave her $9 billion.

Mais les tests ont donné des résultats erronés. On a dit aux patients qu'ils étaient séropositifs alors que ce n'était pas le cas. On a dit aux patients que leur sang était normal lorsqu'ils étaient dying.

Carreyrou J. Bad Blood. 2018

L'arbre décisionnel de la tromperie

What Theranos Did vs. What Should Happen

New Diagnostic Test

↓

SHOULD DO

Validate Against Gold Standard

↓

Publish TP/FP/FN/TN

↓

FDA Approval

THERANOS DID

Skip Validation

↓

Hide Failures

↓

Harm Patients

"Et le test a menti,
et le mensonge a été habillé avec certitude,
et personne n'a demandé la table 2x2."

C'est pourquoi nous étudions la précision des tests de diagnostic.

When a test speaks,
il y a seulement four possible truths.

Deux sont des bénédictions. Deux sont des malédictions.

L'arbre des résultats

Every Test Result Has a Reality Behind It

Patient Tested

↓

Quelle est la VÉRITÉ ?

Has Disease

D+

↓

TPTest +

FNTest -

No Disease

D-

↓

FPTest +

TNTest -

La table sacrée 2x2

HIV Rapid Test Example (Real Data)

	HIV+	HIV-	Total
Test +	98	3	101
Test -	2	895	897
Total	100	898	998

DE CETTE TABLE VIENT TOUTE LA VÉRITÉ

Sensitivity = 98/100 = 98%
Specificity = 895/898 = 99.7%

"Two outcomes save. Two outcomes harm.
TP, TN : le test parlait vrai.
FP, FN : le test a menti.
Know them by name, for they determine fate."

N'avez-vous pas entendu parler du sang qui a été testé,
found clean,
et donné à des milliers de personnes.
while death swam within it?

La crise de l’approvisionnement en sang, 1985

UNITED STATES

When HIV testing began, doctors celebrated: they could now screen the blood supply.

Mais le test avait un window period—des semaines après l'infection, lorsque le virus était présent mais undetectable.

Le sang a été analysé. Le sang était « négatif ». Du sang a été transfusé.

8,000-12,000 Americans ont été infectés par des transfusions avant que de meilleurs tests ne ferment la fenêtre.

CDC. MMWR. 1987;36(49):833-840

The Window Period Decision Tree

Why False Negatives Are Deadly

Person Recently Infected

↓

Time Since Infection?

< 2 weeks

Test NEGATIVEVirus present!

↓

Blood DonatedOthers infected

> 4 weeks

Test POSITIVECorrectly detected

↓

Blood DiscardedSupply safe

La sensibilité change au fil du temps

0%

Day 1-7
Eclipse period

~50%

Day 14
Seroconversion

~95%

Day 21
Most detected

99.9%

Day 45+
Window closed

THE LESSON

La sensibilité n'est pas fixe. It depends on when you test. A "99% sensitive" test may be 0% sensitive in early infection.

"Et le test disait 'propre',
car le virus n’avait pas encore montré son visage.
Et le sang a été partagé,
et l'infection s'est propagée aux innocents.

A test has two virtues and two vices.

Sensitivity: Peut-il retrouver les malades ?

Specificity: Peut-il épargner les bien-portants ?

Sensibilité : Le chasseur

THE FORMULA

Sensitivity = TP / (TP + FN)

"Of all the sick, how many did we catch?"

Worked Example: COVID PCR Test

Given: 200 infected patients tested

TP = 196 (correctly positive), FN = 4 (missed)

Sensitivity = 196 / (196 + 4) = 196/200 = 98%

Interpretation: Test catches 98 of every 100 infected people

Spécificité : Le Gardien

THE FORMULA

Specificity = TN / (TN + FP)

"Of all the healthy, how many did we spare?"

Worked Example: Same COVID PCR Test

Given: 1000 uninfected people tested

TN = 999 (correctly negative), FP = 1 (false alarm)

Specificity = 999 / (999 + 1) = 999/1000 = 99.9%

Interpretation: Test correctly clears 999 of every 1000 healthy people

Les règles de la mémoire

When to Use Which Test

De quoi avez-vous besoin?

RULE OUT disease

Use HIGH SENSITIVITY

↓

SnNoutSensitive Negative = OUT

RULE IN disease

Use HIGH SPECIFICITY

↓

SpPinSpecific Positive = IN

"La sensibilité attrape les malades.
La spécificité épargne le bien.
But no test masters both perfectly—
c'est le fardeau que nous portons.

N'as-tu pas vu le médecin
who saw 99% accurate
and believed a positive result meant 99% certainty?

C’est l’erreur la plus meurtrière en médecine.

L’erreur du taux de base

THE PUZZLE

A disease affects 1 in 1000 people.
Un test est sensible à 99 % et spécifique à 99 %.
A patient tests positive.

Quelle est la probabilité qu’ils soient atteints de la maladie ?

Most doctors say ~99%. La vraie réponse est d'environ 9 %.

Les mathématiques révélées

Testing 100,000 People (Prevalence 1/1000)

Step 1: 100 have disease, 99,900 healthy

Step 2: Of 100 sick: 99 test positive (TP), 1 negative (FN)

Step 3: Of 99,900 healthy: 999 test positive (FP), 98,901 negative (TN)

Step 4: Total positives = 99 + 999 = 1,098

PPV = TP / All Positives = 99 / 1,098 = 9%

91% des résultats positifs sont des FAUX POSITIFS !

L'arbre décisionnel de prévalence

Same Test, Different Settings

Test: 99% Sens, 99% Spec

↓

Where Is Testing Done?

General Population
Prevalence 0.1%

PPV = 9%91% false positives!

High-Risk Clinic
Prevalence 10%

PPV = 92%8% false positives

Confirmatory Test
Prevalence 50%

PPV = 99%1% false positives

"Et le médecin a dit 'précis à 99%'
et le patient a entendu 'certain à 99%'
et tous deux ont été trompés—
car ils ont oublié de demander : comme c'est rare maladie?"

N'avez-vous pas entendu parler du test pour les hommes
qui a détecté des cancers qui aurait never kill,
et a conduit à des traitements qui destroyed lives?

La tragédie du dépistage du PSA

UNITED STATES, 1990s-2010s

PSA (Prostate-Specific Antigen) could detect prostate cancer early.

Les médecins ont dépisté des millions d'hommes. Des cancers ont été découverts. Les prostates ont été retirées.

Mais bon nombre de ces « cancers » n’auraient jamais provoqué de symptômes. L'intervention chirurgicale a causé impuissance et incontinence in men who would have died of old age, not cancer.

Moyer VA. Ann Intern Med. 2012;157:120-134

Les chiffres des préjudices

1

Vies sauvées grâce au
prostate cancer
per 1000 screened

30-40

Men made impotent
or incontinent
per 1000 screened

100+

False positives
(biopsies, anxiety)
per 1000 screened

THE REVERSAL

In 2012, the US Preventive Services Task Force recommended against dépistage de routine du PSA. Le test révélait trop de choses qui n'avaient pas besoin d'être trouvées.

L'arbre décisionnel de dépistage

Les conséquences involontaires du dépistage

1000 Men Screened

↓

~120 Positive PSA

↓

~30 Biopsies Show Cancer

↓

~25 Would Never
Have Harmed

~5 Truly
Aggressive

~880 Negative PSA

↓

Reassured(But ~3 have aggressive cancer missed)

"Et le test a trouvé l'ombre,
et le chirurgien coupé,
et l'homme a vécu - impuissant, incontinent -
d'un cancer qui ne se serait jamais réveillé. ====================

La spécificité décrit le test.
Mais le patient demande :

Le Fagan Nomogramme
"I tested positive. What are MY chances?"

Likelihood Ratios

POSITIVE LIKELIHOOD RATIO

LR+ = Sensitivity / (1 - Specificity)

How much more likely is a + result in sick vs healthy?

NEGATIVE LIKELIHOOD RATIO

LR- = (1 - Sensitivity) / Specificity

How much more likely is a - result in sick vs healthy?

De la probabilité pré-test à la probabilité post-test

Quelle est la puissance de ce test ?

Pre-Test
Probability

99%

50%

20%

5%

1%

Likelihood
Ratio

100

10

1

0.1

0.01

Post-Test
Probability

99%

80%

50%

20%

1%

Draw a line from pre-test through LR to find post-test probability

Interpreting Likelihood Ratios

"La sensibilité raconte les malades.

What Is the LR+?

LR+ > 10Strong rule-in

LR+ 5-10Moderate

LR+ 2-5Weak

LR+ 1-2Useless

What Is the LR-?

LR- < 0.1Strong rule-out

LR- 0.1-0.2Moderate

LR- 0.2-0.5Weak

LR- 0.5-1Useless

La spécificité raconte les malades.
bien.
But the likelihood ratio answers:
Que signifie ce résultat pour CE patient ?"

N'avez-vous pas vu l'enfant qui avait de la fièvre dans le village,
le test rapide qui a dit negative,
and the Plasmodium qui ne cessait de se multiplier ?

Le problème du RDT contre le paludisme

SUB-SAHARAN AFRICA

Malaria kills 600,000 people yearly, mostly children under 5.

Rapid Diagnostic Tests were meant to guide treatment in remote areas without microscopes or laboratories.

But when parasitemia is low—le RDT manque des cas. And when P. falciparum supprime le gène HRP2— the RDT sees nothing at all.

WHO. Malaria RDT Performance. 2022

La décision clinique Arbre

Child with Fever in Malaria-Endemic Area

Febrile Child

↓

Perform RDT

↓

RDT Positive

↓

Traitement contre le paludisme

RDT Negative

↓

Clinical Suspicion?

High

Treat Anyway
or Microscopy

Low

Look for
Other Cause

Sensitivity Varies by Parasitemia

95%

High parasitemia
(>200/μL)

75%

Low parasitemia
(100-200/μL)

50%

Very low
(<100/μL)

LA LEÇON CLINIQUE

A negative RDT does not rule out malaria in endemic areas. Clinical judgment must override the test when suspicion is high.

"Et le test disait 'négatif',
et l'enfant a été renvoyé chez lui,
et les parasites se multipliaient dans le noir,
et le matin, l'enfant ne pouvait pas se réveiller.

L'année de la peste,
le monde avait besoin d'un test qui soit fast.

Mais rapide n'est pas la même chose que accurate.

Le verdict Cochrane

COVID-19 Rapid Antigen Tests (155 Studies Pooled)

Population	Sensitivity	Missed Cases
Symptomatic	73%	27% missed
Asymptomatic	55%	45% missed
First 7 days of symptoms	80%	20% missed

Dinnes J et al. Cochrane Database Syst Rev. 2022;7:CD013705

The False Security Decision Tree

Thanksgiving 2020: What Happened

Family Member Tests Negative

↓

Cette personne est-elle vraiment négative ?

55% chance if asymptomatic

True NegativeSafe to gather

45% chance if asymptomatic

FALSE NegativeInfectious!

↓

Se réunit en familleGrandparents infected

"Et le test disait 'négatif',
et la famille s'est embrassée,
et à la fin de l'hiver,
le grand-père a été enterré.

N'avez-vous pas entendu parler de la projection
qui a trouvé des cancers qui would never kill,
et a conduit à des traitements qui caused more harm than the disease?

Le problème du surdiagnostic

3-4

Lives saved
per 10,000 screened

~15

Overdiagnosed
(treated unnecessarily)

~500

False alarms
(anxiety, biopsies)

THE QUESTION

Pour sauver 3 à 4 vies, environ 15 femmes subissent une intervention chirurgicale, une radiothérapie et une chimiothérapie pour des cancers qui ne leur auraient jamais fait de mal.

Ce compromis en vaut-il la peine ?

L'arbre décisionnel de dépistage

10 000 femmes dépistées sur 10 ans

10,000 Women

↓

~1,000 RecalledAbnormal mammogram

↓

~500 False AlarmAnxiety only

~500 Biopsy~50 cancer found

~9,000 ClearedContinue screening

Of ~50 Cancers Found

~35 Would KillTreatment saves 3-4

~15 Would Never KillOverdiagnosed

"Et le test a trouvé l'ombre,
et je l'ai appelé cancer,
et la femme fut coupée et brûlée.
pour une ombre qui ne l'aurait jamais obscurcie jours."

Une étude peut être trompeuse.
Une étude peut flatter.

Mais lorsque vous rassemblez toutes les preuves—
the truth becomes harder to hide.

Why DTA Meta-Analysis Is Different

THE PROBLEM

La sensibilité et la spécificité sont correlated. When one goes up, the other tends to go down.

Vous ne pouvez pas les regrouper séparément comme les effets d’un traitement. Vous avez besoin du bivariate model.

La courbe SROC

Reading ROC Space

Top-Left CornerPerfect Test

↓ (curve shows trade-off)

Diagonal LineUseless Test (Chance)

CE QUE MONTRE LE SROC

Each dot = one study's sensitivity & specificity
La courbe = résumé de toutes les études
Closer to top-left = better test

"Une étude peut être trompeuse.
De nombreuses études, pesées ensemble,
tracez le chemin de la vérité—
la courbe SROC qui révèle ce que le test peut réellement faire.

Mais et si les études disagree?

One says sensitivity is 95%.
Another says 60%.

À quelle vérité croyez-vous ?

Sources of Heterogeneity

Pourquoi les études ne sont pas d'accord

Même test, résultats différents ?

ThresholdDifferent cutoffs

PopulationSeverity, age

SettingPrimary vs specialist

QualityBias, blinding

Measuring Disagreement: I²

I² < 25%

Low
Studies agree

I² 25-75%

Moderate
Some variation

I² > 75%

High
Major disagreement

THE WARNING

When I² > 75%, the pooled estimate may be meaningless. Explain the disagreement before averaging.

"Quand les études ne sont pas d'accord,
ne faites pas taire la dissidence.
Ask: Why do they see differently?
Le désaccord lui-même est instructif. »

Votre boîte à outils DTA

Les mesures essentielles et quand les utiliser

The Checklist

✓

Was there a valid reference standard?

Gold standard applied to ALL patients?

✓

Les interprètes étaient-ils aveuglés ?

Test readers unaware of diagnosis?

✓

Le spectre était-il approprié ?

Des patients similaires à votre population ?

✓

Le seuil était-il prédéfini ?

Ou choisi pour maximiser les résultats ?

When Results Don't Match Suspicion

The Clinical Override Decision Tree

Test Negative, High Suspicion

↓

What Is the LR-?

LR- < 0.1

Strong rule-outAccept negative

LR- 0.1-0.5

Consider repeat testOr different test

LR- > 0.5

Trust clinical judgmentTest is weak

"Armed with sensitivity, specificity, likelihood,
armé du SROC et de la mesure d’accord,
vous pouvez voir à travers le mensonge du test—
et juge par toi-même de sa vérité. »

References

Key Sources

Carreyrou J. Bad Blood. Knopf, 2018.
CDC. MMWR. 1987;36(49):833-840. [HIV blood supply]
Dinnes J et al. Cochrane Database Syst Rev. 2022;7:CD013705. [COVID RAT]
Moyer VA. Ann Intern Med. 2012;157:120-134. [PSA screening]
UK Panel. Lancet. 2012;380:1778-1786. [Mammography]
WHO. Malaria RDT Performance. 2022.
Reitsma JB et al. J Clin Epidemiol. 2005;58:982-990. [Bivariate model]
Deeks JJ et al. J Clin Epidemiol. 2005;58:882-893. [Publication bias]
Macaskill P et al. Cochrane Handbook Ch. 10. 2023.

Un test est sensible à 99 % et spécifique à 99 %. La prévalence de la maladie est de 1/1000. Un patient est testé positif. Quelle est la probabilité qu’ils soient atteints de la maladie ?

99%

90%

About 9%

50%

Pourquoi les réserves de sang ont-elles été contaminées par le VIH malgré les tests ?

The tests had low specificity

Les tests avaient une période fenêtre avec une faible sensibilité en cas d'infection précoce

Les tests n'ont pas été effectués correctement

Les tests étaient trop chers

What does "SnNout" mean?

A highly Sensitive test, when Negative, rules OUT disease

A highly Specific test, when Negative, rules OUT disease

Sensitivity should be used for screening

Specificity should be above 90%

✔

Course Complete

"Vous connaissez désormais les quatre résultats,
les deux vertus d'un test,
l'erreur de la base taux,
et l'art de la mutualisation preuve.

Quand le prochain test vous mentira—
vous le saurez."