Quand le test réside : cours DTA ultime (V3)

N'avez-vous pas entendu l'histoire de la femme
who promised to changer le monde avec une goutte de sang,
who raised billions on a test that never worked?

Palo Alto, 2003

STANFORD UNIVERSITY

Un jeune de dix-neuf ans a abandonné ses études avec une vision : des centaines de tests sanguins avec une seule goutte.

Investors believed. Walgreens believed. The Pentagon believed.

They gave her $9 billion.

Mais les tests ont donné des résultats erronés. On a dit aux patients qu'ils étaient séropositifs alors que ce n'était pas le cas. On a dit aux patients que leur sang était normal lorsqu'ils étaient dying.

Carreyrou J. Bad Blood. 2018

L'arbre décisionnel de la tromperie

What Theranos Did vs. What Should Happen

New Diagnostic Test

↓

SHOULD DO

Validate Against Gold Standard

↓

Publish TP/FP/FN/TN

↓

FDA Approval

THERANOS DID

Skip Validation

↓

Hide Failures

↓

Harm Patients

"Et le test a menti,
et le mensonge a été habillé avec certitude,
et personne n'a demandé la table 2×2."

C'est pourquoi nous étudions la précision des tests de diagnostic.

When a test speaks,
il y a seulement four possible truths.

Deux sont des bénédictions. Deux sont des malédictions.

L'arbre des résultats

Every Test Result Has a Reality Behind It

Patient Tested

↓

Quelle est la VÉRITÉ ?

Has Disease

D+

↓

TPTest +

FNTest -

No Disease

D-

↓

FPTest +

TNTest -

La table sacrée 2 × 2

HIV Rapid Test Example (Real Data)

	HIV+	HIV-	Total
Test +	98	3	101
Test -	2	895	897
Total	100	898	998

DE CETTE TABLE VIENT TOUTE LA VÉRITÉ

Sensitivity = 98/100 = 98%
Specificity = 895/898 = 99.7%

"Two outcomes save. Two outcomes harm.
TP, TN : le test parlait vrai.
FP, FN : le test a menti.
Know them by name, for they determine fate."

N'avez-vous pas entendu parler du sang qui a été testé,
found clean,
et donné à des milliers de personnes.
while death swam within it?

La crise de l’approvisionnement en sang, 1985

UNITED STATES

When HIV testing began, doctors celebrated: they could now screen the blood supply.

Mais le test avait un window period—des semaines après l'infection, lorsque le virus était présent mais undetectable.

Le sang a été analysé. Le sang était « négatif ». Du sang a été transfusé.

8,000-12,000 Americans ont été infectés par des transfusions avant que de meilleurs tests ne ferment la fenêtre.

CDC. MMWR. 1987;36(49):833-840

The Window Period Decision Tree

Why False Negatives Are Deadly

Person Recently Infected

↓

Time Since Infection?

< 2 weeks

Test NEGATIVEVirus present!

↓

Blood DonatedOthers infected

> 4 weeks

Test POSITIVECorrectly detected

↓

Blood DiscardedSupply safe

La sensibilité change au fil du temps

0%

Day 1-7
Eclipse period

~50%

Day 14
Seroconversion

~95%

Day 21
Most detected

99.9%

Day 45+
Window closed

THE LESSON

La sensibilité n'est pas fixe. It depends on when you test. A "99% sensitive" test may be 0% sensitive in early infection.

"Et le test disait 'propre',
car le virus n’avait pas encore montré son visage.
Et le sang a été partagé,
et l'infection s'est propagée aux innocents.

N'avez-vous pas entendu parler de la pilule donnée aux mères
to protect their pregnancies,
that planted cancer in their daughters
twenty years before it bloomed?

La tragédie du DES, 1938-1971

UNITED STATES & EUROPE

Diethylstilbestrol (DES) was given to millions of pregnant women to prevent miscarriage.

No proper clinical trial was ever conducted. Doctors assumed it worked because it seemed reasonable.

Decades later, their daughters developed a rare cancer: clear cell adenocarcinoma of the vagina. A cancer so rare it was a diagnostic signal in itself.

5-10 million women ont été exposés. Le mal a traversé les générations.

Herbst AL et al. N Engl J Med. 1971;284:878-881

L'arbre de décision de validation

What Should Have Happened

New Medical Intervention

↓

A-t-il été correctement testé ?

YES

Randomized Trial

↓

Long-term Follow-up

↓

Know True EffectsAvantages ET inconvénients

NO (DES)

Assumption Only

↓

Widespread Use

↓

Hidden HarmDiscovered too late

Le signal diagnostique

QUAND LA RARETÉ DEVIENT UNE PREUVE

L'adénocarcinome à cellules claires du vagin était si rare chez les jeunes femmes que 7 cases in one hospital triggered an investigation.

Le cluster lui-même était le test de diagnostic :
Sensitivity to DES exposure: nearly 100%
Si vous souffrez de ce cancer à cet âge, vous y avez presque certainement été exposé.

1:1000

Risk of clear cell
cancer in DES daughters

5-10M

Women exposed
worldwide

"Et les mères prenaient la pilule avec espoir,
et les filles grandissaient dans l'ombre,
et vingt ans plus tard, le cancer s'est développé...
a diagnosis that indicted a generation of medicine."

A test has two virtues and two vices.

Sensitivity: Peut-il retrouver les malades ?

Specificity: Peut-il épargner les bien-portants ?

Sensibilité : Le chasseur

THE FORMULA

Sensitivity = TP / (TP + FN)

"Of all the sick, how many did we catch?"

Worked Example: COVID PCR Test

Given: 200 infected patients tested

TP = 196 (correctly positive), FN = 4 (missed)

Sensitivity = 196 / (196 + 4) = 196/200 = 98%

Interpretation: Test catches 98 of every 100 infected people

Spécificité : Le Gardien

THE FORMULA

Specificity = TN / (TN + FP)

"Of all the healthy, how many did we spare?"

Worked Example: Same COVID PCR Test

Given: 1000 uninfected people tested

TN = 999 (correctly negative), FP = 1 (false alarm)

Specificity = 999 / (999 + 1) = 999/1000 = 99.9%

Interpretation: Test correctly clears 999 of every 1000 healthy people

Les règles de la mémoire

When to Use Which Test

De quoi avez-vous besoin?

RULE OUT disease

Use HIGH SENSITIVITY

↓

SnNoutSensitive Negative = OUT

RULE IN disease

Use HIGH SPECIFICITY

↓

SpPinSpecific Positive = IN

"La sensibilité attrape les malades.
La spécificité épargne le bien.
But no test masters both perfectly—
c'est le fardeau que nous portons.

N'as-tu pas vu le médecin
who saw 99% accurate
and believed a positive result meant 99% certainty?

C’est l’erreur la plus meurtrière en médecine.

L’erreur du taux de base

THE PUZZLE

A disease affects 1 in 1000 people.
Un test est sensible à 99 % et spécifique à 99 %.
A patient tests positive.

Quelle est la probabilité qu’ils soient atteints de la maladie ?

Most doctors say ~99%. La vraie réponse est d'environ 9 %.

Les mathématiques révélées

Testing 100,000 People (Prevalence 1/1000)

Step 1: 100 have disease, 99,900 healthy

Step 2: Of 100 sick: 99 test positive (TP), 1 negative (FN)

Step 3: Of 99,900 healthy: 999 test positive (FP), 98,901 negative (TN)

Step 4: Total positives = 99 + 999 = 1,098

PPV = TP / All Positives = 99 / 1,098 = 9%

91% des résultats positifs sont des FAUX POSITIFS !

Interactive Base Rate Calculator

See How Prevalence Changes PPV

Prevalence:

1%

Sensitivity:

99%

Specificity:

99%

9%

Positive Predictive Value (PPV)

91 % des positifs sont de fausses alarmes

L'arbre décisionnel de prévalence

Same Test, Different Settings

Test: 99% Sens, 99% Spec

↓

Where Is Testing Done?

General Pop
0.1%

PPV = 9%91% false +

High-Risk
10%

PPV = 92%8% false +

Confirmatory
50%

PPV = 99%1% false +

"Et le médecin a dit 'précis à 99%'
et le patient a entendu 'certain à 99%'
et tous deux ont été trompés—
car ils ont oublié de demander : comme c'est rare maladie?"

Vous n'avez pas entendu parler de la machine
that could find TB in two hours,
cela s'appelait revolutionary—
mais j'ai raté le drug-resistant strains?

L'histoire de GeneXpert, Afrique du Sud

CAPE TOWN, 2010

Pendant un siècle, le diagnostic de la tuberculose a nécessité la croissance de bactéries pendant des semaines. Puis vint GeneXpert : les résultats 2 hours.

South Africa deployed it nationwide. The WHO endorsed it.

Mais chez les patients avec low bacterial loads—often HIV co-infected— sensitivity dropped to 67%. One in three cases missed.

Et pour détecter la résistance à la rifampicine, il a manqué 5% de cas résistants. Ces patients ont reçu le mauvais traitement. La tuberculose résistante s’est propagée.

Steingart KR et al. Cochrane Database Syst Rev. 2014;1:CD009593

TB Diagnosis Decision Tree

Quand GeneXpert ne suffit pas

Suspected TB Patient

↓

GeneXpert Test

↓

Positive

↓

Rifampicin?

SensitiveStandard Tx

ResistantMDR-TB Tx

Negative

↓

HIV+ or High Suspicion?

YesCulture needed

NoLikely negative

Sensitivity by Patient Type

98%

Smear-positive
(high bacterial load)

67%

Smear-negative
(low bacterial load)

61%

HIV co-infected
(immune suppressed)

THE LESSON

La sensibilité d'un test dans les essais cliniques peut ne pas correspondre à sa sensibilité chez vos patients. Connaissez votre population.

"Et la machine a dit 'négatif',
et le médecin a cru à la machine,
et le patient est rentré chez lui avec une tuberculose dans les poumons,
résistance à la toux dans le monde.

N'avez-vous pas entendu parler du test pour les hommes
qui a détecté des cancers qui aurait never kill,
et a conduit à des traitements qui destroyed lives?

La tragédie du dépistage du PSA

UNITED STATES, 1990s-2010s

PSA (Prostate-Specific Antigen) could detect prostate cancer early.

Les médecins ont dépisté des millions d'hommes. Des cancers ont été découverts. Les prostates ont été retirées.

Mais bon nombre de ces « cancers » n’auraient jamais provoqué de symptômes. L'intervention chirurgicale a causé impuissance et incontinence in men who would have died of old age, not cancer.

Moyer VA. Ann Intern Med. 2012;157:120-134

Les chiffres des préjudices

1

Vies sauvées grâce au
prostate cancer
per 1000 screened

30-40

Men made impotent
or incontinent
per 1000 screened

100+

False positives
(biopsies, anxiety)
per 1000 screened

THE REVERSAL

In 2012, the US Preventive Services Task Force recommended against dépistage de routine du PSA. Le test révélait trop de choses qui n'avaient pas besoin d'être trouvées.

Patient Decision Aid: PSA Screening

Si 1 000 hommes âgés de 55 à 69 ans sont dépistés pendant 13 ans

Deaths from prostate cancer prevented

1-2 men

Men who will have false positive requiring biopsy

100-120 men

Hommes diagnostiqués avec un cancer qui ne leur ferait jamais de mal

20-50 men

Men left impotent or incontinent from treatment

30-40 men

Ce compromis est-il acceptable pour vous ?

"Et le test a trouvé l'ombre,
et le chirurgien coupé,
et l'homme a vécu - impuissant, incontinent -
d'un cancer qui ne se serait jamais réveillé. ====================

N'avez-vous pas entendu parler de l'homme souffrant de douleurs thoraciques
dont la première troponine était normal,
qui a été renvoyé chez lui—
et est décédé avant matin ?

Le problème du timing de la troponine

EMERGENCY DEPARTMENTS WORLDWIDE

La troponine est la référence en matière de diagnostic de crise cardiaque. Mais il faut 3-6 hours to rise after myocardial injury.

A patient arrives one hour after chest pain begins. Troponin is tested: normal. "You're fine. Go home."

Le cœur était en train de mourir. La protéine n'avait pas encore fui.

Studies show 2-5% of MI patients sent home from ED die within 30 days.

Pope JH et al. N Engl J Med. 2000;342:1163-1170

Serial Testing Decision Tree

Le protocole à deux troponines

Chest Pain Patient

↓

First Troponin

↓

Elevated

↓

Treat as MI

Normal

↓

When Did Pain Start?

<6 hrs

Wait 3 hrsRepeat troponin

>6 hrs

Low riskConsider d/c

High-Sensitivity Troponin

~70%

Conventional troponin
sensitivity at 0 hrs

~95%

hs-Troponin
sensitivity at 0 hrs

99%

hs-Troponin
at 3 hrs serial

THE TRADE-OFF

High-sensitivity troponin catches more heart attacks early. But it also has more false positives—elevated in kidney disease, heart failure, sepsis, and marathon runners.

"Et le test disait 'normal',
car le cœur venait juste de commencer à mourir.
Et le patient était rassuré,
and went home to finish dying."

La spécificité décrit le test.
Mais le patient demande :

Le Fagan Nomogramme
"I tested positive. What are MY chances?"

Likelihood Ratios

POSITIVE LIKELIHOOD RATIO

LR+ = Sensitivity / (1 - Specificity)

How much more likely is a + result in sick vs healthy?

NEGATIVE LIKELIHOOD RATIO

LR- = (1 - Sensitivity) / Specificity

How much more likely is a - result in sick vs healthy?

De la probabilité pré-test à la probabilité post-test

Quelle est la puissance de ce test ?

Pre-Test
Probability

99%

50%

20%

5%

1%

Likelihood
Ratio

100

10

1

0.1

0.01

Post-Test
Probability

99%

80%

50%

20%

1%

Draw a line from pre-test through LR to find post-test probability

Interpreting Likelihood Ratios

"La sensibilité raconte les malades.

LR+ Value?

LR+ > 10Strong rule-in

5-10Moderate

2-5Weak

1-2Useless

LR- Value?

< 0.1Strong rule-out

0.1-0.2Moderate

0.2-0.5Weak

0.5-1Useless

La spécificité raconte les malades.
bien.
But the likelihood ratio answers:
Que signifie ce résultat pour CE patient ?"

N'avez-vous pas vu l'enfant qui avait de la fièvre dans le village,
le test rapide qui a dit negative,
and the Plasmodium qui ne cessait de se multiplier ?

Le problème du RDT contre le paludisme

SUB-SAHARAN AFRICA

Malaria kills 600,000 people yearly, mostly children under 5.

Rapid Diagnostic Tests were meant to guide treatment in remote areas without microscopes or laboratories.

But when parasitemia is low—le RDT manque des cas. And when P. falciparum supprime le gène HRP2— the RDT sees nothing at all.

WHO. Malaria RDT Performance. 2022

La décision clinique Arbre

Child with Fever in Malaria-Endemic Area

Febrile Child

↓

Perform RDT

↓

RDT Positive

↓

Traitement contre le paludisme

RDT Negative

↓

Clinical Suspicion?

High

Treat Anywayor Microscopy

Low

Look forOther Cause

Sensitivity Varies by Parasitemia

95%

High parasitemia
(>200/μL)

75%

Low parasitemia
(100-200/μL)

50%

Very low
(<100/μL)

LA LEÇON CLINIQUE

A negative RDT does not rule out malaria in endemic areas. Clinical judgment must override the test when suspicion is high.

"Et le test disait 'négatif',
et l'enfant a été renvoyé chez lui,
et les parasites se multipliaient dans le noir,
et le matin, l'enfant ne pouvait pas se réveiller.

L'année de la peste,
le monde avait besoin d'un test qui soit fast.

Mais rapide n'est pas la même chose que accurate.

Le verdict Cochrane

COVID-19 Rapid Antigen Tests (155 Studies)

Population	Sensitivity	Missed
Symptomatic	73%	27%
Asymptomatic	55%	45%
First 7 days	80%	20%

Dinnes J et al. Cochrane Database Syst Rev. 2022;7:CD013705

The False Security Decision Tree

Thanksgiving 2020: What Happened

Family Member Tests Negative

↓

Truly Negative?

55% if asymptomatic

True NegativeSafe to gather

45% if asymptomatic

FALSE NegativeInfectious!

↓

Se réunit en familleGrandparents infected

"Et le test disait 'négatif',
et la famille s'est embrassée,
et à la fin de l'hiver,
le grand-père a été enterré.

N'avez-vous pas entendu parler de la projection
qui a trouvé des cancers qui would never kill,
et a conduit à des traitements qui caused more harm than the disease?

Le problème du surdiagnostic

3-4

Lives saved
per 10,000 screened

~15

Overdiagnosed
(treated unnecessarily)

~500

False alarms
(anxiety, biopsies)

THE QUESTION

Pour sauver 3 à 4 vies, environ 15 femmes subissent une intervention chirurgicale, une radiothérapie et une chimiothérapie pour des cancers qui ne leur auraient jamais fait de mal.

Ce compromis en vaut-il la peine ?

Patient Decision Aid: Mammography

Si 10 000 femmes âgées de 50 à 69 ans sont dépistées pendant 10 ans

Deaths from breast cancer prevented

3-4 women

Women called back for false alarms

~500 women

Unnecessary biopsies

~200 women

Femmes traitées pour un cancer qui ne leur ferait jamais de mal

~15 women

Le dépistage vous convient-il ?

The Screening Cascade Decision Tree

10 000 femmes dépistées sur 10 ans

10,000 Women

↓

~1,000 RecalledAbnormal

↓

~500 False
Alarm

~500 Biopsy
~50 cancer

~9,000 Cleared

Of ~50 Cancers Found

~35 Would Kill3-4 saved

~15 Would Never KillOverdiagnosed

"Et le test a trouvé l'ombre,
et je l'ai appelé cancer,
et la femme fut coupée et brûlée.
pour une ombre qui ne l'aurait jamais obscurcie jours."

N'avez-vous pas entendu parler de l'analyse
qui trouve les plaques dans le cerveau,
mais ne peut pas vous le dire
si l'esprit sera fade?

Le paradoxe amyloïde

ALZHEIMER'S RESEARCH, 2010s-2020s

PET scans can now detect amyloid plaques—the hallmark of Alzheimer's.

But 30% of cognitively normal elderly have amyloid plaques. They may never develop dementia.

And 10 à 20 % des personnes atteintes de démence have no amyloid.

Le test détecte les plaques Mais les plaques ne sont pas la maladie. Nous testons un substitut, pas la maladie. résultat.

Jack CR et al. Lancet Neurol. 2018;17:760-773

Surrogate vs. Outcome Decision Tree

Que testons-nous réellement ?

Diagnostic Test

↓

What Does It Detect?

Outcome itself

Direct Diagnosispar exemple, biopsie pour le cancer

↓

High clinical value

Surrogate marker

Indirect Signalpar exemple, amyloïde pour la démence

↓

Validated link?

YesUse cautiously

NoLimited value

"Et l'analyse a trouvé le plaques,
et le médecin l'a nommé Alzheimer,
et le patient vivait dans la terreur—
of a forgetting that might never come."

Toutes les études ne sont pas créées égales.

Some are biased.
Some are poorly designed.
Certaines ne devraient pas l'être trusted.

Comment séparer le bon grain de l'ivraie ?

QUADAS-2 : La liste de contrôle de la qualité

Four Domains of Risk of Bias

1

Patient Selection

Un échantillon consécutif ou aléatoire a-t-il été inscrit ? Un plan cas-témoins a-t-il été évité ?

2

Index Test

Le test a-t-il été interprété sans connaissance de la norme de référence ? Le seuil a-t-il été pré-spécifié ?

3

Reference Standard

La norme de référence est-elle susceptible de classer correctement la condition ? A-t-il été interprété à l'aveugle ?

4

Débit et timing

Y avait-il un intervalle approprié entre les tests ? Tous les patients ont-ils reçu le même standard de référence ?

QUADAS-2 Decision Tree

Devriez-vous faire confiance à cette étude ?

DTA Study

↓

Check All 4 Domains

All Low Risk

High QualityTrust results

Some Unclear

ModerateÀ utiliser avec prudence

Any High Risk

Low QualityLes résultats peuvent être biaisés

Biais courants dans les DTA Études

!

Verification Bias

Only positive tests get the reference standard → inflates sensitivity

!

Spectrum Bias

La population étudiée diffère de la réalité clinique → les résultats ne se généralisent pas

!

Incorporation Bias

Index test is part of reference standard → artificially high accuracy

!

Review Bias

Index test interpreted knowing reference result → inflates both metrics

"Avant de vous fier aux chiffres,
ask: How were they gathered?
Une étude biaisée parle avec confiance—
but its confidence is a lie."

Une étude peut être trompeuse.
Une étude peut flatter.

Mais lorsque vous rassemblez toutes les preuves—
the truth becomes harder to hide.

Why DTA Meta-Analysis Is Different

THE PROBLEM

La sensibilité et la spécificité sont correlated. When one goes up, the other tends to go down.

Vous ne pouvez pas les regrouper séparément comme les effets d’un traitement. Vous avez besoin du bivariate model.

La courbe SROC

Summary Receiver Operating Characteristic

Sensitivity

1 - Specificity (False Positive Rate)

Individual studies

Summary estimate

Lecture du SROC

Que vous dit la courbe ?

SROC Curve Position

↓

Top-Left Corner

Excellent TestHigh sens + spec

Near Diagonal

Useless TestNo better than chance

Points Scattered

High HeterogeneityInvestigate sources

"Une étude peut être trompeuse.
De nombreuses études, pesées ensemble,
tracez le chemin de la vérité—
la courbe SROC qui révèle ce que le test peut réellement faire.

Mais et si les études disagree?

One says sensitivity is 95%.
Another says 60%.

À quelle vérité croyez-vous ?

Sources of Heterogeneity

Pourquoi les études ne sont pas d'accord

Même test, résultats différents ?

ThresholdDifferent cutoffs

PopulationSeverity, age

SettingPrimary vs specialist

QualityBias, blinding

Measuring Disagreement: I²

I² < 25%

Low
Studies agree

I² 25-75%

Moderate
Some variation

I² > 75%

High
Major disagreement

THE WARNING

When I² > 75%, the pooled estimate may be meaningless. Explain the disagreement before averaging.

"Quand les études ne sont pas d'accord,
ne faites pas taire la dissidence.
Ask: Why do they see differently?
Le désaccord lui-même est instructif. »

Votre boîte à outils DTA

Les mesures essentielles et quand les utiliser

The Checklist

✓

Was there a valid reference standard?

Gold standard applied to ALL patients?

✓

Les interprètes étaient-ils aveuglés ?

Test readers unaware of diagnosis?

✓

Le spectre était-il approprié ?

Des patients similaires à votre population ?

✓

Le seuil était-il prédéfini ?

Ou choisi pour maximiser les résultats ?

When Results Don't Match Suspicion

The Clinical Override Decision Tree

Test Negative, High Suspicion

↓

What Is the LR-?

LR- < 0.1

Strong rule-outAccept negative

LR- 0.1-0.5

Repeat testOr different test

LR- > 0.5

Trust judgmentTest is weak

Sequential Testing Decision Tree

When One Test Isn't Enough

Initial Screening Test

↓

Positive

↓

Confirmatory TestHigh specificity

↓

PositiveDiagnose

NegativeFalse alarm

Negative

↓

Likely negativeIf high sens screen

"Armed with sensitivity, specificity, likelihood,
armé du SROC et de la mesure d’accord,
vous pouvez voir à travers le mensonge du test—
et juge par toi-même de sa vérité. »

Avoir vous n'avez pas entendu parler du patient
qui a reçu le wrong blood,
non pas parce que le test était erroné,
but because no one performed it?

Le test qui n'a pas été effectué

HOSPITALS WORLDWIDE

ABO blood typing is nearly 100% accurate when performed.

Yet transfusion reactions still kill—non pas à cause d'un échec du test, mais à cause de human failure:

• Wrong blood drawn from wrong patient
• Étiquettes insérées le laboratoire
• Bedside check skipped in emergency

In the UK, 1 in 13,000 transfusions se rend au mauvais patient. Le test a fonctionné. Le système a échoué.

Bolton-Maggs PHB. Transfus Med. 2016;26:303-311

Test vs. System Decision Tree

Where Can Things Go Wrong?

Diagnostic Process

↓

Error Source?

Test itself

Analytical ErrorSens/Spec issue

↓

Better test needed

Pre-analytical

Wrong sampleID error

↓

System fix needed

Post-analytical

Wrong actionReporting error

↓

Process fix needed

"The perfect test means nothing
si le mauvais sang est prélevé,
la mauvaise étiquette est appliquée,
le mauvais sac est appliqué. accroché."

Les études DTA mesurent la précision des tests. Ils ne mesurent pas la précision du système.

N'avez-vous pas vu l'algorithme
qui a appris de biased data,
et a répandu ce biais
to every patient it touched?

La révolution du diagnostic de l'IA

STANFORD & BEYOND, 2017-PRESENT

Deep learning algorithms now match dermatologists at detecting skin cancer.

Mais les données d'entraînement était predominantly light skin. On dark skin, performance dropped significantly.

L'algorithme a appris les modèles, mais aussi les biases.

Et lorsqu'il a été déployé sans validation externe, ses performances ont été moins bonnes que prévu car training population didn't match the clinical population.

Esteva A et al. Nature. 2017;542:115-118; Adamson AS. JAMA Dermatol. 2018

AI Validation Decision Tree

Cette IA est-elle prête pour une utilisation clinique ?

AI Diagnostic Tool

↓

Validation Type?

Internal only

High RiskOverfitting likely

↓

Not ready

External validation

BetterBut check population

↓

Correspond à votre patients ?

YesConsider use

NoCaution

Prospective RCT

Gold StandardPatient outcomes

Calibrage de l'IA : le problème caché

DISCRIMINATION VS. CALIBRATION

Discrimination (AUC/ROC): Can the AI rank patients by risk?

Calibration: When the AI says "80% risk," do 80% actually have disease?

De nombreux outils d'IA ont good AUC but poor calibration. C’est l’erreur du taux de base sous forme algorithmique.

AUC

Can it rank?
(usually reported)

CAL

Is probability accurate?
(often ignored)

"Et l'algorithme appris à partir des données,
et les données étaient biaisées,
et le biais s'est étendu à chaque prédiction—
et personne n'a demandé : qui manquait dans le programme d'entraînement ? »

Le patient demande : "Is my test positive?"

But what they mean is:
"Est-ce que j'ai la maladie ?"

Comment combler cet écart ?

Communication Scripts

SCRIPT 1: EXPLAINING A POSITIVE RESULT

"Votre test est revenu positif. Mais je veux vous expliquer ce que cela signifie."

"Ce test permet de détecter efficacement les personnes atteintes de cette maladie, mais il génère également de fausses alarmes."

"En fonction de vos facteurs de risque, il y a environ un [X]% Il y a de la chance que ce soit un vrai positif."

"We'll do a confirmatory test to be certain before any treatment."

Communication Scripts

SCRIPT 2: EXPLAINING A NEGATIVE RESULT (HIGH SUSPICION)

"Your test came back negative, but I'm still concerned."

"Ce test peut manquer des cas, surtout au début de la maladie."

"Compte tenu de vos symptômes, j'aimerais soit refaire le test dans quelques jours, soit essayer un autre test."

"A negative test doesn't always mean you're clear—vos symptômes comptent aussi."

Communication Decision Tree

Comment expliquer les résultats des tests

Test Result

↓

Positive

↓

PPV?

>90%"Very likely true"

<90%"Need to confirm"

Negative

↓

NPV?

>95%"Very reassuring"

<95%"Still watch symptoms"

Questions à poser à votre médecin

1

« Quelle est la précision de ce test ?

Demandez de la sensibilité et de la spécificité dans un langage simple

2

« Et si le résultat est faux ?

Comprendre les conséquences des faux positifs et négatifs

3

"What happens next?"

Will there be a confirmatory test? Repeat test? Treatment?

4

"What if I don't get tested at all?"

Comprendre les compromis entre tester et ne pas tester

"Le test parle en chiffres.
Le patient entend des peurs et des espoirs.
La tâche du guérisseur est la traduction.
pour combler le fossé entre la statistique et l'âme.

A test may be accurate.
But is it worth it?

What does it cost—in money,
in anxiety, in harm?

Le seuil test-traitement

When Is Testing Worthwhile?

Pre-Test Probability

↓

Very Low

Below Test ThresholdDon't test, reassure

Intermediate

Testing ZoneTest will change management

Very High

Above Treat ThresholdDon't test, treat

THE PRINCIPLE

Test only when the result will change ce que tu fais. If you'd treat regardless, or not treat regardless—why test?

Qualité des preuves GRADE

Notation des preuves DTA

⊕⊕⊕⊕

HIGH

Plusieurs études de haute qualité, résultats cohérents, directement applicables

⊕⊕⊕○

MODERATE

Some limitations in study quality, consistency, or applicability

⊕⊕○○

LOW

Serious limitations—may need to downgrade recommendations

⊕○○○

VERY LOW

Very serious limitations—evidence uncertain

Cost-Consequence Analysis

Example: Universal vs. Targeted Screening

Cost per case detected (universal)

$50,000

Cost per case detected (high-risk only)

$5,000

Cases missed by targeted approach

~10%

False positives avoided by targeted

~90%

Quelle approche convient à votre population ?

"A test is not just accurate or inaccurate.
It has costs—in money, in worry, in harm.
Le clinicien avisé pèse tout cela...
et des tests uniquement lorsque les tests sont utiles au patient.

La courbe SROC montre where le test s'effectue.

But how certain are we?
Et combien cela coûtera-t-il vary in practice?

Confidence vs. Prediction Regions

Two Types of Uncertainty

95% CI (summary estimate)

Prédiction à 95 % (études futures)

What Each Region Tells You

CI

Confidence Region (smaller ellipse)

Là où nous sommes sûrs à 95 % de la true average situation de la sensibilité/spécificité. Incertitude sur l'estimation récapitulative.

PI

Prediction Region (larger ellipse)

Where we expect 95% of future studies à baisser. Prend en compte l'hétérogénéité entre les études.

CLINICAL IMPLICATION

Si la région de prédiction est grande, le test peut fonctionner très différemment dans votre environnement que ce que suggère la moyenne. Wide prediction = high heterogeneity = investigate sources.

Bivariate Model Interpretation

Lecture des résultats de la méta-analyse

Summary Sens/Spec

↓

Check Regions

CI narrow, PI narrow

ConsistentFaire confiance à la moyenne

CI narrow, PI wide

HeterogeneousLa moyenne peut ne pas appliquer

CI wide

UncertainBesoin d'études supplémentaires

"La région de confiance vous dit : Dans quelle mesure en sommes-nous sûrs ?
La région de prédiction vous dit : Dans quelle mesure va-t-elle varier ?
Both questions matter—
pour le test que vous utiliserez demain, ce n'est peut-être pas le cas moyenne."

References

Key Sources

Carreyrou J. Bad Blood. Knopf, 2018. [Theranos]
CDC. MMWR. 1987;36(49):833-840. [HIV blood supply]
Herbst AL et al. N Engl J Med. 1971;284:878-881. [DES]
Moyer VA. Ann Intern Med. 2012;157:120-134. [PSA]
Pope JH et al. N Engl J Med. 2000;342:1163-1170. [Troponin]
Steingart KR et al. Cochrane 2014;1:CD009593. [GeneXpert]
Dinnes J et al. Cochrane 2022;7:CD013705. [COVID RAT]
UK Panel. Lancet. 2012;380:1778-1786. [Mammography]
Jack CR et al. Lancet Neurol. 2018;17:760-773. [Amyloid]
WHO. Malaria RDT Performance. 2022.
Reitsma JB et al. J Clin Epidemiol. 2005;58:982-990. [Bivariate]
Whiting PF et al. Ann Intern Med. 2011;155:529-536. [QUADAS-2]
Bolton-Maggs PHB. Transfus Med. 2016;26:303-311.

Un test est sensible à 99 % et spécifique à 99 %. La prévalence de la maladie est de 1/1000. Un patient est testé positif. Quelle est la probabilité qu’ils soient atteints de la maladie ?

99%

90%

About 9%

50%

What does "SnNout" mean?

A highly Sensitive test, when Negative, rules OUT disease

A highly Specific test, when Negative, rules OUT disease

Sensitivity should be used for screening

Specificity should be above 90%

Pourquoi les réserves de sang ont-elles été contaminées par le VIH malgré les tests ?

The tests had low specificity

Tests had a window period with zero sensitivity in early infection

Les tests n'ont pas été effectués correctement

Les tests étaient trop chers

Quel domaine QUADAS-2 évalue si le test a été interprété sans connaître la diagnostic ?

Patient Selection

Index Test

Reference Standard

Débit et timing

✔

Course Complete

"Vous connaissez désormais les quatre résultats,
les deux vertus d'un test,
l'erreur de la base taux,
l'art de rassembler les preuves,
et les préjugés qui cachent la vérité.

Quand le prochain test vous mentira—
vous le saurez."