==================== MODULE 1 : LA FRAUDE (Theranos) =====================
N'avez-vous pas entendu l'histoire de la femme
who promised to changer le monde avec une goutte de sang,
who raised billions on a test that never worked?
Palo Alto, 2003
STANFORD UNIVERSITY
Un jeune de dix-neuf ans a abandonné ses études avec une vision : des centaines de tests sanguins avec une seule goutte.

Investors believed. Walgreens believed. The Pentagon believed.

They gave her $9 billion.

Mais les tests ont donné des résultats erronés. On a dit aux patients qu'ils étaient séropositifs alors que ce n'était pas le cas. On a dit aux patients que leur sang était normal lorsqu'ils étaient dying.
Carreyrou J. Bad Blood. 2018
L'arbre décisionnel de la tromperie

What Theranos Did vs. What Should Happen

New Diagnostic Test
SHOULD DO
Validate Against Gold Standard
Publish TP/FP/FN/TN
FDA Approval
THERANOS DID
Skip Validation
Hide Failures
Harm Patients
"Et le test a menti,
et le mensonge a été habillé avec certitude,
et personne n'a demandé la table 2×2."

C'est pourquoi nous étudions la précision des tests de diagnostic.

>==================== MODULE 2 : LES QUATRE RÉSULTATS ====================
When a test speaks,
il y a seulement four possible truths.

Deux sont des bénédictions. Deux sont des malédictions.

Que se passe-t-il lorsqu'une revue systématique fait confiance à chaque étude de la même manière ?

REAL DATA

Les analyses de sensibilité dans les revues systématiques DTA démontrent systématiquement que l'exclusion des études à haut risque de biais modifie les estimations groupées. Lors du dépistage par mammographie, les conceptions cas-témoins avec interprétation sans insu ont tendance à gonfler la sensibilité. Le principe général est bien documenté : l'évaluation de la qualité QUADAS-2 peut modifier la sensibilité groupée en 10-15 percentage points lorsque les études biaisées sont supprimées.

L'audit de mammographie QUADAS-2
Une équipe d'examen regroupe 15 études DTA de mammographie. Cinq présentent un risque élevé de biais en raison de la conception cas-témoins et de l'interprétation sans insu.
CHEMIN A : regrouper toutes les études
Include all 15 studies regardless of quality
Biased 2x2 tables inflate TP counts, producing a pooled sensitivity of 87%
OUTCOME: Overconfidence in screening accuracy
PATH B: Apply Quality Assessment
Exclude high risk-of-bias studies using QUADAS-2
Remaining 10 low-RoB studies yield sensitivity of approximately 75%
OUTCOME: Honest numbers guide honest decisions
THE REVELATION
Les quatre résultats (TP, FP, FN, TN) ne sont dignes de confiance que si l'étude qui les a produits est digne de confiance. Une étude biaisée contamine l'ensemble du tableau 2x2.
L'arbre des résultats

Every Test Result Has a Reality Behind It

Patient Tested
Quelle est la VÉRITÉ ?
Has Disease
D+
TPTest +
FNTest -
No Disease
D-
FPTest +
TNTest -
La table sacrée 2 × 2

HIV Rapid Test Example (Real Data)

HIV+HIV-Total
Test +983101
Test -2895897
Total100898998
DE CETTE TABLE VIENT TOUTE LA VÉRITÉ
Sensitivity = 98/100 = 98%
Specificity = 895/898 = 99.7%
"Two outcomes save. Two outcomes harm.
TP, TN : le test parlait vrai.
FP, FN : le test a menti.
Know them by name, for they determine fate."
==================== MODULE 3 : PÉRIODE DE FENÊTRE VIH =====================
N'avez-vous pas entendu parler du sang qui a été testé,
found clean,
et donné à des milliers de personnes.
while death swam within it?
La crise de l’approvisionnement en sang, 1985
UNITED STATES
When HIV testing began, doctors celebrated: they could now screen the blood supply.

Mais le test avait un window period—des semaines après l'infection, lorsque le virus était présent mais undetectable.

Le sang a été analysé. Le sang était « négatif ». Du sang a été transfusé.

8,000-12,000 Americans ont été infectés par des transfusions avant que de meilleurs tests ne ferment la fenêtre.
CDC. MMWR. 1987;36(49):833-840
The Window Period Decision Tree

Why False Negatives Are Deadly

Person Recently Infected
Time Since Infection?
< 2 weeks
Test NEGATIVEVirus present!
Blood DonatedOthers infected
> 4 weeks
Test POSITIVECorrectly detected
Blood DiscardedSupply safe
La sensibilité change au fil du temps
0%
Day 1-7
Eclipse period
~50%
Day 14
Seroconversion
~95%
Day 21
Most detected
99.9%
Day 45+
Window closed
THE LESSON
La sensibilité n'est pas fixe. It depends on when you test. A "99% sensitive" test may be 0% sensitive in early infection.
"Et le test disait 'propre',
car le virus n’avait pas encore montré son visage.
Et le sang a été partagé,
et l'infection s'est propagée aux innocents.
==================== MODULE 4 : DES TRAGÉDIE =====================
N'avez-vous pas entendu parler de la pilule donnée aux mères
to protect their pregnancies,
that planted cancer in their daughters
twenty years before it bloomed?
La tragédie du DES, 1938-1971
UNITED STATES & EUROPE
Diethylstilbestrol (DES) was given to millions of pregnant women to prevent miscarriage.

No proper clinical trial was ever conducted. Doctors assumed it worked because it seemed reasonable.

Decades later, their daughters developed a rare cancer: clear cell adenocarcinoma of the vagina. A cancer so rare it was a diagnostic signal in itself.

5-10 million women ont été exposés. Le mal a traversé les générations.
Herbst AL et al. N Engl J Med. 1971;284:878-881
L'arbre de décision de validation

What Should Have Happened

New Medical Intervention
A-t-il été correctement testé ?
YES
Randomized Trial
Long-term Follow-up
Know True EffectsAvantages ET inconvénients
NO (DES)
Assumption Only
Widespread Use
Hidden HarmDiscovered too late
Le signal diagnostique
QUAND LA RARETÉ DEVIENT UNE PREUVE
L'adénocarcinome à cellules claires du vagin était si rare chez les jeunes femmes que 7 cases in one hospital triggered an investigation.

Le cluster lui-même était le test de diagnostic :
Sensitivity to DES exposure: nearly 100%
Si vous souffrez de ce cancer à cet âge, vous y avez presque certainement été exposé.
1:1000
Risk of clear cell
cancer in DES daughters
5-10M
Women exposed
worldwide
"Et les mères prenaient la pilule avec espoir,
et les filles grandissaient dans l'ombre,
et vingt ans plus tard, le cancer s'est développé...
a diagnosis that indicted a generation of medicine."
==================== MODULE 5 : SENSIBILITÉ ET SPÉCIFICITÉ ====================
A test has two virtues and two vices.

Sensitivity: Peut-il retrouver les malades ?

Specificity: Peut-il épargner les bien-portants ?

Peut-on se fier à un chiffre de sensibilité fourni par un laboratoire lorsque le test est utilisé dans le monde réel ?

REAL DATA

The BinaxNOW COVID-19 rapid antigen test reported sensitivity of approximately 84-97% in symptomatic individuals in manufacturer studies. However, real-world evaluations found sensitivity as low as 35-64% chez des individus asymptomatiques, en fonction de la charge virale et du moment choisi. L'analyse Cochrane des tests antigéniques rapides (Dinnes 2022) a confirmé la sensibilité moyenne de 73% dans les populations symptomatiques et uniquement 55% dans les populations asymptomatiques dans plus de 100 évaluations d'études.

The COVID Rapid Test Paradox: 2020-2021
A university plans to screen asymptomatic students weekly before allowing campus access. They read the manufacturer's claim of high sensitivity.
PATH A: Trust Lab Sensitivity
Rely on manufacturer's high sensitivity figure
Les porteurs asymptomatiques avec une faible charge virale ont un test négatif et assistent aux cours, propageant ainsi la propagation du virus. virus
OUTCOME: False sense of safety; campus outbreaks
CHEMIN B : Exiger des données du monde réel
Rechercher des études sur la population cible réelle (étudiants asymptomatiques)
Discover sensitivity is roughly 55% in asymptomatic people; add serial testing and other safeguards
OUTCOME: Layered safety catches more cases
THE REVELATION
La sensibilité n'est pas une propriété fixe d'un test. Cela change selon la population, le stade de la maladie et le contexte. Demandez toujours : sensibilité dans whom?
Sensibilité : Le chasseur
THE FORMULA
Sensitivity = TP / (TP + FN)
"Of all the sick, how many did we catch?"

Worked Example: COVID PCR Test

Given: 200 infected patients tested
TP = 196 (correctly positive), FN = 4 (missed)
Sensitivity = 196 / (196 + 4) = 196/200 = 98%
Interpretation: Test catches 98 of every 100 infected people
Spécificité : Le Gardien
THE FORMULA
Specificity = TN / (TN + FP)
"Of all the healthy, how many did we spare?"

Worked Example: Same COVID PCR Test

Given: 1000 uninfected people tested
TN = 999 (correctly negative), FP = 1 (false alarm)
Specificity = 999 / (999 + 1) = 999/1000 = 99.9%
Interpretation: Test correctly clears 999 of every 1000 healthy people
Les règles de la mémoire

When to Use Which Test

De quoi avez-vous besoin?
RULE OUT disease
Use HIGH SENSITIVITY
SnNoutSensitive Negative = OUT
RULE IN disease
Use HIGH SPECIFICITY
SpPinSpecific Positive = IN
"La sensibilité attrape les malades.
La spécificité épargne le bien.
But no test masters both perfectly—
c'est le fardeau que nous portons.
==================== MODULE 6 : L'erreur du taux de base ====================
N'as-tu pas vu le médecin
who saw 99% accurate
and believed a positive result meant 99% certainty?

C’est l’erreur la plus meurtrière en médecine.
L’erreur du taux de base
THE PUZZLE
A disease affects 1 in 1000 people.
Un test est sensible à 99 % et spécifique à 99 %.
A patient tests positive.

Quelle est la probabilité qu’ils soient atteints de la maladie ?

Most doctors say ~99%. La vraie réponse est d'environ 9 %.
Les mathématiques révélées

Testing 100,000 People (Prevalence 1/1000)

Step 1: 100 have disease, 99,900 healthy
Step 2: Of 100 sick: 99 test positive (TP), 1 negative (FN)
Step 3: Of 99,900 healthy: 999 test positive (FP), 98,901 negative (TN)
Step 4: Total positives = 99 + 999 = 1,098
PPV = TP / All Positives = 99 / 1,098 = 9%
91% des résultats positifs sont des FAUX POSITIFS !
Interactive Base Rate Calculator

See How Prevalence Changes PPV

Prevalence:
1%
Sensitivity:
99%
Specificity:
99%
9%
Positive Predictive Value (PPV)
91 % des positifs sont de fausses alarmes
L'arbre décisionnel de prévalence

Same Test, Different Settings

Test: 99% Sens, 99% Spec
Where Is Testing Done?
General Pop
0.1%
PPV = 9%91% false +
High-Risk
10%
PPV = 92%8% false +
Confirmatory
50%
PPV = 99%1% false +
"Et le médecin a dit 'précis à 99%'
et le patient a entendu 'certain à 99%'
et tous deux ont été trompés—
car ils ont oublié de demander : comme c'est rare maladie?"
Vous n'avez pas entendu parler de la machine
that could find TB in two hours,
cela s'appelait revolutionary
mais j'ai raté le drug-resistant strains?
L'histoire de GeneXpert, Afrique du Sud
CAPE TOWN, 2010
Pendant un siècle, le diagnostic de la tuberculose a nécessité la croissance de bactéries pendant des semaines. Puis vint GeneXpert : les résultats 2 hours.

South Africa deployed it nationwide. The WHO endorsed it.

Mais chez les patients avec low bacterial loads—often HIV co-infected— sensitivity dropped to 67%. One in three cases missed.

Et pour détecter la résistance à la rifampicine, il a manqué 5% de cas résistants. Ces patients ont reçu le mauvais traitement. La tuberculose résistante s’est propagée.
Steingart KR et al. Cochrane Database Syst Rev. 2014;1:CD009593
TB Diagnosis Decision Tree

Quand GeneXpert ne suffit pas

Suspected TB Patient
GeneXpert Test
Positive
Rifampicin?
SensitiveStandard Tx
ResistantMDR-TB Tx
Negative
HIV+ or High Suspicion?
YesCulture needed
NoLikely negative
Sensitivity by Patient Type
98%
Smear-positive
(high bacterial load)
67%
Smear-negative
(low bacterial load)
61%
HIV co-infected
(immune suppressed)
THE LESSON
La sensibilité d'un test dans les essais cliniques peut ne pas correspondre à sa sensibilité chez vos patients. Connaissez votre population.
"Et la machine a dit 'négatif',
et le médecin a cru à la machine,
et le patient est rentré chez lui avec une tuberculose dans les poumons,
résistance à la toux dans le monde.
==================== MODULE 8 : CONTROVERSE SUR LE PSA =====================
N'avez-vous pas entendu parler du test pour les hommes
qui a détecté des cancers qui aurait never kill,
et a conduit à des traitements qui destroyed lives?
La tragédie du dépistage du PSA
UNITED STATES, 1990s-2010s
PSA (Prostate-Specific Antigen) could detect prostate cancer early.

Les médecins ont dépisté des millions d'hommes. Des cancers ont été découverts. Les prostates ont été retirées.

Mais bon nombre de ces « cancers » n’auraient jamais provoqué de symptômes. L'intervention chirurgicale a causé impuissance et incontinence in men who would have died of old age, not cancer.
Moyer VA. Ann Intern Med. 2012;157:120-134
Le dilemme du dépistage du PSA : 2012
Un homme de 60 ans interroge son médecin au sujet du dépistage du PSA. Le PSA au seuil de 4,0 ng/mL a une sensibilité d'environ 21 % pour les cancers de haut grade, mais détecte de nombreux cancers indolents.
PATH A: Screen All Men
Dépistage de routine du PSA pour tous les hommes de plus de 50 ans
Pour 1 000 personnes dépistées sur 13 ans : 1 à 2 décès évités, mais plus de 100 fausses alarmes et 30 à 40 hommes rendus impuissants ou incontinents à cause du traitement de cancers indolents
OUTCOME: Net harm exceeds benefit at population level
PATH B: Shared Decision-Making
Discutez des inconvénients et des avantages ; individualiser en fonction des facteurs de risque, de l'espérance de vie et des valeurs du patient
High-risk men can choose screening; low-risk men can decline; active surveillance replaces immediate surgery for low-grade findings
OUTCOME: Fewer unnecessary treatments; patient autonomy preserved
THE REVELATION
Un test avec des taux de détection élevés peut causer plus de mal que de bien lorsqu'il détecte des conditions qui n'ont pas besoin d'être détectées. Le surdiagnostic est le coût caché d'une sensibilité élevée dans les maladies indolentes.
Les chiffres des préjudices
1
Vies sauvées grâce au
prostate cancer
per 1000 screened
30-40
Men made impotent
or incontinent
per 1000 screened
100+
False positives
(biopsies, anxiety)
per 1000 screened
THE REVERSAL
In 2012, the US Preventive Services Task Force recommended against dépistage de routine du PSA. Le test révélait trop de choses qui n'avaient pas besoin d'être trouvées.
Patient Decision Aid: PSA Screening

Si 1 000 hommes âgés de 55 à 69 ans sont dépistés pendant 13 ans

Deaths from prostate cancer prevented
1-2 men
Men who will have false positive requiring biopsy
100-120 men
Hommes diagnostiqués avec un cancer qui ne leur ferait jamais de mal
20-50 men
Men left impotent or incontinent from treatment
30-40 men
Ce compromis est-il acceptable pour vous ?
"Et le test a trouvé l'ombre,
et le chirurgien coupé,
et l'homme a vécu - impuissant, incontinent -
d'un cancer qui ne se serait jamais réveillé. ====================
================== MODULE 9 : TROPONINE ET CRISES CARDIAQUES ====================
N'avez-vous pas entendu parler de l'homme souffrant de douleurs thoraciques
dont la première troponine était normal,
qui a été renvoyé chez lui—
et est décédé avant matin ?
Le problème du timing de la troponine
EMERGENCY DEPARTMENTS WORLDWIDE
La troponine est la référence en matière de diagnostic de crise cardiaque. Mais il faut 3-6 hours to rise after myocardial injury.

A patient arrives one hour after chest pain begins. Troponin is tested: normal. "You're fine. Go home."

Le cœur était en train de mourir. La protéine n'avait pas encore fui.

Studies show 2-5% of MI patients sent home from ED die within 30 days.
Pope JH et al. N Engl J Med. 2000;342:1163-1170
Serial Testing Decision Tree

Le protocole à deux troponines

Chest Pain Patient
First Troponin
Elevated
Treat as MI
Normal
When Did Pain Start?
<6 hrs
Wait 3 hrsRepeat troponin
>6 hrs
Low riskConsider d/c
High-Sensitivity Troponin
~70%
Conventional troponin
sensitivity at 0 hrs
~95%
hs-Troponin
sensitivity at 0 hrs
99%
hs-Troponin
at 3 hrs serial
THE TRADE-OFF
High-sensitivity troponin catches more heart attacks early. But it also has more false positives—elevated in kidney disease, heart failure, sepsis, and marathon runners.
"Et le test disait 'normal',
car le cœur venait juste de commencer à mourir.
Et le patient était rassuré,
and went home to finish dying."
==================== MODULE 10 : RATIOS DE PROBABILITÉ ====================
La spécificité décrit le test.
Mais le patient demande :

Le Fagan Nomogramme
"I tested positive. What are MY chances?"

Que se passe-t-il si la sensibilité publiée d'un test est supérieure à la vérité et que les rapports de vraisemblance que vous calculez sont donc erronés ?

REAL DATA

Rapid strep tests (RADT) showed pooled sensitivity of approximately 86% dans des études publiées incluses dans des revues Cochrane. Cependant, les soumissions réglementaires 510(k) de la FDA, qui incluent des données non publiées du fabricant, ont révélé des estimations de sensibilité de seulement 70-75%. Les études publiées avec une sensibilité plus élevée étaient plus susceptibles d'être soumises pour publication - un cas classique de biais de publication gonflant l'exactitude apparente.

The Rapid Strep Test Publication Gap
Un clinicien calcule LR+ à partir des données publiées (sensibilité 86 %, spécificité 95 %) pour décider s'il convient de traiter le mal de gorge d'un enfant. Mais la sensibilité réelle pourrait n'être que de 70 %.
PATH A: Trust Published Meta-Analysis
Utiliser LR+ à partir des données publiées (86/5 = 17,2)
Une LR+ surestimée conduit à un excès de confiance dans un résultat négatif ; les enfants atteints de streptocoque sont renvoyés chez eux sans antibiotiques
OUTCOME: Missed strep leads to rheumatic fever risk
CHEMIN B : Rechercher des données réglementaires
Utilisez LR+ à partir des soumissions de la FDA (70/5 = 14) et notez que LR- est pire (0,32 contre 0,15)
Recognize a negative RADT cannot confidently exclude strep; back up with throat culture when clinical suspicion is high
OUTCOME: Appropriate caution protects children
THE REVELATION
Les rapports de vraisemblance sont aussi honnêtes que la sensibilité et la spécificité qui les produisent. Le biais de publication gonfle l’exactitude, rendant LR+ trop optimiste et LR- trop rassurant. Demandez-vous toujours : des études inédites manquent-elles ?
Likelihood Ratios
POSITIVE LIKELIHOOD RATIO
LR+ = Sensitivity / (1 - Specificity)
How much more likely is a + result in sick vs healthy?
NEGATIVE LIKELIHOOD RATIO
LR- = (1 - Sensitivity) / Specificity
How much more likely is a - result in sick vs healthy?
De la probabilité pré-test à la probabilité post-test

Quelle est la puissance de ce test ?

Pre-Test
Probability
99%
50%
20%
5%
1%
Likelihood
Ratio
100
10
1
0.1
0.01
Post-Test
Probability
99%
80%
50%
20%
1%
Draw a line from pre-test through LR to find post-test probability
Interpreting Likelihood Ratios

"La sensibilité raconte les malades.

LR+ Value?
LR+ > 10Strong rule-in
5-10Moderate
2-5Weak
1-2Useless
LR- Value?
< 0.1Strong rule-out
0.1-0.2Moderate
0.2-0.5Weak
0.5-1Useless
La spécificité raconte les malades.
bien.
But the likelihood ratio answers:
Que signifie ce résultat pour CE patient ?"
==================== MODULE 11 : TDR DU PALUDISME ====================
N'avez-vous pas vu l'enfant qui avait de la fièvre dans le village,
le test rapide qui a dit negative,
and the Plasmodium qui ne cessait de se multiplier ?
Le problème du RDT contre le paludisme
SUB-SAHARAN AFRICA
Malaria kills 600,000 people yearly, mostly children under 5.

Rapid Diagnostic Tests were meant to guide treatment in remote areas without microscopes or laboratories.

But when parasitemia is low—le RDT manque des cas. And when P. falciparum supprime le gène HRP2— the RDT sees nothing at all.
WHO. Malaria RDT Performance. 2022
La décision clinique Arbre

Child with Fever in Malaria-Endemic Area

Febrile Child
Perform RDT
RDT Positive
Traitement contre le paludisme
RDT Negative
Clinical Suspicion?
High
Treat Anywayor Microscopy
Low
Look forOther Cause
Sensitivity Varies by Parasitemia
95%
High parasitemia
(>200/μL)
75%
Low parasitemia
(100-200/μL)
50%
Very low
(<100/μL)
LA LEÇON CLINIQUE
A negative RDT does not rule out malaria in endemic areas. Clinical judgment must override the test when suspicion is high.
"Et le test disait 'négatif',
et l'enfant a été renvoyé chez lui,
et les parasites se multipliaient dans le noir,
et le matin, l'enfant ne pouvait pas se réveiller.
==================== MODULE 12 : TESTS RAPIDES COVID ====================
L'année de la peste,
le monde avait besoin d'un test qui soit fast.

Mais rapide n'est pas la même chose que accurate.

Lorsqu’une nouvelle génération de tests arrive avec une sensibilité plus élevée, cela la rend-elle automatiquement meilleure ?

REAL DATA

Les tests de troponine haute sensibilité (hs-cTn) ont augmenté la sensibilité de l'infarctus aigu du myocarde d'environ 70% (troponine conventionnelle lors de la présentation) à plus 95%. But specificity dropped from approximately 95% to around 80% car le hs-cTn détecte les lésions myocardiques dues à de nombreuses causes autres que l'IM (insuffisance cardiaque, septicémie, maladie rénale, embolie pulmonaire). L’effet clinique net a nécessité une modélisation HSROC dans plusieurs études pour comprendre le compromis.

Le changement de génération de troponine : années 2010
An emergency department adopts hs-troponin. More patients now test positive, but many do not have acute MI.
PATH A: Adopt Based on Sensitivity Alone
Célébrez le fait que la détection de l'IM est passée de 70 % à plus de 95 %
Un plus grand nombre de faux positifs entraînent des cathétérismes inutiles, des hospitalisations et une anxiété des patients due à des élévations de troponine non cardiaques.
OUTCOME: Overdiagnosis and wasted resources
CHEMIN B : Modéliser le compromis
Use serial measurements (0h/1h or 0h/3h protocols) and clinical context to maintain specificity
Rapid rule-out algorithms safely discharge low-risk patients; sensitivity remains high while managing the false positive rate
OUTCOME: Faster, safer triage of chest pain
THE REVELATION
La sensibilité et la spécificité s’affrontent. Une nouvelle génération de tests qui augmente la sensibilité réduira souvent la spécificité. La courbe HSROC est l’outil qui révèle si le compromis net aide ou nuit aux patients.
Le verdict Cochrane

COVID-19 Rapid Antigen Tests (Dinnes 2022 Cochrane Review)

PopulationSensitivityMissed
Symptomatic73%27%
Asymptomatic55%45%
First 7 days80%20%

Dinnes J et al. Cochrane Database Syst Rev. 2022;7:CD013705

The False Security Decision Tree

Thanksgiving 2020: What Happened

Family Member Tests Negative
Truly Negative?
55% if asymptomatic
True NegativeSafe to gather
45% if asymptomatic
FALSE NegativeInfectious!
Se réunit en familleGrandparents infected
"Et le test disait 'négatif',
et la famille s'est embrassée,
et à la fin de l'hiver,
le grand-père a été enterré.
N'avez-vous pas entendu parler de la projection
qui a trouvé des cancers qui would never kill,
et a conduit à des traitements qui caused more harm than the disease?

Can you trust a DTA meta-analysis done in a spreadsheet?

REAL DATA

La méta-analyse DTA nécessite le modèle bivarié ou HSROC – les deux nécessitent une estimation du maximum de vraisemblance de la sensibilité et de la spécificité corrélées sur l’échelle logit. Des recherches ont montré que les calculs manuels sur Excel introduisent fréquemment des erreurs : une étude historique de Reinhart & Rogoff (2010, économie) a démontré comment une simple erreur dans une feuille de calcul conduisait à des changements de politique mondiale. Dans DTA, l'application manuelle des transformations logit et le regroupement séparé de la sensibilité/spécificité dans Excel ignorent la corrélation entre elles et peuvent produire des estimations groupées qui diffèrent de manière significative des modèles bivariés validés dans les logiciels (R mada/reitsma, Stata metandi, SAS NLMIXED).

L'erreur Excel QUADAS
Une équipe de recherche a besoin d’une sensibilité et d’une spécificité regroupées pour une revue systématique DTA. Ils ont 12 études. Un membre de l'équipe crée un modèle Excel ; un autre utilise le package mada de R.
CHEMIN A : Utiliser la feuille de calcul
Pool sensitivity and specificity separately in Excel using simple averages or fixed-effect formulas
Ignore la corrélation entre sensibilité et spécificité ; composé d'erreurs de transformation logit ; sensibilité groupée réduite d'environ 12 points de pourcentage
OUTCOME: Wrong numbers published; clinical guidelines misled
PATH B: Use Validated Software
Utilisez R (mada/reitsma), Stata (metandi) ou SAS (NLMIXED) avec le modèle bivarié
Un GLMM bivarié approprié tient compte du compromis sensibilité-spécificité, produit des régions de confiance valides et gère l'hétérogénéité entre les études
OUTCOME: Reproducible, auditable, correct results
THE REVELATION
La méta-analyse DTA n’est pas une simple mise en commun. La nature bivariée des données (sensibilité et spécificité appariées) nécessite un logiciel statistique spécialisé. Une erreur dans une feuille de calcul n’est pas seulement un inconvénient : elle peut modifier la pratique clinique.
Le problème du surdiagnostic
3-4
Lives saved
per 10,000 screened
50-130
Overdiagnosed
(treated unnecessarily)
~500
False alarms
(anxiety, biopsies)
THE QUESTION
Pour sauver 3 à 4 vies, on estime que 50 à 130 femmes subissent une intervention chirurgicale, une radiothérapie ou une chimiothérapie pour des cancers qui ne leur auraient jamais fait de mal.

Ce compromis en vaut-il la peine ?
Patient Decision Aid: Mammography

Si 10 000 femmes âgées de 50 à 69 ans sont dépistées pendant 10 ans

Deaths from breast cancer prevented
3-4 women
Women called back for false alarms
~500 women
Unnecessary biopsies
~200 women
Femmes traitées pour un cancer qui ne leur ferait jamais de mal
~15 women
Le dépistage vous convient-il ?
The Screening Cascade Decision Tree

10 000 femmes dépistées sur 10 ans

10,000 Women
~1,000 RecalledAbnormal
~500 False
Alarm
~500 Biopsy
~50 cancer
~9,000 Cleared
Of ~50 Cancers Found
~35 Would Kill3-4 saved
~15 Would Never KillOverdiagnosed
"Et le test a trouvé l'ombre,
et je l'ai appelé cancer,
et la femme fut coupée et brûlée.
pour une ombre qui ne l'aurait jamais obscurcie jours."
===================== MODULE 14 : AMYLOÏDE D'ALZHEIMER ====================
N'avez-vous pas entendu parler de l'analyse
qui trouve les plaques dans le cerveau,
mais ne peut pas vous le dire
si l'esprit sera fade?
Le paradoxe amyloïde
ALZHEIMER'S RESEARCH, 2010s-2020s
PET scans can now detect amyloid plaques—the hallmark of Alzheimer's.

But 30% of cognitively normal elderly have amyloid plaques. They may never develop dementia.

And 10 à 20 % des personnes atteintes de démence have no amyloid.

Le test détecte les plaques Mais les plaques ne sont pas la maladie. Nous testons un substitut, pas la maladie. résultat.
Jack CR et al. Lancet Neurol. 2018;17:760-773
Surrogate vs. Outcome Decision Tree

Que testons-nous réellement ?

Diagnostic Test
What Does It Detect?
Outcome itself
Direct Diagnosispar exemple, biopsie pour le cancer
High clinical value
Surrogate marker
Indirect Signalpar exemple, amyloïde pour la démence
Validated link?
YesUse cautiously
NoLimited value
"Et l'analyse a trouvé le plaques,
et le médecin l'a nommé Alzheimer,
et le patient vivait dans la terreur—
of a forgetting that might never come."
==================== MODULE 15 : QUALITÉ QUADAS-2 ====================
Toutes les études ne sont pas créées égales.

Some are biased.
Some are poorly designed.
Certaines ne devraient pas l'être trusted.

Comment séparer le bon grain de l'ivraie ?

Et si la plupart des études DTA ne rapportent même pas suffisamment d’informations pour juger de leur qualité ?

REAL DATA

Avant la publication de l’initiative STARD en 2003, une évaluation systématique révélait que moins de half des études DTA ont indiqué si l'interprétation des tests index était en aveugle et les descriptions des normes de référence étaient souvent inadéquates. Après STARD, les rapports se sont améliorés : plusieurs évaluations méta-épidémiologiques ont révélé que l'adhésion aux éléments STARD a augmenté considérablement, même si de nombreuses études n'étaient toujours pas à la hauteur sur des éléments clés tels que les diagrammes de flux et la gestion des résultats indéterminés.

La révolution STARD : 2003
Une équipe termine une étude DTA sur un nouveau test au point de service. Ils ont hâte de publier rapidement. Ils disposent des données 2x2 mais n'ont pas documenté la mise en aveugle, le flux des patients ou les résultats indéterminés.
PATH A: Publish Quickly
Soumettre sans diagramme de flux STARD ni rapport complet des méthodes
Les lecteurs ne peuvent pas évaluer la mise en aveugle, le spectre des patients ou la vérification. L'évaluation QUADAS-2 classe chaque domaine comme « peu clair ». L'étude peut être exclue des futures revues systématiques ou, pire, incluse avec un poids gonflé.
OUTCOME: Waste of research; uninterpretable results
PATH B: Follow STARD Guidelines
Remplissez la liste de contrôle STARD, créez un diagramme de flux de patients, signalez des résultats indéterminés et décrivez la mise en aveugle
Les évaluateurs peuvent évaluer pleinement la qualité. Les domaines QUADAS-2 sont responsables. L'étude contribue de manière significative aux revues systématiques et aux directives cliniques.
RÉSULTAT : Des preuves fiables qui font progresser les soins
THE REVELATION
Vous ne pouvez pas évaluer la qualité si l'étude ne rend pas compte de ses méthodes. STARD garantit que les études DTA sont suffisamment complètes pour être jugées par QUADAS-2. Les rapports incomplets ne sont pas neutres : ils cachent des biais.
QUADAS-2 : La liste de contrôle de la qualité

Four Domains of Risk of Bias

1
Patient Selection

Un échantillon consécutif ou aléatoire a-t-il été inscrit ? Un plan cas-témoins a-t-il été évité ?

2
Index Test

Le test a-t-il été interprété sans connaissance de la norme de référence ? Le seuil a-t-il été pré-spécifié ?

3
Reference Standard

La norme de référence est-elle susceptible de classer correctement la condition ? A-t-il été interprété à l'aveugle ?

4
Débit et timing

Y avait-il un intervalle approprié entre les tests ? Tous les patients ont-ils reçu le même standard de référence ?

QUADAS-2 Decision Tree

Devriez-vous faire confiance à cette étude ?

DTA Study
Check All 4 Domains
All Low Risk
High QualityTrust results
Some Unclear
ModerateÀ utiliser avec prudence
Any High Risk
Low QualityLes résultats peuvent être biaisés
Biais courants dans les DTA Études
!

Verification Bias

Only positive tests get the reference standard → inflates sensitivity

!

Spectrum Bias

La population étudiée diffère de la réalité clinique → les résultats ne se généralisent pas

!

Incorporation Bias

Index test is part of reference standard → artificially high accuracy

!

Review Bias

Index test interpreted knowing reference result → inflates both metrics

"Avant de vous fier aux chiffres,
ask: How were they gathered?
Une étude biaisée parle avec confiance—
but its confidence is a lie."
==================== MODULE 16 : MÉTA-ANALYSE & SROC ====================
Une étude peut être trompeuse.
Une étude peut flatter.

Mais lorsque vous rassemblez toutes les preuves
the truth becomes harder to hide.

Que se passe-t-il lorsque différentes études utilisent des seuils différents pour le même test et que vous essayez de les regrouper ?

REAL DATA

D-dimer testing for pulmonary embolism (PE) traditionally used a fixed cutoff of 500 µg/L. L'essai ADJUST-PE (Righini et al., JAMA 2014) a montré qu'un seuil ajusté en fonction de l'âge (age × 10 µg/L pour les patients de plus de 50 ans) augmentait la proportion de patients âgés présentant des résultats négatifs pour les D-dimères ~6% to ~30%, avec un risque de TEV à 3 mois de seulement 0,3 % dans le groupe négatif ajusté en fonction de l'âge. Une méta-analyse DTA des études sur les D-dimères doit utiliser le modèle bivarié car différents seuils créent un compromis sensibilité-spécificité visible sur la courbe SROC.

The D-dimer Threshold Dilemma: ADJUST-PE 2014
Un patient âgé (75 ans) se présente aux urgences avec une possible EP. Les D-dimères sont de 620 µg/L. En utilisant le seuil fixe, c’est positif. En utilisant le seuil ajusté selon l'âge (750 µg/L), cela est négatif.
PATH A: Use Fixed Cutoff (500 µg/L)
Apply one threshold to all patients regardless of age
Les patients âgés dépassent presque toujours 500 µg/L. La spécificité tombe en dessous de 10 % chez les personnes de plus de 80 ans. Presque tous les patients âgés subissent une angiographie pulmonaire par tomodensitométrie, avec produit de contraste, radiothérapie et découvertes fortuites.
OUTCOME: D-dimer becomes useless in the elderly
PATH B: Use Bivariate Model with Threshold Covariate
Appliquez le seuil ajusté en fonction de l'âge ; variation du seuil du modèle dans la méta-analyse
La courbe SROC montre que les seuils ajustés en fonction de l'âge se déplacent le long de la courbe, échangeant une petite quantité de sensibilité contre un gain important de spécificité. 30 % de patients âgés supplémentaires évitent en toute sécurité l'imagerie CT.
OUTCOME: Fewer unnecessary scans; no missed PEs
THE REVELATION
La variation du seuil est la raison pour laquelle la méta-analyse DTA a besoin du modèle bivarié. Différentes études utilisent des seuils différents, créant un compromis entre sensibilité et spécificité. La courbe SROC est la carte de ce compromis.
Why DTA Meta-Analysis Is Different
THE PROBLEM
La sensibilité et la spécificité sont correlated. When one goes up, the other tends to go down.

Vous ne pouvez pas les regrouper séparément comme les effets d’un traitement. Vous avez besoin du bivariate model.
La courbe SROC

Summary Receiver Operating Characteristic

Sensitivity
1 - Specificity (False Positive Rate)
Individual studies
Summary estimate
Lecture du SROC

Que vous dit la courbe ?

SROC Curve Position
Top-Left Corner
Excellent TestHigh sens + spec
Near Diagonal
Useless TestNo better than chance
Points Scattered
High HeterogeneityInvestigate sources
"Une étude peut être trompeuse.
De nombreuses études, pesées ensemble,
tracez le chemin de la vérité—
la courbe SROC qui révèle ce que le test peut réellement faire.
Mais et si les études disagree?

One says sensitivity is 95%.
Another says 60%.

À quelle vérité croyez-vous ?

Que se passe-t-il si un test fonctionne bien dans la population générale mais échoue chez les patients qui en ont le plus besoin ?

REAL DATA

HRP2-based malaria rapid diagnostic tests (RDTs) achieve sensitivity of approximately 95% in the general population in endemic areas. However, in pregnant women, sensitivity can drop to as low as 56-76% en raison de la séquestration placentaire des parasites : les parasites se cachent dans le placenta, maintenant la parasitémie du sang périphérique à un niveau bas et en dessous du seuil de détection du TDR. Une revue Cochrane des TDR du paludisme a révélé une hétérogénéité substantielle (I² dépassant souvent 80 %) en raison de sous-groupes de population, notamment la grossesse, les enfants de moins de 5 ans et la co-infection par le VIH.

Le TDR du paludisme pendant la grossesse
Une méta-analyse regroupe 25 études de TDR sur le paludisme et rapporte une sensibilité groupée de 93 %. Un clinicien d'une clinique prénatale l'utilise pour rassurer une femme enceinte avec un TDR négatif.
PATH A: Trust the Overall Pooled Estimate
Appliquer la sensibilité de 93 % de la méta-analyse de la population générale
Chez les femmes enceintes, la sensibilité réelle peut être aussi faible que 56 à 76 %. Une proportion importante de femmes enceintes infectées sont faussement rassurées. Le paludisme non traité pendant la grossesse provoque une anémie maternelle sévère, un faible poids à la naissance et une mortinatalité.
OUTCOME: Preventable maternal and neonatal deaths
PATH B: Investigate Heterogeneity by Subgroup
Effectuer une méta-analyse en sous-groupe pour les femmes enceintes ; explorer I² et les sources de variation
Découvrez que la grossesse est une source majeure d'hétérogénéité. Recommander une confirmation microscopique à toutes les femmes enceintes présentant des TDR négatifs dans les zones d'endémie.
OUTCOME: Targeted protocols save mothers and babies
THE REVELATION
L'hétérogénéité n'est pas seulement un bruit statistique. Cela indique souvent que le test fonctionne différemment selon les populations. Ignorer I² et tout regrouper peut être fatal pour les sous-groupes vulnérables.
Sources of Heterogeneity

Pourquoi les études ne sont pas d'accord

Même test, résultats différents ?
ThresholdDifferent cutoffs
PopulationSeverity, age
SettingPrimary vs specialist
QualityBias, blinding
Measuring Disagreement: I²
I² < 25%
Low
Studies agree
I² 25-75%
Moderate
Some variation
I² > 75%
High
Major disagreement
THE WARNING
When I² > 75%, the pooled estimate may be meaningless. Explain the disagreement before averaging.
"Quand les études ne sont pas d'accord,
ne faites pas taire la dissidence.
Ask: Why do they see differently?
Le désaccord lui-même est instructif. »
==================== MODULE 18 : LA TROUSSE À OUTILS ====================
Votre boîte à outils DTA
Les mesures essentielles et quand les utiliser

Quand une IA prétend diagnostiquer mieux que les médecins, devriez-vous faire confiance à l'ASC globale ?

REAL DATA

Deep learning models for skin cancer detection have reported AUC values as high as 0.91-0.94 in development datasets. However, external validation revealed alarming disparities: Daneshjou et al. (2022, Nature Medicine) a constaté que les outils dermatologiques commerciaux d'IA fonctionnaient à des niveaux proches du hasard sur une peau plus foncée (types Fitzpatrick V-VI), avec une ASC aussi faible comme 0.50-0.57 — essentiellement aléatoire. Les ensembles de données de formation étaient fortement orientés vers les tons chair plus clairs, ce qui signifie que le tableau 2x2 n'a jamais été correctement rempli pour toutes les populations.

La promesse de l'IA en dermatologie : années 2020
Un hôpital envisage de déployer un outil de dépistage du cancer de la peau par l'IA dans une clinique de dermatologie au service d'une population urbaine diversifiée. Le fabricant rapporte une AUC de 0,94.
PATH A: Deploy Based on Overall AUC
Faites confiance à l'AUC annoncée de 0,94 et déployez-la auprès de tous les patients
Les mélanomes sur peau plus foncée sont manqués à des taux plus élevés. Le chiffre global de sensibilité cache un écart dangereux. Les patients présentant la mortalité la plus élevée en raison d'un diagnostic tardif sont ceux pour lesquels l'IA échoue le plus.
OUTCOME: Health disparity amplified by technology
PATH B: Demand Fairness-Stratified Evaluation
Exiger une sensibilité et une spécificité ventilées par teint (échelle de Fitzpatrick), âge et emplacement de la lésion
Découvrez l'écart de performance. Exiger un recyclage sur divers ensembles de données ou restreindre l’utilisation à des populations validées. Associez l'IA à la surveillance dermatologique pour les groupes sous-représentés.
OUTCOME: Equitable deployment; no one left behind
THE REVELATION
Un seul numéro d'AUC peut cacher des disparités dangereuses. Les outils de diagnostic émergents basés sur l'IA doivent être évalués avec la même rigueur que n'importe quel test de diagnostic : stratifiés par population, validés en externe et conformes aux normes STARD et QUADAS-2.
The Checklist

Was there a valid reference standard?

Gold standard applied to ALL patients?

Les interprètes étaient-ils aveuglés ?

Test readers unaware of diagnosis?

Le spectre était-il approprié ?

Des patients similaires à votre population ?

Le seuil était-il prédéfini ?

Ou choisi pour maximiser les résultats ?

When Results Don't Match Suspicion

The Clinical Override Decision Tree

Test Negative, High Suspicion
What Is the LR-?
LR- < 0.1
Strong rule-outAccept negative
LR- 0.1-0.5
Repeat testOr different test
LR- > 0.5
Trust judgmentTest is weak
Sequential Testing Decision Tree

When One Test Isn't Enough

Initial Screening Test
Positive
Confirmatory TestHigh specificity
PositiveDiagnose
NegativeFalse alarm
Negative
Likely negativeIf high sens screen
"Armed with sensitivity, specificity, likelihood,
armé du SROC et de la mesure d’accord,
vous pouvez voir à travers le mensonge du test—
et juge par toi-même de sa vérité. »
=================== MODULE 19 : ERREURS DE TRANSFUSION SANGUINE ====================
Avoir vous n'avez pas entendu parler du patient
qui a reçu le wrong blood,
non pas parce que le test était erroné,
but because no one performed it?
Le test qui n'a pas été effectué
HOSPITALS WORLDWIDE
ABO blood typing is nearly 100% accurate when performed.

Yet transfusion reactions still kill—non pas à cause d'un échec du test, mais à cause de human failure:

• Wrong blood drawn from wrong patient
• Étiquettes insérées le laboratoire
• Bedside check skipped in emergency

In the UK, 1 in 13,000 transfusions se rend au mauvais patient. Le test a fonctionné. Le système a échoué.
Bolton-Maggs PHB. Transfus Med. 2016;26:303-311
Test vs. System Decision Tree

Where Can Things Go Wrong?

Diagnostic Process
Error Source?
Test itself
Analytical ErrorSens/Spec issue
Better test needed
Pre-analytical
Wrong sampleID error
System fix needed
Post-analytical
Wrong actionReporting error
Process fix needed
"The perfect test means nothing
si le mauvais sang est prélevé,
la mauvaise étiquette est appliquée,
le mauvais sac est appliqué. accroché."

Les études DTA mesurent la précision des tests. Ils ne mesurent pas la précision du système.

==================== MODULE 20 : QUIZ ET RÉFÉRENCES ======================
References

Key Sources

  1. Carreyrou J. Bad Blood. Knopf, 2018. [Theranos]
  2. CDC. MMWR. 1987;36(49):833-840. [HIV blood supply]
  3. Herbst AL et al. N Engl J Med. 1971;284:878-881. [DES]
  4. Moyer VA. Ann Intern Med. 2012;157:120-134. [PSA]
  5. Pope JH et al. N Engl J Med. 2000;342:1163-1170. [Troponin]
  6. Steingart KR et al. Cochrane 2014;1:CD009593. [GeneXpert]
  7. Dinnes J et al. Cochrane 2022;7:CD013705. [COVID RAT]
  8. UK Panel. Lancet. 2012;380:1778-1786. [Mammography]
  9. Jack CR et al. Lancet Neurol. 2018;17:760-773. [Amyloid]
  10. WHO. Malaria RDT Performance. 2022.
  11. Reitsma JB et al. J Clin Epidemiol. 2005;58:982-990. [Bivariate]
  12. Whiting PF et al. Ann Intern Med. 2011;155:529-536. [QUADAS-2]
  13. Bolton-Maggs PHB. Transfus Med. 2016;26:303-311.
Un test est sensible à 99 % et spécifique à 99 %. La prévalence de la maladie est de 1/1000. Un patient est testé positif. Quelle est la probabilité qu’ils soient atteints de la maladie ?
99%
90%
About 9%
50%
What does "SnNout" mean?
A highly Sensitive test, when Negative, rules OUT disease
A highly Specific test, when Negative, rules OUT disease
Sensitivity should be used for screening
Specificity should be above 90%
Pourquoi les réserves de sang ont-elles été contaminées par le VIH malgré les tests ?
The tests had low specificity
Tests had a window period with zero sensitivity in early infection
Les tests n'ont pas été effectués correctement
Les tests étaient trop chers
Quel domaine QUADAS-2 évalue si le test a été interprété sans connaître la diagnostic ?
Patient Selection
Index Test
Reference Standard
Débit et timing
Course Complete
"Vous connaissez désormais les quatre résultats,
les deux vertus d'un test,
l'erreur de la base taux,
l'art de rassembler les preuves,
et les préjugés qui cachent la vérité.

Quand le prochain test vous mentira—
vous le saurez."