DTA > The Fraud
==================== MODUL 1: DER BETRUG ====================
==================== MODUL 2: DIE VIER ERGEBNISSE ====================
==================== MODUL 3: HIV-FENSTERZEIT ====================
==================== MODUL 4: SENSITIVITÄT & SPEZIFIZITÄT ====================
==================== MODUL 5: DER BASISRATE-FALLACY ====================
==================== MODUL 6: DIE PSA-KONTROVERSE ====================
==================== MODUL 7: LIKELIHOOD-VERHÄLTNISSE ====================
==================== MODUL 8: MALARIA-RDTs ====================
==================== MODUL 9: COVID-SCHNELLTESTS ====================
==================== MODUL 13: DAS TOOLKIT ====================
==================== MODUL 14: QUIZ & REFERENZEN ====================
Haben Sie die Geschichte der Frau nicht gehört?
who promised to Verändere die Welt mit einem Tropfen Blut,
who raised billions on a test that never worked?
who promised to Verändere die Welt mit einem Tropfen Blut,
who raised billions on a test that never worked?
Palo Alto, 2003
STANFORD UNIVERSITY
Ein Neunzehnjähriger brach mit einer Vision ab: Hunderte Blutuntersuchungen aus einem einzigen Tropfen.
Investors believed. Walgreens believed. The Pentagon believed.
They gave her $9 billion.
Doch die Tests ergaben falsche Ergebnisse. Den Patienten wurde gesagt, sie hätten HIV, obwohl dies nicht der Fall war. Den Patienten wurde mitgeteilt, dass ihr Blut zu diesem Zeitpunkt normal sei dying.
Investors believed. Walgreens believed. The Pentagon believed.
They gave her $9 billion.
Doch die Tests ergaben falsche Ergebnisse. Den Patienten wurde gesagt, sie hätten HIV, obwohl dies nicht der Fall war. Den Patienten wurde mitgeteilt, dass ihr Blut zu diesem Zeitpunkt normal sei dying.
Carreyrou J. Bad Blood. 2018
Der Entscheidungsbaum der Täuschung
What Theranos Did vs. What Should Happen
New Diagnostic Test
↓
SHOULD DO
Validate Against Gold Standard
↓
Publish TP/FP/FN/TN
↓
FDA Approval
THERANOS DID
Skip Validation
↓
Hide Failures
↓
Harm Patients
„Und der Test hat gelogen,
und die Lüge wurde mit Gewissheit gekleidet,
und niemand hat nach dem 2x2-Tisch gefragt.
und die Lüge wurde mit Gewissheit gekleidet,
und niemand hat nach dem 2x2-Tisch gefragt.
Aus diesem Grund untersuchen wir die Genauigkeit diagnostischer Tests.
When a test speaks,
es gibt nur four possible truths.
Zwei sind Segen. Zwei sind Flüche.
es gibt nur four possible truths.
Zwei sind Segen. Zwei sind Flüche.
Der Baum der Ergebnisse
Every Test Result Has a Reality Behind It
Patient Tested
↓
Was ist die WAHRHEIT?
Has Disease
D+
↓
TPTest +
FNTest -
No Disease
D-
↓
FPTest +
TNTest -
Der heilige 2x2-Tisch
HIV Rapid Test Example (Real Data)
| HIV+ | HIV- | Total | |
|---|---|---|---|
| Test + | 98 | 3 | 101 |
| Test - | 2 | 895 | 897 |
| Total | 100 | 898 | 998 |
AUS DIESER TABELLE KOMMT ALLE WAHRHEIT
Sensitivity = 98/100 = 98%
Specificity = 895/898 = 99.7%
Specificity = 895/898 = 99.7%
"Two outcomes save. Two outcomes harm.
TP, TN: Der Test hat die Wahrheit gesagt.
FP, FN: Der Test hat gelogen.
Know them by name, for they determine fate."
TP, TN: Der Test hat die Wahrheit gesagt.
FP, FN: Der Test hat gelogen.
Know them by name, for they determine fate."
Haben Sie noch nichts von dem untersuchten Blut gehört?
found clean,
und an Tausende gegeben –
while death swam within it?
found clean,
und an Tausende gegeben –
while death swam within it?
Die Blutversorgungskrise, 1985
UNITED STATES
When HIV testing began, doctors celebrated: they could now screen the blood supply.
Aber der Test hatte eine window period– Wochen nach der Infektion, als das Virus vorhanden war, aber undetectable.
Blut wurde getestet. Das Blut war „negativ“. Es wurde Blut transfundiert.
8,000-12,000 Americans wurden durch Transfusionen infiziert, bevor bessere Tests das Fenster schlossen.
Aber der Test hatte eine window period– Wochen nach der Infektion, als das Virus vorhanden war, aber undetectable.
Blut wurde getestet. Das Blut war „negativ“. Es wurde Blut transfundiert.
8,000-12,000 Americans wurden durch Transfusionen infiziert, bevor bessere Tests das Fenster schlossen.
CDC. MMWR. 1987;36(49):833-840
The Window Period Decision Tree
Why False Negatives Are Deadly
Person Recently Infected
↓
Time Since Infection?
< 2 weeks
Test NEGATIVEVirus present!
↓
Blood DonatedOthers infected
> 4 weeks
Test POSITIVECorrectly detected
↓
Blood DiscardedSupply safe
Die Empfindlichkeit ändert sich im Laufe der Zeit
0%
Day 1-7
Eclipse period
Eclipse period
~50%
Day 14
Seroconversion
Seroconversion
~95%
Day 21
Most detected
Most detected
99.9%
Day 45+
Window closed
Window closed
THE LESSON
Die Empfindlichkeit ist nicht festgelegt. It depends on when you test.
A "99% sensitive" test may be 0% sensitive in early infection.
„Und der Test sagte ‚sauber‘,
denn das Virus hatte sein Gesicht noch nicht gezeigt.
Und das Blut wurde geteilt,
und die Infektion breitete sich auf Unschuldige aus.“
denn das Virus hatte sein Gesicht noch nicht gezeigt.
Und das Blut wurde geteilt,
und die Infektion breitete sich auf Unschuldige aus.“
A test has two virtues and two vices.
Sensitivity: Kann es die Kranken finden?
Specificity: Kann es die Gesunden verschonen?
Sensitivity: Kann es die Kranken finden?
Specificity: Kann es die Gesunden verschonen?
Sensibilität: Der Jäger
THE FORMULA
Sensitivity = TP / (TP + FN)
"Of all the sick, how many did we catch?"
Worked Example: COVID PCR Test
Given: 200 infected patients tested
TP = 196 (correctly positive), FN = 4 (missed)
Sensitivity = 196 / (196 + 4) = 196/200 = 98%
Interpretation: Test catches 98 of every 100 infected people
Besonderheit: Der Wächter
THE FORMULA
Specificity = TN / (TN + FP)
"Of all the healthy, how many did we spare?"
Worked Example: Same COVID PCR Test
Given: 1000 uninfected people tested
TN = 999 (correctly negative), FP = 1 (false alarm)
Specificity = 999 / (999 + 1) = 999/1000 = 99.9%
Interpretation: Test correctly clears 999 of every 1000 healthy people
Die Gedächtnisregeln
When to Use Which Test
Was brauchen Sie?
RULE OUT disease
Use HIGH SENSITIVITY
↓
SnNoutSensitive Negative = OUT
RULE IN disease
Use HIGH SPECIFICITY
↓
SpPinSpecific Positive = IN
„Sensibilität fängt die Kranken ein.
Spezifität schont den Brunnen.
But no test masters both perfectly—
Das ist die Last, die wir tragen.“
Spezifität schont den Brunnen.
But no test masters both perfectly—
Das ist die Last, die wir tragen.“
Haben Sie den Arzt nicht gesehen?
who saw 99% accurate
and believed a positive result meant 99% certainty?
Dies ist der tödlichste Fehler in der Medizin.
who saw 99% accurate
and believed a positive result meant 99% certainty?
Dies ist der tödlichste Fehler in der Medizin.
Der Basiszins-Irrtum
THE PUZZLE
A disease affects 1 in 1000 people.
Ein Test ist zu 99 % empfindlich und zu 99 % spezifisch.
A patient tests positive.
Wie hoch ist die Wahrscheinlichkeit, dass sie an der Krankheit leiden?
Most doctors say ~99%. Die tatsächliche Antwort liegt bei etwa 9 %.
Ein Test ist zu 99 % empfindlich und zu 99 % spezifisch.
A patient tests positive.
Wie hoch ist die Wahrscheinlichkeit, dass sie an der Krankheit leiden?
Most doctors say ~99%. Die tatsächliche Antwort liegt bei etwa 9 %.
Die Mathematik enthüllt
Testing 100,000 People (Prevalence 1/1000)
Step 1: 100 have disease, 99,900 healthy
Step 2: Of 100 sick: 99 test positive (TP), 1 negative (FN)
Step 3: Of 99,900 healthy: 999 test positive (FP), 98,901 negative (TN)
Step 4: Total positives = 99 + 999 = 1,098
PPV = TP / All Positives = 99 / 1,098 = 9%
91 % der positiven Ergebnisse sind FALSCH-POSITIVE!
Der Entscheidungsbaum der Prävalenz
Same Test, Different Settings
Test: 99% Sens, 99% Spec
↓
Where Is Testing Done?
General Population
Prevalence 0.1%
Prevalence 0.1%
PPV = 9%91% false positives!
High-Risk Clinic
Prevalence 10%
Prevalence 10%
PPV = 92%8% false positives
Confirmatory Test
Prevalence 50%
Prevalence 50%
PPV = 99%1% false positives
„Und der Arzt sagte ‚zu 99 % zutreffend‘“
und der Patient hörte „99 % sicher“
und beide wurden getäuscht –
denn sie haben vergessen zu fragen: Wie selten ist diese Krankheit?“
und der Patient hörte „99 % sicher“
und beide wurden getäuscht –
denn sie haben vergessen zu fragen: Wie selten ist diese Krankheit?“
Haben Sie noch nie von dem Test für Männer gehört?
das fand Krebsarten, die das tun würden never kill,
und führte zu Behandlungen, die destroyed lives?
das fand Krebsarten, die das tun würden never kill,
und führte zu Behandlungen, die destroyed lives?
Die PSA-Screening-Tragödie
UNITED STATES, 1990s-2010s
PSA (Prostate-Specific Antigen) could detect prostate cancer early.
Ärzte untersuchten Millionen Männer. Es wurden Krebserkrankungen gefunden. Prostata wurde entfernt.
Aber viele dieser „Krebsarten“ hätten nie Symptome verursacht. Die Operation verursacht Impotenz und Inkontinenz in men who would have died of old age, not cancer.
Ärzte untersuchten Millionen Männer. Es wurden Krebserkrankungen gefunden. Prostata wurde entfernt.
Aber viele dieser „Krebsarten“ hätten nie Symptome verursacht. Die Operation verursacht Impotenz und Inkontinenz in men who would have died of old age, not cancer.
Moyer VA. Ann Intern Med. 2012;157:120-134
Die Zahlen des Schadens
1
Leben gerettet
prostate cancer
per 1000 screened
prostate cancer
per 1000 screened
30-40
Men made impotent
or incontinent
per 1000 screened
or incontinent
per 1000 screened
100+
False positives
(biopsies, anxiety)
per 1000 screened
(biopsies, anxiety)
per 1000 screened
THE REVERSAL
In 2012, the US Preventive Services Task Force recommended against
routinemäßiges PSA-Screening. Der Test ergab zu viel, was nicht gefunden werden musste.
Der Screening-Entscheidungsbaum
Die unbeabsichtigten Folgen des Screenings
1000 Men Screened
↓
~120 Positive PSA
↓
~30 Biopsies Show Cancer
↓
~25 Would Never
Have Harmed
Have Harmed
~5 Truly
Aggressive
Aggressive
~880 Negative PSA
↓
Reassured(But ~3 have aggressive cancer missed)
„Und der Test fand den Schatten,
und der Chirurg schnitt,
und der Mann lebte – machtlos, inkontinent –
von einem Krebs, der niemals aufgewacht wäre.
und der Chirurg schnitt,
und der Mann lebte – machtlos, inkontinent –
von einem Krebs, der niemals aufgewacht wäre.
Die Empfindlichkeit beschreibt den Test.
Spezifität beschreibt den Test.
Aber der Patient fragt:
"I tested positive. What are MY chances?"
Spezifität beschreibt den Test.
Aber der Patient fragt:
"I tested positive. What are MY chances?"
Likelihood Ratios
POSITIVE LIKELIHOOD RATIO
LR+ = Sensitivity / (1 - Specificity)
How much more likely is a + result in sick vs healthy?
NEGATIVE LIKELIHOOD RATIO
LR- = (1 - Sensitivity) / Specificity
How much more likely is a - result in sick vs healthy?
Das Fagan-Nomogramm
Von der Wahrscheinlichkeit vor dem Test zur Wahrscheinlichkeit nach dem Test
Pre-Test
Probability
Probability
99%
50%
20%
5%
1%
Likelihood
Ratio
Ratio
100
10
1
0.1
0.01
Post-Test
Probability
Probability
99%
80%
50%
20%
1%
Draw a line from pre-test through LR to find post-test probability
Interpreting Likelihood Ratios
Wie wirkungsvoll ist dieser Test?
What Is the LR+?
LR+ > 10Strong rule-in
LR+ 5-10Moderate
LR+ 2-5Weak
LR+ 1-2Useless
What Is the LR-?
LR- < 0.1Strong rule-out
LR- 0.1-0.2Moderate
LR- 0.2-0.5Weak
LR- 0.5-1Useless
„Sensibilität erzählt von den Kranken.
Spezifität erzählt vom Brunnen.
But the likelihood ratio answers:
Was bedeutet dieses Ergebnis für DIESEN Patienten?"
Spezifität erzählt vom Brunnen.
But the likelihood ratio answers:
Was bedeutet dieses Ergebnis für DIESEN Patienten?"
Hast du nicht das Kind mit Fieber im Dorf gesehen?
der Schnelltest, der besagte negative,
and the Plasmodium das hat sich immer mehr vermehrt?
der Schnelltest, der besagte negative,
and the Plasmodium das hat sich immer mehr vermehrt?
Das Malaria-RDT-Problem
SUB-SAHARAN AFRICA
Malaria kills 600,000 people yearly, mostly children under 5.
Rapid Diagnostic Tests were meant to guide treatment in remote areas without microscopes or laboratories.
But when parasitemia is low—Das RDT übersieht Fälle. And when P. falciparum löscht das HRP2-Gen – the RDT sees nothing at all.
Rapid Diagnostic Tests were meant to guide treatment in remote areas without microscopes or laboratories.
But when parasitemia is low—Das RDT übersieht Fälle. And when P. falciparum löscht das HRP2-Gen – the RDT sees nothing at all.
WHO. Malaria RDT Performance. 2022
Der klinische Entscheidungsbaum
Child with Fever in Malaria-Endemic Area
Febrile Child
↓
Perform RDT
↓
RDT Positive
↓
Behandlung gegen Malaria
RDT Negative
↓
Clinical Suspicion?
High
Treat Anyway
or Microscopy
or Microscopy
Low
Look for
Other Cause
Other Cause
Sensitivity Varies by Parasitemia
95%
High parasitemia
(>200/μL)
(>200/μL)
75%
Low parasitemia
(100-200/μL)
(100-200/μL)
50%
Very low
(<100/μL)
(<100/μL)
DIE KLINISCHE LEKTION
A negative RDT does not rule out malaria in endemic areas.
Clinical judgment must override the test when suspicion is high.
„Und der Test sagte ‚negativ‘,
und das Kind wurde nach Hause geschickt,
und die Parasiten vermehrten sich im Dunkeln,
und am Morgen konnte das Kind nicht aufwachen.
und das Kind wurde nach Hause geschickt,
und die Parasiten vermehrten sich im Dunkeln,
und am Morgen konnte das Kind nicht aufwachen.
Im Jahr der Pest,
Die Welt brauchte einen Test fast.
Aber schnell ist nicht gleich accurate.
Die Welt brauchte einen Test fast.
Aber schnell ist nicht gleich accurate.
Das Cochrane-Urteil
COVID-19 Rapid Antigen Tests (155 Studies Pooled)
| Population | Sensitivity | Missed Cases |
|---|---|---|
| Symptomatic | 73% | 27% missed |
| Asymptomatic | 55% | 45% missed |
| First 7 days of symptoms | 80% | 20% missed |
Dinnes J et al. Cochrane Database Syst Rev. 2022;7:CD013705
The False Security Decision Tree
Thanksgiving 2020: What Happened
Family Member Tests Negative
↓
Ist diese Person wirklich negativ?
55% chance if asymptomatic
True NegativeSafe to gather
45% chance if asymptomatic
FALSE NegativeInfectious!
↓
Treffen mit der FamilieGrandparents infected
„Und der Test sagte ‚negativ‘,
und die Familie umarmte sich,
und am Ende des Winters,
der Großvater wurde begraben.“
und die Familie umarmte sich,
und am Ende des Winters,
der Großvater wurde begraben.“
Haben Sie noch nichts von der Vorführung gehört?
Das hat Krebs gefunden would never kill,
und führte zu Behandlungen, die caused more harm than the disease?
Das hat Krebs gefunden would never kill,
und führte zu Behandlungen, die caused more harm than the disease?
Das Problem der Überdiagnose
3-4
Lives saved
per 10,000 screened
per 10,000 screened
~15
Overdiagnosed
(treated unnecessarily)
(treated unnecessarily)
~500
False alarms
(anxiety, biopsies)
(anxiety, biopsies)
THE QUESTION
Um drei bis vier Leben zu retten, erhalten etwa 15 Frauen Operationen, Bestrahlung und Chemotherapie wegen Krebserkrankungen, die ihnen nie geschadet hätten.
Lohnt sich dieser Kompromiss?
Lohnt sich dieser Kompromiss?
Der Screening-Entscheidungsbaum
10.000 Frauen über einen Zeitraum von 10 Jahren untersucht
10,000 Women
↓
~1,000 RecalledAbnormal mammogram
↓
~500 False AlarmAnxiety only
~500 Biopsy~50 cancer found
~9,000 ClearedContinue screening
Of ~50 Cancers Found
~35 Would KillTreatment saves 3-4
~15 Would Never KillOverdiagnosed
„Und der Test fand den Schatten,
und nannte es Krebs,
und die Frau wurde verletzt und verbrannt –
für einen Schatten, der sie niemals verdunkelt hätte Tage.“
und nannte es Krebs,
und die Frau wurde verletzt und verbrannt –
für einen Schatten, der sie niemals verdunkelt hätte Tage.“
Eine Studie könnte täuschen.
Eine Studie mag schmeichelhaft sein.
Aber wenn man alle Beweise—
the truth becomes harder to hide.
Eine Studie mag schmeichelhaft sein.
Aber wenn man alle Beweise—
the truth becomes harder to hide.
Why DTA Meta-Analysis Is Different
THE PROBLEM
Sensitivität und Spezifität sind correlated.
When one goes up, the other tends to go down.
Sie können sie nicht wie Behandlungseffekte separat zusammenfassen. Du brauchst das bivariate model.
Sie können sie nicht wie Behandlungseffekte separat zusammenfassen. Du brauchst das bivariate model.
Die SROC-Kurve
Reading ROC Space
Top-Left CornerPerfect Test
↓ (curve shows trade-off)
Diagonal LineUseless Test (Chance)
WAS DER SROC ZEIGT
Each dot = one study's sensitivity & specificity
Die Kurve = Zusammenfassung aller Studien
Closer to top-left = better test
Die Kurve = Zusammenfassung aller Studien
Closer to top-left = better test
„Eine Studie könnte täuschen.
Viele Studien, zusammen gewogen,
Verfolge den Weg der Wahrheit –
die SROC-Kurve, die zeigt, was der Test wirklich leisten kann.“
Viele Studien, zusammen gewogen,
Verfolge den Weg der Wahrheit –
die SROC-Kurve, die zeigt, was der Test wirklich leisten kann.“
Aber was wäre, wenn die Studien disagree?
One says sensitivity is 95%.
Another says 60%.
An welche Wahrheit glauben Sie?
One says sensitivity is 95%.
Another says 60%.
An welche Wahrheit glauben Sie?
Sources of Heterogeneity
Warum Studien nicht übereinstimmen
Gleicher Test, unterschiedliche Ergebnisse?
ThresholdDifferent cutoffs
PopulationSeverity, age
SettingPrimary vs specialist
QualityBias, blinding
Measuring Disagreement: I²
I² < 25%
Low
Studies agree
Studies agree
I² 25-75%
Moderate
Some variation
Some variation
I² > 75%
High
Major disagreement
Major disagreement
THE WARNING
When I² > 75%, the pooled estimate may be meaningless.
Explain the disagreement before averaging.
„Wenn die Studien anderer Meinung sind,
den Dissens nicht zum Schweigen bringen.
Ask: Why do they see differently?
Die Meinungsverschiedenheit selbst lehrt.“
den Dissens nicht zum Schweigen bringen.
Ask: Why do they see differently?
Die Meinungsverschiedenheit selbst lehrt.“
Ihr DTA-Toolkit
Die wesentlichen Maßnahmen und wann man sie verwendet
The Checklist
✓
Was there a valid reference standard?
Gold standard applied to ALL patients?
✓
Wurden Dolmetscher geblendet?
Test readers unaware of diagnosis?
✓
War das Spektrum angemessen?
Ähnliche Patienten wie Ihre Population?
✓
War das Schwellenwert vorab festgelegt?
Oder ausgewählt, um die Ergebnisse zu maximieren?
When Results Don't Match Suspicion
The Clinical Override Decision Tree
Test Negative, High Suspicion
↓
What Is the LR-?
LR- < 0.1
Strong rule-outAccept negative
LR- 0.1-0.5
Consider repeat testOr different test
LR- > 0.5
Trust clinical judgmentTest is weak
"Armed with sensitivity, specificity, likelihood,
Mit dem SROC und dem Maß der Übereinstimmung bewaffnet,
können Sie die Lüge des Tests durchschauen –
und seine Wahrheit beurteilen sich selbst.“
Mit dem SROC und dem Maß der Übereinstimmung bewaffnet,
können Sie die Lüge des Tests durchschauen –
und seine Wahrheit beurteilen sich selbst.“
References
Key Sources
- Carreyrou J. Bad Blood. Knopf, 2018.
- CDC. MMWR. 1987;36(49):833-840. [HIV blood supply]
- Dinnes J et al. Cochrane Database Syst Rev. 2022;7:CD013705. [COVID RAT]
- Moyer VA. Ann Intern Med. 2012;157:120-134. [PSA screening]
- UK Panel. Lancet. 2012;380:1778-1786. [Mammography]
- WHO. Malaria RDT Performance. 2022.
- Reitsma JB et al. J Clin Epidemiol. 2005;58:982-990. [Bivariate model]
- Deeks JJ et al. J Clin Epidemiol. 2005;58:882-893. [Publication bias]
- Macaskill P et al. Cochrane Handbook Ch. 10. 2023.
Ein Test ist zu 99 % empfindlich und zu 99 % spezifisch. Die Krankheitsprävalenz beträgt 1/1000. Ein Patient wird positiv getestet. Wie hoch ist die Wahrscheinlichkeit, dass sie an der Krankheit leiden?
99%
90%
About 9%
50%
Warum wurde die Blutversorgung trotz Tests mit HIV kontaminiert?
The tests had low specificity
Die Tests hatten eine Fensterperiode mit geringer Sensitivität im Frühstadium der Infektion
Die Tests wurden nicht korrekt durchgeführt
Die Tests waren zu teuer
What does "SnNout" mean?
A highly Sensitive test, when Negative, rules OUT disease
A highly Specific test, when Negative, rules OUT disease
Sensitivity should be used for screening
Specificity should be above 90%
✔
Course Complete
"Jetzt kennen Sie die vier Ergebnisse,
die beiden Vorzüge eines Tests,
der Trugschluss der Basis Rate,
und die Kunst des Poolings Beweise.
Wenn der nächste Test Sie belügt –
Sie werden es wissen.
die beiden Vorzüge eines Tests,
der Trugschluss der Basis Rate,
und die Kunst des Poolings Beweise.
Wenn der nächste Test Sie belügt –
Sie werden es wissen.
1 / 4