Wenn der Test lügt: Ein Kurs zur Genauigkeit diagnostischer Tests (erweitert)

Haben Sie die Geschichte der Frau nicht gehört?
who promised to Verändere die Welt mit einem Tropfen Blut,
who raised billions on a test that never worked?

Palo Alto, 2003

STANFORD UNIVERSITY

Ein Neunzehnjähriger brach mit einer Vision ab: Hunderte Blutuntersuchungen aus einem einzigen Tropfen.

Investors believed. Walgreens believed. The Pentagon believed.

They gave her $9 billion.

Doch die Tests ergaben falsche Ergebnisse. Den Patienten wurde gesagt, sie hätten HIV, obwohl dies nicht der Fall war. Den Patienten wurde mitgeteilt, dass ihr Blut zu diesem Zeitpunkt normal sei dying.

Carreyrou J. Bad Blood. 2018

Der Entscheidungsbaum der Täuschung

What Theranos Did vs. What Should Happen

New Diagnostic Test

↓

SHOULD DO

Validate Against Gold Standard

↓

Publish TP/FP/FN/TN

↓

FDA Approval

THERANOS DID

Skip Validation

↓

Hide Failures

↓

Harm Patients

„Und der Test hat gelogen,
und die Lüge wurde mit Gewissheit gekleidet,
und niemand hat nach dem 2x2-Tisch gefragt.

Aus diesem Grund untersuchen wir die Genauigkeit diagnostischer Tests.

When a test speaks,
es gibt nur four possible truths.

Zwei sind Segen. Zwei sind Flüche.

Der Baum der Ergebnisse

Every Test Result Has a Reality Behind It

Patient Tested

↓

Was ist die WAHRHEIT?

Has Disease

D+

↓

TPTest +

FNTest -

No Disease

D-

↓

FPTest +

TNTest -

Der heilige 2x2-Tisch

HIV Rapid Test Example (Real Data)

	HIV+	HIV-	Total
Test +	98	3	101
Test -	2	895	897
Total	100	898	998

AUS DIESER TABELLE KOMMT ALLE WAHRHEIT

Sensitivity = 98/100 = 98%
Specificity = 895/898 = 99.7%

"Two outcomes save. Two outcomes harm.
TP, TN: Der Test hat die Wahrheit gesagt.
FP, FN: Der Test hat gelogen.
Know them by name, for they determine fate."

Haben Sie noch nichts von dem untersuchten Blut gehört?
found clean,
und an Tausende gegeben –
while death swam within it?

Die Blutversorgungskrise, 1985

UNITED STATES

When HIV testing began, doctors celebrated: they could now screen the blood supply.

Aber der Test hatte eine window period– Wochen nach der Infektion, als das Virus vorhanden war, aber undetectable.

Blut wurde getestet. Das Blut war „negativ“. Es wurde Blut transfundiert.

8,000-12,000 Americans wurden durch Transfusionen infiziert, bevor bessere Tests das Fenster schlossen.

CDC. MMWR. 1987;36(49):833-840

The Window Period Decision Tree

Why False Negatives Are Deadly

Person Recently Infected

↓

Time Since Infection?

< 2 weeks

Test NEGATIVEVirus present!

↓

Blood DonatedOthers infected

> 4 weeks

Test POSITIVECorrectly detected

↓

Blood DiscardedSupply safe

Die Empfindlichkeit ändert sich im Laufe der Zeit

0%

Day 1-7
Eclipse period

~50%

Day 14
Seroconversion

~95%

Day 21
Most detected

99.9%

Day 45+
Window closed

THE LESSON

Die Empfindlichkeit ist nicht festgelegt. It depends on when you test. A "99% sensitive" test may be 0% sensitive in early infection.

„Und der Test sagte ‚sauber‘,
denn das Virus hatte sein Gesicht noch nicht gezeigt.
Und das Blut wurde geteilt,
und die Infektion breitete sich auf Unschuldige aus.“

A test has two virtues and two vices.

Sensitivity: Kann es die Kranken finden?

Specificity: Kann es die Gesunden verschonen?

Sensibilität: Der Jäger

THE FORMULA

Sensitivity = TP / (TP + FN)

"Of all the sick, how many did we catch?"

Worked Example: COVID PCR Test

Given: 200 infected patients tested

TP = 196 (correctly positive), FN = 4 (missed)

Sensitivity = 196 / (196 + 4) = 196/200 = 98%

Interpretation: Test catches 98 of every 100 infected people

Besonderheit: Der Wächter

THE FORMULA

Specificity = TN / (TN + FP)

"Of all the healthy, how many did we spare?"

Worked Example: Same COVID PCR Test

Given: 1000 uninfected people tested

TN = 999 (correctly negative), FP = 1 (false alarm)

Specificity = 999 / (999 + 1) = 999/1000 = 99.9%

Interpretation: Test correctly clears 999 of every 1000 healthy people

Die Gedächtnisregeln

When to Use Which Test

Was brauchen Sie?

RULE OUT disease

Use HIGH SENSITIVITY

↓

SnNoutSensitive Negative = OUT

RULE IN disease

Use HIGH SPECIFICITY

↓

SpPinSpecific Positive = IN

„Sensibilität fängt die Kranken ein.
Spezifität schont den Brunnen.
But no test masters both perfectly—
Das ist die Last, die wir tragen.“

Haben Sie den Arzt nicht gesehen?
who saw 99% accurate
and believed a positive result meant 99% certainty?

Dies ist der tödlichste Fehler in der Medizin.

Der Basiszins-Irrtum

THE PUZZLE

A disease affects 1 in 1000 people.
Ein Test ist zu 99 % empfindlich und zu 99 % spezifisch.
A patient tests positive.

Wie hoch ist die Wahrscheinlichkeit, dass sie an der Krankheit leiden?

Most doctors say ~99%. Die tatsächliche Antwort liegt bei etwa 9 %.

Die Mathematik enthüllt

Testing 100,000 People (Prevalence 1/1000)

Step 1: 100 have disease, 99,900 healthy

Step 2: Of 100 sick: 99 test positive (TP), 1 negative (FN)

Step 3: Of 99,900 healthy: 999 test positive (FP), 98,901 negative (TN)

Step 4: Total positives = 99 + 999 = 1,098

PPV = TP / All Positives = 99 / 1,098 = 9%

91 % der positiven Ergebnisse sind FALSCH-POSITIVE!

Der Entscheidungsbaum der Prävalenz

Same Test, Different Settings

Test: 99% Sens, 99% Spec

↓

Where Is Testing Done?

General Population
Prevalence 0.1%

PPV = 9%91% false positives!

High-Risk Clinic
Prevalence 10%

PPV = 92%8% false positives

Confirmatory Test
Prevalence 50%

PPV = 99%1% false positives

„Und der Arzt sagte ‚zu 99 % zutreffend‘“
und der Patient hörte „99 % sicher“
und beide wurden getäuscht –
denn sie haben vergessen zu fragen: Wie selten ist diese Krankheit?“

Haben Sie noch nie von dem Test für Männer gehört?
das fand Krebsarten, die das tun würden never kill,
und führte zu Behandlungen, die destroyed lives?

Die PSA-Screening-Tragödie

UNITED STATES, 1990s-2010s

PSA (Prostate-Specific Antigen) could detect prostate cancer early.

Ärzte untersuchten Millionen Männer. Es wurden Krebserkrankungen gefunden. Prostata wurde entfernt.

Aber viele dieser „Krebsarten“ hätten nie Symptome verursacht. Die Operation verursacht Impotenz und Inkontinenz in men who would have died of old age, not cancer.

Moyer VA. Ann Intern Med. 2012;157:120-134

Die Zahlen des Schadens

1

Leben gerettet
prostate cancer
per 1000 screened

30-40

Men made impotent
or incontinent
per 1000 screened

100+

False positives
(biopsies, anxiety)
per 1000 screened

THE REVERSAL

In 2012, the US Preventive Services Task Force recommended against routinemäßiges PSA-Screening. Der Test ergab zu viel, was nicht gefunden werden musste.

Der Screening-Entscheidungsbaum

Die unbeabsichtigten Folgen des Screenings

1000 Men Screened

↓

~120 Positive PSA

↓

~30 Biopsies Show Cancer

↓

~25 Would Never
Have Harmed

~5 Truly
Aggressive

~880 Negative PSA

↓

Reassured(But ~3 have aggressive cancer missed)

„Und der Test fand den Schatten,
und der Chirurg schnitt,
und der Mann lebte – machtlos, inkontinent –
von einem Krebs, der niemals aufgewacht wäre.

Die Empfindlichkeit beschreibt den Test.
Spezifität beschreibt den Test.

Aber der Patient fragt:
"I tested positive. What are MY chances?"

Likelihood Ratios

POSITIVE LIKELIHOOD RATIO

LR+ = Sensitivity / (1 - Specificity)

How much more likely is a + result in sick vs healthy?

NEGATIVE LIKELIHOOD RATIO

LR- = (1 - Sensitivity) / Specificity

How much more likely is a - result in sick vs healthy?

Das Fagan-Nomogramm

Von der Wahrscheinlichkeit vor dem Test zur Wahrscheinlichkeit nach dem Test

Pre-Test
Probability

99%

50%

20%

5%

1%

Likelihood
Ratio

100

10

1

0.1

0.01

Post-Test
Probability

99%

80%

50%

20%

1%

Draw a line from pre-test through LR to find post-test probability

Interpreting Likelihood Ratios

Wie wirkungsvoll ist dieser Test?

What Is the LR+?

LR+ > 10Strong rule-in

LR+ 5-10Moderate

LR+ 2-5Weak

LR+ 1-2Useless

What Is the LR-?

LR- < 0.1Strong rule-out

LR- 0.1-0.2Moderate

LR- 0.2-0.5Weak

LR- 0.5-1Useless

„Sensibilität erzählt von den Kranken.
Spezifität erzählt vom Brunnen.
But the likelihood ratio answers:
Was bedeutet dieses Ergebnis für DIESEN Patienten?"

Hast du nicht das Kind mit Fieber im Dorf gesehen?
der Schnelltest, der besagte negative,
and the Plasmodium das hat sich immer mehr vermehrt?

Das Malaria-RDT-Problem

SUB-SAHARAN AFRICA

Malaria kills 600,000 people yearly, mostly children under 5.

Rapid Diagnostic Tests were meant to guide treatment in remote areas without microscopes or laboratories.

But when parasitemia is low—Das RDT übersieht Fälle. And when P. falciparum löscht das HRP2-Gen – the RDT sees nothing at all.

WHO. Malaria RDT Performance. 2022

Der klinische Entscheidungsbaum

Child with Fever in Malaria-Endemic Area

Febrile Child

↓

Perform RDT

↓

RDT Positive

↓

Behandlung gegen Malaria

RDT Negative

↓

Clinical Suspicion?

High

Treat Anyway
or Microscopy

Low

Look for
Other Cause

Sensitivity Varies by Parasitemia

95%

High parasitemia
(>200/μL)

75%

Low parasitemia
(100-200/μL)

50%

Very low
(<100/μL)

DIE KLINISCHE LEKTION

A negative RDT does not rule out malaria in endemic areas. Clinical judgment must override the test when suspicion is high.

„Und der Test sagte ‚negativ‘,
und das Kind wurde nach Hause geschickt,
und die Parasiten vermehrten sich im Dunkeln,
und am Morgen konnte das Kind nicht aufwachen.

Im Jahr der Pest,
Die Welt brauchte einen Test fast.

Aber schnell ist nicht gleich accurate.

Das Cochrane-Urteil

COVID-19 Rapid Antigen Tests (155 Studies Pooled)

Population	Sensitivity	Missed Cases
Symptomatic	73%	27% missed
Asymptomatic	55%	45% missed
First 7 days of symptoms	80%	20% missed

Dinnes J et al. Cochrane Database Syst Rev. 2022;7:CD013705

The False Security Decision Tree

Thanksgiving 2020: What Happened

Family Member Tests Negative

↓

Ist diese Person wirklich negativ?

55% chance if asymptomatic

True NegativeSafe to gather

45% chance if asymptomatic

FALSE NegativeInfectious!

↓

Treffen mit der FamilieGrandparents infected

„Und der Test sagte ‚negativ‘,
und die Familie umarmte sich,
und am Ende des Winters,
der Großvater wurde begraben.“

Haben Sie noch nichts von der Vorführung gehört?
Das hat Krebs gefunden would never kill,
und führte zu Behandlungen, die caused more harm than the disease?

Das Problem der Überdiagnose

3-4

Lives saved
per 10,000 screened

~15

Overdiagnosed
(treated unnecessarily)

~500

False alarms
(anxiety, biopsies)

THE QUESTION

Um drei bis vier Leben zu retten, erhalten etwa 15 Frauen Operationen, Bestrahlung und Chemotherapie wegen Krebserkrankungen, die ihnen nie geschadet hätten.

Lohnt sich dieser Kompromiss?

Der Screening-Entscheidungsbaum

10.000 Frauen über einen Zeitraum von 10 Jahren untersucht

10,000 Women

↓

~1,000 RecalledAbnormal mammogram

↓

~500 False AlarmAnxiety only

~500 Biopsy~50 cancer found

~9,000 ClearedContinue screening

Of ~50 Cancers Found

~35 Would KillTreatment saves 3-4

~15 Would Never KillOverdiagnosed

„Und der Test fand den Schatten,
und nannte es Krebs,
und die Frau wurde verletzt und verbrannt –
für einen Schatten, der sie niemals verdunkelt hätte Tage.“

Eine Studie könnte täuschen.
Eine Studie mag schmeichelhaft sein.

Aber wenn man alle Beweise—
the truth becomes harder to hide.

Why DTA Meta-Analysis Is Different

THE PROBLEM

Sensitivität und Spezifität sind correlated. When one goes up, the other tends to go down.

Sie können sie nicht wie Behandlungseffekte separat zusammenfassen. Du brauchst das bivariate model.

Die SROC-Kurve

Reading ROC Space

Top-Left CornerPerfect Test

↓ (curve shows trade-off)

Diagonal LineUseless Test (Chance)

WAS DER SROC ZEIGT

Each dot = one study's sensitivity & specificity
Die Kurve = Zusammenfassung aller Studien
Closer to top-left = better test

„Eine Studie könnte täuschen.
Viele Studien, zusammen gewogen,
Verfolge den Weg der Wahrheit –
die SROC-Kurve, die zeigt, was der Test wirklich leisten kann.“

Aber was wäre, wenn die Studien disagree?

One says sensitivity is 95%.
Another says 60%.

An welche Wahrheit glauben Sie?

Sources of Heterogeneity

Warum Studien nicht übereinstimmen

Gleicher Test, unterschiedliche Ergebnisse?

ThresholdDifferent cutoffs

PopulationSeverity, age

SettingPrimary vs specialist

QualityBias, blinding

Measuring Disagreement: I²

I² < 25%

Low
Studies agree

I² 25-75%

Moderate
Some variation

I² > 75%

High
Major disagreement

THE WARNING

When I² > 75%, the pooled estimate may be meaningless. Explain the disagreement before averaging.

„Wenn die Studien anderer Meinung sind,
den Dissens nicht zum Schweigen bringen.
Ask: Why do they see differently?
Die Meinungsverschiedenheit selbst lehrt.“

Ihr DTA-Toolkit

Die wesentlichen Maßnahmen und wann man sie verwendet

The Checklist

✓

Was there a valid reference standard?

Gold standard applied to ALL patients?

✓

Wurden Dolmetscher geblendet?

Test readers unaware of diagnosis?

✓

War das Spektrum angemessen?

Ähnliche Patienten wie Ihre Population?

✓

War das Schwellenwert vorab festgelegt?

Oder ausgewählt, um die Ergebnisse zu maximieren?

When Results Don't Match Suspicion

The Clinical Override Decision Tree

Test Negative, High Suspicion

↓

What Is the LR-?

LR- < 0.1

Strong rule-outAccept negative

LR- 0.1-0.5

Consider repeat testOr different test

LR- > 0.5

Trust clinical judgmentTest is weak

"Armed with sensitivity, specificity, likelihood,
Mit dem SROC und dem Maß der Übereinstimmung bewaffnet,
können Sie die Lüge des Tests durchschauen –
und seine Wahrheit beurteilen sich selbst.“

References

Key Sources

Carreyrou J. Bad Blood. Knopf, 2018.
CDC. MMWR. 1987;36(49):833-840. [HIV blood supply]
Dinnes J et al. Cochrane Database Syst Rev. 2022;7:CD013705. [COVID RAT]
Moyer VA. Ann Intern Med. 2012;157:120-134. [PSA screening]
UK Panel. Lancet. 2012;380:1778-1786. [Mammography]
WHO. Malaria RDT Performance. 2022.
Reitsma JB et al. J Clin Epidemiol. 2005;58:982-990. [Bivariate model]
Deeks JJ et al. J Clin Epidemiol. 2005;58:882-893. [Publication bias]
Macaskill P et al. Cochrane Handbook Ch. 10. 2023.

Ein Test ist zu 99 % empfindlich und zu 99 % spezifisch. Die Krankheitsprävalenz beträgt 1/1000. Ein Patient wird positiv getestet. Wie hoch ist die Wahrscheinlichkeit, dass sie an der Krankheit leiden?

99%

90%

About 9%

50%

Warum wurde die Blutversorgung trotz Tests mit HIV kontaminiert?

The tests had low specificity

Die Tests hatten eine Fensterperiode mit geringer Sensitivität im Frühstadium der Infektion

Die Tests wurden nicht korrekt durchgeführt

Die Tests waren zu teuer

What does "SnNout" mean?

A highly Sensitive test, when Negative, rules OUT disease

A highly Specific test, when Negative, rules OUT disease

Sensitivity should be used for screening

Specificity should be above 90%

✔

Course Complete

"Jetzt kennen Sie die vier Ergebnisse,
die beiden Vorzüge eines Tests,
der Trugschluss der Basis Rate,
und die Kunst des Poolings Beweise.

Wenn der nächste Test Sie belügt –
Sie werden es wissen.