Wenn der Test liegt: Ultimativer DTA-Kurs (V3)

Haben Sie die Geschichte der Frau nicht gehört?
who promised to Verändere die Welt mit einem Tropfen Blut,
who raised billions on a test that never worked?

Palo Alto, 2003

STANFORD UNIVERSITY

Ein Neunzehnjähriger brach mit einer Vision ab: Hunderte Blutuntersuchungen aus einem einzigen Tropfen.

Investors believed. Walgreens believed. The Pentagon believed.

They gave her $9 billion.

Doch die Tests ergaben falsche Ergebnisse. Den Patienten wurde gesagt, sie hätten HIV, obwohl dies nicht der Fall war. Den Patienten wurde mitgeteilt, dass ihr Blut zu diesem Zeitpunkt normal sei dying.

Carreyrou J. Bad Blood. 2018

Der Entscheidungsbaum der Täuschung

What Theranos Did vs. What Should Happen

New Diagnostic Test

↓

SHOULD DO

Validate Against Gold Standard

↓

Publish TP/FP/FN/TN

↓

FDA Approval

THERANOS DID

Skip Validation

↓

Hide Failures

↓

Harm Patients

„Und der Test hat gelogen,
und die Lüge wurde mit Gewissheit gekleidet,
und niemand fragte nach dem 2×2-Tisch.“

Aus diesem Grund untersuchen wir die Genauigkeit diagnostischer Tests.

When a test speaks,
es gibt nur four possible truths.

Zwei sind Segen. Zwei sind Flüche.

Der Baum der Ergebnisse

Every Test Result Has a Reality Behind It

Patient Tested

↓

Was ist die WAHRHEIT?

Has Disease

D+

↓

TPTest +

FNTest -

No Disease

D-

↓

FPTest +

TNTest -

Der heilige 2×2-Tisch

HIV Rapid Test Example (Real Data)

	HIV+	HIV-	Total
Test +	98	3	101
Test -	2	895	897
Total	100	898	998

AUS DIESER TABELLE KOMMT ALLE WAHRHEIT

Sensitivity = 98/100 = 98%
Specificity = 895/898 = 99.7%

"Two outcomes save. Two outcomes harm.
TP, TN: Der Test hat die Wahrheit gesagt.
FP, FN: Der Test hat gelogen.
Know them by name, for they determine fate."

Haben Sie noch nichts von dem untersuchten Blut gehört?
found clean,
und an Tausende gegeben –
while death swam within it?

Die Blutversorgungskrise, 1985

UNITED STATES

When HIV testing began, doctors celebrated: they could now screen the blood supply.

Aber der Test hatte eine window period– Wochen nach der Infektion, als das Virus vorhanden war, aber undetectable.

Blut wurde getestet. Das Blut war „negativ“. Es wurde Blut transfundiert.

8,000-12,000 Americans wurden durch Transfusionen infiziert, bevor bessere Tests das Fenster schlossen.

CDC. MMWR. 1987;36(49):833-840

The Window Period Decision Tree

Why False Negatives Are Deadly

Person Recently Infected

↓

Time Since Infection?

< 2 weeks

Test NEGATIVEVirus present!

↓

Blood DonatedOthers infected

> 4 weeks

Test POSITIVECorrectly detected

↓

Blood DiscardedSupply safe

Die Empfindlichkeit ändert sich im Laufe der Zeit

0%

Day 1-7
Eclipse period

~50%

Day 14
Seroconversion

~95%

Day 21
Most detected

99.9%

Day 45+
Window closed

THE LESSON

Die Empfindlichkeit ist nicht festgelegt. It depends on when you test. A "99% sensitive" test may be 0% sensitive in early infection.

„Und der Test sagte ‚sauber‘,
denn das Virus hatte sein Gesicht noch nicht gezeigt.
Und das Blut wurde geteilt,
und die Infektion breitete sich auf Unschuldige aus.“

Haben Sie noch nie von der Pille gehört, die Müttern verabreicht wird?
to protect their pregnancies,
that planted cancer in their daughters
twenty years before it bloomed?

Die DES-Tragödie, 1938-1971

UNITED STATES & EUROPE

Diethylstilbestrol (DES) was given to millions of pregnant women to prevent miscarriage.

No proper clinical trial was ever conducted. Doctors assumed it worked because it seemed reasonable.

Decades later, their daughters developed a rare cancer: clear cell adenocarcinoma of the vagina. A cancer so rare it was a diagnostic signal in itself.

5-10 million women wurden entlarvt. Der Schaden ging über Generationen hinweg.

Herbst AL et al. N Engl J Med. 1971;284:878-881

Der Validierungsentscheidungsbaum

What Should Have Happened

New Medical Intervention

↓

Wurde es ordnungsgemäß getestet?

YES

Randomized Trial

↓

Long-term Follow-up

↓

Know True EffectsNutzen UND Schaden

NO (DES)

Assumption Only

↓

Widespread Use

↓

Hidden HarmDiscovered too late

Das Diagnosesignal

WENN SELTENHEIT ZUM BEWEIS WIRD

Klarzelliges Adenokarzinom der Vagina war bei jungen Frauen so selten, dass 7 cases in one hospital triggered an investigation.

Der Cluster selbst war der Diagnosetest:
Sensitivity to DES exposure: nearly 100%
Wenn Sie in diesem Alter an dieser Krebserkrankung erkrankt sind, waren Sie mit an Sicherheit grenzender Wahrscheinlichkeit exponiert.

1:1000

Risk of clear cell
cancer in DES daughters

5-10M

Women exposed
worldwide

„Und die Mütter nahmen die Pille in der Hoffnung,
und die Töchter wuchsen im Schatten,
und zwanzig Jahre später blühte der Krebs –
a diagnosis that indicted a generation of medicine."

A test has two virtues and two vices.

Sensitivity: Kann es die Kranken finden?

Specificity: Kann es die Gesunden verschonen?

Sensibilität: Der Jäger

THE FORMULA

Sensitivity = TP / (TP + FN)

"Of all the sick, how many did we catch?"

Worked Example: COVID PCR Test

Given: 200 infected patients tested

TP = 196 (correctly positive), FN = 4 (missed)

Sensitivity = 196 / (196 + 4) = 196/200 = 98%

Interpretation: Test catches 98 of every 100 infected people

Besonderheit: Der Wächter

THE FORMULA

Specificity = TN / (TN + FP)

"Of all the healthy, how many did we spare?"

Worked Example: Same COVID PCR Test

Given: 1000 uninfected people tested

TN = 999 (correctly negative), FP = 1 (false alarm)

Specificity = 999 / (999 + 1) = 999/1000 = 99.9%

Interpretation: Test correctly clears 999 of every 1000 healthy people

Die Gedächtnisregeln

When to Use Which Test

Was brauchen Sie?

RULE OUT disease

Use HIGH SENSITIVITY

↓

SnNoutSensitive Negative = OUT

RULE IN disease

Use HIGH SPECIFICITY

↓

SpPinSpecific Positive = IN

„Sensibilität fängt die Kranken ein.
Spezifität schont den Brunnen.
But no test masters both perfectly—
Das ist die Last, die wir tragen.“

Haben Sie den Arzt nicht gesehen?
who saw 99% accurate
and believed a positive result meant 99% certainty?

Dies ist der tödlichste Fehler in der Medizin.

Der Basiszins-Irrtum

THE PUZZLE

A disease affects 1 in 1000 people.
Ein Test ist zu 99 % empfindlich und zu 99 % spezifisch.
A patient tests positive.

Wie hoch ist die Wahrscheinlichkeit, dass sie an der Krankheit leiden?

Most doctors say ~99%. Die tatsächliche Antwort liegt bei etwa 9 %.

Die Mathematik enthüllt

Testing 100,000 People (Prevalence 1/1000)

Step 1: 100 have disease, 99,900 healthy

Step 2: Of 100 sick: 99 test positive (TP), 1 negative (FN)

Step 3: Of 99,900 healthy: 999 test positive (FP), 98,901 negative (TN)

Step 4: Total positives = 99 + 999 = 1,098

PPV = TP / All Positives = 99 / 1,098 = 9%

91 % der positiven Ergebnisse sind FALSCH-POSITIVE!

Interactive Base Rate Calculator

See How Prevalence Changes PPV

Prevalence:

1%

Sensitivity:

99%

Specificity:

99%

9%

Positive Predictive Value (PPV)

91 % der positiven Ergebnisse sind Fehlalarme

Der Entscheidungsbaum der Prävalenz

Same Test, Different Settings

Test: 99% Sens, 99% Spec

↓

Where Is Testing Done?

General Pop
0.1%

PPV = 9%91% false +

High-Risk
10%

PPV = 92%8% false +

Confirmatory
50%

PPV = 99%1% false +

„Und der Arzt sagte ‚zu 99 % zutreffend‘“
und der Patient hörte „99 % sicher“
und beide wurden getäuscht –
denn sie haben vergessen zu fragen: Wie selten ist diese Krankheit?“

Haben Sie noch nie von der Maschine gehört?
that could find TB in two hours,
das hieß revolutionary—
habe aber das verpasst drug-resistant strains?

Die GeneXpert-Geschichte, Südafrika

CAPE TOWN, 2010

Ein Jahrhundert lang erforderte die TB-Diagnose das wochenlange Wachstum von Bakterien. Dann kam GeneXpert: Ergebnisse 2 hours.

South Africa deployed it nationwide. The WHO endorsed it.

Aber bei Patienten mit low bacterial loads—often HIV co-infected— sensitivity dropped to 67%. One in three cases missed.

Und beim Nachweis einer Rifampicin-Resistenz hat es gefehlt 5% von resistenten Fällen. Diese Patienten erhielten die falsche Behandlung. Die resistente Tuberkulose breitete sich aus.

Steingart KR et al. Cochrane Database Syst Rev. 2014;1:CD009593

TB Diagnosis Decision Tree

Wenn GeneXpert nicht ausreicht

Suspected TB Patient

↓

GeneXpert Test

↓

Positive

↓

Rifampicin?

SensitiveStandard Tx

ResistantMDR-TB Tx

Negative

↓

HIV+ or High Suspicion?

YesCulture needed

NoLikely negative

Sensitivity by Patient Type

98%

Smear-positive
(high bacterial load)

67%

Smear-negative
(low bacterial load)

61%

HIV co-infected
(immune suppressed)

THE LESSON

Die Empfindlichkeit eines Tests in klinischen Studien entspricht möglicherweise nicht der Empfindlichkeit bei Ihren Patienten. Kennen Sie Ihre Bevölkerung.

„Und die Maschine sagte ‚Negativ‘
und der Arzt glaubte der Maschine,
und der Patient ging mit Tuberkulose in der Lunge nach Hause,
Hustenwiderstand in die Welt.“

Haben Sie noch nie von dem Test für Männer gehört?
das fand Krebsarten, die das tun würden never kill,
und führte zu Behandlungen, die destroyed lives?

Die PSA-Screening-Tragödie

UNITED STATES, 1990s-2010s

PSA (Prostate-Specific Antigen) could detect prostate cancer early.

Ärzte untersuchten Millionen Männer. Es wurden Krebserkrankungen gefunden. Prostata wurde entfernt.

Aber viele dieser „Krebsarten“ hätten nie Symptome verursacht. Die Operation verursacht Impotenz und Inkontinenz in men who would have died of old age, not cancer.

Moyer VA. Ann Intern Med. 2012;157:120-134

Die Zahlen des Schadens

1

Leben gerettet
prostate cancer
per 1000 screened

30-40

Men made impotent
or incontinent
per 1000 screened

100+

False positives
(biopsies, anxiety)
per 1000 screened

THE REVERSAL

In 2012, the US Preventive Services Task Force recommended against routinemäßiges PSA-Screening. Der Test ergab zu viel, was nicht gefunden werden musste.

Patient Decision Aid: PSA Screening

Wenn 1.000 Männer im Alter von 55 bis 69 Jahren 13 Jahre lang untersucht werden

Deaths from prostate cancer prevented

1-2 men

Men who will have false positive requiring biopsy

100-120 men

Männer, bei denen Krebs diagnostiziert wurde, der ihnen niemals schaden würde

20-50 men

Men left impotent or incontinent from treatment

30-40 men

Ist dieser Kompromiss für Sie akzeptabel?

„Und der Test fand den Schatten,
und der Chirurg schnitt,
und der Mann lebte – machtlos, inkontinent –
von einem Krebs, der niemals aufgewacht wäre.

Haben Sie noch nicht von dem Mann mit Brustschmerzen gehört
dessen erstes Troponin war normal,
der nach Hause geschickt wurde –
und vorher starb Morgen?

Das Troponin-Timing-Problem

EMERGENCY DEPARTMENTS WORLDWIDE

Troponin ist der Goldstandard für die Herzinfarktdiagnose. Aber es dauert 3-6 hours to rise after myocardial injury.

A patient arrives one hour after chest pain begins. Troponin is tested: normal. "You're fine. Go home."

Das Herz starb. Das Protein war noch nicht ausgetreten.

Studies show 2-5% of MI patients sent home from ED die within 30 days.

Pope JH et al. N Engl J Med. 2000;342:1163-1170

Serial Testing Decision Tree

Das Zwei-Troponin-Protokoll

Chest Pain Patient

↓

First Troponin

↓

Elevated

↓

Treat as MI

Normal

↓

When Did Pain Start?

<6 hrs

Wait 3 hrsRepeat troponin

>6 hrs

Low riskConsider d/c

High-Sensitivity Troponin

~70%

Conventional troponin
sensitivity at 0 hrs

~95%

hs-Troponin
sensitivity at 0 hrs

99%

hs-Troponin
at 3 hrs serial

THE TRADE-OFF

High-sensitivity troponin catches more heart attacks early. But it also has more false positives—elevated in kidney disease, heart failure, sepsis, and marathon runners.

„Und der Test ergab ‚normal‘
denn das Herz hatte gerade begonnen zu sterben.
Und der Patient war es beruhigt,
and went home to finish dying."

Die Empfindlichkeit beschreibt den Test.
Spezifität beschreibt den Test.

Aber der Patient fragt:
"I tested positive. What are MY chances?"

Likelihood Ratios

POSITIVE LIKELIHOOD RATIO

LR+ = Sensitivity / (1 - Specificity)

How much more likely is a + result in sick vs healthy?

NEGATIVE LIKELIHOOD RATIO

LR- = (1 - Sensitivity) / Specificity

How much more likely is a - result in sick vs healthy?

Das Fagan-Nomogramm

Von der Wahrscheinlichkeit vor dem Test zur Wahrscheinlichkeit nach dem Test

Pre-Test
Probability

99%

50%

20%

5%

1%

Likelihood
Ratio

100

10

1

0.1

0.01

Post-Test
Probability

99%

80%

50%

20%

1%

Draw a line from pre-test through LR to find post-test probability

Interpreting Likelihood Ratios

Wie wirkungsvoll ist dieser Test?

LR+ Value?

LR+ > 10Strong rule-in

5-10Moderate

2-5Weak

1-2Useless

LR- Value?

< 0.1Strong rule-out

0.1-0.2Moderate

0.2-0.5Weak

0.5-1Useless

„Sensibilität erzählt von den Kranken.
Spezifität erzählt vom Brunnen.
But the likelihood ratio answers:
Was bedeutet dieses Ergebnis für DIESEN Patienten?"

Hast du nicht das Kind mit Fieber im Dorf gesehen?
der Schnelltest, der besagte negative,
and the Plasmodium das hat sich immer mehr vermehrt?

Das Malaria-RDT-Problem

SUB-SAHARAN AFRICA

Malaria kills 600,000 people yearly, mostly children under 5.

Rapid Diagnostic Tests were meant to guide treatment in remote areas without microscopes or laboratories.

But when parasitemia is low—Das RDT übersieht Fälle. And when P. falciparum löscht das HRP2-Gen – the RDT sees nothing at all.

WHO. Malaria RDT Performance. 2022

Der klinische Entscheidungsbaum

Child with Fever in Malaria-Endemic Area

Febrile Child

↓

Perform RDT

↓

RDT Positive

↓

Behandlung gegen Malaria

RDT Negative

↓

Clinical Suspicion?

High

Treat Anywayor Microscopy

Low

Look forOther Cause

Sensitivity Varies by Parasitemia

95%

High parasitemia
(>200/μL)

75%

Low parasitemia
(100-200/μL)

50%

Very low
(<100/μL)

DIE KLINISCHE LEKTION

A negative RDT does not rule out malaria in endemic areas. Clinical judgment must override the test when suspicion is high.

„Und der Test sagte ‚negativ‘,
und das Kind wurde nach Hause geschickt,
und die Parasiten vermehrten sich im Dunkeln,
und am Morgen konnte das Kind nicht aufwachen.

Im Jahr der Pest,
Die Welt brauchte einen Test fast.

Aber schnell ist nicht gleich accurate.

Das Cochrane-Urteil

COVID-19 Rapid Antigen Tests (155 Studies)

Population	Sensitivity	Missed
Symptomatic	73%	27%
Asymptomatic	55%	45%
First 7 days	80%	20%

Dinnes J et al. Cochrane Database Syst Rev. 2022;7:CD013705

The False Security Decision Tree

Thanksgiving 2020: What Happened

Family Member Tests Negative

↓

Truly Negative?

55% if asymptomatic

True NegativeSafe to gather

45% if asymptomatic

FALSE NegativeInfectious!

↓

Treffen mit der FamilieGrandparents infected

„Und der Test sagte ‚negativ‘,
und die Familie umarmte sich,
und am Ende des Winters,
der Großvater wurde begraben.“

Haben Sie noch nichts von der Vorführung gehört?
Das hat Krebs gefunden would never kill,
und führte zu Behandlungen, die caused more harm than the disease?

Das Problem der Überdiagnose

3-4

Lives saved
per 10,000 screened

~15

Overdiagnosed
(treated unnecessarily)

~500

False alarms
(anxiety, biopsies)

THE QUESTION

Um drei bis vier Leben zu retten, erhalten etwa 15 Frauen Operationen, Bestrahlung und Chemotherapie wegen Krebserkrankungen, die ihnen nie geschadet hätten.

Lohnt sich dieser Kompromiss?

Patient Decision Aid: Mammography

Wenn 10.000 Frauen im Alter von 50 bis 69 Jahren werden 10 Jahre lang untersucht

Deaths from breast cancer prevented

3-4 women

Women called back for false alarms

~500 women

Unnecessary biopsies

~200 women

Frauen, die wegen Krebs behandelt werden, der ihnen niemals schaden würde

~15 women

Ist die Vorsorgeuntersuchung das Richtige für Sie?

The Screening Cascade Decision Tree

10.000 Frauen über einen Zeitraum von 10 Jahren untersucht

10,000 Women

↓

~1,000 RecalledAbnormal

↓

~500 False
Alarm

~500 Biopsy
~50 cancer

~9,000 Cleared

Of ~50 Cancers Found

~35 Would Kill3-4 saved

~15 Would Never KillOverdiagnosed

„Und der Test fand den Schatten,
und nannte es Krebs,
und die Frau wurde verletzt und verbrannt –
für einen Schatten, der sie niemals verdunkelt hätte Tage.“

Haben Sie noch nicht von dem Scan gehört
der die Plaques im Gehirn findet,
kann Ihnen aber nicht sagen
ob das? Geist wird fade?

Das Amyloid-Paradoxon

ALZHEIMER'S RESEARCH, 2010s-2020s

PET scans can now detect amyloid plaques—the hallmark of Alzheimer's.

But 30% of cognitively normal elderly have amyloid plaques. They may never develop dementia.

And 10-20 % der Menschen mit Demenz have no amyloid.

Der Test findet die Plaques nicht die Krankheit. Wir testen auf einen Ersatz, nicht auf die Ergebnis.

Jack CR et al. Lancet Neurol. 2018;17:760-773

Surrogate vs. Outcome Decision Tree

Worauf testen wir wirklich?

Diagnostic Test

↓

What Does It Detect?

Outcome itself

Direct Diagnosisz. B. Biopsie bei Krebs

↓

High clinical value

Surrogate marker

Indirect Signalz. B. Amyloid bei Demenz

↓

Validated link?

YesUse cautiously

NoLimited value

"Und der Scan fand das Plaques,
und der Arzt nannte es Alzheimer,
und der Patient lebte in Angst–
of a forgetting that might never come."

Nicht alle Studien sind gleich.

Some are biased.
Some are poorly designed.
Manche sollten nicht sein trusted.

Wie trennen wir die Spreu vom Weizen?

QUADAS-2: Die Qualitätscheckliste

Four Domains of Risk of Bias

1

Patient Selection

Wurde eine konsekutive oder eine Zufallsstichprobe aufgenommen? Wurde ein Case-Control-Design vermieden?

2

Index Test

Wurde der Test ohne Kenntnis des Referenzstandards interpretiert? Wurde der Schwellenwert vorab festgelegt?

3

Reference Standard

Kann der Referenzstandard den Zustand wahrscheinlich korrekt klassifizieren? Wurde es blind interpretiert?

4

Ablauf und Timing

Gab es einen angemessenen Abstand zwischen den Tests? Haben alle Patienten den gleichen Referenzstandard erhalten?

QUADAS-2 Decision Tree

Sollten Sie dieser Studie vertrauen?

DTA Study

↓

Check All 4 Domains

All Low Risk

High QualityTrust results

Some Unclear

ModerateMit Vorsicht verwenden

Any High Risk

Low QualityDie Ergebnisse können verzerrt sein

Häufige Vorurteile in DTA-Studien

!

Verification Bias

Only positive tests get the reference standard → inflates sensitivity

!

Spectrum Bias

Studienpopulation weicht von der klinischen Realität ab → Ergebnisse lassen sich nicht verallgemeinern

!

Incorporation Bias

Index test is part of reference standard → artificially high accuracy

!

Review Bias

Index test interpreted knowing reference result → inflates both metrics

„Bevor Sie den Zahlen vertrauen,
ask: How were they gathered?
Eine voreingenommene Studie spricht mit Zuversicht –
but its confidence is a lie."

Eine Studie könnte täuschen.
Eine Studie mag schmeichelhaft sein.

Aber wenn man alle Beweise—
the truth becomes harder to hide.

Why DTA Meta-Analysis Is Different

THE PROBLEM

Sensitivität und Spezifität sind correlated. When one goes up, the other tends to go down.

Sie können sie nicht wie Behandlungseffekte separat zusammenfassen. Du brauchst das bivariate model.

Die SROC-Kurve

Summary Receiver Operating Characteristic

Sensitivity

1 - Specificity (False Positive Rate)

Individual studies

Summary estimate

Lesen des SROC

Was sagt Ihnen die Kurve?

SROC Curve Position

↓

Top-Left Corner

Excellent TestHigh sens + spec

Near Diagonal

Useless TestNo better than chance

Points Scattered

High HeterogeneityInvestigate sources

„Eine Studie könnte täuschen.
Viele Studien, zusammen gewogen,
Verfolge den Weg der Wahrheit –
die SROC-Kurve, die zeigt, was der Test wirklich leisten kann.“

Aber was wäre, wenn die Studien disagree?

One says sensitivity is 95%.
Another says 60%.

An welche Wahrheit glauben Sie?

Sources of Heterogeneity

Warum Studien nicht übereinstimmen

Gleicher Test, unterschiedliche Ergebnisse?

ThresholdDifferent cutoffs

PopulationSeverity, age

SettingPrimary vs specialist

QualityBias, blinding

Measuring Disagreement: I²

I² < 25%

Low
Studies agree

I² 25-75%

Moderate
Some variation

I² > 75%

High
Major disagreement

THE WARNING

When I² > 75%, the pooled estimate may be meaningless. Explain the disagreement before averaging.

„Wenn die Studien anderer Meinung sind,
den Dissens nicht zum Schweigen bringen.
Ask: Why do they see differently?
Die Meinungsverschiedenheit selbst lehrt.“

Ihr DTA-Toolkit

Die wesentlichen Maßnahmen und wann man sie verwendet

The Checklist

✓

Was there a valid reference standard?

Gold standard applied to ALL patients?

✓

Wurden Dolmetscher geblendet?

Test readers unaware of diagnosis?

✓

War das Spektrum angemessen?

Ähnliche Patienten wie Ihre Population?

✓

War das Schwellenwert vorab festgelegt?

Oder ausgewählt, um die Ergebnisse zu maximieren?

When Results Don't Match Suspicion

The Clinical Override Decision Tree

Test Negative, High Suspicion

↓

What Is the LR-?

LR- < 0.1

Strong rule-outAccept negative

LR- 0.1-0.5

Repeat testOr different test

LR- > 0.5

Trust judgmentTest is weak

Sequential Testing Decision Tree

When One Test Isn't Enough

Initial Screening Test

↓

Positive

↓

Confirmatory TestHigh specificity

↓

PositiveDiagnose

NegativeFalse alarm

Negative

↓

Likely negativeIf high sens screen

"Armed with sensitivity, specificity, likelihood,
Mit dem SROC und dem Maß der Übereinstimmung bewaffnet,
können Sie die Lüge des Tests durchschauen –
und seine Wahrheit beurteilen sich selbst.“

Haben Sie noch nichts von dem Patienten gehört?
Wer hat das erhalten? wrong blood,
nicht weil der Test falsch war,
but because no one performed it?

Der Test, der nicht gemacht wurde

HOSPITALS WORLDWIDE

ABO blood typing is nearly 100% accurate when performed.

Yet transfusion reactions still kill– nicht durch Testfehler, sondern durch human failure:

• Wrong blood drawn from wrong patient
• Etiketten im Labor ausgetauscht
• Bedside check skipped in emergency

In the UK, 1 in 13,000 transfusions geht an den falschen Patienten. Der Test hat funktioniert. Das System ist ausgefallen.

Bolton-Maggs PHB. Transfus Med. 2016;26:303-311

Test vs. System Decision Tree

Where Can Things Go Wrong?

Diagnostic Process

↓

Error Source?

Test itself

Analytical ErrorSens/Spec issue

↓

Better test needed

Pre-analytical

Wrong sampleID error

↓

System fix needed

Post-analytical

Wrong actionReporting error

↓

Process fix needed

"The perfect test means nothing
wenn das falsche Blut abgenommen wird,
es wird ein falsches Etikett angebracht,
die falsche Tasche ist aufgehängt.

DTA-Studien messen die Testgenauigkeit. Sie messen nicht die Systemgenauigkeit.

Haben Sie den Algorithmus nicht gesehen?
das hat daraus gelernt biased data,
und diese Voreingenommenheit verbreiten
to every patient it touched?

Die KI-Diagnose-Revolution

STANFORD & BEYOND, 2017-PRESENT

Deep learning algorithms now match dermatologists at detecting skin cancer.

Aber die Trainingsdaten waren predominantly light skin. On dark skin, performance dropped significantly.

Der Algorithmus lernte die Muster – aber auch die biases.

Und wenn es ohne externe Validierung bereitgestellt wurde, schnitt es schlechter ab als erwartet, weil das training population didn't match the clinical population.

Esteva A et al. Nature. 2017;542:115-118; Adamson AS. JAMA Dermatol. 2018

AI Validation Decision Tree

Ist diese KI bereit für den klinischen Einsatz?

AI Diagnostic Tool

↓

Validation Type?

Internal only

High RiskOverfitting likely

↓

Not ready

External validation

BetterBut check population

↓

Passt zu Ihren Patienten?

YesConsider use

NoCaution

Prospective RCT

Gold StandardPatient outcomes

KI-Kalibrierung: Das versteckte Problem

DISCRIMINATION VS. CALIBRATION

Discrimination (AUC/ROC): Can the AI rank patients by risk?

Calibration: When the AI says "80% risk," do 80% actually have disease?

Viele KI-Tools haben good AUC but poor calibration. Dies ist der Basiszinsfehler in algorithmischer Form.

AUC

Can it rank?
(usually reported)

CAL

Is probability accurate?
(often ignored)

„Und der Algorithmus hat aus den Daten gelernt,
und die Daten waren voreingenommen,
und die Voreingenommenheit breitete sich auf jede Vorhersage aus –
und niemand fragte: Wer fehlte im Trainingsset?“

Der Patient fragt: "Is my test positive?"

But what they mean is:
„Habe ich die Krankheit?“

Wie überbrücken Sie diese Lücke?

Communication Scripts

SCRIPT 1: EXPLAINING A POSITIVE RESULT

„Ihr Test ist positiv ausgefallen. Aber ich möchte erklären, was das bedeutet.“

„Dieser Test ist gut darin, Menschen mit dieser Krankheit zu finden, aber er löst auch Fehlalarme aus.“

„Basierend auf Ihren Risikofaktoren gibt es etwa a [X]% Es besteht die Möglichkeit, dass das wirklich positiv ist.“

"We'll do a confirmatory test to be certain before any treatment."

Communication Scripts

SCRIPT 2: EXPLAINING A NEGATIVE RESULT (HIGH SUSPICION)

"Your test came back negative, but I'm still concerned."

„Dieser Test kann Fälle übersehen, insbesondere zu Beginn der Krankheit.“

„Angesichts Ihrer Symptome würde ich den Test gerne in ein paar Tagen wiederholen oder einen anderen Test ausprobieren.“

"A negative test doesn't always mean you're clear—Auch Ihre Symptome sind wichtig."

Communication Decision Tree

So erklären Sie Testergebnisse

Test Result

↓

Positive

↓

PPV?

>90%"Very likely true"

<90%"Need to confirm"

Negative

↓

NPV?

>95%"Very reassuring"

<95%"Still watch symptoms"

Fragen, die Sie Ihrem Arzt stellen sollten

1

„Wie genau ist dieser Test?“

Bitten Sie im Klartext um Sensibilität und Spezifität

2

„Was ist, wenn das Ergebnis falsch ist?“

Verstehen Sie die Konsequenzen falsch positiver und negativer Ergebnisse

3

"What happens next?"

Will there be a confirmatory test? Repeat test? Treatment?

4

"What if I don't get tested at all?"

Verstehen Sie die Kompromisse zwischen Testen und Nicht-Testen

„Der Test spricht in Zahlen.
Der Patient hört Ängste und Hoffnungen.
Die Aufgabe des Heilers ist die Übersetzung –
um die Kluft zwischen Statistik und Seele zu überbrücken.“

A test may be accurate.
But is it worth it?

What does it cost—in money,
in anxiety, in harm?

Die Test-Behandlungsschwelle

When Is Testing Worthwhile?

Pre-Test Probability

↓

Very Low

Below Test ThresholdDon't test, reassure

Intermediate

Testing ZoneTest will change management

Very High

Above Treat ThresholdDon't test, treat

THE PRINCIPLE

Test only when the result will Ändere, was du tust. If you'd treat regardless, or not treat regardless—why test?

GRAD-Evidenzqualität

Bewertung von DTA-Beweisen

⊕⊕⊕⊕

HIGH

Mehrere hochwertige Studien, konsistente Ergebnisse, direkt anwendbar

⊕⊕⊕○

MODERATE

Some limitations in study quality, consistency, or applicability

⊕⊕○○

LOW

Serious limitations—may need to downgrade recommendations

⊕○○○

VERY LOW

Very serious limitations—evidence uncertain

Cost-Consequence Analysis

Example: Universal vs. Targeted Screening

Cost per case detected (universal)

$50,000

Cost per case detected (high-risk only)

$5,000

Cases missed by targeted approach

~10%

False positives avoided by targeted

~90%

Welcher Ansatz ist für Ihre Bevölkerung der richtige?

"A test is not just accurate or inaccurate.
It has costs—in money, in worry, in harm.
Der weise Kliniker wägt all dies ab –
und Tests nur dann, wenn die Tests dem Patienten dienen.“

Die SROC-Kurve zeigt where Der Test wird durchgeführt.

But how certain are we?
Und wie viel wird es kosten vary in practice?

Confidence vs. Prediction Regions

Two Types of Uncertainty

95% CI (summary estimate)

95 % Vorhersage (zukünftige Studien)

What Each Region Tells You

CI

Confidence Region (smaller ellipse)

Wobei wir zu 95 % davon überzeugt sind, dass die true average Sensitivität/Spezifität liegt. Unsicherheit bezüglich der zusammenfassenden Schätzung.

PI

Prediction Region (larger ellipse)

Where we expect 95% of future studies zu fallen. Berücksichtigt die Heterogenität zwischen Studien.

CLINICAL IMPLICATION

Wenn der Vorhersagebereich groß ist, kann der Test in Ihrer Umgebung ganz anders abschneiden, als der Durchschnitt vermuten lässt. Wide prediction = high heterogeneity = investigate sources.

Bivariate Model Interpretation

Lesen von Metaanalyseergebnissen

Summary Sens/Spec

↓

Check Regions

CI narrow, PI narrow

ConsistentVertrauen Sie dem Durchschnitt

CI narrow, PI wide

HeterogeneousDer Durchschnitt kann nicht Bewerben

CI wide

UncertainBenötigen Sie weitere Studien

"Der Konfidenzbereich sagt Ihnen: Wie sicher sind wir?
Der Vorhersagebereich sagt Ihnen: Wie stark wird er variieren?
Both questions matter—
Für den Test, den Sie morgen verwenden, ist es möglicherweise nicht der Fall Durchschnitt.“

References

Key Sources

Carreyrou J. Bad Blood. Knopf, 2018. [Theranos]
CDC. MMWR. 1987;36(49):833-840. [HIV blood supply]
Herbst AL et al. N Engl J Med. 1971;284:878-881. [DES]
Moyer VA. Ann Intern Med. 2012;157:120-134. [PSA]
Pope JH et al. N Engl J Med. 2000;342:1163-1170. [Troponin]
Steingart KR et al. Cochrane 2014;1:CD009593. [GeneXpert]
Dinnes J et al. Cochrane 2022;7:CD013705. [COVID RAT]
UK Panel. Lancet. 2012;380:1778-1786. [Mammography]
Jack CR et al. Lancet Neurol. 2018;17:760-773. [Amyloid]
WHO. Malaria RDT Performance. 2022.
Reitsma JB et al. J Clin Epidemiol. 2005;58:982-990. [Bivariate]
Whiting PF et al. Ann Intern Med. 2011;155:529-536. [QUADAS-2]
Bolton-Maggs PHB. Transfus Med. 2016;26:303-311.

Ein Test ist zu 99 % empfindlich und zu 99 % spezifisch. Die Krankheitsprävalenz beträgt 1/1000. Ein Patient wird positiv getestet. Wie hoch ist die Wahrscheinlichkeit, dass sie an der Krankheit leiden?

99%

90%

About 9%

50%

What does "SnNout" mean?

A highly Sensitive test, when Negative, rules OUT disease

A highly Specific test, when Negative, rules OUT disease

Sensitivity should be used for screening

Specificity should be above 90%

Warum wurde die Blutversorgung trotz Tests mit HIV kontaminiert?

The tests had low specificity

Tests had a window period with zero sensitivity in early infection

Die Tests wurden nicht korrekt durchgeführt

Die Tests waren zu teuer

Welche QUADAS-2-Domäne beurteilt, ob der Test ohne Kenntnis der interpretiert wurde Diagnose?

Patient Selection

Index Test

Reference Standard

Ablauf und Timing

✔

Course Complete

"Jetzt kennen Sie die vier Ergebnisse,
die beiden Vorzüge eines Tests,
der Trugschluss der Basis Rate,
die Kunst, Beweise zu bündeln,
und die Vorurteile, die die Wahrheit verbergen.

Wenn der nächste Test Sie belügt –
Sie werden es wissen."