Beweisumkehr: Ein Metaanalysekurs

Nicht jedes Signal ist wahr.

Modul 0: Die Eröffnung

🎯 Learning Objectives

Definieren Sie die Metaanalyse und erklären Sie ihre Rolle bei der Evidenzsynthese
Identifizieren Sie, wann Studien NICHT gepoolt werden sollten
Beschreiben Sie die Evidenzhierarchie und wo systematische Überprüfungen stattfinden sit
Recognize that meta-analysis can mislead when done poorly
Erinnern Sie sich an die sieben Prinzipien, die diesem Kurs zugrunde liegen

Dieser Kurs existiert, weil

die Medizin falsch war.

Nicht ein einziges Mal. Nicht selten. Wiederholt. Auf eine Weise, die Patienten tötete, die darauf vertrauten, dass die Beweise stichhaltig waren.

What is Meta-Analysis?

Eine statistische Methode zum Kombinieren von Ergebnissen aus mehreren unabhängigen Studien, die sich mit derselben Frage befassen.

1976

Term coined by Gene Glass

~50,000

Published per year

#1

Evidence hierarchy*

*When well conducted. Quality of conduct matters more than study design alone — as GRADE recognizes.

Warum Pool-Studien?

1

Increase Statistical Power

Individual studies may be too small to detect effects.

2

Improve Precision

Narrower confidence intervals around effect estimates.

3

Resolve Disagreement

Wenn Studien widersprüchlich sind, kann das Pooling das Signal klären.

4

Explore Heterogeneity

Identify why effects differ across populations or settings.

But meta-analysis can also

MISLEAD

When done poorly, it amplifies bias rather than truth.

Wann NICHT gepoolt werden sollte

1

Studien messen grundlegend unterschiedliche Dinge (Äpfel und Orangen)

2

Extreme heterogeneity that cannot be explained

3

One study dominates all others (megastudy problem)

4

Studien weisen ein hohes Risiko einer Verzerrung auf, die nicht angepasst werden kann

Pooling ist ein Privileg, kein Recht.

The decision to combine must be defended.

Die Hierarchie der Beweise

Systematic Reviews & Meta-Analyses of RCTs

Randomized Controlled Trials

Cohort Studies

Case-Control Studies

Case Series / Expert Opinion

Die Position in der Hierarchie hängt von der Qualität der Methodik ab, nicht vom Studientyp allein.

Dieser Kurs vermittelt durch

evidence reversals.

Jedes Modul beginnt mit einer Geschichte darüber, wie die Medizin Fehler gemacht hat. Dann lernen wir die Methode kennen, die den Schaden verhindert hätte.

Die sieben Prinzipien

Diese Sätze werden auf Ihrer Reise immer wiederkehren:

1. „Nicht jedes Signal ist die Wahrheit.“

2. „Methoden schützen Patienten vor unserem Vertrauen.“

3. "What was hidden in plain sight?"

4. „Die Zahl ohne Herkunft ist keine Zahl.“

5. “Heterogenität ist eine Botschaft, kein Rauschen.“

6. “Das Fehlen von Beweisen ist kein Beweis für Abwesenheit.“

7. "Certainty must be earned, not assumed."

Module 0 Quiz

1. Warum sollte man Studien manchmal NICHT in einer Metaanalyse zusammenfassen?

A. Pooling is always better than single studies

B. When heterogeneity is extreme or studies measure different things

C. Pooling is always appropriate for RCTs

D. Statistical methods handle any situation

2. Wo befinden sich systematische Überprüfungen von RCTs in der Evidenzhierarchie?

A. At the top

B. Same level as individual RCTs

C. Unter Kohortenstudien

D. Same as expert opinion

Beginnen Sie die Reise.

Modul 1: Die Frage

Nicht jedes Signal ist wahr.

Dies ist keine Geschichte über Fehler.

Es ist eine Geschichte über Gewissheit.

Modul 1: Die Frage

🎯 Learning Objectives

Formulieren Sie eine gezielte PICO-Frage für eine systematische Überprüfung.
Distinguish surrogate outcomes from patient-important outcomes
Explain why biological plausibility alone is insufficient evidence
Beschreiben Sie die CAST-Studie und ihre Auswirkungen auf die evidenzbasierte Analyse Medizin
Wenden Sie den Grundsatz an: „Nicht jedes leuchtende Zeichen ist Führung“

~9,000

excess deaths per year

From a treatment everyone believed worked.

Dies ist die Geschichte davon, wie wir geglaubt haben – und wie wir falsch lagen.

The Observation

Patients with frequent PVCs after MI had 2-5x higher mortality.

400,000+

MI survivors/year

~40%

mit bedeutenden PVCs

160,000

at elevated risk

A massive clinical need. A clear target.

The Response

Antiarrhythmic drugs were developed, FDA approved,
and prescribed to ~200,000 patients per year.

Hier taucht kein Bösewicht auf Geschichte.

Jeder handelte auf der Grundlage der besten verfügbaren Beweise.

Die Logik, die alle überzeugte

PREMISE 1

PVCs after MI predict sudden cardiac death

↓

PREMISE 2

Antiarrhythmic drugs suppress PVCs

↓

PREMISE 3

Suppressing PVCs should prevent sudden death

↓

CONCLUSION

Antiarrhythmics save lives in post-MI patients

Die Kette war logisch. Die Schlussfolgerung schien unvermeidlich.

CAST: The Cardiac Arrhythmia Suppression Trial

Finally, someone asked: "Does suppressing PVCs actually save lives?"

Design

Randomized, double-blind, placebo-controlled

Population

Post-MI patients with asymptomatic PVCs

Intervention

Encainide, flecainide, or moricizine vs placebo

Run-in

Only patients with ≥80% PVC suppression randomized

Primary endpoint

Death or cardiac arrest with resuscitation

Sample size

1,498 patients (encainide/flecainide arms)

Die Ergebnisse: April 1989

Das Data Safety Monitoring Board stoppt den Versuch vorzeitig.

Outcome	Drug (n=755)	Placebo (n=743)
Arrhythmic deaths	33	9
All cardiac deaths	43	16
Total deaths	56	22
Death rate	7.4%	3.0%

Relative Risk of Death: 2.5

95% CI: 1.6 - 4.5 | p < 0.001

Die Medikamente, die Arrhythmien perfekt unterdrückten, erhöhten die Sterblichkeit um 150 %.

Der Mensch Kosten

Before CAST, ~200,000 Americans per year received these drugs.

~9,000

excess deaths per year - possibly more

Vietnam War: ~6,000 US deaths/year • These drugs: ~9,000+ deaths/year

For every number, a name we will never know.

Look again.

Die Logik – überarbeitet

PREMISE 1

PVCs after MI predict sudden cardiac death

↓

PREMISE 2

Antiarrhythmic drugs suppress PVCs

← THE LEAP

↓

PREMISE 3

Suppressing PVCs should prevent sudden death

↓

CONCLUSION

Antiarrhythmics save lives in post-MI patients

Die Annahme, dass die Unterdrückung des Markers das Ergebnis beheben würde, wurde nie überprüft.

What Went Wrong: The Surrogate Trap

1

PVCs waren ein Marker für geschädigtes Gewebe und keine Todesursache.

2

The drugs had proarrhythmic effects - triggering deadlier rhythms

3

Die Leihmutter verbesserte sich, während sich das Ergebnis verschlechterte – eine dissoziierte Leihmutter.

Die Leihmutter log nicht. Wir haben die falsche Frage gestellt.

Das PICO-Framework

Every answerable clinical question has four components:

P - POPULATION

Wer sind die Patienten? Was sind ihre Merkmale?

I - INTERVENTION

What treatment or exposure is being evaluated?

C - COMPARATOR

What is the alternative? Placebo? Standard care?

O - OUTCOME

What matters to patients? Hard endpoints vs surrogates.

CAST PICO

Post-MI patients with PVCs | Antiarrhythmics | Placebo | Mortality

🔍

Untersuchungsübung: Die Beweise vor CAST

Sie sind Kardiologe im Jahr 1988. Ein Patient hat einen Herzinfarkt überlebt, leidet aber häufig an PVC. Die Beobachtungsliteratur ist klar...

Study	Patienten mit PVCs	Mortality Risk
Lown (1977)	High-grade PVCs	2.4x higher
Bigger (1984)	>10 PVCs/hour	3.1x higher
Mukharji (1984)	Complex PVCs	4.8x higher

Das Signal ist klar. Der Mechanismus ist plausibel. Würden Sie Antiarrhythmika verschreiben?

Before: Observational Logic

PVCs → Higher mortality

Drugs suppress PVCs

∴ Drugs should reduce mortality

After: CAST RCT (1989)

Death rate on drug: 7.4%

Death rate on placebo: 3.0%

RR = 2.5 (150% increase in deaths)

Dem Ersatz ging es besser. Die Patienten starben. Deshalb fragen wir: „Was ist das Ergebnis, das zählt?“

Die Lehren für die Evidenzsynthese

1

Biologische Plausibilität ist kein Beweis

A logical mechanism doesn't guarantee the expected effect.

2

Surrogate endpoints can mislead

Improving a biomarker doesn't prove improvement in outcomes.

3

Randomisierte Studien liefern die stärksten kausalen Beweise

Beobachtungsdaten allein Stellt selten einen Kausalzusammenhang für Interventionen aufgrund von Verwirrung fest.

4

Konsens ist kein Beweis

200.000 Verschreibungen, FDA-Zulassung und Richtlinien waren alle falsch.

This is why we do meta-analysis: to see past apparent truths.

GESCHICHTE: Die DES-II-Ersatztragödie

Was Wenn die von Ihnen gestellte Frage darüber entscheidet, wer lebt und wer stirbt?

REAL DATA

Im Jahr 1989 wussten Kardiologen, dass PVC-Unterdrückung mit Encainid und Flecainid erreichbar war. Der Ersatzendpunkt sah perfekt aus: Medikamente unterdrückten die PVCs um 80%+. But CAST randomized 1,498 patients zum aktiven Medikament vs. Placebo. Die Studie wurde vorzeitig abgebrochen: 56 deaths in the drug group vs 22 in placebo. Mortality increased 2.5-fold. An estimated ~9,000 excess American deaths per year waren auf diese Medikamente zurückzuführen.

Die Wahl des Kardiologen: 1987

Ihr Patient nach einem Herzinfarkt hat häufig PVCs. Es gibt Medikamente, die sie vollständig unterdrücken. Was tun Sie?

PFAD A: Den Ersatz behandeln

Prescribe encainide — PVCs vanish, the ECG looks clean

↓

Der Biomarker verbessert sich. Du fühlst dich zuversichtlich. Der Patient stirbt.

OUTCOME: An estimated 50,000+ excess deaths across the US during years of use

PATH B: Demand a Mortality Trial

Beharren Sie darauf: „Zeigen Sie mir, dass sich das Überleben verbessert, nicht nur das EKG.“

↓

Die Studie zeigt Schäden. Die Medikamente werden abgesetzt. Leben werden gerettet.

ERGEBNIS: Die richtige PICO-Frage verhindert eine Katastrophe

THE REVELATION

Die Frage war nie „Können wir PVCs unterdrücken?“ Es lautete: „Rettet die PVC-Unterdrückung Leben?“ Ein Ersatzendpunkt hat die falsche Frage beantwortet. Der richtige PICO hätte von Anfang an Sterblichkeit als Ergebnis gefordert.

What appears certain may be wrong.

What everyone believes may be false.

Es gibt Methoden, sodass Patienten nicht für unser Vertrauen bezahlen.

Deshalb sind Sie hier.

Module 1 Quiz

1. Was war der grundlegende Fehler in der antiarrhythmischen Logik?

A. Die Studien waren nicht randomisiert

B. Treating a surrogate (PVCs) was assumed to improve outcomes

C. Die Stichprobengröße war zu klein

D. Die FDA-Zulassung wurde beschleunigt

2. Wofür steht in PICO das „O“ und warum ist es wichtig?

A. Observation - what researchers see

B. Ziel – das Forschungsziel

C. Outcome - what matters to patients

D. Organisation – Studienstruktur

Nicht jedes Signal ist wahr.

Methoden schützen Patienten vor unserem Vertrauen.

What was hidden in plain sight?

Dies ist eine Geschichte über

observational evidence.

Modul 2: Das Protokoll

🎯 Learning Objectives

Explain why protocol pre-registration prevents bias
Identify key elements of a PROSPERO registration
Distinguish healthy user bias from true treatment effects
Describe why observational studies overestimated HRT benefits
Wenden Sie das Prinzip an: „Methoden schützen Patienten vor unserem.“ Vertrauen"

30+

observational studies

All showing hormone replacement therapy protected postmenopausal women from heart disease.

Die Beweise schienen überwältigend. Die Schlussfolgerung schien sicher.

Die Gesundheitsstudie der Krankenschwestern

122,000 nurses followed for decades. HRT users had 40-50% lower cardiovascular mortality.

RR 0.56

Cardiovascular mortality

122,000

Women followed

20+ years

Follow-up

Landmark study. Impeccable methodology. Wrong conclusion.

Die versteckte Voreingenommenheit

1

Healthy User Bias: Women who chose HRT were healthier, wealthier, better educated

2

Compliance Bias: Women who took HRT consistently also took better care of themselves

3

Prescriber Bias: Doctors gave HRT to healthier women with fewer risk factors

Die Behandlung schützte sie nicht. Sie waren bereits geschützt.

WHI: The Women's Health Initiative

The largest randomized trial of HRT ever conducted.

Design

Randomized, double-blind, placebo-controlled

Population

Postmenopausal women aged 50-79

Intervention

Estrogen + Progestin vs Placebo

Sample size

16,608 women

Primary endpoint

Coronary heart disease

Planned duration

8.5 years

Die Ergebnisse: Juli 2002

Trial stopped early after 5.2 years. Harm exceeded benefits.

Outcome	Hazard Ratio	Direction
Coronary heart disease	1.29	HARM
Stroke	1.41	HARM
Breast cancer	1.26	HARM
Pulmonary embolism	2.13	HARM

Complete Reversal

30 Jahre Beobachtungsbeweise wurden aufgehoben

The Lesson

PRE-SPECIFY

A protocol written before the search begins prevents fishing, prevents bias, prevents hindsight distortion.

GESCHICHTE: Die Hormon-Timing-Hypothese

Was wäre, wenn die Behandlung wirkt – aber nur für einige?

REAL DATA

WHI showed HRT increased cardiovascular events overall. But later analyses revealed a critical pattern: women who started HRT within 10 years of menopause had REDUCED cardiovascular risk. Women starting 20+ years after menopause had INCREASED risk. The overall null/harm result hid a timing effect.

Das Analystendilemma

Sie analysieren WHI-Untergruppen. Das Gesamtergebnis zeigt Schaden. Graben Sie tiefer?

PATH A: Report Overall Only

Conclude HRT is harmful for all postmenopausal women

↓

Simple message. Guidelines recommend against HRT universally.

OUTCOME: Deny potential benefit to younger menopausal women

PATH B: Pre-Specify Timing Subgroups

Analyze by years since menopause (biologically plausible)

↓

Entdecken Sie das „Zeitfenster“ für eine sichere HRT-Einleitung.

OUTCOME: Enable personalized recommendations

THE REVELATION

Untergruppenanalyse ist beim Angeln gefährlich. Dies ist von entscheidender Bedeutung, wenn die Biologie Wirkungsmodifikationen vorhersagt. Die Timing-Hypothese war biologisch plausibel – und hätte vorab spezifiziert werden müssen.

PROSPERO Registration

1

Registrieren Sie sich, bevor Sie suchen

PROSPERO: International prospective register of systematic reviews

2

Sperren Sie Ihre Entscheidungen

PICO, search strategy, outcomes, analysis plan - all pre-specified

3

Document Amendments

Änderungen sind zulässig, müssen aber transparent und begründet sein

4

Prevent Duplication

Überprüfen Sie, ob Ihre Bewertung bereits vorhanden ist ab

Module 2 Quiz

1. Warum zeigte die Nurses' Health Study, dass die HRT einen Nutzen bringt, der bei WHI nicht der Fall war?

A. Nurses' Health had too few patients

B. Healthy user bias in observational studies

C. Nurses' Health had shorter follow-up

D. Different hormone formulations were used

2. What is the primary purpose of PROSPERO registration?

A. To register clinical trials

B. Um den Abschluss der Überprüfung zu beschleunigen

C. Um Methoden vorab festzulegen und Verzerrungen vorzubeugen

D. Um Finanzierung für Überprüfungen zu erhalten

Eine Vorabspezifikation ist nicht möglich Bürokratie.

It is protection.

Against our own tendency to find what we expect.

Methoden schützen Patienten vor unserem Vertrauen.

What was hidden in plain sight?

Modul 3: Die Suche

What was hidden in plain sight?

Dies ist eine Geschichte über

what they didn't publish.

Modul 3: Die Suche

🎯 Learning Objectives

Develop a comprehensive search strategy using PRESS guidelines
Search multiple databases including grey literature sources
Identify trial registries and regulatory databases (ClinicalTrials.gov, FDA)
Explain how the rosiglitazone case exposed hidden cardiovascular harms
Wenden Sie das Prinzip an: „Was war in aller Öffentlichkeit verborgen?“

$3.2B

annual sales at peak

Avandia (Rosiglitazon) war einer von ihnen Die weltweit meistverkauften Diabetesmedikamente.

Die veröffentlichten Studien sahen beruhigend aus. Die unveröffentlichten erzählten eine andere Geschichte.

Die veröffentlichten Beweise (vor 2007)

Published trials showed rosiglitazone effectively lowered HbA1c. Cardiovascular outcomes were rarely reported.

1999

FDA approval

6M+

Patients treated

~0.7%

HbA1c reduction

Der Ersatz sah gut aus. Aber was ist mit tatsächlichen kardiovaskulären Ereignissen?

Nissen's Discovery: May 2007

Dr. Steven Nissen erhielt unveröffentlichte Studiendaten von der GSK-eigenen Website.

GSK war aufgrund einer rechtlichen Einigung verpflichtet, die Ergebnisse klinischer Studien online zu veröffentlichen. Nissen und Wolski analysierten 42 Studien – viele wurden nie in Fachzeitschriften veröffentlicht.

Die Daten waren technisch öffentlich.

No one had systematically searched for it.

Die Ergebnisse der Metaanalyse

Outcome	Odds Ratio	95% CI
Myocardial Infarction	1.43	1.03 - 1.98
CV Death	1.64	0.98 - 2.74

43% Increased Risk of Heart Attack

p = 0,03 für Myokardinfarkt

Published in NEJM. The FDA called an emergency advisory committee meeting.

The FDA Advisory Committee: July 2007

22-1

Voted: CV risk exists

20-3

Auf dem Markt bleiben mit Warnungen

Der Ausschuss war gespalten. Einige wollten, dass es zurückgezogen wird. Einige bezeichneten die Metaanalyse als fehlerhaft.

Aber das Signal war nicht zu übersehen.

The Aftermath

1

Black box warning added for heart failure risk (2007)

2

Severe restrictions on prescribing in the US (2010)

3

Withdrawn vollständig vom europäischen Markt (2010)

4

FDA now requires cardiovascular outcome trials for all diabetes drugs

What a Comprehensive Search Requires

PUBLISHED

PubMed, Embase, CENTRAL, Web of Science

GREY LITERATURE

Conference abstracts, dissertations, regulatory docs

TRIAL REGISTRIES

ClinicalTrials.gov, WHO ICTRP, EU CTR

REGULATORY

FDA, EMA, Health Canada submissions

COMPANY DATA

GSK, Pfizer, Roche clinical trial registries

HAND SEARCH

Reference lists, contact authors, experts

Die PRESS-Checkliste

Peer Review of Electronic Search Strategies

1

Übersetzung der Forschungsfrage

Spiegelt die Suche den PICO wider? Elemente?

2

Boolesche und Näherungsoperatoren

Werden AND, OR, NOT korrekt verwendet?

3

Subject Headings

Sind MeSH/Emtree-Begriffe angemessen und aufgelöst?

4

Text Words

Synonyms, spelling variants, truncation?

PRESS Checklist (continued)

5

Spelling, Syntax, Line Numbers

Gibt es Fehler, die einen Abruf verursachen würden Fehler?

6

Grenzwerte und Filter

Sind Datum, Sprache und Studiendesign-Grenzwerte angemessen?

Peer-reviewed searches substantially improve retrieval of key studies.

PRESS guideline: McGowan et al., 2016

Database Translation

Die gleiche Suche muss für jede Datenbank angepasst werden:

PubMed

"diabetes mellitus, type 2"[MeSH] OR "type 2 diabetes"[tiab]

Embase

'non insulin dependent diabetes mellitus'/exp OR 'type 2 diabetes':ti,ab

Subject headings, field tags, and operators differ between databases.

GESCHICHTE: Die Tamiflu-Transparenz Kampagne

Was passiert, wenn Sie suchen – und nichts finden?

REAL DATA

Governments stockpiled $9 billion von Oseltamivir (Tamiflu) gegen eine pandemische Grippe. Die Cochrane Collaboration versuchte, die Beweise zu überprüfen. Von 77 clinical trials, full reports existed for only 20. Roche weigerte sich, Daten für 5 yearsweiterzugeben. Als das BMJ und Cochrane schließlich erhalten haben over 160,000 pages of clinical study reports, they found: Tamiflu reduced symptoms by less than 1 day, with no evidence it prevented hospitalizations or complications.

Das Dilemma des Rezensenten: 2009

Sie aktualisieren eine Cochrane-Rezension von Tamiflu. Veröffentlichte Studien sehen positiv aus. Für 57 Studien liegen jedoch keine vollständigen Berichte vor. Was tun Sie?

PATH A: Analyze What's Published

Use the 20 available trials. Conclude Tamiflu is effective.

↓

Ihre Bewertung unterstützt die weitere Bevorratung. 9 Milliarden US-Dollar für schwache Beweise ausgegeben.

OUTCOME: Billions wasted, true efficacy unknown

PFAD B: Vollständige Daten verlangen

Refuse to publish until all trial data is accessible

↓

5-year campaign. 160,000+ pages finally obtained. Truth emerges.

OUTCOME: Evidence policy changed; EMA now publishes all trial reports

THE REVELATION

Eine Suche ist nur so gut wie das, was gefunden werden kann. Wenn die graue Literatur hinter den Mauern von Unternehmen versteckt ist, wird selbst die umfassendste PubMed-Suche die Wahrheit verfehlen. Die Tamiflu-Saga veränderte die globale Politik: Die EMA veröffentlicht nun klinische Studienberichte für alle Arzneimittel.

If Nissen had searched only PubMed,

the signal would have remained hidden.

Comprehensive search is survival.

What was hidden in plain sight?

Module 3 Quiz

1. Welche Art von Beweisquelle enthüllte das kardiovaskuläre Signal von Rosiglitazon?

A. Published journal articles

B. Cochrane Library

C. Company clinical trial registry

D. FDA approval documents

2. What does PRESS stand for?

A. Publikationsüberprüfung von Standards für die Beweissuche

B. Peer Review of Electronic Search Strategies

C. Protokoll zur Berichterstattung über Studien zur Evidenzsynthese

D. Primary Research Evidence Search System

What was hidden in plain sight?

Modul 4: Das Screening

Die Zahl ohne Herkunft ist keine Zahl.

Dies ist eine Geschichte über

what they chose to report.

Modul 4: Das Screening

🎯 Learning Objectives

Apply PRISMA flow diagram to document study selection
Implement dual-reviewer screening with conflict resolution
Identifizieren Sie selektive Ergebnisberichterstattung und Datenmanipulation
Calculate inter-rater reliability (Cohen's kappa)
Wenden Sie das Prinzip an: „Die Zahl ohne Herkunft ist keine Zahl“

88,000

heart attacks attributed to Vioxx

A blockbuster drug. A hidden signal. A preventable catastrophe.

Zwischen 1999 und 2004 nahmen Millionen dieses Schmerzmittel ein. Einige kamen nie nach Hause.

Der Aufstieg von Vioxx

Rofecoxib (Vioxx) war ein COX-2-selektives NSAID. Wird als sicherer für den Magen vermarktet als herkömmliche Schmerzmittel.

1999

FDA approval

$2.5B

Peak annual sales

80M+

Patients prescribed

Die VIGOR-Studie (2000)

Vioxx Gastrointestinal Outcomes Research

Design

Randomized, double-blind

Comparison

Vioxx vs Naproxen

Population

Rheumatoid arthritis

Sample

8,076 patients

Primary Outcome

GI events

Published

NEJM, November 2000

What VIGOR Published

GI Outcome	Vioxx	Naproxen
Confirmed GI events	2.1 per 100 pt-yrs	4.5 per 100 pt-yrs
Reduction	54% fewer GI events

Die Schlagzeile: Vioxx ist sicherer für Ihren Magen!

Das wurde Ärzten gesagt. Das glaubten die Patienten.

What VIGOR Buried

CV Outcome	Vioxx	Naproxen
Myocardial Infarction	20 events	4 events
Relative Risk	5x higher in Vioxx group

5-fold Increase in Heart Attacks

Mentioned only briefly, attributed to naproxen being "cardioprotective"

Die selektive Berichterstattung

1

Manipulation der Datenunterbrechung: 3 additional heart attacks occurred after the cutoff used in publication

2

Spin: CV-Signal wurde mit der kardioprotektiven Wirkung von Naproxen erklärt (keine Beweise)

3

Outcome switching: CV-Ereignisse wurden vorab spezifiziert, aber nicht hervorgehoben

4

Internal knowledge: Aus E-Mails von Merck geht hervor, dass sie von dem Signal wussten.

Die APPROVe-Studie (2004)

Eine Studie zur Prävention kolorektaler Polypen – aus Sicherheitsgründen vorzeitig abgebrochen.

RR 1.92

CV events vs placebo

Sept 2004

Vioxx withdrawn

Four years after VIGOR showed a 5x risk. Four years too late.

GESCHICHTE: Der Vioxx-Entscheidungsbaum

Haben Sie darüber nachgedacht, was passiert? wenn sich ein Signal im Lärm verbirgt?

REAL DATA

Vioxx (Rofecoxib) wurde zugelassen in 1999. By 2004, estimates suggest 88,000-140,000 excess heart attacks and 30,000-40,000 deaths. Merck's own VIGOR trial showed 5x cardiovascular risk in 2000—but it was dismissed as a "naproxen cardioprotective effect."

Die Weggabelung

Sie sind FDA-Gutachter im Jahr 2001. VIGOR-Daten zeigen ein 5-faches Herzinfarktrisiko mit Vioxx vs Naproxen.

PFAD A: Akzeptieren Sie die Erklärung

Believe Merck's hypothesis: naproxen is cardioprotective

↓

No additional safety studies required. Drug stays on market at full speed.

ERGEBNIS: 40.000+ Todesfälle über 4 Jahre

PFAD B: Fordern Sie Beweise

Require a dedicated CV safety trial before continued marketing

↓

Delay or restrict marketing until cardiovascular safety is established.

OUTCOME: Signal detected early, lives saved

THE REVELATION

Das Signal war im Jahr 2000 da. Das Falsche Erklärung verzögerte die Aktion um 4 Jahre. Eine alternative Hypothese – die ohne Beweise akzeptiert wurde – kostete Zehntausende Menschenleben.

Das PRISMA-Flussdiagramm

Every step of screening must be documented and transparent.

Identification

Records from databases + other sources

↓

Screening

Title/abstract review (duplicates removed)

↓

Eligibility

Full-text assessment (with exclusion reasons)

↓

Included

Studies in synthesis

Dual Screening: Why Two Reviewers?

1

Reduces Selection Bias

One reviewer might unconsciously favor certain studies

2

Catches Errors

Ermüdung, Fehlinterpretationen und Fehler sind unvermeidlich

3

Forces Explicit Criteria

Disagreements reveal ambiguity in inclusion rules

Typical agreement: κ = 0.6-0.8

Disagreements resolved by discussion or third reviewer

Kalibrierung: Die Pilotphase

Before screening thousands of records, reviewers should calibrate on a sample of 50-100 records.

1

Screen the same set independently

2

Compare decisions and discuss disagreements

3

Refine inclusion criteria until κ > 0.7

4

Dokumentieren Sie die Kalibrierungsprozess und alle Regeländerungen

PRISMA 2020 Updates

New in 2020

Separate reporting of database vs register searches

New in 2020

Automatisierungswerkzeuge müssen gemeldet werden

New in 2020

Citation searching documented separately

New in 2020

Reasons for exclusion at full-text mandatory

PRISMA 2020 hat die Checkliste grundlegend überarbeitet und die Berichterstattung über Synthesemethoden, Sicherheitsbewertung und Protokollregistrierung erweitert.

If Vioxx's cardiovascular data had been screened by independent reviewers,

if all pre-specified outcomes had been required to be reported,

88,000 heart attacks might have been prevented.

Die Zahl ohne Herkunft ist keine Zahl.

Module 4 Quiz

1. Wie hoch war in der VIGOR-Studie das relative MI-Risiko in der Vioxx-Gruppe im Vergleich zu Naproxen?

A. 1.5x higher

B. 2x higher

C. 5x higher

D. 10x higher

2. Why is dual screening (two independent reviewers) important?

A. It makes screening faster

B. It reduces selection bias and catches errors

C. Es reduziert die Anzahl der zu überprüfenden Studien

D. It allows reviewers to skip full-text review

Die Zahl ohne Herkunft ist keine Zahl.

Modul 5: Die Extraktion

Die Zahl ohne Herkunft ist keine Zahl.

Dies ist eine Geschichte über

Zahlen, die es nie gab.

Modul 5: Die Extraktion

🎯 Learning Objectives

Entwerfen Sie ein standardisiertes Datenextraktionsformular mit Herkunftsfeldern
Calculate effect sizes from various reported statistics (OR, RR, HR, SMD)
Implement dual-extraction with discrepancy resolution
Identifizieren Sie Warnsignale für Datenfälschung und Fehlverhalten
Explain how the DECREASE fraud affected clinical guidelines

~10,000

possible excess deaths in Europe

Anhand von Richtlinien, die auf fabrizierten klinischen Studien basieren Daten.

Die DECREASE-Studien beeinflussten die perioperative Versorgung weltweit. Die Daten wurden erfunden.

Don Poldermans: A Star Researcher

Professor at Erasmus Medical Center, Rotterdam. Author of over 500 papers. Lead author of ESC guidelines on perioperative cardiac care.

500+

Publications

DECREASE

Trial series I-VI

ESC

Guideline chair

Eine scheinbar unanfechtbare Quelle. Bis sich jemand die Daten angesehen hat.

Die DECREASE-Studien: Die Behauptung

Trial	Finding	Impact
DECREASE-I (1999)	90% reduction in cardiac death	Changed guidelines
DECREASE-IV (2009)	Beta-blockers safe in low-risk	Expanded recommendations

Effect sizes were implausibly large.

90% reduction? Almost nothing in medicine works that well.

The Investigation: 2011

1

Erasmus MC investigated after whistleblower complaints

2

Erfundene Patientendaten: Patients who didn't exist or weren't enrolled

3

No informed consent: Many "participants" never consented

4

Poldermans dismissed: From Erasmus MC in 2011

Die Kaskade des Schadens

Als DECREASE entfernt wurde Metaanalysen...

Benefit → Harm

Direction reversed

27% ↑

Stroke risk increase

Die POISE-Studie (2008) hatte Schäden gezeigt. Es wurde abgewiesen, weil es im Widerspruch zu DECREASE stand.

Warum wurde das nicht erfasst?

1

Trust in authority: Poldermans war der Autor der Leitlinien, der seine eigenen Beweise überprüfte

2

No data verification: Niemand fragte nach einzelnen Patienten Daten

3

Publication prestige: Published in top journals, assumed valid

4

Implausible effects accepted: 90% reductions should raise suspicion

Data Extraction: Defense Against Fraud

1

Dual Extraction

Two extractors independently - catches transcription errors and forces scrutiny

2

Record Provenance

Table, page, paragraph - every number traceable to source

3

Verify Against Registry

ClinicalTrials.gov-Ergebnisse vs. Veröffentlichung – Diskrepanzen sind Warnsignale

4

Request IPD

Individual patient data reveals what aggregate summaries hide

Effect Size Calculation

Während der Extraktion berechnen Sie Effektgrößen aus gemeldeten Daten:

BINARY OUTCOMES

Odds Ratio, Risk Ratio, Risk Difference from 2x2 tables

CONTINUOUS OUTCOMES

Mittelwertdifferenz, standardisierte Mittelwertdifferenz aus Mittelwerten und Standardabweichungen

Immer Auszug aus der zuverlässigsten Quelle.

Prefer: ITT results > per-protocol > subgroups

Red Flags During Extraction

!

Implausible effect sizes: 80-90% reductions should prompt scrutiny

!

Baseline imbalances: Gruppen, die „zu perfekt“ übereinstimmen

!

Round numbers: "Exactly 50" or "exactly 100" patients per arm

!

Registry discrepancies: Das veröffentlichte N unterscheidet sich vom registrierten N

Researcher

Effect Size Conversions

Studien berichten über Ergebnisse in unterschiedlichen Maßstäben. Um sie zusammenzufassen, sind häufig Konvertierungen erforderlich:

From	To	Formula
SMD (d)	log-OR	log-OR = d × π / √3
log-OR	SMD (d)	d = log-OR × √3 / π
Correlation (r)	Fisher z	z = 0.5 × ln((1+r)/(1−r))
OR	RR	RR = OR / (1 − P₀ + P₀ × OR)
OR	NNT	NNT = 1 / (P₀ − OR×P₀ / (1−P₀+OR×P₀))

P₀ = Grundrisiko in der Kontrollgruppe. Diese Formeln gehen von ungefähren Bedingungen aus; siehe Borenstein et al. (Kap. 7) für genaue Ableitungen.

Researcher

Time-to-Event-(Überlebens-)Daten

Many trials report time-to-event outcomes using hazard ratios (HR). Pooling HRs in meta-analysis requires special handling:

1

Die log(HR) + SE-Methode

Extrahieren Sie log(HR) und dessen SE aus der Testversion. Wenn nicht angegeben, leiten Sie SE aus dem CI ab: SE = (ln(oben) − ln(unten)) / (2 × 1,96). Pool mit Standardmethoden der inversen Varianz.

2

Wenn HR nicht gemeldet wird

Es gibt Methoden zur Rekonstruktion der IPD aus Kaplan-Meier-Kurven (Guyot et al. 2012) oder zur Schätzung der HR aus p-Werten und Ereigniszahlen (Parmar et al. 1998). Bevorzugen Sie immer die direkt gemeldete angepasste Herzfrequenz, sofern verfügbar.

HR < 1 favors treatment; HR > 1 favors control. Do not convert HRs to ORs or RRs—they measure fundamentally different quantities.

GESCHICHTE: Der Boldt-Kolloidskandal

Was wäre, wenn die Daten, die Sie extrahieren, niemals real wären?

REAL DATA

Joachim Boldt war der produktivste Forscher auf dem Gebiet des Anästhesieflüssigkeitsmanagements. Über 180 seiner Veröffentlichungen wurden zurückgezogen – einer der größten Retraktionsfälle in der Medizingeschichte. Seine erfundenen Daten zeigten, dass Hydroxyethylstärke (HES) sicher war. Metaanalysen, die seine Studien einschlossen, kamen zu dem Schluss, dass HES harmlos sei. Als Boldts Studien entfernt wurden, Der gepoolte Effekt kehrte sich um: HES increased kidney injury by 59% (RR 1.59, 95% CI 1.26-2.00) and mortality by ~9% (RR 1.09). An estimated thousands of patients received a harmful fluid based on fabricated evidence.

Die Wachsamkeit des Extraktors: 2010

Sie extrahieren Daten für eine Metaanalyse zur Flüssigkeitsreanimation. Boldts Studien dominieren die Literatur (über 90 Arbeiten). Ein Whistleblower hat Bedenken geäußert. Was machst du?

PATH A: Extract as Published

Trust peer-reviewed publications. Extract Boldt's data like any other.

↓

Your meta-analysis shows HES is safe. Guidelines recommend it.

OUTCOME: Thousands receive a nephrotoxic fluid

PATH B: Verify Provenance

Überprüfen Sie ethische Genehmigungen, fordern Sie Quelldaten an und führen Sie Sensitivitätsanalysen durch, bei denen verdächtige Studien ausgeschlossen werden

↓

Discover missing ethics approvals. Flag studies. Re-analyze without them.

OUTCOME: True signal emerges — HES causes harm

THE REVELATION

Provenienz ist keine Bürokratie. Es ist der Unterschied zwischen Beweis und Fiktion. Jede extrahierte Zahl muss auf eine ethisch anerkannte Studie mit überprüfbaren Patientendaten zurückgehen. Ohne Herkunft kann die Nummer ohne Besitzer zur Waffe werden.

Jede Zahl in Ihrer Metaanalyse

must trace back to a verifiable source.

Die Zahl ohne Herkunft ist keine Zahl.

Fraudulent data can kill as surely as fraudulent drugs.

Module 5 Quiz

1. Was geschah, als die Daten der DECREASE-Studie aus Betablocker-Metaanalysen entfernt wurden?

A. The benefit became even larger

B. No change in conclusions

C. The direction reversed to show potential harm

D. Die Ergebnisse waren nicht schlüssig

2. Why should dual extraction be standard practice?

A. It catches transcription errors and forces scrutiny

B. It makes extraction faster

C. Es hilft, weitere Studien zu finden

D. It reduces the amount of work needed

Die Zahl ohne Herkunft ist keine Zahl.

Modul 6: Die Voreingenommenheit

Methoden schützen Patienten vor unserem Vertrauen.

Dies ist eine Geschichte über

Die Voreingenommenheit können wir nicht erkennen.

Modul 6: Die Voreingenommenheit

🎯 Learning Objectives

Apply Risk of Bias 2.0 (RoB 2) to randomized trials
Wenden Sie ROBINS-I auf nicht randomisierte Studien an
Assess all five RoB 2 domains (randomization, deviations, missing data, measurement, selection)
Distinguish confounding by indication from true treatment effects
Explain how BART revealed hidden harms of aprotinin

20+

Jahre auf dem Markt

Aprotinin war der Goldstandard zur Reduzierung chirurgischer Blutungen.

Dann führte jemand ein RCT durch. Die Wahrheit war anders.

The Hidden Bias: Confounding by Indication

1

Sicker patients got aprotinin: Surgeons used it in complex, high-risk cases

2

Survivors bias: Dead patients can't report complications

3

Publication bias: Negative Studien wurden nicht veröffentlicht

Beobachtungsstudien konnten die Wirkung des Arzneimittels nicht vom Ausgangsrisiko des Patienten trennen.

BART: Die randomisierte Wahrheit

Blood Conservation Using Antifibrinolytics in a Randomized Trial

Outcome	Aprotinin	Alternatives
30-day mortality	6.0%	3.9%
Relative Risk	1.53 (53% increased death)

Trial Stopped Early for Harm

November 2007 vom Markt genommen

🔍

Untersuchung: Bewerten Sie die Voreingenommenheit

Sie überprüfen die Beobachtungsstudien. Wenden Sie das Risk of Bias-Denken an:

Question	Observational	BART (RCT)
Random allocation?	❌ Surgeon choice	✓ Yes
Baseline comparable?	❌ Sicker got drug	✓ Balanced
Blinding?	❌ Open label	✓ Double-blind

Confounding by indication: Chirurgen verabreichten den am stärksten erkrankten Patienten Aprotinin. Die Beobachtungsstudien führten das Überleben auf das Medikament zurück, während sie den Überlebensbias maßen.

Risk of Bias 2.0: The Five Domains

D1

Randomization Process

D2

Abweichungen von beabsichtigten Interventionen

D3

Fehlende Ergebnisdaten

D4

Messung des Ergebnisses

D5

Auswahl des gemeldeten Ergebnisses

ROBINS-I: Für nicht randomisierte Studien

Wenn keine RCTs verfügbar sind, verwenden Sie ROBINS-I (Risk Of Bias In Non-randomized Studies of). Interventionen)

1

Confounding

Baseline differences between groups

2

Selection of Participants

Exclusions related to intervention

3

Classification of Interventions

Misclassification of exposure status

4

Abweichungen von beabsichtigten Interventionen

Co-interventions, contamination

5

Missing Data

Differential loss to follow-up

6

Measurement of Outcomes

Ascertainment bias

7

Selection of Reported Result

Selective reporting

Ratings: Low / Moderate / Serious / Critical / No information

GESCHICHTE: Die Aprotinin-BART-Studie

Was passiert, wenn 64 Studien übereinstimmen – und sie alle falsch sind?

REAL DATA

Aprotinin wurde in Herzoperationen verwendet, um Blutungen zu reduzieren 20 years. 64 small randomized trials legte nahe, dass es sicher und wirksam sei. Metaanalysen bestätigten den Nutzen. Dann ist das BART trial (2008) randomized 2,331 patients: aprotinin vs. tranexamic acid vs. aminocaproic acid. Result: aprotinin increased mortality by 53% (RR 1,53, 95 %-KI 1,06–2,22). Der Prozess wurde vorzeitig wegen Schadensersatzes abgebrochen. Bayer hat Aprotinin innerhalb weniger Monate vom Markt genommen.

Der Beweis des Chirurgen: 2006

Sie sind Herzchirurg und entscheiden sich für ein Antifibrinolytikum. 64 kleine Studien befürworteten Aprotinin, aber keine war aussagekräftig, um Mortalität festzustellen. Ein großes RCT (BART) ist immatrikuliert. Warten Sie?

PFAD A: Vertrauen Sie der Metaanalyse

64 trials can't all be wrong. Continue prescribing aprotinin.

↓

In kleinen Studien wurden Blutungen gemessen, nicht Todesfälle. Keiner von ihnen verfügte über die nötige Kraft, um zu sterben. In der Metaanalyse wurden unzureichend aussagekräftige Ersatzergebnisse zusammengefasst.

OUTCOME: Excess deaths in cardiac surgery patients

PATH B: Assess Risk of Bias First

Bewerten Sie alle 64 Studien mit RoB. Beachten Sie, dass sie klein sind, Ersatzergebnisse verwenden und eine hohe Fluktuation aufweisen. Warten Sie auf die ausreichend leistungsstarke RCT.

↓

BART reveals the truth. Switch to safer alternatives.

OUTCOME: Lives saved by demanding adequately powered evidence

THE REVELATION

Die Quantität der Beweise ist nicht gleichbedeutend mit der Qualität. Vierundsechzig ungenügend aussagekräftige Studien zur Messung des falschen Ergebnisses überwiegen nicht die Zahl einer ausreichend aussagekräftigen Studie zur Messung der Mortalität. Die Beurteilung des Risikos einer Verzerrung ist keine Formalität – sie ist der Schutzschild zwischen Patienten und irreführenden Schlussfolgerungen aus kleinen, ersatzbasierten Beweisen.

Sixty-four small trials measured bleeding, not death.

One adequately powered trial revealed 53% increased mortality.

Quantität der Beweise kann Qualität und Aussagekraft nicht ersetzen.

Module 6 Quiz

1. Why did 64 small trials miss aprotinin's harm?

A. Underpowered for mortality; used surrogate outcomes

B. Confounding by indication

C. Outcome measured incorrectly

D. Follow-up too short

Methoden schützen Patienten vor unserem Vertrauen.

Modul 7: Die Synthese

Heterogenität ist eine Botschaft, kein Rauschen.

Die Magnesium-Kontroverse: 1991-1995

When pooling leads us astray.

Modul 7: Die Synthese

🎯 Learning Objectives

Calculate pooled effect sizes using fixed-effect and random-effects models
Choose between DerSimonian-Laird and HKSJ estimators appropriately
Interpret forest plots including weights, confidence intervals, and diamonds
Explain why small-study effects can mislead meta-analyses
Wenden Sie das Prinzip an: „Heterogenität ist eine Botschaft, nicht.“ Lärm“

The Year: 1991

„Sie stehen am Scheideweg von Hoffnung und Beweisen …“

Heart disease kills more people worldwide than any other cause. In 1991, a new hope emerges: Could something as simple and cheap as intravenous magnesium save lives after myocardial infarction?

Die biologische Begründung war fundiert:

Magnesium stabilizes cardiac membranes, prevents arrhythmias, and vasodilates coronary arteries.

LIMIT-2: Der wegweisende Prozess

Leicester Intravenous Magnesium Intervention Trial, 1992

2,316

Patients enrolled

24%

Mortality reduction

p = 0.04

Statistically significant

A cheap, safe intervention that could save 250,000 lives per year globally.

Die medizinische Gemeinschaft war elektrisiert.

The Meta-Analysis: 1993

Researchers pooled seven randomized trials of IV magnesium in MI:

Trial	Year	N	Odds Ratio
Morton 1984	1984	40	0.10
Rasmussen 1986	1986	273	0.35
Smith 1986	1986	400	0.48
Abraham 1987	1987	94	0.87
Shechter 1990	1990	103	0.27
Ceremuzynski 1989	1989	48	0.22
LIMIT-2	1992	2,316	0.74

🔍

Investigation Exercise: The Meta-Analyst's Dilemma

Sie sind Cochrane-Rezensent im Jahr 1993. Sie wurden gebeten, die Beweise für Magnesium bei Myokardinfarkt zusammenzufassen. Die Daten aus sieben Versuchen liegen vor Ihnen.

Erkennen Sie das Muster in diesem Walddiagramm?

Pooled OR = 0.44 (95% CI: 0.27–0.71)

55% mortality reduction! Publish in the Lancet?

Aber warten Sie ... fällt Ihnen etwas an den Versuchsgrößen auf?

Die Warnung Zeichen

What should have given us pause?

1

Small sample sizes: Six of seven trials had <500 patients

2

Extreme effects: OR of 0.10 (90% reduction) is implausible for any drug

3

All positive: Wo waren die negativen Studien? Das Dateischubladenproblem...

4

Funnel asymmetry: Small trials showed much larger effects than larger ones

🔍

Der Funnel-Plot-Test

Bevor wir ein Pooling durchführen, müssen wir die Publikationsverzerrung prüfen. Lassen Sie uns das Trichterdiagramm untersuchen.

Das Jahr: 1995 – ISIS-4-Berichte

„Und dann kam die Wahrheit …“

The Fourth International Study of Infarct Survival (ISIS-4) enrolled 58,050 patients across 1,086 hospitals in 31 countries.

58,050

Patients

2,216

Deaths in Mg group

2,103

Deaths in placebo

OR = 1.06 (95% CI: 1.00–1.12)

No benefit. If anything, a trend toward harm.

📊

Vorher und Nachher: Das Gesamtbild

Sehen Sie sich an, was passiert, wenn wir den Mega-Prozess zu unserem Wald hinzufügen Handlung...

BEFORE ISIS-4

7 small trials (N = 3,274)

OR = 0.44

Strong benefit signal

AFTER ISIS-4

8 trials (N = 61,324)

OR = 1.02

No effect

Why Did Small Trials Mislead?

1

Publication Bias

Small negative trials were never published—they sat in file drawers

2

Small-Study Effects

Smaller trials tend to show larger effects due to methodological weaknesses

3

Random High Bias

Durch Zufall erzielten einige kleine Versuche extreme Ergebnisse – und diese wurden veröffentlicht

4

Random-Effects Amplification

Random-effects models give more weight to small trials, amplifying bias

Fixed vs. Random Effects

Which model should you choose?

FIXED EFFECT MODEL

Assumes one true effect. Weights studies by inverse variance (precision). Large trials dominate.

Magnesium result: OR = 0.96 (p = 0.52)

RANDOM EFFECTS MODEL

Assumes distribution of effects. Gives more weight to small trials. Wider confidence intervals.

Magnesium result: OR = 0.59 (p = 0.01)

⚠️ Die Wahl des Modells bestimmte die Schlussfolgerung!

Zufällige Effekte beheben keine Verzerrung; Bei Auswirkungen auf kleine Studien kann es zu einer Gewichtsverlagerung hin zu kleineren Studien und zu veränderten Schlussfolgerungen kommen.

Die Lehren aus Magnesium

1. Prüfen Sie, ob eine Publikationsverzerrung vorliegt bevor Sie einer gepoolten Schätzung vertrauen. Trichterdiagramme und Eggers Test sind Ihre Werkzeuge.

2. Be wary of small-study effects. If only small trials show benefit, wait for a large, well-conducted trial.

3. Model choice matters. Zufällige Effekte können voreingenommene Beweise verstärken. Betrachten Sie beide Modelle und verstehen Sie die Implikationen.

4. One large trial can overturn many small ones. Deshalb sind Megaversuche wie ISIS-4 so wertvoll.

Researcher

Spezielle Studiendesigns in der Metaanalyse

Nicht alle RCTs verwenden Standard-Parallelgruppendesigns. Zwei gängige Alternativen erfordern eine besondere Behandlung beim Zusammenführen von Ergebnissen:

1

Cluster-Randomized Trials

Gruppen (Krankenhäuser, Schulen) randomisieren, nicht Einzelpersonen. Das design effect = 1 + (m−1) × ICC reduziert die effektive Stichprobengröße. Dividieren Sie N durch den Designeffekt, bevor Sie es zusammenfassen, oder verwenden Sie den angepassten SE aus dem Versuch. Das Ignorieren von Clustering führt zu künstlich engen CIs.

2

Crossover Trials

Jeder Patient erhält beide Behandlungen. Das gepaarte Design reduziert die Varianz, aber Sie benötigen das within-patient correlation (oder das gepaarte Analyse-SE), um korrekt zu bündeln. Die Verwendung der Parallelgruppen-SE ist konservativ; unter Verwendung der falschen N-Doppelzählungen von Patienten.

Ausführliche Formeln und Arbeitsbeispiele finden Sie im Cochrane-Handbuch v6.4, Kapitel 23.

GESCHICHTE: Die frühe Surfactant-Umkehr

Was wäre, wenn die Art und Weise, wie Sie Studien kombinieren, darüber entscheidet, ob eine Behandlung lebensrettend aussieht oder nutzlos?

REAL DATA

Frühes Surfactant für Frühgeborene wurde unterstützt durch 6 small trials showing reduced mortality (RR 0.84). A fixed-effect meta-analysis confirmed benefit (p=0.04). But a random-effects model showed no significance (p=0.12) — the confidence interval crossed 1.0. Later, SUPPORT (2010) and VON (2012), two large pragmatic trials with ~2,000 neonates combined, found no benefit von frühem vs. späterem Surfactant. Die klinische Praxis wurde aufgrund kleiner Studien und des falschen Modells geändert.

Die Modellwahl des Neonatologen: 2005

Sie aktualisieren einen Cochrane-Review zu frühen Tensiden. Sechs kleine Studien zeigen Vorteile mit einem Fixed-Effect-Modell. Das Random-Effects-Modell ist nicht signifikant. Was melden Sie?

PATH A: Report Fixed-Effect Only

Fixed-effect is significant. Report the positive result. Change practice.

↓

NICUs adopt early surfactant. Later trials show no benefit. Practice reverses.

OUTCOME: Years of unnecessary intubation of premature infants

PATH B: Report Both Models

FE- und RE-Ergebnisse anzeigen. Weisen Sie darauf hin, dass die Bedeutung von der Modellwahl abhängt. Rufen Sie große Versuche an.

↓

Honest uncertainty. Large trials prioritized. True answer emerges faster.

OUTCOME: Premature babies spared unnecessary intervention

THE REVELATION

Wenn sich eine Schlussfolgerung ändert, je nachdem, ob Sie feste oder zufällige Effekte verwenden, ist die Schlussfolgerung fragil. Melde beides. Erkennen Sie die Unsicherheit an. Und denken Sie daran: Ein fragiles Ergebnis kleiner Studien ist kein Auftrag, die Praxis zu ändern.

Module 7 Quiz

1. Warum hat die Magnesium-Metaanalyse Vorteile gezeigt, die ISIS-4 nicht gefunden hat?

A. ISIS-4-Methodik war fehlerhaft

B. Calculation error in meta-analysis

C. Publication bias in small trials

D. LIMIT-2 war unzureichend

2. What warning sign should have alerted reviewers to potential bias?

A. Asymmetric funnel plot (small trials showing larger effects)

B. Low heterogeneity (I² = 0%)

C. Strong biological plausibility

D. Too few trials to analyze

3. When publication bias is suspected, which model may amplify the bias?

A. Fixed effect model

B. Random effects model

C. Bayesian model

D. Network meta-analysis

Small trials can show false signals.

Large trials anchor the truth.

Heterogenität ist eine Botschaft, kein Rauschen.

Modul 8: Die Heterogenität

Heterogenität ist eine Botschaft, kein Rauschen.

ACCORD: 2008

Wenn der Durchschnitt die Wahrheit verbirgt.

Modul 8: Die Heterogenität

🎯 Learning Objectives

Berechnen und interpretieren Sie I², τ² und Vorhersageintervalle
Apply ICEMAN criteria to assess subgroup credibility
Distinguish between clinical, methodological, and statistical heterogeneity
Conduct and interpret leave-one-out sensitivity analyses
Explain how ACCORD revealed differential effects across subgroups

The Year: 2008

"Sie sind dabei, Zeuge eines der schockierendsten Prozessabbrüche in der Geschichte zu werden..."

Seit Jahrzehnten Die Diabetes-Community hatte ein Leitprinzip: lower blood sugar is better. Die bahnbrechenden Studien DCCT (1993) und UKPDS (1998) zeigten, dass eine intensive Glukosekontrolle mikrovaskuläre Komplikationen – Blindheit, Nierenversagen, Nervenschäden – reduzierte.

Die logische Extrapolation:

If controlling glucose prevents complications, shouldn't intensive control prevent cardiovascular disease too?

ACCORD: Action to Control Cardiovascular Risk in Diabetes

The definitive test of intensive glucose control

10,251

Type 2 diabetics

HbA1c <6%

Intensive target

HbA1c 7-7.9%

Standard target

Alle Patienten hatten Typ-2-Diabetes mit hohem kardiovaskulären Risiko – entweder etablierte Herz-Kreislauf-Erkrankungen oder mehrere Risikofaktoren. Die Studie war auf 5,6 Jahre ausgelegt.

February 6, 2008

Das Data Safety Monitoring Board beruft eine Dringlichkeitssitzung ein.

After 3.5 years, they make an unprecedented decision:

STOPPEN SIE DIE VERSUCHUNG.

Die schockierenden Ergebnisse

Outcome	Intensive	Standard	HR (95% CI)
Primary CV endpoint	352 events	371 events	0.90 (0.78–1.04)
All-cause mortality	257 deaths	203 deaths	1.22 (1.01–1.46)
Severe hypoglycemia	10.5%	3.5%	3.0× higher

22% increase in mortality

54 excess deaths in the intensive arm

🔍

Investigation Exercise: The Clinician's Dilemma

Sie sind ein Endokrinologe mit 500 Diabetikern. Die ACCORD-Ergebnisse werden veröffentlicht. Was sagen Sie Ihren Patienten, die einen HbA1c <6 % anstreben?

Ist eine intensive Kontrolle für alle schädlich? Oder nur für einige?

Untergruppenanalyse enthüllt:

Subgroup	Intensive HR	Interpretation
No prior CVD	1.00 (0.76–1.32)	No effect
Prior CVD	1.45 (1.15–1.84)	Significant harm
Baseline HbA1c <8%	1.02 (0.75–1.40)	No effect
Baseline HbA1c ≥8%	1.29 (1.03–1.60)	Harm

The average effect masked critical heterogeneity!

Für Patienten mit nachgewiesener CVD oder schlechter Ausgangskontrolle war eine intensive Therapie schädlich.

Heterogenität verstehen: I² und darüber hinaus

Wenn Studien (oder Untergruppen) unterschiedliche Ergebnisse zeigen Effekte müssen wir diese Variation quantifizieren.

I² = 0–25%: Geringe Heterogenität. Die Effekte sind in allen Studien konsistent.

I² = 25–50%: Moderate. Look for sources of variation.

I² = 50–75%: Substantial. Consider whether pooling is appropriate.

I² = 75–100%: Considerable. A single pooled estimate may mislead.

Aber I² allein sagt Ihnen nicht, was Sie tun sollen – es signalisiert, dass Sie weitere Untersuchungen durchführen müssen.

Tau² (τ²): Die Varianz zwischen Studien

Während I² Ihnen den Anteil der Varianz aufgrund von Heterogenität angibt, verrät Ihnen τ² die Größe.

I² (percentage)

"Welcher Anteil der Gesamtvarianz ist auf echte Unterschiede zwischen Studien zurückzuführen?"

Scale: 0% to 100%

τ² (absolute)

"Wie stark variieren die wahren Effekte zwischen Studien?"

Same scale as the effect measure

Use τ² to calculate prediction intervals

Ein Vorhersageintervall zeigt die Bandbreite der Effekte, die Sie in einer neuen Studie erwarten würden – oft viel größer als das Konfidenzniveau Intervall.

📊

The Prediction Interval: What ACCORD Really Tells Us

Consider a meta-analysis of intensive glucose control across multiple trials...

Confidence Interval

HR 1.10 (0.95–1.27)

"Unsere beste Schätzung des durchschnittlichen Effekts"

Prediction Interval

HR 1.10 (0.70–1.73)

"The range of effects in a new setting"

Das Vorhersageintervall umfasst sowohl Nutzen als auch Schaden!

In some settings, intensive control might help. In others, it could kill.

When Is a Subgroup Effect Credible?

Subgroup Credibility Criteria (adapted from ICEMAN, Schandelmaier 2020 & Sun 2012)

1

Wurde die Untergruppenanalyse vorab festgelegt?

Post-hoc-Untergruppen sind anfällig für Daten Ausbaggern

2

Is there a plausible biological rationale?

Der Mechanismus sollte klar und unabhängig von den Daten sein

3

Is the effect consistent across related outcomes?

Wenn ein Schaden für die Sterblichkeit auftritt, gibt es einen ähnlichen Schaden für Herzinfarkt und Schlaganfall?

4

Is there independent replication?

Wurde der Subgruppeneffekt in anderen Studien bestätigt?

ICEMAN Applied to ACCORD

Criterion	Assessment	Score
Pre-specified?	Ja – frühere Herz-Kreislauf-Erkrankungen waren in der Protokoll	✓
Biological rationale?	Yes—hypoglycemia more dangerous with CVD	✓
Consistent outcomes?	Yes—CV mortality and all-cause mortality aligned	✓
Independent replication?	Partially—ADVANCE, VADT showed similar patterns	~

ICEMAN Rating: High Credibility

The differential harm in high-risk patients appears genuine.

Die klinischen Implikationen

Für Patienten ohne CVD: Moderate glucose control (HbA1c ~7%) remains the goal. Intensive control may reduce microvascular complications.

Für Patienten mit etablierter CVD: Avoid intensive targets. Hypoglycemia is dangerous for damaged hearts.

Für ältere Patienten: Relaxed targets. Quality of life matters. Tight control causes falls, confusion, and excess mortality.

"One size fits all" treatment is not patient-centered medicine.

Meta-Regression: Explaining Heterogeneity

When heterogeneity is high, meta-regression can identify study-level covariates that explain variation.

THE QUESTION

Variiert die Effektgröße systematisch mit der Studie? Merkmale?

Covariates

Year, dose, duration, baseline risk, study quality

Output

Regression coefficient (slope), R², residual heterogeneity

Caution

Meta-Regression erfordert ≥10 Studien pro Kovariate. Da es nur wenige Studien gibt, handelt es sich lediglich um explorative Studien. Ökologischer Irrtum: Assoziationen auf Studienebene gelten möglicherweise nicht für Einzelpersonen.

Example: In ACCORD, meta-regression might test if treatment effect varies by baseline HbA1c, showing harm concentrated in patients with very high levels.

GESCHICHTE: Die SPRINT-Blutdruckrevolution

What number saves lives? Who decides?

REAL DATA

Jahrzehntelang lautete das Ziel: Den Blutdruck behandeln <140 mmHg systolic. Then came SPRINT (2015): 9,361 high-risk patients randomized to intensive (<120) vs standard (<140) targets. Intensive treatment reduced CV events by 25% and death by 27%. Trial stopped early for benefit. Guidelines changed worldwide.

Before SPRINT: The Guidelines Committee

Sie legen 2014 Blutdruckrichtlinien fest. Das Ziel liegt seit Jahren bei <140. Sollten Sie auf bessere Beweise warten?

PATH A: Maintain Status Quo

Keep <140 target (established practice, minimal controversy)

↓

Guidelines unchanged. Physicians continue treating to <140.

OUTCOME: Miss opportunity to prevent deaths

PATH B: Fund the Definitive Trial

Warten Sie auf SPRINT-Ergebnisse, bevor Sie Ziele aktualisieren

↓

SPRINT demonstrates benefit. Update target to <120 for high-risk patients.

OUTCOME: Estimated 100,000+ lives saved globally

JNC 7 (2003): <140

Years of uncertainty

SPRINT (2015): <120 für Hochrisiko

THE REVELATION

„Standard der Pflege“ ist nicht festgelegt. Es ändert sich, wenn Versuche Annahmen in Frage stellen. Ein Jahrzehnt lang wurden Patienten möglicherweise unterbehandelt, weil niemand die offensichtliche Frage geprüft hat.

Module 8 Quiz

1. Warum wurde die ACCORD-Studie vorzeitig abgebrochen?

A. Intensive control showed clear cardiovascular benefit

B. Intensive control increased mortality

C. Die Rekrutierung war zu langsam

D. Budget ran out

2. What does a prediction interval tell us that a confidence interval doesn't?

A. The true effect is more precisely estimated

B. Die Stichprobengröße ist ausreichend

C. Die Bandbreite der Effekte, die wir in einer neuen Studie erwarten würden

D. Die mathematische Formel verwendet

3. According to ICEMAN, which factor is MOST important for subgroup credibility?

A. Vorabspezifikation der Untergruppenhypothese

B. Large sample size in the subgroup

C. Statistically significant p-value

D. Multiple outcomes showing same direction

Wenn Studien nicht übereinstimmen,

hören Sie sich die Meinungsverschiedenheiten an.

Heterogenität ist eine Botschaft, kein Rauschen.

Das Fehlen von Beweisen ist kein Beweis für das Fehlen.

Modul 9: Die verborgenen Studien

Das Fehlen von Beweisen ist kein Beweis für das Fehlen.

Reboxetine: 2010

Die 74 %, die nie das Licht der Welt erblickten.

Modul 9: Die verborgenen Studien

🎯 Learning Objectives

Interpret funnel plots for asymmetry detection
Wenden Sie den Egger-Test und andere an statistische Tests auf Publikationsbias
Implementieren Sie die Trim-and-Fill-Methode zur Bias-Anpassung
Critically appraise the limitations of publication bias tests
Wenden Sie den Grundsatz an: „Das Fehlen von Beweisen ist kein Beweis für das Fehlen“

The Year: 1997

"A new hope for depression patients who cannot tolerate SSRIs..."

Reboxetin (Edronax) war ein neuartiges Antidepressivum – ein selektiver Noradrenalin-Wiederaufnahmehemmer (NRI). Im Gegensatz zu SSRIs zielte es auf ein anderes Neurotransmittersystem ab. Für Patienten, die versagten oder Fluoxetin oder Sertralin nicht vertrugen, bot es einen neuen Mechanismus.

1997

EU approval

50+

Countries approved

Millions

Prescriptions written

Die veröffentlichten Beweise

What doctors could find in medical journals:

Comparison	Published Trials	Published Result
Reboxetine vs Placebo	3 trials (n=507)	Significantly better (SMD = 0.56)
Reboxetine vs SSRIs	4 trials (n=628)	Equivalent or better

Die veröffentlichte Literatur erzählte eine klare Geschichte:

Reboxetine works. Patients benefit. Prescribe with confidence.

Aber was ist mit den Studien, die Sie nicht sehen konnten?

In 2010, German researchers at IQWiG made a request to the European Medicines Agency...

They demanded access to all Studie Daten – veröffentlicht und unveröffentlicht.

What they found changed everything.

Das vollständige Bild

Eyding et al., BMJ 2010

Comparison	Published Only	ALL DATA
Reboxetine vs Placebo	SMD 0.56 (benefit)	SMD 0.10 (no benefit)
Patients in analysis	507 (14%)	2,731 (100%)
Reboxetine vs SSRIs	Equivalent	Minderwertig (RR 1,23 für Schaden)
Patients in analysis	628 (26%)	2,411 (100%)

74 % der Patientendaten wurden nie veröffentlicht

Die versteckten Studien zeigten keinen Nutzen und mehr harm

🔍

Investigation Exercise: The File Drawer

Sie sind ein systematischer Gutachter im Jahr 2008. Sie durchsuchen PubMed, Embase und die Cochrane Library nach allen Reboxetin-Studien. Sie finden 7 veröffentlichte Studien, die einen Nutzen belegen.

Können Sie diesen Beweisen vertrauen?

⚠️ Der Trichter ist drastisch asymmetrisch!

Alle veröffentlichten Studien gruppieren sich auf einer Seite. Wo sind die Null- und Negativversuche?

Das Publication Bias Toolkit

1

Funnel Plot

Plot effect size vs. standard error. A symmetric funnel suggests no bias; asymmetry raises alarms.

2

Egger's Regression Test

Regress effect/SE on 1/SE. A non-zero intercept (P < 0.10) suggests small-study effects. Note: inflated false-positive rate with binary outcomes; use Peters' test instead.

3

Peters' Test

For binary outcomes, regresses log OR on inverse of total sample size. Less prone to false positives.

4

Trim-and-Fill

Imputiert „fehlende“ Studien, um den Trichter symmetrisch zu machen, und berechnet dann den gepoolten Effekt neu.

📊

Interaktiv: Trim-and-Fill Analyse

Lassen Sie uns Trim-and-Fill auf die Reboxetin-Daten anwenden und sehen, wie die angepasste Schätzung aussehen würde...

Published Only

7 trials

SMD = 0.56

Significant benefit

Trim-and-Fill

7 + 5 imputed = 12 trials

SMD = 0.23

Reduced, still nominally significant

But even trim-and-fill underestimated the problem!

Der wahre Effekt bei allen Daten war SMD = 0,10 (im Wesentlichen null).
Trim-and-fill is conservative—it doesn't fully correct for selective publication.

The Best Defense: Trial Registries

Die Methoden zur Erkennung von Publikationsbias sind unvollständig. Die eigentliche Lösung ist prospective registration.

ClinicalTrials.gov

US registry (2000)

WHO ICTRP

Global portal

PROSPERO

Review registration

Überprüfen Sie bei der Suche nach Studien immer die Register. Vergleichen Sie die Anzahl der registered Versuche mit der Anzahl published. Die Lücke ist Ihr Warnsignal.

Since 2005, ICMJE requires trial registration as a condition of publication.

Die AllTrials-Kampagne

"All trials registered. All results reported."

Der Reboxetin-Skandal löste zusammen mit ähnlichen Fällen bei anderen Medikamenten eine globale Bewegung aus:

✓

2013: Klinische Datenrichtlinie der EMA

European Medicines Agency commits to publishing clinical study reports

✓

2016: FDA Amendments Act enforcement

Mandatory results reporting on ClinicalTrials.gov within 12 months

✓

AllTrials Coalition

Over 90,000 supporters, 700+ organizations demanding transparency

Das Reboxetin Nachwirkungen

!

Germany's IQWiG recommended against reboxetine for depression

!

Das britische NICE stufte es auf „nicht empfohlen“ herab.

!

Die FDA hatte Reboxetin im Jahr 2001 abgelehnt (sie hatte Zugang zu unveröffentlichten Daten)

Über ein Jahrzehnt lang erhielten Patienten ein Medikament, das nicht besser war als Placebo.

Weil nur die positiven Studien veröffentlicht wurden.

GESCHICHTE: Die Paroxetin-Studie 329 Täuschung

Was wäre, wenn die veröffentlichte Schlussfolgerung das Gegenteil der tatsächlichen Daten wäre?

REAL DATA

GlaxoSmithKlines Studie 329 getestete Paroxetin in adolescent depression. Die veröffentlichte Arbeit (2001) kam zu dem Schluss, dass Paroxetin "generally well tolerated and effective." Die tatsächlichen Daten: Paroxetin failed on all 8 pre-specified outcomes. When re-analyzed (RIAT 2015), suicidal/self-harm events: 23 in der Paroxetin-Gruppe vs. 5 unter Placebowar. Das veröffentlichte Papier definierte die Ergebnisse nachträglich neu, um Bedeutung herzustellen. Im Jahr 2015 kam eine erneute Analyse des RIAT (Restoring Invisible and Abandoned Trials) unter Verwendung des ursprünglichen klinischen Studienberichts zu dem Schluss: Paroxetin war neither safe nor effective for adolescents.

Das Rätsel des verschreibenden Arztes: 2003

Sie sind Kinderpsychiater. Studie 329 – die einzige große Studie – besagt, dass Paroxetin bei Teenagern wirkt. Die FDA hat es jedoch nicht für Jugendliche zugelassen. Ein Elternteil bittet Sie, es zu verschreiben. Was tun Sie?

PFAD A: Der Veröffentlichung vertrauen

A peer-reviewed JAACAP paper says it works. Prescribe off-label.

↓

Millions of prescriptions worldwide. Suicidal events in adolescents.

OUTCOME: FDA issues black box warning for SSRIs in youth (2004)

PATH B: Check the Trial Registry

Durchsuchen Sie ClinicalTrials.gov nach Originalendpunkten. Beachten Sie, dass die veröffentlichten Ergebnisse nicht mit dem registrierten Protokoll übereinstimmen.

↓

Rote Flagge: Ergebniswechsel erkannt. Sie halten das Medikament zurück. Der Patient ist sicherer.

OUTCOME: Publication bias identified before harm

THE REVELATION

Bei Publikationsbias geht es nicht nur um fehlende Studien. Es geht darum, dass in veröffentlichten Studien die Wahrheit fehlt. Ergebniswechsel, Ghostwriting und selektive Berichterstattung können einen fehlgeschlagenen Versuch in ein Marketinginstrument verwandeln. Vergleichen Sie veröffentlichte Ergebnisse immer mit den Protokollen der Studienregistrierung.

Module 9 Quiz

1. Wie viel Prozent der Reboxetin-Studiendaten wurden in der veröffentlichten Literatur verborgen?

A. 25%

B. 50%

C. 74%

D. 90%

2. Why can trim-and-fill underestimate the correction needed?

A. It assumes effects are normally distributed

B. Es werden nur Studien unterstellt, um eine Symmetrie zu erreichen, die die Realität möglicherweise nicht vollständig widerspiegelt.

C. Es sind mindestens 20 Studien erforderlich.

D. Es funktioniert nur mit sehr großen Studien.

3. What is the best prospective defense against publication bias?

A. Funnel plots in all meta-analyses

B. Egger's test before pooling

C. Prospective trial registration

D. More medical journals

Was Sie nicht sehen können

may be more important than what you can.

Das Fehlen von Beweisen ist kein Beweis für das Fehlen.

Certainty must be earned, not assumed.

Modul 10: Die Gewissheit

Certainty must be earned, not assumed.

Early Surfactant: 2012

Wenn sich qualitativ hochwertige Beweise entwickeln.

Modul 10: Die Gewissheit

🎯 Learning Objectives

Wenden Sie das vollständige GRADE-Framework an, um die Gewissheit von zu bewerten Beweise
Evaluate all five downgrade factors (RoB, inconsistency, indirectness, imprecision, publication bias)
Identify when to upgrade for large effect, dose-response, or confounding
Construct Summary of Findings tables with absolute effect estimates
Wenden Sie den Grundsatz an: „Gewissheit muss verdient und nicht angenommen werden“

The Year: 1990s

"A revolution in neonatal care..."

Das Atemnotsyndrom (RDS) war die häufigste Todesursache bei Frühgeborenen. Die Entwicklung von exogenem surfactant– der Substanz, die den Alveolenkollaps verhindert – war einer der großen Fortschritte in der Neugeborenenmedizin.

Die Frage lautete: Wann sollten wir Surfactant verabreichen?

Prophylactically (to all high-risk infants) or selectively (only after RDS develops)?

Der ursprüngliche Cochrane Review (2003)

Multiple RCTs conducted before the era of routine CPAP

Outcome	Prophylactic vs Selective	Certainty
Neonatal mortality	RR 0.73 (favors prophylactic)	High
BPD or death	RR 0.84 (favors prophylactic)	High

Recommendation: Give surfactant prophylactically

Guidelines worldwide adopted this approach

Aber die Welt der Neugeborenenpflege veränderte sich...

A new technology emerged: Continuous Positive Airway Pressure (CPAP)

Non-invasive support that could help preterm lungs without intubation.

Würden die alten Erkenntnisse noch gelten?

Das Cochrane Update 2012

New trials conducted in the CPAP era

Outcome	Old Trials	New Trials
BPD or death	RR 0.84 (favors prophylactic)	RR 1.12 (favors selective)
Bedarf an mechanischen Beatmung	Niedriger mit Prophylaxe	Höher mit Prophylaxe!

Complete Reversal

In the CPAP era, prophylactic surfactant causes more harm

🔍

Investigation: Why Did Evidence Evolve?

Sie sind Neonatologe. Ein Kollege fragt: „Wie können randomisierte Studien einander widersprechen?“

War die ursprüngliche Evidenz falsch?

1

Indirectness Changed

Old trials: No CPAP available. New trials: CPAP standard of care.

2

Der Vergleich wurde verbessert

Selective surfactant + CPAP is better than prophylactic intubation.

3

Context Matters

Evidenz aus einer Epoche gilt möglicherweise nicht für ein anderer.

This is why GRADE assesses Indirectness!

High-quality evidence can become inapplicable when context changes.

Das GRADE-Framework

Grading of Recommendations, Assessment, Development and Evaluations

GRADE beantwortet die Frage: Wie sicher sind wir in dieser Schätzung?

⊕⊕⊕⊕ HIGH: Very confident. True effect is close to the estimate.

⊕⊕⊕◯ MODERATE: Moderately confident. True effect likely close, but may differ substantially.

⊕⊕◯◯ LOW: Limited confidence. True effect may differ substantially.

⊕◯◯◯ VERY LOW: Very little confidence. True effect likely substantially different.

GRADE: Factors That Downgrade Certainty

RCT-Evidenz beginnt bei HOCH. Es kann herabgestuft werden für:

1

Risk of Bias

Flawed randomization, lack of blinding, incomplete follow-up, selective reporting

2

Inconsistency

Unexplained heterogeneity across studies (large I², non-overlapping CIs)

3

Indirectness

Unterschiede in der Population, der Intervention, dem Komparator oder den Ergebnissen der Frage

4

Imprecision

Wide confidence intervals, small sample size, few events

GRADE: Der fünfte Faktor

5

Publication Bias

Asymmetric funnel plot, missing registered trials, sponsor influence

Each factor can downgrade by one or two levels

High → Moderate → Low → Very Low

Example: Eine Metaanalyse von RCTs (beginnt HOCH) mit hohem Risiko für Verzerrungen (↓1) und schwerwiegender Indirektheit (↓1) würde bewertet werden LOW.

📊

Interactive: Apply GRADE to Surfactant

Lassen Sie uns die Glaubwürdigkeit der Evidenz für prophylaktische Tenside anhand alter und neuer Studien bewerten.

OLD TRIALS (Pre-CPAP)

Starting: HIGH (RCTs)

Risk of Bias: Low (−0)

Inconsistency: None (−0)

Indirectness: Serious (−1)

Different standard of care today

Final: ⊕⊕⊕◯ MODERATE

NEW TRIALS (CPAP Era)

Starting: HIGH (RCTs)

Risk of Bias: Low (−0)

Inconsistency: None (−0)

Indirectness: None (−0)

Matches current practice

Final: ⊕⊕⊕⊕ HIGH

GRADE: Factors That Upgrade Certainty

Die Beobachtungsevidenz beginnt bei NIEDRIG. Es kann aktualisiert werden für:

+1

Large Magnitude of Effect

RR >2 oder <0,5 ohne plausible Verwechslung

+1

Dose-Response Gradient

Higher exposure = larger effect in a consistent pattern

+1

Residual Confounding

All plausible confounders would reduce the effect (strengthens causal inference)

Communicating Certainty

GRADE requires transparent language about confidence:

HIGH: "Prophylactic surfactant reduces mortality..."

MODERATE: "Prophylactic surfactant probably reduces mortality..."

LOW: "Prophylactic surfactant may reduce mortality..."

VERY LOW: "We are uncertain whether prophylactic surfactant reduces mortality..."

Diese Sprache stellt sicher, dass Ärzte die Stärke der Beweise verstehen.

GESCHICHTE: Das Sauerstoffparadoxon bei Frühgeborenen

Can too much of a lifesaver become a killer?

REAL DATA

1940s-50s: High oxygen concentrations saved premature babies from respiratory failure. Then came an epidemic of blindness—retrolental fibroplasia (now called ROP). Doctors reduced oxygen dramatically. Blindness dropped. But then: increased deaths and brain damage von Hypoxie. Der optimale Sauerstoffgehalt ist erforderlich decades of trials to find. Recent SUPPORT/BOOST II trials finally defined the therapeutic window: SpO2 91-95%.

Das Dilemma des Neonatologen: 1955

Sie sind Neonatologe. Frühgeborene, die zu viel Sauerstoff erhalten, erblinden. Was machen Sie?

PATH A: Dramatic Reduction

Drastically reduce oxygen to prevent blindness

↓

Blindness rates drop. But some babies die or suffer brain damage from hypoxia.

OUTCOME: Trading one harm for another

PFAD B: Systematische Studie

Sorgfältige Titrierung von Sauerstoff, Untersuchung der Dosis-Wirkungs-Beziehung

↓

Takes decades but eventually identifies the optimal range.

OUTCOME: Optimize both survival and vision

1940s: High O2 saves lives

1950s: Blindness epidemic

1960er-70er Jahre: Todesfälle aufgrund von niedrigem O2

2010s: SUPPORT/BOOST define optimal range

THE REVELATION

Jede Intervention hat ein therapeutisches Fenster. Um es zu finden, bedarf es einer Messung, nicht einer Annahme. Das Pendel schwang 60 Jahre lang, bevor Beweise den Ausschlag gaben.

Module 10 Quiz

1. Warum hat sich die Tensidempfehlung zwischen 2003 und 2012 umgekehrt?

A. Die ursprünglichen Versuche waren betrügerisch

B. CPAP changed the comparator (indirectness)

C. Not enough patients in original trials

D. Das Ergebnis wurde anders gemessen

2. Welcher der folgenden Punkte ist KEIN GRADE-Downgrade-Faktor?

A. Risk of bias

B. Imprecision

C. Publication bias

D. Large magnitude of effect

3. Welche Sprache sollte für Beweise mit NIEDRIGER Vertrauenswürdigkeit verwendet werden?

A. „Der Eingriff reduziert …“

B. „Der Eingriff reduziert wahrscheinlich …“

C. „Der Eingriff kann …“ reduzieren

D. „Wir sind unsicher, ob …“

Eine Zahl ist nicht genug.

Sie müssen kommunizieren, wie sicher Sie sind.

Certainty must be earned, not assumed.

Methoden schützen Patienten vor unserem Vertrauen.

Modul 11: The Living Rezension

Methoden schützen Patienten vor unserem Vertrauen.

COVID-19 Hydroxychloroquine: 2020

Wenn die Dringlichkeit erfüllt ist Beweise.

Modul 11: The Living Rezension

🎯 Learning Objectives

Wenden Sie die sequenzielle Testanalyse an, um festzustellen, wann Beweise ausreichend sind
Entwerfen und pflegen Sie eine lebendige systematische Überprüfung
Establish update triggers and futility/harm boundaries
Manage multiplicity and alpha-spending in sequential analyses
Explain how rapid evidence synthesis evolved during COVID-19

March 2020: A World in Crisis

"Das Virus verbreitet sich schneller, als wir es verstehen..."

COVID-19 tötete Tausende. Die Intensivstationen waren überfüllt. Es gab keinen Impfstoff, keine Behandlung. Dann ein Hoffnungsschimmer: hydroxychloroquine (HCQ)—an old malaria drug—showed antiviral activity in lab studies.

March 20

Gautret-Studie (Frankreich)

36 pts

Non-randomized

Viral

Clearance improved

Der Ansturm auf Adoption

Wenige Wochen nach der Gautret-Studie:

!

March 28: FDA issues Emergency Use Authorization for HCQ

!

April 4: India bans HCQ export (hoarding fears)

!

Global: Shortages affect lupus and rheumatoid arthritis patients

Millions received HCQ based on a 36-patient observational study

What could go wrong?

🔍

Untersuchung: Die Gautret-Studie

Sie sind ein EBM-Experte, der die französische HCQ-Studie auswerten soll. Untersuchen Sie das Design...

Issue	Impact
Non-randomized	Selection bias—who got HCQ?
6 patients excluded	3 went to ICU, 1 died, 1 withdrew, 1 had nausea
Surrogate outcome	Viral load, not clinical outcomes
Kontrolle aus verschiedenen Krankenhäusern	Different care, different testing
No blinding	Expectation bias in lab testing

Diese Studie würde ein HOHES Verzerrungsrisiko für RoB 2.0 erzielen

GRADE certainty: VERY LOW. Yet it changed global policy.

Why Observational COVID Studies Misled

1

Immortal Time Bias

Patients must survive long enough to receive treatment. Survivors are compared to non-survivors.

2

Confounding by Indication

Sicker patients may get different treatments. Healthier patients received HCQ early.

3

Healthy User Effect

Patients who seek treatment tend to be healthier overall.

4

Outcome Reporting

Studien mit positiven Ergebnissen wurden schneller veröffentlicht.

Juni 2020: Der RCTs-Bericht

Large, rigorous trials completed at remarkable speed

Trial	N	Result
RECOVERY (UK)	4,716	No benefit on mortality (RR 1.09)
WHO SOLIDARITY	954	No benefit (RR 1.19)
ORCHID (US)	479	Gestoppt für Sinnlosigkeit

HCQ provided no benefit—and may have caused harm

June 15, 2020: FDA revokes Emergency Use Authorization

📊

Zeitleiste: Beobachtungs- vs. RCT-Evidenz

March-May 2020

Observational: ~20 studies

Suggest benefit

Pooled OR ~0.65

June-July 2020

RCTs: RECOVERY, SOLIDARITY

Show no benefit/harm

Pooled RR ~1.10

Von „vielversprechend“ zu „ineffektiv“ in 3 Monaten

Deshalb brauchen wir Randomisierung – und lebendige Reviews, um sich entwickelnde Evidenz zu verfolgen.

Living Systematic Reviews

Eine neue Ansatz für sich schnell entwickelnde Beweise:

1

Continuous Surveillance

Suchen Sie wöchentlich oder sogar täglich in der Literatur nach neuen Beweisen

2

Cumulative Meta-Analysis

Update pooled estimates as each new trial reports

3

Versuchssequenzanalyse (TSA)

Determine when sufficient information has accumulated to conclude

4

Transparent Versioning

Track every change, maintain full audit trail

Versuchssequenzanalyse (TSA)

When have we learned enough?

TSA wendet bei der Metaanalyse Grenzen an – ähnlich der Zwischenanalyse in einer einzelnen Studie. Dies ist verantwortlich für die required information size (RIS) needed to detect or exclude a clinically meaningful effect.

RIS

Required sample size

α-spending

Controls type I error

Boundaries

Benefit / Harm / Futility

Für HCQ bei COVID zeigte die TSA, dass die Grenze der Sinnlosigkeit im Juni 2020 überschritten wurde.

Lehren aus der HCQ-Saga

1. Observational studies can mislead spectacularly wenn Voreingenommenheit vorherrscht. Auch viele Studien, die in die gleiche Richtung weisen, können falsch sein.

2. RCTs can be conducted quickly when the will exists. RECOVERY enrolled 5,000+ patients in weeks.

3. Lebendige Bewertungen sind unerlässlich for evolving topics. Fixed-point-in-time reviews become obsolete instantly.

4. Political pressure doesn't change biology. Strenge Methoden schützen Patienten auch unter Druck.

GESCHICHTE: Die LEAP-Erdnussallergie-Revolution

Was wäre, wenn die Prävention die Ursache IST?

REAL DATA

For decades, pediatric guidelines recommended: avoid peanuts in infancy to prevent allergy. Meanwhile, peanut allergy rates tripled von 1997 bis 2008. Dann kam LEAP (2015): 640 high-risk infants randomized to early peanut introduction vs. avoidance. Result: Early introduction reduced peanut allergy by 81% (1,9 % vs. 13,7 %). Die Präventionsstrategie verursachte die Epidemie.

Der Scheideweg des Allergologen: 2010

Sie sind pädiatrischer Allergologe. Erdnussallergien nehmen trotz Vermeidungsrichtlinien zu. Stellen Sie das Dogma in Frage?

PATH A: Follow Guidelines

Continue recommending peanut avoidance in high-risk infants

↓

Guidelines are "evidence-based." Safe to follow consensus.

OUTCOME: Peanut allergies continue to rise

PFAD B: Stellen Sie das Dogma in Frage

Design a trial to test if early introduction might be protective

↓

LEAP trial reveals the truth. Guidelines reverse worldwide.

OUTCOME: Prevent an epidemic

2000: AAP recommends avoidance

2008: Allergy rates triple

2015: LEAP kehrt die Beweise um

2017: Guidelines flip to early introduction

THE REVELATION

„Erstens: keinen Schaden anrichten“ erfordert Beweise. Annahmen, auch gut gemeinte, können großen Schaden anrichten. Das Immunsystem musste ausgesetzt werden, um Toleranz zu entwickeln – Vermeidung führte zu Sensibilisierung.

Module 11 Quiz

1. Was war der Hauptfehler in der Gautret-Hydroxychloroquin-Studie?

A. Too few patients

B. No blinding

C. Excluding patients who deteriorated

D. Too short follow-up

2. What does Trial Sequential Analysis help determine?

A. Which studies have high risk of bias

B. When enough evidence has accumulated

C. Der Grad der Heterogenität

D. Which treatment is best

3. Warum haben beobachtende COVID-Studien einen HCQ-Vorteil gezeigt, RCTs dagegen nicht?

A. RCTs enrolled sicker patients

B. RCTs used different outcomes

C. Verzerrung in Beobachtungsstudien

D. Beobachtungsstudien hatten bessere Daten

Speed cannot replace rigor.

But rigor can be fast.

Living reviews balance both.

Nicht jedes Signal ist wahr.

Modul 12: Fortgeschrittene Methoden

Nicht jedes Signal ist wahr.

Advanced Methods

Beyond pairwise meta-analysis.

Modul 12: Fortgeschrittene Methoden

🎯 Learning Objectives

Interpret network meta-analysis geometry and SUCRA rankings
Apply bivariate models for diagnostic test accuracy meta-analysis
Conduct dose-response meta-analysis with flexible splines
Understand when individual patient data (IPD) meta-analysis is needed
Erkennen Sie die Annahmen und Einschränkungen von jede fortgeschrittene Methode

Wenn paarweise nicht ausreicht

"Manchmal ist die Frage komplexer als A gegen B..."

Die Methoden, die Sie gelernt haben, bilden die Grundlage. Aber die klinische Realität erfordert oft mehr: Which of 10 antidepressants is best? What's the optimal dose of statin? Does this test accurately diagnose early cancer?

Dieses Modul stellt vier fortgeschrittene Methoden vor, die jeweils unterschiedliche komplexe Fragen beantworten.

Network Meta-Analysis (NMA)

When you have many treatments but few head-to-head trials

NMA combines direct evidence (A vs B) with indirect evidence (A vs C, B vs C → inferred A vs B) to compare multiple treatments simultaneously.

SUCRA

Ranking probabilities, not effect size

Consistency

Direct = Indirect?

Networks

Visualize evidence

🔍

NMA Example: Antidepressants

The landmark Cipriani 2018 NMA compared 21 antidepressants using 522 trials.

The Challenge

21 drugs, but not every pair tested head-to-head

Many vs. placebo, few vs. each other

The Solution

NMA kombiniert direkte und indirekte Evidenz aus allen Bereichen Netzwerk

Rang alle 21 hinsichtlich Wirksamkeit und Akzeptanz

Ergebnis: Einige Medikamente wurden hinsichtlich ihrer Wirksamkeit höher eingestuft, andere hinsichtlich ihrer Akzeptanz

Kein einzelnes Medikament ist allgemein „am besten“; Interpretieren Sie Rankings mit glaubwürdigen Intervallen, Transitivität und klinischen Kompromissen.

NMA: Critical Assumptions

1

Transitivity

Effect modifiers should be similarly distributed across comparisons; otherwise indirect comparisons may be biased

2

Consistency

Direkte und indirekte Beweise stimmen überein (überprüfbar)

3

Connected Network

All treatments linked through at least one common comparator

When assumptions fail, NMA can mislead

Beurteilen Sie immer die Transitivität und testen Sie auf Inkonsistenz.

Dose-Response Meta-Analysis

Finden der optimalen Dosis

Uses the Greenland-Longnecker method mit eingeschränkten kubischen Splines zur Modellierung nichtlinearer Beziehungen zwischen Dosis und Wirkung.

1

Non-linear patterns

J-shaped (alcohol & mortality), U-shaped (vitamin D), threshold (aspirin)

2

Clinical relevance

Finden Sie die Dosis mit dem besten Nutzen-Schaden-Verhältnis, nicht nur „Mehr ist besser“

Individuelle Patientendaten (IPD)

Der Goldstandard für die Subgruppenanalyse

Instead of published summary data, obtain roh Daten auf Patientenebene von Studienärzten. Ermöglicht präzise Untergruppenanalysen, Time-to-Event-Modellierung und standardisierte Definitionen.

One-Stage

Single hierarchical model (not mega-trial)

Two-Stage

Analyze, then pool

80%+ target

Datenverfügbarkeitsziel

Die Early Breast Cancer Trialists' Collaborative Group leistete in den 1980er Jahren Pionierarbeit bei IPD MA.

Diagnostic Test Accuracy (DTA)

Wenn die „Intervention“ eine ist Test

DTA meta-analysis synthesizes sensitivity (richtige positive Rate) und specificity (true negative rate)—two correlated outcomes requiring bivariate models.

1

Bivariate/HSROC Model

Berücksichtigt die Korrelation zwischen Sensitivität und Spezifität

2

SROC Curve

Zusammenfassende ROC-Kurve mit 95 % Konfidenz und Vorhersagebereichen

3

QUADAS-2

Quality Assessment of Diagnostic Accuracy Studies

Das Richtige wählen Methode

Question	Method
Does A beat B?	Pairwise MA
Which of many treatments is best?	Network MA (NMA)
Was ist die optimale Dosis?	Dose-Response MA
Who benefits most? (subgroups)	IPD MA
Wie genau ist dieser Test?	DTA MA
Wie entwickelt sich die Wirkung im Laufe der Zeit?	Survival/Time-to-Event MA

Die Methode muss zur Frage passen. Erzwingen Sie niemals eine Frage mit der falschen Methode.

STORY: Die Steroide in der Sepsis-Saga

Three large trials. Three different answers. What do you believe?

REAL DATA

CORTICUS (2008): 499 patients. Hydrocortisone in septic shock. No mortality benefit. ADRENAL (2018): 3,658 patients. Hydrocortisone. No mortality benefit. APROCCHSS (2018): 1,241 patients. Hydrocortisone + fludrocortisone. Mortality reduced (43% vs 49.1%, p=0.03). Same class of intervention. Different protocols. Different results.

Die Herausforderung für Richtlinienautoren

Sie schreiben Sepsis-Richtlinien. Drei große Studien sind anderer Meinung. Wie empfehlen Sie?

PATH A: Simple Average

Pool all three trials. Overall effect uncertain. Conclude "evidence unclear."

↓

Guidelines say steroids are optional. No strong recommendation.

OUTCOME: Clinicians left without clear guidance

PATH B: Investigate Heterogeneity

Analyze why APROCCHSS differed (fludrocortisone, longer duration, different population)

↓

Stellen Sie fest, dass sich das wirksame Protokoll von den ineffektiven unterscheidet.

OUTCOME: Recommend the specific effective protocol

THE REVELATION

Konfliktierende Versuche sind keine Misserfolge. Es handelt sich um Karten, wo die Behandlung wirkt und wo nicht. Die Unterschiede zwischen den Studien – Dosis, Dauer, Co-Interventionen, Population – sind der Schlüssel zum Verständnis.

Module 12 Quiz

1. Was ist der Hauptvorteil der Netzwerk-Metaanalyse gegenüber der paarweisen Analyse?

A. Es ist keine Datenextraktion erforderlich.

B. It compares treatments not directly tested against each other

C. Es entfällt die Notwendigkeit einer Risikobewertung für Verzerrungen.

D. It produces better forest plots

2. Why does DTA meta-analysis require bivariate models?

A. To handle more than two studies

B. Zur Anpassung an Publikationsverzerrungen.

C. Sensitivität und Spezifität sind vorhanden korreliert

D. To generate forest plots

3. What does the "consistency" assumption in NMA require?

A. All studies must be high quality

B. Direkte und indirekte Beweise müssen übereinstimmen

C. Sample sizes must be similar

D. No missing studies

Methodologist

Das Kurs-Ökosystem

Dieser Kurs deckt den gesamten systematischen Review-Workflow ab. Erkunden Sie für tiefergehende Einblicke die Begleitkurse:

DTA Course
Bivariate/HSROC, SROC curves, QUADAS-2

Risk of Bias Mastery
RoB 2, ROBINS-I/E, domain-level assessment

GRADE Certainty
Full SoF tables, GRADE-CERQual

IPD Meta-Analysis
One-stage/two-stage, mixed-effects models

Publication Bias Detective
Copas, PET-PEESE, p-curve, selection models

Umbrella Reviews
AMSTAR 2, ROBIS, overlap correction

Prognostic Reviews
CHARMS, PROBAST, c-statistic pooling

Living Reviews + Rapid Reviews
TSA, update triggers, abbreviated methods

Module 12 Complete

„Die Methode muss zur Frage passen. Fortgeschrittene Methoden beantworten fortgeschrittene Fragen – aber die Grundlagen ändern sich nie.“

Sie beherrschen den Kernworkflow. Die nächsten zehn Module erforschen die Grenzen: Bayesianische Inferenz, Netzwerk-Metaanalyse, individuelle Patientendaten, Dosis-Wirkungs-Modellierung, Robustheit und Fragilität, Gerechtigkeit, KI-gestützte Synthese, qualitative Evidenz, multivariate Methoden und Reproduzierbarkeit.

Nicht jedes Signal ist wahr.

Modul 13: Das Bayesianische Turn

Nicht jedes Signal ist wahr.

Modul 13: Das Bayesianische Turn

🎯 Learning Objectives

Erklären Sie den Unterschied zwischen frequentistischer und bayesianischer Inferenz
Interpret prior distributions, likelihoods, and posterior distributions
Distinguish credible intervals from confidence intervals
Understand when Bayesian meta-analysis offers advantages
Recognize how prior choice affects conclusions

Eröffnung der Geschichte: STAMPEDE

In 2005, a trial began

that would never truly end.

Die STAMPEDE-Studie für Prostatakrebs verwendete ein mehrarmiges, mehrstufiges (MAMS) Plattformdesign. Waffen könnten hinzugefügt oder weggelassen werden, wenn sich Beweise ansammeln. Obwohl ihre Statistiken frequentistisch waren, verkörperte die adaptive Philosophie den Bayes'schen Geist: Entscheidungen aktualisieren, wenn sich Daten ansammeln.

Die Weltanschauung der Frequentisten

In frequentist statistics, probability means long-run frequency. Ein 95 %-KI bedeutet NICHT „95 % Wahrscheinlichkeit, dass der wahre Effekt vorhanden ist“. Das bedeutet: Wenn wir die Studie unendlich wiederholen würden, würden 95 % der Intervalle die Wahrheit enthalten.

p-value

P(data | H₀), nicht P(H₀ | data)

95% CI

Abdeckungseigenschaft, nicht Glaube

Fixed

Der wahre Parameter ist festgelegt

Die Bayesianische Weltanschauung

In Bayesian statistics, probability represents degree of belief. We start with a prior (was wir vor den Daten glauben), aktualisieren Sie mit dem likelihood (was uns die Daten sagen) und erhalten Sie a posterior (updated belief).

1

Prior × Likelihood = Posterior

Satz von Bayes: P(θ|Daten) ∝ P(Daten|θ) × P(θ)

2

Credible Intervals

Ein 95 % glaubwürdiges Intervall ist probabilistisch interpretierbar, abhängig vom angegebenen Modell und prior.

Researcher

Choosing Priors

1

Non-informative (Vague)

Normal(0, 10000) oder einheitlich. Lassen Sie Daten dominieren. Imitiert frequentistische Ergebnisse.

2

Weakly Informative

Normal(0, 1) for log-OR. Regularizes extreme estimates while remaining flexible.

3

Informative

Based on previous evidence. Powerful but controversial. Must be pre-specified.

4

Half-Cauchy for τ

Recommended for heterogeneity. Half-Cauchy(0, 0.5) allows large τ but concentrates near zero.

Researcher

MCMC Sampling

Most Bayesian models cannot be solved analytically. We use Markov Chain Monte Carlo (MCMC) zur Entnahme von Proben aus dem Seitenzahnbereich. Tools: JAGS, Stan, brms (R), PyMC (Python).

Chains

Multiple independent chains (typically 4)

R̂

Convergence: R̂ < 1.01 (strict; older texts use < 1.1)

ESS

Bulk-ESS > 400 für Mittel; tail-ESS > 400 für CIs

Methodologist

Bayesian Model Averaging

Instead of choosing between fixed-effect and random-effects models, Bayesian model averaging (BMA) gewichtet jedes Modell nach seiner A-Posteriori-Wahrscheinlichkeit. Dies erklärt die Modellunsicherheit in der endgültigen Schätzung.

BF

Bayes Factors

BF₁₀ > 10 = starker Beweis für H₁. BF₁₀ < 1/10 = starker Beweis für H₀.

Interaktiver Werkzeugplatzhalter

Interactive: Posterior Visualizer

Passen Sie die vorherige Stärke an, um zu sehen, wie sie sich auf den Seitenzahn auswirkt. Sehen Sie, wie mehr Daten den Vorgänger überfordern.

Prior Strength: Vague

Prior Mean (log-OR): 0.00

Die STAMPEDE-Geschichte

STAMPEDE wurde 2005 mit fünf Forschungszweigen gestartet, die Behandlungen für fortgeschrittenen Prostatakrebs vergleichen. Bis 2016 wurde Abirateron hinzugefügt und es wurde eine 37-prozentige Reduzierung der Todesfälle festgestellt (HR 0,63, 95 %-KI 0,52–0,76).

Das Plattformdesign verkörpert Bayes'sches adaptives Denken: Zwischenanalysen leiten die Armauswahl, neue Arme können hinzugefügt werden, wenn Behandlungen auftauchen, und vergebliche Arme fallen frühzeitig weg – so werden Patienten vor Unwirksamkeit bewahrt Therapien.

STAMPEDE hat über 10.000 Patienten in über 100 Zentren aufgenommen und die Behandlung von Prostatakrebs grundlegend verändert. Mit der bayesianischen Denkweise können Beweise gesammelt und Entscheidungen in Echtzeit getroffen werden.

Decision Tree: When to Go Bayesian?

Frequentist vs Bayesian Meta-Analysis

Wählen Sie Bayesian, wenn: (1) Sie über echte Vorinformationen verfügen, (2) Sie probabilistische Aussagen benötigen („80 % Zufallseffekt > 0“), (3) wenige Studien häufige Eigenschaften unzuverlässig machen oder (4) Sie eine Modellmittelung durchführen möchten.

Bayesian with weakly informative prior

A common practical default. Regularizes extreme estimates without forcing strong prior conclusions.

Bayesian mit informativem Vorhergehenden

Nur wenn die vorherige Evidenz stark und vorab spezifiziert ist. Es muss eine Sensitivitätsanalyse durchgeführt werden.

Stay frequentist

Simpler, well-understood. Preferred when k is large and no prior information.

Remember Module 1?

CAST Through a Bayesian Lens

Hätte eine Bayes'sche CAST-Analyse einen aus der Grundlagenforschung abgeleiteten informativen Prior verwendet (Antiarrhythmika unterdrücken PVCs), wäre der Posterior immer noch stark in Richtung Schaden verschoben. Bei genügend Daten ergibt sich sogar ein starker A-priori als wahrscheinlich. Die Lektion: Bayesianische Methoden schützen nicht vor schlechten Priors – aber sie gehen von den Annahmen aus transparent.

Module 13 Quiz

Q1. What does a 95% Bayesian credible interval mean?

A. 95% of repeated experiments would produce intervals containing the true value

B. Es besteht eine 95-prozentige Wahrscheinlichkeit, dass der wahre Parameter in diesem Intervall liegt

C. The interval has a 95% chance of being correct

D. 95 % der zukünftigen Daten werden in diesen Bereich fallen

Q2. Was ist der empfohlene Prior für die Heterogenität zwischen Studien? (τ)?

A. Uniform(0, 100)

B. Normal(0, 1)

C. Half-Cauchy(0, 0.5)

D. Fixed at 0.5

Module 13 Complete

„Bei der Bayes’schen Wende geht es nicht um Mathematik. Es geht um Ehrlichkeit – um unsere Annahmen sichtbar zu machen.“

Nicht jedes Signal ist wahr.

Modul 14: Die Netzwerk

Methoden schützen Patienten vor unserem Vertrauen.

Modul 14: Die Netzwerk

🎯 Learning Objectives

Explain why pairwise comparisons are insufficient when many treatments exist
Interpret network geometry (nodes, edges, thickness)
Verstehen Sie Transitivität, Konsistenz und die Rolle indirekter Beweise
Interpret SUCRA rankings and league tables
Recognize when NMA assumptions are violated

A clinician faces a patient

bei Depressionen. Welches Medikament?

Es gibt 21 häufig verschriebene Antidepressiva. Die meisten direkten Studien vergleichen nur 2 oder 3. Cipriani et al. (2018, Lancet) verbanden 522 Studien und 116.477 Patienten in einem einzigen Netzwerk.

Die Logik der Netzwerk-Metaanalyse

1

Direct Evidence

Trials directly comparing A vs B give the most reliable estimate.

2

Indirect Evidence

Wenn A vs. C und B vs. C existieren, können wir A vs. B ableiten. Dies ist der „transitive“ Annahme.

3

Mixed Evidence

NMA combines both, weighted by precision, to rank all treatments simultaneously.

Interactive: Network Graph

Jeder Knoten ist eine Behandlung. Die Kantendicke stellt die Anzahl der Studien dar, die diese beiden Behandlungen vergleichen.

Researcher

Transitivity & Consistency

Transitivity: Die indirekte Schätzung (über einen gemeinsamen Komparator) sollte sich der direkten Schätzung annähern. Dies erfordert, dass die Effektmodifikatoren bei den Vergleichen ähnlich verteilt sind.

Consistency: Statistischer Test, der direkte und indirekte Beweise vergleicht. Globale (Design-by-Treatment-Interaktion) und lokale (Node-Splitting) Tests helfen bei der Identifizierung von Inkonsistenzschleifen.

Researcher

SUCRA & P-scores

SUCRA

Surface Under Cumulative Ranking. Höhere Werte bedeuten eine bessere Ranking-Wahrscheinlichkeit, keine garantierte Überlegenheit.

P-score

Frequentistisches Analogon zu Ranking-Wahrscheinlichkeitszusammenfassungen. Interpretieren Sie mit Effektgrößen und Unsicherheit.

Caution: Ranking is seductive but misleading when differences between treatments are small or uncertain. Always report credible/confidence intervals alongside ranks.

Methodologist

Component NMA

When interventions are complex (e.g., behavioral + pharmacological), component NMA decomposes multi-component treatments to estimate the individual contribution of each component. Uses additive models: effect(A+B) = effect(A) + effect(B) + interaction.

Das Cipriani-Netzwerk

Die Lancet-Analyse von 2018 ergab, dass alle 21 Antidepressiva wirksamer waren als Placebo. Amitriptylin, Mirtazapin und Venlafaxin rangierten hinsichtlich der Wirksamkeit am höchsten. Agomelatin, Fluoxetin und Escitalopram rangierten hinsichtlich der Akzeptanz am höchsten (wenigste Studienabbrecher).

Kein einzelnes Medikament „gewann“ bei allen Ergebnissen. Das Netzwerk deckte Kompromisse auf, die für die paarweise Analyse nicht sichtbar sind.

Decision Tree: Is NMA Appropriate?

NMA Feasibility Check

Sie haben 15 RCTs, in denen 6 verschiedene Statine verglichen werden. Für einige Paare gibt es direkte Beweise, für andere nicht.

Check transitivity, then fit NMA

Überprüfen Sie, ob Patientenpopulationen und Studiendesigns in den Vergleichen hinreichend ähnlich sind.

Indirekte Beweise ignorieren

Verliert die statistische Aussagekraft und hinterlässt Lücken in der Evidenzbasis.

Pool all into one pairwise comparison

Verletzt die Struktur von die Beweise. Statine sind verschiedene Medikamente.

Module 14 Quiz

Q1. Welche Annahme muss gelten, damit indirekte Evidenz bei NMA gültig ist?

A. Transitivity — effect modifiers are balanced across comparisons

B. Homogeneity — I² must be below 25%

C. All studies must have similar sample sizes

D. Alle Studien müssen doppelblind sein

Module 14 Complete

„Das Netzwerk sieht, was paarweise Vergleiche nicht können: die gesamte Landschaft der Behandlungswahl.“

Nicht jedes Signal ist wahr.

Modul 15: Das Individuum

What was hidden in plain sight?

Modul 15: Das Individuum

🎯 Learning Objectives

Explain why aggregate data can mask treatment–covariate interactions
Distinguish one-stage from two-stage IPD models
Recognize ecological bias in aggregate meta-analysis
Understand the practical challenges of IPD collection
Interpret treatment–covariate interaction plots

For decades, breast cancer trials

veröffentlichte Zusammenfassungen. Keine Patienten.

Die Early Breast Cancer Trialists' Collaborative Group (EBCTCG) hat in Hunderten von Studien Einzeldaten von über 100.000 Frauen gesammelt. Ihre IPD-Metaanalysen zeigten, dass der Nutzen von Tamoxifen stark vom Östrogenrezeptorstatus abhängt – etwas, das in aggregierten Daten nicht sichtbar ist.

Was die Zusammenfassungen verheimlichten

Jede veröffentlichte Studie zu Tamoxifen berichtete über ein Gesamtergebnis. In Hunderten von Studien schien Tamoxifen einen bescheidenen Nutzen zu bieten. Aber „bescheidener Nutzen“ war ein Durchschnitt, der eine tiefgreifende Wahrheit verbarg.

Die versteckte Untergruppenaufteilung

RR 0.59

ER-positive subgroup: 41% reduction in recurrence

RR 0.97

ER-negative subgroup: essentially no benefit at all

Der Gesamteffekt – die Vermischung von ansprechenden und nicht ansprechenden Patienten – war eine statistische Fiktion. Ein „bescheidener“ Durchschnitt, der den Nutzen für eine Gruppe überbewertet und einen Nutzen impliziert, der für die andere Gruppe nicht vorhanden war.

Aggregierte vs. individuelle Patientendaten

AD

Aggregate: published effect + CI only

IPD

Individual: raw patient-level records

IPD ermöglicht: (1) konsistente Ergebnisdefinitionen, (2) Untergruppenanalyse nach Patientenmerkmalen, (3) Zeit-bis-Ereignis-Modellierung, (4) Überprüfung auf ökologische Verzerrungen. Dabei handelt es sich um die gold standard for exploring treatment effect modification.

Researcher

One-Stage vs Two-Stage IPD

1

Two-Stage

Analyze each study separately, then combine estimates (like standard MA). Simple but loses information.

2

One-Stage

Anpassung eines einzelnen Mixed-Effects-Modells an alle Patientendaten gleichzeitig. Stärker für Interaktionen und seltene Ereignisse.

Key: Beide sollten die Studienclusterung berücksichtigen. Fassen Sie IPD niemals wie aus einer Megastudie zusammen – dies führt zu Verwirrung (Simpson-Paradoxon).

Methodologist

Ecological Bias

A meta-regression using study-level mean age might show older patients benefit more. But this could be ecological bias– der Zusammenhang auf Studienebene spiegelt nicht die Wahrheit auf Patientenebene wider. Nur IPD kann within-study from between-study effects.

Wenn das Ganze über seine Teile lügt

Simpsons Paradoxon trennen: Ein Trend, der in aggregierten Daten auftritt, kehrt sich um, wenn die Daten nach einer verwirrenden Variablen gruppiert werden.

Das Paradoxon in der Praxis

A mega-trial analysis found Treatment X beneficial overall. But innerhalb jedes einzelnen Studie, es war schädlich. Wie? Unterschiede im Ausgangsrisiko zwischen Studien erzeugten eine Illusion – kränkere Bevölkerungsgruppen erhielten zufällig mehr Behandlung, was den Gesamtnutzen erhöhte.

Cates (2002, BMJ) zeigte, dass eine Bündelung über Studien hinweg ohne Berücksichtigung von Clustering die scheinbare Wirkungsrichtung umkehren kann.

Aus diesem Grund berücksichtigen einstufige IPD-Modelle Studie als Clustering-Variable – um zu verhindern, dass Verwechslungen zwischen Studien als Behandlung getarnt werden Wirkung.

Das EBTCCG-Erbe

Die IPD-Metaanalysen des EBCTCG definieren seit 40 Jahren die Behandlung von Brustkrebs. Ihre Analyse von Tamoxifen im Vergleich zu keiner Behandlung aus dem Jahr 2005 zeigte einen klaren Nutzen bei ER-positiven Tumoren (RR 0,59), aber keinen Nutzen bei ER-negativen Tumoren (RR 0,97).

Ohne IPD wäre der gesamte Gesamteffekt auf beide Gruppen gebündelt worden – was den Nutzen verwässert hätte und ER-positiven Patienten möglicherweise das Ausmaß ihres Gewinns vorenthalten hätte.

Decision Tree: When Is IPD Worth Pursuing?

Do you suspect treatment–covariate interactions?

Yes →

Können Sie IPD aus mehr als 80 % der Studien erhalten?

Yes → One-stage IPD meta-analysis with interaction terms

No → Zweistufig: Verfügbare IPD + Aggregat für den Rest anfordern

No →

Is ecological bias a concern?

Yes → IPD preferred even without interactions

No → Aggregate data meta-analysis may suffice

EBCTCG sammelte über einen Zeitraum von 40 Jahren Daten aus Hunderten von Versuchen. Die meisten IPD-Metaanalysen umfassen 5–20 Studien. Die Entscheidung hängt von der Frage ab, nicht vom Ehrgeiz.

Methodologist

Das Muster wiederholt sich

Erinnern Sie sich an Modul 3? In Beobachtungsstudien schien eine HRT vorteilhaft zu sein, in RCTs jedoch schädlich. Es trat die gleiche aggregierte Maskierung auf: Der Gesamtnutzen verbarg den Schaden für die Untergruppe.

Das zeigte später eine IPD-Analyse der Women's Health Initiative timing mattered– Frauen, die innerhalb von 10 Jahren nach der Menopause mit einer HRT begannen, hatten andere Ergebnisse als Frauen, die später damit begannen. Die „Timing-Hypothese“ war in veröffentlichten aggregierten Zusammenfassungen unsichtbar.

Die Lektion wiederholt sich: Aggregierte Daten können kritische Interaktionen zwischen Behandlung und Kovariate verschleiern. Ob es sich um den ER-Status bei Brustkrebs oder den Zeitpunkt bei einer HRT handelt, die Daten auf individueller Ebene zeigen, was Zusammenfassungen verbergen.

Module 15 Quiz

Q1. Was ist der Hauptvorteil von IPD gegenüber der Metaanalyse aggregierter Daten?

A. Es beinhaltet immer weitere Studien

B. Es ist günstiger und schneller

C. It can explore treatment–covariate interactions without ecological bias

D. Dadurch entfällt die Notwendigkeit von Zufallseffektmodellen

Module 15 Complete

„Hinter jeder gebündelten Schätzung stehen Einzelpersonen, deren Geschichten die Gesamtheit nicht erzählen kann.“

Heterogenität ist eine Botschaft, kein Rauschen.

Modul 16: Die Dosis

Heterogenität ist eine Botschaft, kein Rauschen.

Modul 16: Die Dosis

🎯 Learning Objectives

Explain why simple pairwise comparisons miss dose–response relationships
Distinguish linear, quadratic, and spline dose–response models
Interpret restricted cubic splines with knots
Identify threshold effects and J/U-shaped curves
Understand model comparison with AIC/BIC

Seit Jahrzehnten mäßiger Alkoholkonsum

schien das Herz zu schützen.

Die „J-förmige Kurve“ zeigte, dass Nichttrinker eine höhere kardiovaskuläre Mortalität aufwiesen als mäßige Trinker. Aber Stockwell et al. (2016) zeigten, dass die J-Kurve ein Artefakt der fälschlichen Klassifizierung ehemaliger Trinker (die aus Krankheitsgründen mit dem Rauchen aufgehört haben) als „Abstinenzler“ war.

A Scientific Consensus Built on Sand

Bis 2010 hatten über 100 Beobachtungsstudien die J-Kurve bestätigt. Medizinische Lehrbücher lehrten es. Kardiologen haben es zitiert. Lobbyisten der Weinindustrie finanzierten Konferenzen zu diesem Thema.

100+

Beobachtungsstudien bestätigen die J-Kurve

15–25%

Lower cardiovascular mortality in moderate drinkers vs abstainers

Die Beweise schienen überwältigend. Was aber, wenn die Vergleichsgruppe – „Abstinenzler“ – kontaminiert wäre?

Der kranke Drückeberger

A Hidden Confounder

The Problem

People who stop drinking often do so because they are already ill– Lebererkrankungen, Wechselwirkungen mit Medikamenten, Krebsdiagnose. Diese „ehemaligen Trinker“ wurden in den meisten Studien als „Abstinenzler“ eingestuft.

The Effect: The reference group (abstainers) appeared less healthy– nicht weil die Abstinenz schädlich war, sondern weil sich ihr kranke Menschen angeschlossen hatten.

When Stockwell et al. (2016, J Stud Alcohol Drugs) removed former drinkers and applied appropriate study-quality corrections: die J-Kurve verschwand. Die Schutzwirkung war ein Phantom.

Dose–Response Meta-Analysis

Standard meta-analysis asks: "Does treatment X work?" Dose–response meta-analysis asks: "At what dose Funktioniert Behandlung X am besten?“ Es modelliert die Beziehung zwischen Dosishöhe und Ergebnis über mehrere Studien hinweg.

Linear

Simplest: log(RR) = β × dose

Spline

Flexible: piecewise polynomials with knots

Fractional

Polynomial: dose^p1 + dose^p2

Researcher

Restricted Cubic Splines

RCS place knots an vorab festgelegten Dosispunkten und passen glatte Polynome dazwischen an. Typischerweise 3–5 Knoten bei Quantilen der Dosisverteilung. Linear über Grenzknoten hinaus. Tests auf Nichtlinearität vergleichen das Spline-Modell mit einem einfacheren linearen Modell.

AIC

Model Comparison

AIC/BIC vergleicht lineare und Spline-Anpassung. Niedriger = besser. Testen Sie auch die Abweichung von der Linearität (p-Wert für Spline-Terme).

Interactive: Dose–Response Builder

Vergleichen Sie lineare, quadratische und Spline-Anpassungen. Beobachten Sie, wie sich die Modellform mit unterschiedlichen Annahmen ändert.

Die Alkohol-J-Kurve entlarvt

Die erneute Analyse von Stockwell aus dem Jahr 2016 ergab, dass die schützende Wirkung von mäßigem Alkoholkonsum verschwand, wenn ehemalige Trinker korrekt aus der Referenzgruppe der „Abstinenzler“ ausgeschlossen wurden. Die J-Kurve wurde durch die Voreingenommenheit, krank aufzuhören, bestimmt.

Die Dosis-Wirkungs-Metaanalyse brachte die Wahrheit ans Licht: Die Form der Kurve hängt entscheidend davon ab, wie Sie „Nulldosis“ definieren. Die falsche Referenzkategorie führte zu einem Phantomnutzen.

When Curves Shape Policy

The phantom J-curve influenced alcohol guidelines worldwide:

UK

NHS Guidance (until 2016)

„Mäßiger Alkoholkonsum kann das Herz schützen“ stand in den offiziellen Leitlinien. Nach Stockwells Korrektur revidierte das Vereinigte Königreich die Grenzwerte auf 14 Einheiten/Woche für all Trinker (zuvor 21 für Männer). Keine Menge wurde als „sicher“ eingestuft.

US

Dietary Guidelines Advisory Committee

J-Kurven-Studien wurden im Jahr 2015 zitiert. Das Komitee von 2020 empfahl die Senkung der Grenzwerte auf 1 Getränk/Tag für Männer und bestätigte damit die Voreingenommenheit gegenüber der Referenzgruppe.

AU

Australian Guidelines

Safe drinking limits were delayed by industry-funded J-curve research promoting “cardioprotective” moderate intake.

Decision Tree: Is Dose-Response Analysis Appropriate?

Haben Sie ≥3 Expositionsniveaus (nicht nur exponiert vs unbelichtet)?

Yes →

Ist die Beziehung plausibel nichtlinear?

Yes → Restricted cubic splines (3–5 knots). Compare AIC with linear model.

No → Linear dose-response meta-regression may suffice

No →

Standard pairwise meta-analysis (no dose-response possible with only two levels)

Warning: Überprüfen Sie immer: Ist Ihre Referenzkategorie sauber? Die J-Kurven-Lektion: Eine kontaminierte Referenzgruppe erzeugt Phantom-Nichtlinearität.

Module 16 Quiz

Q1. What makes restricted cubic splines useful in dose–response meta-analysis?

A. They always produce a straight line

B. They flexibly capture non-linear dose–response curves

C. Sie reduzieren die Anzahl der erforderlichen Studien

D. They simplify the model to fewer parameters

Module 16 Complete

"Die Dosis macht das Gift. Und die Form der Kurve zeigt, ob das Gift real ist."

Das Fehlen von Beweisen ist kein Beweis für das Fehlen.

Modul 17: Die Fragilität

Das Fehlen von Beweisen ist kein Beweis für das Fehlen.

Modul 17: Die Fragilität

🎯 Learning Objectives

Berechnen und interpretieren Sie den Fragilitätsindex
Verwenden Sie GOSH-Diagramme, um einflussreiche Studien und Teilmengen zu identifizieren Auswirkungen
Interpret contour-enhanced funnel plots
Wenden Sie Copas-Auswahlmodelle und PET-PEESE für Publikationsbias an
Understand how sensitivity analyses strengthen meta-analytic conclusions

Governments stockpiled billions

auf der Grundlage von Beweisen, die sie nicht sehen konnten.

Nach H1N1 gaben Regierungen Milliarden für die Vorräte von Oseltamivir (Tamiflu) aus. Das Cochrane-Team (Jefferson et al. 2014) kämpfte jahrelang um den Zugriff auf unveröffentlichte Daten. Als sie es schließlich taten, verflüchtigten sich die Belege für die Verhinderung von Komplikationen.

Der Fragilitätsindex

Der Fragilitätsindex fragt: "How many patients would need to change outcome to flip a statistically significant result to non-significant?" Er fügt iterativ Ereignisse hinzu (wandelt Nicht-Ereignisse in Ereignisse um) in der Gruppe mit weniger Ereignissen bis p > 0.05.

FI = 1

Extremely fragile. One patient flip changes conclusion.

FI > 8

Reasonably robust. Less sensitive to individual outcomes.

Interactive: Fragility Calculator

Enter a 2×2 table to calculate the fragility index. Watch events shift until significance flips.

Events

Total N

Treatment

Control

Researcher

GOSH Plots

Grafischer Überblick über die Studienheterogenität (GOSH) passt Metaanalysemodelle an alle möglichen Teilmengen von Studien an. Jeder Punkt stellt den gepoolten Effekt gegen I² für eine Teilmenge dar. Cluster deuten auf unterschiedliche Untergruppen hin; Ausreißerwolken deuten darauf hin, dass eine Studie die Heterogenität fördert.

Für k Studien gibt es 2^k−1 subsets. For k > 15, random sampling is used.

Researcher

Contour-Enhanced Funnel Plots

Standard funnel plots show effect size vs standard error. Contour-enhanced Versionen fügen schattierte Bereiche für p < 0,01, p < 0,05 und p < 0,10 hinzu. Wenn fehlende Studien in nicht signifikante Regionen fallen, ist ein Publikationsbias wahrscheinlich. Wenn sie in signifikante Regionen fallen, können andere Ursachen (z. B. Studienqualität) die Asymmetrie erklären.

Methodologist

Copas Selection & PET-PEESE

1

Copas Selection Model

Modelliert die Wahrscheinlichkeit, dass eine Studie veröffentlicht wird, als Funktion ihrer SE und Effektgröße. Schätzt gemeinsam die wahre Wirkung und den Selektionsmechanismus.

2

PET-PEESE

Precision-Effect Test (PET): regress effects on SE. If intercept = 0, no true effect. PEESE uses SE² for better performance when a true effect exists.

Die Oseltamivir-Saga

Die ursprüngliche von Roche finanzierte Metaanalyse (Kaiser 2003) zeigte, dass Oseltamivir Influenza-Komplikationen um 67 % reduzierte. Aber 8 von 10 Studien wurden nie veröffentlicht. Nachdem Cochrane die klinischen Studienberichte erhalten hatte, sank der Nutzen bei Komplikationen auf nicht signifikante 11 %.

Die Fragilität war nicht nur statistisch – sie war informativ. Der Evidenzbasis selbst fehlten die meisten Daten.

Entscheidungsbaum: Interpretation Ihrer Fragilitätsergebnisse

Sie haben den Fragilitätsindex berechnet. Was bedeutet die Zahl?

FI ≤ 3

Highly fragile. Eine Handvoll verschiedener Ereignisse würden die Schlussfolgerung umkehren. Interpretieren Sie mit äußerster Vorsicht.

FI 4–8

Moderately fragile. Empfindlich gegenüber kleinen Störungen. Gibt es unveröffentlichte Studien, die dies ändern könnten?

FI > 8

Relatively robust. But remember: fragility is only one dimension. Publication bias can undermine even robust results.

Walsh et al. (2014, J Clin Epidemiol) ergab, dass in 399 RCTs, die in Top-Zeitschriften veröffentlicht wurden, der mittlere Fragilitätsindex nur 8 betrug. Über 25 % hatten einen FI ≤ 3. Wegweisende Studien, die die klinische Praxis beeinflussten, hingen oft an einem statistischen Faden.

Methodologist

Beyond the Index: Structural Fragility

Die Oseltamivir-Saga wurde enthüllt three types of fragility– und der Fragilitätsindex erfasst nur den ersten.

1

Statistical Fragility (FI)

Wie viele Ereignisse drehen den p-Wert um? Dies misst der Fragilitätsindex. Es quantifiziert die Sensitivität gegenüber individuellen Patientenergebnissen.

2

Informational Fragility

Wie viele Beweise sind verborgen? Acht von zehn Roche-Oseltamivir-Studien waren unveröffentlicht. Die Evidenzbasis war strukturell unvollständig.

3

Analytical Fragility

Wie viele Freiheitsgrade der Forscher könnten die Schlussfolgerung ändern? Unterschiedliche Ergebnisdefinitionen, Analysepopulationen oder statistische Methoden.

Rückruf zu Modul 10 (Paroxetin): Eine erneute Analyse mit unterschiedlichen Ergebnisdefinitionen kehrte die Schlussfolgerung vollständig um. Das war analytische Fragilität – der FI wurde nie berechnet, weil der Endpunkt selbst umstritten war. Eine vollständige Robustheitsbewertung untersucht alle drei Dimensionen.

Module 17 Quiz

Q1. Eine Studie umfasst 200 Patienten pro Arm, 12 Ereignisse in der Behandlung, 25 in der Kontrolle (p=0,03). Der Fragilitätsindex beträgt 3. Was bedeutet das?

A. Die Effektgröße beträgt genau 3

B. Changing just 3 patient outcomes would flip the result to non-significant

C. Das Ergebnis ist mit 3 bestätigenden Studien sehr robust

D. Für die Studie werden mindestens 3 Patienten benötigt

Module 17 Complete

„Die Zahl, die jeden Versuch, sie zu knacken, übersteht, ist vertrauenswürdig.“

Nicht jedes Signal ist wahr.

Modul 18: Das Eigenkapital

Certainty must be earned, not assumed.

Modul 18: Das Eigenkapital

🎯 Learning Objectives

Identify how trial exclusion criteria create evidence gaps
Wenden Sie das PROGRESS-Plus-Framework an, um die Gleichheit der Beweise zu bewerten
Use PRISMA-Equity reporting guidelines
Understand transportability: when trial findings fail in practice
Design equity-sensitive search and synthesis strategies

SPRINT proved tight blood pressure control

saves lives. But whose lives?

Die bahnbrechende SPRINT-Studie schloss Patienten mit Diabetes, Schlaganfall und Herzinsuffizienz aus. Über 75 % der Bluthochdruckpatienten in den USA wären nicht qualifiziert gewesen. Die Beweise waren stark, aber die Anwendbarkeit war begrenzt.

Folie A: Die fehlende Mehrheit

Die Studie, die die meisten ihrer Patienten ausschloss

SPRINT nahm 9.361 Patienten auf und bewies, dass eine intensive Blutdruckkontrolle (Zielwert <120 mmHg) kardiovaskuläre Ereignisse um 25 % reduzierte (HR 0,75, 95 %-KI 0,64–0,89). Aber die Einschlusskriterien sagten eine andere Geschichte.

Wer wurde ausgeschlossen:

Diabetes – 35 % der Erwachsenen in den USA leiden an Bluthochdruck
Prior stroke — 8 % der hypertensiven Bevölkerung
Symptomatic heart failure — 6% of hypertensive adults
Expected survival <3 years – die gebrechlichsten Patienten
Nursing home residents — excluded entirely
GFR <20 mL/min — advanced kidney disease

Ergebnis: Über 75 % der Erwachsenen in den USA mit Bluthochdruck hätten sich NICHT qualifiziert. Die Beweise waren stark. Aber für wen?

Folie B: Die Geographie der Beweise

Woher die Beweise kommen

78%

of cardiovascular mega-trial participants came from high-income countries (2000–2020).

6%

from sub-Saharan Africa — where cardiovascular disease is rising fastest.

Polypillenversuche: 4 von 5 wurden in Populationen mit einem mittleren BMI <25 durchgeführt. Der durchschnittliche BMI in den USA liegt bei 30. Der Arzneimittelstoffwechsel, die Komorbiditätsmuster, der Zugang zur Gesundheitsversorgung und die genetische Variation unterscheiden sich zwischen den Bevölkerungsgruppen. Efficacy in one population does not guarantee effectiveness in another.

Referenz: Multinationale Studien und die PROGRESS-Plus-Lücke

PROGRESS-Plus Framework

P

Place of residence

R

Race / ethnicity

O

Occupation

G

Gender / sex

R

Religion

E

Education

S

SES (socioeconomic)

S

Social capital

Plus: Age, disability, sexual orientation, other vulnerable groups.

Researcher

PRISMA-Equity & Transportability

PRISMA-Equity erweitert PRISMA um eine Berichterstattung darüber, wie Gerechtigkeit in der Überprüfung berücksichtigt wurde: Bevölkerungsmerkmale, Untergruppenanalysen nach Benachteiligung und Bewertung der Anwendbarkeit auf unterversorgte Bevölkerungsgruppen.

Transportability: Die Wirksamkeit der Studie entspricht nicht der Wirksamkeit in der Praxis. Es gibt Methoden, um Versuchsdaten neu zu gewichten, um sie an die Zielpopulationsverteilung anzupassen.

Folie C: Die Transportfähigkeitsfrage

Researcher

From Trial to Real World: Transportability

Transportability = Können Ergebnisse der Versuchspopulation X auf die Zielpopulation Y angewendet werden? Dies ist keine philosophische Frage – sie hat formale Methoden.

1

Inverse Probability of Participation Weighting (IPPW)

Re-weights trial participants so they resemble the target population on key covariates.

2

Generalizability Index

Quantifiziert, wie ähnlich die Versuchsstichprobe hinsichtlich der beobachteten Merkmale der Zielpopulation ist.

Stuart et al. (2015, Stat Med): Als die SPRINT-Ergebnisse neu gewichtet wurden, um sie an die hypertensive Bevölkerung in den USA anzupassen, wurde der geschätzte Nutzen abgeschwächt – HR 0,82 (gegenüber 0,75 in der Studie). Die Behandlung funktioniert immer noch. Aber das Ausmaß ändert sich, wenn sich die Bevölkerung ändert.

SPRINT und die fehlende Mehrheit

SPRINT war eine gut konzipierte Studie mit 9.361 Patienten. Sein Ergebnis (HR 0,75 für intensive vs. Standard-Blutdruckkontrolle) veränderte die Leitlinien weltweit. Nachfolgende Analysen zeigten jedoch, dass der Nutzen in der Untergruppe, die der Versuchspopulation am ähnlichsten war, am stärksten war – und für ausgeschlossene Gruppen unsicher war.

Gerechtigkeit bei der Evidenzsynthese bedeutet, nicht nur zu fragen: „Funktioniert es?“ aber „Für wen funktioniert es?“

Entscheidungsbaum: Gerechtigkeitsbewertung für Ihre Bewertung

ROOT: Stammt die Evidenz Ihrer Bewertung aus Populationen, die Ihrer Zielgruppe ähneln?

YES → Good. But check: Are subgroups (age, sex, ethnicity, SES) reported separately?

Yes: Use subgroup effects for population-specific recommendations
No: Flag as limitation — equity gap in reporting

NO → Does PROGRESS-Plus analysis reveal differential effects?

Yes: Population-specific recommendations needed. Consider transportability re-weighting.
No: Cautious generalization with explicit equity statement in discussion

Folie E: Rückruf zu Modul 3

Methodologist

Callback: The HRT Lesson Revisited

Erinnern Sie sich an Modul 3? Die HRT-Geschichte zeigte, dass healthy-user bias eine schädliche Behandlung vorteilhaft erscheinen ließ. SPRINT hat möglicherweise das gegenteilige Problem – der „gesunde Freiwillige“-Effekt kann eine wirksame Behandlung erscheinen lassen more effective than it would be in the real world.

Jede Metaanalyse sollte fragen: Wer wurde einbezogen? Wer wurde ausgeschlossen? Und spielt das eine Rolle?

Module 18 Quiz

Q1. What does the PROGRESS-Plus framework help reviewers assess?

A. Statistical heterogeneity

B. Equity and applicability across disadvantaged populations

C. Interne Validität der eingeschlossenen Studien

D. Gesamtsicherheit der Beweise

Module 18 Complete

„Beweise, die die Schwachen ausschließen, können nicht den Anspruch erheben, ihnen zu dienen.“

Nicht jedes Signal ist wahr.

Modul 19: Die Maschine

Die Zahl ohne Herkunft ist keine Zahl.

Modul 19: Die Maschine

🎯 Learning Objectives

Describe how AI/ML is used in systematic review screening
Explain active learning and human-in-the-loop workflows
Assess automation validation: recall, workload savings, and risk
Erkennen Sie die Einschränkungen und Vorurteile des algorithmischen Screenings
Anwenden Sie Rahmenwerke für den verantwortungsvollen Einsatz von KI in Beweismitteln Synthese

When COVID-19 hit,

papers arrived faster than humans could read.

Bis 2021 gab es über 300.000 COVID-Artikel. Cochrane nutzte Klassifikatoren für maschinelles Lernen, um Studien für ihre Schnellrezensionen zu selektieren. Dadurch wurde der Screening-Arbeitsaufwand um bis zu 70 % reduziert und gleichzeitig eine Erinnerung von >95 % aufrechterhalten.

The Flood

By April 2020, 4,000 COVID preprints appeared every week.

PubMed indexed 500 new COVID articles per day.

Cochrane's screening queue hit 10,000 unreviewed titles.

🔍 Die Mathematik der Unmöglichkeit

A pair of reviewers screens ~200 titles per day.

At 500 new articles/day, they fell further behind with every hour.

Die lebende Rezension starb, bevor sie leben konnte.

Die Erste Versuche

Die Idee war nicht neu. Cohen et al. (2006, JAMIA) zeigten erstmals, dass maschinelles Lernen die Screening-Arbeitsbelastung um 50 % reduzieren kann – mit weniger als 5 % Verlust in der Erinnerung.

📅

2006: Cohen et al. — SVM classifiers for drug class reviews. Proof of concept.

📅

2016: RobotReviewer (Marshall et al., JMLR) — ML for risk of bias assessment. Inter-rater reliability comparable to human reviewers.

📅

2021: ASReview (van de Schoot et al., Nature Machine Intelligence) — active learning that simulated 95% workload reduction.

Aber Simulation ist nicht die Realität. COVID wäre der erste echte Test im großen Maßstab.

AI in Systematic Reviews

1

Screening Prioritization

Active learning ranks citations by relevance. Reviewers screen the most likely relevant first.

2

Datenextraktionsunterstützung

NLP extrahiert PICO-Elemente, Ergebnisse und Ergebnisse. Erfordert immer eine menschliche Überprüfung.

3

Risk of Bias Assessment

ML classifiers predict RoB domains. Experimental—human judgment remains gold standard.

Researcher

Validating Automation

Recall

>95% required. Missing 1 study can change conclusions.

WSS@95%

Work Saved over Sampling at 95% recall.

Stopping

When to stop screening? Consecutive irrelevant threshold.

Die grundlegende Spannung: Automatisierung spart Zeit, führt aber zu einer neuen Fehlerquelle. Melden Sie immer das Tool, die Version, die Trainingsdaten und die Stoppkriterien.

Die Validierungskrise

🔍 Das Paradox der Validierung

Um herauszufinden, ob die Maschine eine relevante Studie verpasst hat, you need a human to screen everything.

But if humans screen everything, warum das verwenden? Maschine?

The solution: prospective holdout validation.

Random 10% sample screened by both human and machine
Vergleiche: Hat die Maschine übersehen, was der Mensch gefunden hat?
If recall drops below 95%, retrain and expand human screening

Vertrauen, aber überprüfen. Die Maschine verdient ihre Rolle – sie erbt sie nicht.

Cochrane's COVID Response

Cochrane hat das COVID-19-Studienregister mithilfe von Klassifikatoren für maschinelles Lernen erstellt, die auf Millionen von Datensätzen trainiert wurden. Das System erreichte eine Empfindlichkeit von 99 % und reduzierte gleichzeitig die manuelle Überprüfung von Wochen auf Tage.

Aber die Maschine war ein Werkzeug, kein Ersatz. Jede eingeschlossene Studie wurde weiterhin von menschlichen Gutachtern überprüft. Die Lektion: KI erweitert den Gutachter, ersetzt ihn nicht.

Die Studie, die fast nicht gefunden wurde

Im Juni 2020 veröffentlichte die RECOVERY-Studie ihre Dexamethason-Ergebnisse –the first treatment proven to reduce COVID mortality (28-day mortality: 22.9% vs 25.7%, RR 0.83).

Der Vorabdruck erschien auf medRxiv mit einem nicht standardmäßigen Titel. Szenarien wie dieses traten während der Pandemie wiederholt auf: ML-Klassifikatoren, die auf der vorhandenen Terminologie geschult waren, stuften unbekannte Formulierungen niedrig ein.

In mehreren Live-Reviews erkannten menschliche Gutachter, die markierte Titel scannten, wichtige Medikamentennamen und eskalierten Studien, die von Klassifizierern herabgestuft worden waren.

Ohne diese Menschen hätten bahnbrechende Behandlungsergebnisse womöglich Wochen auf ihre Veröffentlichung gewartet die lebende Rezension.

Die Maschine liest schneller. Der Mensch liest tiefer. Beides allein reicht nicht aus.

Decision Tree: When Should You Use AI?

Ihre Rezension wird mehr als 5.000 Titel prüfen?

Yes → Consider AI-assisted screening

Active learning prioritization. Dual-screen random 10% holdout. Stop when 3 consecutive batches yield 0 relevant studies.

Report: classifier type, training data, recall on holdout, stopping rule.

No → Manual screening is feasible

For <5,000 titles, dual human screening remains gold standard. AI adds complexity without proportionate benefit.

Ist dies eine lebendige oder eine schnelle Rezension?

If yes → AI is especially valuable. Continuous classifier retraining on new evidence. But: Überlassen Sie niemals die Maschine die endgültige Aufnahmeentscheidung.

Das Muster wiederholt sich

Methodologist

Das Muster wiederholt sich

Erinnern Sie sich an Modul 6? Poldermans fabrizierte DECREASE-Daten, die ein Jahrzehnt lang die Leitlinien für perioperative Betablocker leiteten.

AI can now detect statistical anomalies automatically:

GRIM test: Sind die gemeldeten Mittelwerte mit ganzzahligen Stichprobengrößen konsistent?
SPRITE: Können die gemeldeten zusammenfassenden Statistiken aus plausiblen Einzeldaten rekonstruiert werden?
Statcheck: Do reported p-values match the test statistics?

Diese Tools fanden Anomalien in hundreds of published papers—faster than any human auditor.

Aber die Maschine meldet sich. Die menschlichen Richter. Die Entscheidung zum Zurückziehen bleibt zutiefst menschlich.

Module 19 Quiz

Q1. Was ist der akzeptable Mindestrückruf für KI-gestütztes Screening in systematischen Übersichten?

A. 80%

B. 90%

C. >95%

D. 100%

Module 19 Complete

„Die Maschine liest schneller. Der Mensch liest tiefer. Gemeinsam lesen sie die Wahrheit.“

Nicht jedes Signal ist wahr.

Modul 20: Die Qualitativ

Methoden schützen Patienten vor unserem Vertrauen.

Modul 20: Die Qualitativ

🎯 Learning Objectives

Explain why some questions require qualitative evidence synthesis
Describe meta-ethnography (Noblit & Hare) and thematic synthesis
Apply the CERQual framework to assess confidence in qualitative findings
Understand mixed-methods synthesis approaches
Recognize when qualitative evidence changes practice

Die WHO stellte eine Frage

kein RCT konnte Antwort.

Warum erleben Frauen weltweit Respektlosigkeit und Missbrauch während der Geburt? Bohren et al. (2015) fassten 65 qualitative Studien aus 34 Ländern in einem Rahmen aus sieben Bereichen der Misshandlung zusammen.

Folie A: Eine Frage jenseits der Randomisierung

Eine Frage jenseits der Randomisierung

Im Jahr 2014 berief die WHO ein Gremium ein, um eine globale Krise anzugehen: Frauen wurden körperlich misshandelt, verbal gedemütigt und ihnen wurde die Betreuung während der Geburt verweigert. Dies war kein seltenes Ereignis – Berichte kamen von 34 countries.

They needed to understand WHY. What drives disrespect and abuse in maternity care?

Kein RCT konnte darauf eine Antwort geben. Sie können Frauen nicht nach dem Zufallsprinzip entweder einer missbräuchlichen oder einer respektvollen Fürsorge zuordnen. Sie können Geburtshelfer nicht blenden. Man kann „Würde“ nicht auf einer Likert-Skala messen. Die Beweise mussten qualitativ sein.

Meta-Ethnography

Developed by Noblit & Hare (1988), meta-ethnography translates Konzepte über Studien hinweg, statt Zahlen zu aggregieren. Es erzeugt neue Interpretationsrahmen (Konstrukte dritter Ordnung) aus Daten erster Ordnung (Teilnehmerzitate) und zweiter Ordnung (Interpretationen von Autoren).

Reciprocal

Studien bestätigen sich gegenseitig

Refutational

Studien widersprechen sich

Line of
argument

Studien bilden ein Neues Theorie

What Bohren Found: A Taxonomy of Mistreatment

1. Physical abuse

Hitting, pinching, slapping during labor

2. Sexual abuse

Inappropriate touching, non-consensual procedures

3. Verbal abuse

Shouting, threats, judgmental comments

4. Stigma & discrimination

Based on HIV status, ethnicity, age, poverty

5. Professional standards failure

Neglect, lack of informed consent

6. Poor rapport

Poor communication, dismissiveness

7. Health system conditions

Overcrowding, understaffing, lack of supplies

65 Studien. 34 Länder. Dieselben Muster wiederholen sich in allen Sprachen, Kulturen und Systemen. Das war keine Anekdote. Hierbei handelte es sich um synthetisierte Beweise.

Researcher

CERQual: Vertrauen in qualitative Evidenz

CERQual assesses confidence in qualitative review findings across four components:

1

Methodological Limitations

Qualität der beitragenden Studien.

2

Coherence

Wie gut Daten den Befund stützen.

3

Adequacy

Datenreichtum (nicht nur die Anzahl der Studien).

4

Relevance

Anwendbarkeit auf den Kontext der Überprüfungsfrage.

Folie C: Von der Evidenz zur Aktion

When Qualitative Evidence Changes Practice

Bohren's synthesis informed the WHO's 2018 Recommendations on Intrapartum Care for a Positive Childbirth Experience. Specific changes grounded in qualitative evidence:

Rec. 15

Companionship during labor

Rec. 1

Respectful maternity care

Rec. 3

Effective communication

Rec. 12

Emotional support

Diese auf qualitativer Evidenz basierenden Empfehlungen leiten nun die Geburtshilfe in 194 WHO-Mitgliedstaaten. Kein Waldstück hätte sie hervorbringen können. Keine I²-Statistik hätte sie aufdecken können.

Bohren's Framework of Mistreatment

Die qualitative Synthese von 2015 identifizierte sieben Bereiche: körperlicher Missbrauch, sexueller Missbrauch, verbaler Missbrauch, Stigmatisierung und Diskriminierung, Nichteinhaltung beruflicher Standards, schlechte Beziehungen und Zustände im Gesundheitssystem. Dieser Rahmen floss in die WHO-Empfehlungen zur intrapartalen Versorgung (2018) ein.

Kein p-Wert konnte die Erfahrung einer Ohrfeige während der Wehen erfassen. Qualitative Synthese gab dem Ausdruck, was Zahlen nicht konnten.

Decision Tree: When Is Qualitative Synthesis Appropriate?

ROOT: Geht es bei Ihrer Forschungsfrage um Erfahrungen, Wahrnehmungen, Barrieren oder Erleichterungen?

YES → Geht es bei Ihrer Frage um das WIE oder WARUM, nicht nur um das OB?

Yes: Qualitative evidence synthesis (meta-ethnography, thematic synthesis, or framework synthesis)
No: Betrachten Sie gemischte Methoden: quantitativ für die Wirkung + qualitativ für Mechanismus

NO → Geht es bei Ihrer Frage um Wirksamkeit/Wirksamkeit?

Yes: Quantitative meta-analysis
But: Ergänzung durch qualitative Überprüfung der Implementierungsbarrieren (CERQual-assessed)

Key insight: Die stärksten systematischen Überprüfungen beantworten BEIDE: Funktioniert es? (quantitativ) UND Warum funktioniert es oder scheitert es? (qualitativ)

Module 20 Quiz

Q1. What distinguishes meta-ethnography from quantitative meta-analysis?

A. Es umfasst nur 3–5 Studien

B. It translates concepts across studies rather than pooling numbers

C. It does not require a systematic search

D. It is less rigorous than quantitative synthesis

Module 20 Complete

„Nicht alles, was zählt, kann gezählt werden. Nicht alles, was gezählt wird, zählt.“

Heterogenität ist eine Botschaft, kein Rauschen.

Modul 21: Die Multivariat

Heterogenität ist eine Botschaft, kein Rauschen.

Modul 21: Die Multivariat

🎯 Learning Objectives

Erkennen Sie, wann Ergebnisse innerhalb einer Studie korrelieren
Explain multivariate random-effects models
Apply robust variance estimation (RVE) for dependent effect sizes
Drei-Ebenen-Modelle für verschachtelte Modelle verstehen Daten
Choose between multivariate approaches based on data structure

Cardiovascular trials report

Mortalität, MI, Schlaganfall und mehr.

Diese Ergebnisse korrelieren innerhalb der Patienten. Ein Patient, der stirbt, kann keinen MI-Endpunkt haben. Die Standard-Metaanalyse behandelt jedes Ergebnis unabhängig voneinander – ignoriert die Abhängigkeit und potenziell doppelt gezählte Beweise.

Folie A: Die Bequemlichkeitslüge

Die Annahme, dass niemand Fragen stellt

Öffnen Sie ein beliebiges Standard-Metaanalyse-Lehrbuch. Die Modelle gehen davon aus, dass jede Studie einen Beitrag leistet one independent effect size. But reality is different.

Eine einzelne kardiovaskuläre Studie berichtet über Mortalität, Myokardinfarkt, Schlaganfall und Revaskularisation. Eine einzelne Psychotherapiestudie berichtet über Depressionen, Angstzustände und Lebensqualität nach 3, 6 und 12 Monaten.

30 trials

× 4 outcomes

= 120

effect sizes

Most analysts either: (a) treat all 120 as independent (inflating precision by a factor of √4), or (b) Wählen Sie ein Ergebnis und verwerfen Sie den Rest. Beide Ansätze sind falsch.

Das Abhängigkeitsproblem

In standard pairwise meta-analysis, each study contributes one effect size. But many studies report multiple outcomes, subgroups, timepoints, or arms—creating dependent Effektgrößen. Das Ignorieren erhöht die Präzision und verzerrt die Schlussfolgerung.

RVE

Robust Variance Estimation. Sandwich estimator handles unknown correlation.

3-Level

Study → Outcome nesting modeled explicitly.

Researcher

Robust Variance Estimation

RVE (Hedges, Tipton & Johnson, 2010) uses a sandwich-type Schätzer, der unabhängig von der wahren Korrelation zwischen abhängigen Effekten gültige Standardfehler liefert. Es ist nicht erforderlich, die Korrelation innerhalb der Studie zu kennen oder abzuschätzen. Am besten für ≥20 Studien.

Small-sample correction: Tipton & Pustejovsky (2015) entwickelten Korrekturen für kleine Stichproben (CR2) für RVE unter Verwendung von Satterthwaite-Freiheitsgraden, wenn die Anzahl der Cluster klein ist.

Folie B: Die mathematische Wahrheit

Researcher

What Dependence Does to Your Confidence Intervals

Wenn 4 Die Ergebnisse derselben Studie weisen eine studieninterne Korrelation von ρ = 0,5 auf:

Treating as independent

CI width = X

Berücksichtigung der Abhängigkeit

CI width = 1.58X

Ihr Konfidenzintervall sollte 58% widersein. Jede Metaanalyse, die dies ignorierte, veröffentlichte falsch genaue Ergebnisse.

RVE (Hedges, Tipton & Johnson, 2010): Uses a “sandwich” variance estimator that produces correct standard errors without needing to know the exact within-study correlation.

Researcher

Three-Level Models: Making Structure Explicit

1

Level 1: Sampling Variance

Measurement error within each effect size estimate.

2

Level 2: Within-Study Variance

Ergebnisse und Zeitpunkte variieren innerhalb einer einzelnen Studie.

3

Level 3: Between-Study Variance

Studien unterscheiden sich voneinander in Populationen, Settings und Methoden.

Example: In einer Metaanalyse der Psychotherapie bei Depressionen (k=50 Studien, 180 Wirkung Größen), 35% der Varianz war innerhalb der Studie (verschiedene Ergebnisse) und 65% zwischen den Studien (verschiedene Therapien, Populationen). Diese Zerlegung zeigt, wie groß die Heterogenität ist. within vs between studies.

Methodologist

Three-Level Models: Formal Framework

Wenn Effekte verschachtelt sind (z. B. mehrere Ergebnisse innerhalb von Studien oder Studien innerhalb von Forschungsgruppen), a three-level model unterteilt die Varianz in: (1) Stichprobenvarianz (Stufe 1), (2) studieninterne Varianz (Stufe 2) und (3) studienübergreifende Varianz (Stufe 3). Dadurch bleibt die korrekte Schlussfolgerung erhalten, während die Stärke auf allen Ebenen ausgeliehen wird.

Die kardiovaskuläre Herausforderung

Eine Metaanalyse von Statinen könnte 30 Studien umfassen, von denen jede über Mortalität, Myokardinfarkt, Schlaganfall und Revaskularisation berichtet. Das sind 120 Effektgrößen aus 30 Clustern. Wenn man sie als 120 unabhängige Schätzungen behandelt, erhöht sich die Präzision um einen Faktor, der mit der Korrelation innerhalb der Studie zusammenhängt.

RVE or multivariate models handle this correctly—producing wider, honest confidence intervals.

Decision Tree: Which Approach for Dependent Effect Sizes?

ROOT: Hat Ihre Metaanalyse mehrere Effekte pro Studie?

YES → Kennen (oder können Sie abschätzen) die studieninternen Zusammenhänge?

Yes: Multivariate random-effects model (most efficient)
No: RVE with small-sample correction (robust to unknown correlations)

NO → Standard univariate random-effects model

Sub-question: Sind Ihre multiplen Effekte auf unterschiedliche Ergebnisse, Zeitpunkte oder Untergruppen zurückzuführen?

Different outcomes → Three-level model or RVE with clustering
Different timepoints → Network of timepoints with temporal correlation
Different subgroups → Consider if subgroups are meaningful or should be averaged

Module 21 Quiz

Q1. What problem does Robust Variance Estimation (RVE) solve?

A. Publication bias

B. Abhängigkeit zwischen mehreren Effektgrößen aus derselben Studie

C. Between-study heterogeneity

D. Small-study effects

Module 21 Complete

„Wenn die Ergebnisse miteinander verflochten sind, ist es eine Lüge aus Bequemlichkeit, so zu tun, als wären sie unabhängig.“

Die Zahl ohne Herkunft ist keine Zahl.

Modul 22: Der Beweis

Die Zahl ohne Herkunft ist keine Zahl.

Modul 22: Der Beweis

🎯 Learning Objectives

Understand how computational errors propagate through policy
Definieren Sie Reproduzierbarkeit und unterscheiden Sie von Reproduzierbarkeit
Wenden Sie Beweis-Hashing und beweistragende Zahlen an
Use reproducibility checklists for meta-analysis
Erkennen Sie die Rolle der Vorregistrierung und offener Daten

A graduate student opened a spreadsheet

und stellte fest, dass die Ära der Sparmaßnahmen auf einem Fehler beruhte.

Im Jahr 2010 behaupteten Reinhart und Rogoff, dass Länder mit einer Schuldenquote von >90 % im Verhältnis zum BIP ein negatives Wachstum verzeichneten. Dies beeinflusste die Sparpolitik in ganz Europa. Im Jahr 2013 entdeckte Thomas Herndon einen Excel-Fehler, der fünf Länder aus dem Durchschnitt ausschloss. Das korrigierte Ergebnis: bescheidenes positives Wachstum, kein Einbruch.

Reproducibility vs Replicability

Reproducible

Same data + same code = same result

Replicable

Neue Daten + gleiche Methoden = konsistentes Ergebnis

Reproducibility is the minimum standard. Wenn andere Ihre gepoolte Schätzung anhand Ihrer gemeldeten Daten nicht reproduzieren können, kann die Analyse nicht verifiziert werden. Metaanalysen sollten Folgendes teilen: extrahierte Daten, Analyseskripte, Softwareversionen und zufällige Seeds.

Researcher

Proof-Carrying Numbers

Every number in a meta-analysis should carry its provenance: woher es kam, wie es transformiert wurde und welcher Code es erzeugte. Evidence hashing creates a cryptographic fingerprint of inputs so any change (accidental or deliberate) is detectable.

SHA

Input Hash

SHA-256-Hash der extrahierten Daten. Wenn sich eine Zelle ändert, ändert sich der Hash. Provenienzkette: Daten → Code → Ergebnis → Hash.

Interactive: Reproducibility Checklist

Kreuzen Sie jedes Element an, um die Reproduzierbarkeit einer Metaanalyse zu beurteilen. Wie schneidet Ihre Rezension ab?

Der Excel-Fehler, der die Volkswirtschaften veränderte

Reinhart-Rogoffs „Wachstum in einer Zeit der Schulden“ wurde in Zeugenaussagen vor dem Kongress, in Berichten der Europäischen Kommission und in Policy Briefs des IWF zitiert. Der Excel-Fehler (Zeilen 30–34 wurden aus einer AVERAGE-Formel ausgeschlossen) führte dazu, dass fünf Länder – Australien, Österreich, Belgien, Kanada und Dänemark – einfach fehlten.

Der korrigierte Durchschnitt stieg von −0,1 % auf +2,2 %. Millionen Menschen waren von der Sparpolitik betroffen. Reproduzierbarkeit ist kein akademischer Perfektionismus – sie ist ein Schutz vor Katastrophen.

Remember Module 5?

DECREASE Through the Lens of Reproducibility

Die DECREASE-Studien von Don Poldermans wurden wegen gefälschter Daten zurückgezogen. Hätten beweiskräftige Zahlen existiert – gehashte Eingaben, Herkunftsketten, verifizierte Berechnungen –, wäre die Fälschung erkennbar gewesen before Die Beweise gingen in Metaanalysen ein und veränderten die chirurgischen Richtlinien.

Module 22 Quiz

Q1. War der Reinhart-Rogoff-Fehler?

A. They used too small a sample

B. An Excel formula excluded 5 countries, reversing the conclusion

C. They studied the wrong time period

D. They used the wrong statistical test

Module 22 Complete

„Die Zahl ohne Herkunft ist keine Zahl. Die Analyse ohne Reproduzierbarkeit ist kein Beweis.“

Certainty must be earned, not assumed.

Modul 23: Ihr erster Meta-Sprint

Certainty must be earned, not assumed.

Modul 23: Ihr erster Meta-Sprint

🎯 Learning Objectives

Verstehen Sie den 40-tägigen systematischen Überprüfungsworkflow
Map the Seven Principles to real practice phases
Recognize Definition-of-Done (DoD) gates as quality checkpoints
Appreciate why structure prevents the failures you've studied
Graduate ready to conduct (not just understand) meta-analysis

Die Reise ist abgeschlossen

Du hast die Geschichten gelernt.

Jetzt müssen Sie den Weg gehen.

Jede Umkehrung der Beweise, die Sie untersucht haben, geschah aufgrund von Teams knew die Methoden, aber nicht follow them systematically.

Das META-SPRINT Framework

Ein 40-tägiger strukturierter Workflow mit 5 Phasentoren. Jedes Gate ist ein Definition-of-Done (DoD)-Kontrollpunkt, der Sie daran hindert, weiterzumachen, bis die Qualität sichergestellt ist.

40

Days to Completion

5

DoD Phase Gates

Day 34

Hard Freeze

Why 40 days? Lang genug für Genauigkeit, kurz genug, um ein Scope Creep zu verhindern. Die Rosiglitazon-Herzsignale wurden jahrelang vergraben, weil es keine Frist gab, die Transparenz erzwang.

Die fünf Tore

Die fünf Phasentore

A

DoD-A: Protocol Lock (Days 1-3)

PICOS defined, timepoint rules set, model choices pre-specified. No moving target.

B

DoD-B: Search Lock (Days 6-10)

All databases searched, grey literature checked, PRESS validated. No hidden studies.

C

DoD-C: Extraction Lock (Days 10-28)

Dual extraction, provenance linked, RoB assessed. No fabricated numbers.

The Five Phase Gates (continued)

D

DoD-D: Analysesperre (Tage 21-33)

Forest plots generated, sensitivity analyses run, heterogeneity explored. No cherry-picking.

E

DoD-E: Submission Lock (Days 33-40)

GRADE certainty rated, clinical summary written, manuscript finalized. No overconfidence.

Day 34 Freeze: Das können keine neuen Studien nach Tag 34 hinzugefügt werden. Dies verhindert das „Waffe-Scope-Creep“, das die BMP-Metaanalysen zur Wirbelsäulenchirurgie plagte, in denen die Industrie immer wieder günstige Studien „fand“.

Die sieben Prinzipien in der Praxis

Every principle you learned maps to a specific phase gate:

DoD-A "Nicht jedes Signal ist wahr“ – Geben Sie im Voraus an, was zählt Beweise

DoD-B "What was hidden in plain sight?" — Search comprehensively

DoD-C "Die Zahl ohne Herkunft ist keine Zahl" — Verknüpfen Sie jeden Datenpunkt

DoD-D "Heterogenität ist eine Botschaft, kein Rauschen" — Investigate, don't ignore

DoD-E "Certainty must be earned, not assumed" — GRADE everything

Das Red-Team-Prinzip

Ihr eigenes Team versucht es Unterbrechen Sie Ihre Arbeit.

Jeden Tag verbringen zwei rotierende Teammitglieder 12 Minuten damit, als Gegner die Datenqualität zu überprüfen. Auf diese Weise wurde Boldts Betrug aufgedeckt – nicht durch eine freundliche Überprüfung, sondern durch eine skeptische Überprüfung, bei der unmögliche Rekrutierungsquoten festgestellt wurden.

CondGO: When Things Go Wrong

What happens when you discover a critical problem mid-sprint?

CondGO = Conditional Go

A bounded rescue protocol. You have exactly 72 hours um das Problem nur mithilfe zulässiger Aktionen zu beheben. Wenn Sie das Problem nicht beheben können, müssen Sie die Überprüfung beenden.

📖 Die Avandia-Lektion: GSK sah im Jahr 2000 kardiovaskuläre Signale, hatte aber keine vorgeschriebene Frist. Sie haben sieben Jahre lang „zugeschaut und gewartet“. Zehntausende wurden verletzt. CondGO existiert, weil „wir uns irgendwann damit befassen“ Menschen umbringt.

Sie haben diesen Kurs mit Geschichten begonnen.

Sie beenden ihn bereit zum Üben.

Der META-SPRINT-Workflow nimmt alles, was Sie gelernt haben, und strukturiert es in ein 40-Tage-System, das die Fehler verhindert, die Sie haben untersucht.

Wenn Sie bereit sind, eine echte systematische Überprüfung durchzuführen, öffnen Sie die META-SPRINT-Anwendung. Die Geschichten, die Sie hier gelernt haben, werden Sie leiten und bei jedem Schritt als Erinnerung auftauchen.

GESCHICHTE: Die CTT-Zusammenarbeit – Wenn Methoden Millionen retten

What does it look like when every principle is followed?

REAL DATA

Die Zusammenarbeit der Cholesterol Treatment Trialists (CTT) ist der Goldstandard der Metaanalyse. Sie erhielten individuelle Patientendaten von mehr als 170.000 Teilnehmern across 26 statin trials. Pre-specified protocol. IPD from all major trials. Standardized outcomes. Result: statins reduce major vascular events by 21% per mmol/L LDL reduction (RR 0.79, 95% CI 0.77-0.81), regardless of baseline risk. This finding, replicated across 5 Metaanalysen über 15 Jahre, has prevented an estimated millions of heart attacks and strokes worldwide.

Die sieben Prinzipien wurden angewendet

Die CTT-Geschichte zeigt, was passiert, wenn jedes Prinzip aus diesem Kurs befolgt wird. Betrachten Sie die Alternative:

PFAD A: Ohne die Prinzipien

No protocol. Published data only. No RoB. No heterogeneity investigation. No GRADE.

↓

Conflicting small trials. Statin controversy persists. Millions untreated.

OUTCOME: Preventable cardiovascular deaths continue

PFAD B: Der CTT-Weg

Vorregistriertes Protokoll. IPD aus allen Studien. Standardisierte Ergebnisse. Transparente Methoden. STUFE Hohe Sicherheit.

↓

Definitive Antwort. Globale Richtlinien ändern sich. Statine werden denen verschrieben, die davon profitieren.

OUTCOME: Millions of lives saved by rigorous evidence synthesis

THE REVELATION

Jeder Grundsatz in diesem Kurs existiert, weil sein Fehlen Schaden verursacht hat. Die CTT-Kollaboration beweist, dass die Metaanalyse zum leistungsstärksten Werkzeug in der Medizin wird, wenn die Methoden streng sind, wenn die Daten ihre Herkunft haben, wenn Voreingenommenheit beurteilt und Gewissheit erlangt wird. Sie tragen nun diese Prinzipien. Benutze sie.

Capstone Quiz

1. Was ist der Zweck des „Hard Freeze“ an Tag 34 in META-SPRINT?

A. Um Zeit für die Begutachtung durch Fachkollegen zu haben

B. Um zu verhindern, dass spät hinzugefügte Studien Ergebnisse manipulieren

C. To speed up publication

D. Zur Abstimmung mit Zeitschriftenfristen

2. The CondGO protocol gives teams how long to fix critical problems?

A. 24 hours

B. 48 hours

C. 72 hours

D. 1 week

3. Red-team adversarial QA caught Joachim Boldt's fraud by noticing:

A. Impossible patient recruitment rates

B. p-hacking in statistical tests

C. Inconsistent effect sizes

D. Whistleblower testimony

Die Geschichten, die Sie gelernt haben, sind keine Geschichte.

Es sind Warnungen, die Ihre zukünftige Arbeit schützen.

Wenn Sie Ihre erste Metaanalyse durchführen,
remember CAST before you trust a signal,
remember Poldermans before you skip provenance,
denken Sie an Reboxetine, bevor Sie den Trichter ignorieren.

Sie sind jetzt bereit. Gehen Sie mit Struktur vor. Gehen Sie mit Demut. Befolgen Sie die sieben Prinzipien.

Nicht jedes Signal ist wahr.

Modul 24: Abschlussprüfung

Certainty must be earned, not assumed.

Final Examination

Final Exam: Part 1 of 2

Testen Sie Ihre Beherrschung der Prinzipien der Metaanalyse. Jede Frage befasst sich mit einem Kernkonzept des Kurses.

Q1. Ein Forscher möchte „die Auswirkungen von Bewegung auf die Gesundheit“ untersuchen. Was ist das PRIMÄRE Problem bei dieser Forschungsfrage?

A. It lacks randomization

B. Sample size is too small

C. It is not answerable—lacks specific PICO elements

D. It lacks ethical approval

Q2. Ein Trichterdiagramm zeigt eine ausgeprägte Asymmetrie mit fehlenden Studien im unteren linken Bereich. Was deutet das darauf hin?

A. Large studies have more precise estimates

B. Kleine negative Studien sind wahrscheinlich unveröffentlicht

C. The true effect is stronger than estimated

D. Random sampling error

Q3. Eine Metaanalyse berichtet von I² = 85 % und τ² = 0,42. Was ist die am besten geeignete Interpretation?

A. There is an 85% chance of a true effect

B. The effect size is very large

C. Substantial between-study variance exists; investigate sources

D. Die Ergebnisse sind klinisch wichtig

Q4. Was ist in GRADE die Ausgangssicherheit für eine Reihe von Beweisen aus randomisierten kontrollierten Studien?

A. High

B. Moderate

C. Low

D. Very low

Q5. In RoB 2.0, which domain assesses whether outcome assessors knew the treatment allocation?

A. D1: Randomization process

B. D2: Abweichungen von beabsichtigten Interventionen

C. D3: Fehlendes Ergebnis Daten

D. D4: Messung des Ergebnisses

Final Exam: Part 2 of 2

Q6. Die CAST-Studie zeigte, dass Antiarrhythmika die Sterblichkeit trotz der Unterdrückung von Arrhythmien erhöhten. Dies ist ein Beispiel für:

A. Random sampling error

B. Surrogate outcome failure

C. Confounding by indication

D. Reverse causation

Q7. When should a random-effects model be preferred over a fixed-effect model?

A. When sample sizes are large

B. Wenn Ergebnisse binär sind

C. When between-study heterogeneity is expected

D. When publication bias is suspected

Q8. According to ICEMAN criteria, which makes a subgroup analysis MORE credible?

A. Hypothesis specified a priori

B. Large number of subgroups tested

C. No biological rationale

D. Inconsistent effects across trials within subgroup

Q9. What assumption must be checked in network meta-analysis to ensure valid indirect comparisons?

A. All studies have equal sample sizes

B. Alle Studien messen das gleiche Ergebnis

C. Transitivity (consistency of effect modifiers)

D. Double-blinding in all trials

Q10. Was zeigt das Überschreiten der Sinnlosigkeitsgrenze in der Trial Sequential Analysis (TSA) an?

A. Die Behandlung verursacht Schaden

B. Weitere Studien werden wahrscheinlich keine bedeutsame Wirkung zeigen

C. Die Evidenz ist schlüssig für den Nutzen

D. Die Metaanalyse ist unzureichend

Part 1 Complete — continue to Part 2 (Advanced Modules)

Teil 2: Fragen zum fortgeschrittenen Modul (Q11-Q25)

Final Exam: Part 2 of 2 (Advanced)

Questions 11–25 cover Modules 13–22 (Bayesian, NMA, IPD, Dose-Response, Fragility, Equity, AI, Qualitative, Multivariate, Reproducibility).

Q11. Was passiert in der Bayes'schen Metaanalyse, wenn Sie in vielen Studien einen vagen Prior verwenden?

A. Der Posterior stimmt gut mit dem frequentistischen Ergebnis überein

B. Der Prior dominiert den Posterior

C. The credible interval becomes infinitely wide

D. Das Modell versagt konvergieren

Q12. Warum wurde bei Ciprianis Antidepressivum NMA kein einzelnes Medikament zum „Gewinner“ erklärt?

A. Zu wenige Studien

B. Different drugs ranked best on different outcomes

C. Es waren keine indirekten Beweise verfügbar

D. SUCRA konnte nicht sein berechnet

Q13. Warum sollten Sie IPD niemals wie aus einer Megastudie zusammenfassen?

A. IPD always has fewer studies than aggregate

B. Es ignoriert Studien-Clustering und führt zu Verwirrung

C. Es kann keine Zeit-bis-Ereignis-Daten verarbeiten

D. Binary outcomes cannot be pooled

Q14. What caused the alcohol "J-curve" to disappear in Stockwell's reanalysis?

A. Neue Studien wurden hinzugefügt, die nein zeigten Nutzen

B. Ehemalige Trinker wurden korrekt aus der Referenzgruppe der Abstinenzler entfernt

C. Die Stichprobengröße wurde erhöht

D. Bessere Anpassung für Störfaktoren

Q15. Was hat Cochrane in der Oseltamivir-Saga herausgefunden, als er auf unveröffentlichte klinische Ergebnisse zugegriffen hat? Studienberichte?

A. Das Medikament war völlig wirkungslos

B. Die Wirkung war größer als ursprünglich angenommen

C. Der Nutzen für Komplikationen verschwand weitgehend

D. Side effects were more common than reported

Q16. Wie viel Prozent der US-amerikanischen Hypertoniker hätten sich NICHT für die SPRINT-Studie qualifiziert?

A. About 25%

B. About 50%

C. Over 75%

D. Nearly 100%

Q17. Why is AI considered an "augmenter" rather than a "replacer" in systematic reviews?

A. AI is slower than human reviewers

B. AI has perfect recall

C. AI screens fast but cannot make human-level contextual judgments

D. AI is too expensive for most reviews

Q18. What does the "adequacy" component of CERQual assess?

A. Die Anzahl der Studien Nur

B. Die Fülle und Menge der Daten, die den Befund stützen

C. Konsistenz der Ergebnisse über Studien hinweg

D. Generalizability to other populations

Q19. A meta-analysis includes 30 statin trials, each reporting 4 correlated outcomes (120 effect sizes). Which approach is correct?

A. Treat all 120 as independent effect sizes

B. Use RVE with small-sample correction

C. Pick only one outcome per study

D. Durchschnitt der 4 Ergebnisse innerhalb jeder Studie

Q20. Wie hoch war im Reinhart-Rogoff-Fehler die korrigierte durchschnittliche Wachstumsrate für hohe Schulden? Länder?

A. −0.1% (same as claimed)

B. +2.2%

C. 0%

D. +5%

Passing Score: 15/20 across both parts

Überprüfen Sie alle verpassten Fragen, indem Sie zum entsprechenden Modul zurückkehren. Jede Frage testet ein Kernkonzept.

Nicht jedes Signal ist wahr.

Methoden schützen Patienten vor unserem Vertrauen.

Congratulations

Sie haben den Kurs „Evidence Reversal: A Meta-Analysis“ abgeschlossen.

Möge Ihre Synthese von der Wahrheit, Ihre Zusammenfassung von Weisheit,
und Ihre Schlussfolgerungen von Demut geleitet werden.

Die Sieben Prinzipien:

„Nicht jedes Signal ist die Wahrheit.“

„Methoden schützen Patienten vor unserem Vertrauen.“

"What was hidden in plain sight?"

„Die Zahl ohne Herkunft ist keine Zahl.“

“Heterogenität ist eine Botschaft, kein Rauschen.“

“Das Fehlen von Beweisen ist kein Beweis für Abwesenheit.“

"Certainty must be earned, not assumed."

"Führe uns auf den geraden Weg..."

Your Progress

Die sieben Prinzipien

Badges Earned

Learning Streak

Modul 0: Die Eröffnung

🎯 Learning Objectives

What is Meta-Analysis?

Warum Pool-Studien?

Increase Statistical Power

Improve Precision

Resolve Disagreement

Explore Heterogeneity

Wann NICHT gepoolt werden sollte

Die Hierarchie der Beweise

Die sieben Prinzipien

Module 0 Quiz

1. Warum sollte man Studien manchmal NICHT in einer Metaanalyse zusammenfassen?

2. Wo befinden sich systematische Überprüfungen von RCTs in der Evidenzhierarchie?

Modul 1: Die Frage

🎯 Learning Objectives

The Observation

The Response

Die Logik, die alle überzeugte

CAST: The Cardiac Arrhythmia Suppression Trial

Die Ergebnisse: April 1989

Der Mensch Kosten

Die Logik – überarbeitet

What Went Wrong: The Surrogate Trap

Das PICO-Framework

Untersuchungsübung: Die Beweise vor CAST

Before: Observational Logic

After: CAST RCT (1989)

Die Lehren für die Evidenzsynthese

Biologische Plausibilität ist kein Beweis

Surrogate endpoints can mislead

Randomisierte Studien liefern die stärksten kausalen Beweise

Konsens ist kein Beweis

REAL DATA

Module 1 Quiz

1. Was war der grundlegende Fehler in der antiarrhythmischen Logik?

2. Wofür steht in PICO das „O“ und warum ist es wichtig?

Modul 2: Das Protokoll

🎯 Learning Objectives

Die Gesundheitsstudie der Krankenschwestern

Die versteckte Voreingenommenheit

WHI: The Women's Health Initiative

Die Ergebnisse: Juli 2002

REAL DATA

PROSPERO Registration

Registrieren Sie sich, bevor Sie suchen

Sperren Sie Ihre Entscheidungen

Document Amendments

Prevent Duplication

Module 2 Quiz

1. Warum zeigte die Nurses' Health Study, dass die HRT einen Nutzen bringt, der bei WHI nicht der Fall war?

2. What is the primary purpose of PROSPERO registration?

Modul 3: Die Suche

🎯 Learning Objectives

Die veröffentlichten Beweise (vor 2007)

Nissen's Discovery: May 2007

Die Ergebnisse der Metaanalyse

The FDA Advisory Committee: July 2007

The Aftermath

What a Comprehensive Search Requires

Die PRESS-Checkliste

Übersetzung der Forschungsfrage

Boolesche und Näherungsoperatoren

Subject Headings

Text Words

PRESS Checklist (continued)

Spelling, Syntax, Line Numbers

Grenzwerte und Filter

Database Translation

REAL DATA

Module 3 Quiz

1. Welche Art von Beweisquelle enthüllte das kardiovaskuläre Signal von Rosiglitazon?

2. What does PRESS stand for?

Modul 4: Das Screening

🎯 Learning Objectives

Der Aufstieg von Vioxx