Modul 0: Die Eröffnung

Nicht jedes Signal ist wahr.

🎯 Learning Objectives

  • Definieren Sie die Metaanalyse und erklären Sie ihre Rolle bei der Evidenzsynthese
  • Identifizieren Sie, wann Studien NICHT gepoolt werden sollten
  • Beschreiben Sie die Evidenzhierarchie und wo systematische Überprüfungen stattfinden sit
  • Recognize that meta-analysis can mislead when done poorly
  • Erinnern Sie sich an die sieben Prinzipien, die diesem Kurs zugrunde liegen

Dieser Kurs existiert, weil

die Medizin falsch war.

Nicht ein einziges Mal. Nicht selten. Wiederholt. Auf eine Weise, die Patienten tötete, die darauf vertrauten, dass die Beweise stichhaltig waren.

Eine statistische Methode zum Kombinieren von Ergebnissen aus mehreren unabhängigen Studien, die sich mit derselben Frage befassen.

1976
Term coined by Gene Glass
~50,000
Published per year
#1
Evidence hierarchy*

*When well conducted. Quality of conduct matters more than study design alone — as GRADE recognizes.

1

Increase Statistical Power

Individual studies may be too small to detect effects.

2

Improve Precision

Narrower confidence intervals around effect estimates.

3

Resolve Disagreement

Wenn Studien widersprüchlich sind, kann das Pooling das Signal klären.

4

Explore Heterogeneity

Identify why effects differ across populations or settings.

But meta-analysis can also

MISLEAD

When done poorly, it amplifies bias rather than truth.

1

Studien messen grundlegend unterschiedliche Dinge (Äpfel und Orangen)

2

Extreme heterogeneity that cannot be explained

3

One study dominates all others (megastudy problem)

4

Studien weisen ein hohes Risiko einer Verzerrung auf, die nicht angepasst werden kann

Pooling ist ein Privileg, kein Recht.

The decision to combine must be defended.

Systematic Reviews & Meta-Analyses of RCTs

Randomized Controlled Trials

Cohort Studies

Case-Control Studies

Case Series / Expert Opinion

Die Position in der Hierarchie hängt von der Qualität der Methodik ab, nicht vom Studientyp allein.

Dieser Kurs vermittelt durch

evidence reversals.

Jedes Modul beginnt mit einer Geschichte darüber, wie die Medizin Fehler gemacht hat. Dann lernen wir die Methode kennen, die den Schaden verhindert hätte.

Diese Sätze werden auf Ihrer Reise immer wiederkehren:

1. „Nicht jedes Signal ist die Wahrheit.“

2. „Methoden schützen Patienten vor unserem Vertrauen.“

3. "What was hidden in plain sight?"

4. „Die Zahl ohne Herkunft ist keine Zahl.“

5. “Heterogenität ist eine Botschaft, kein Rauschen.“

6. “Das Fehlen von Beweisen ist kein Beweis für Abwesenheit.“

7. "Certainty must be earned, not assumed."

1. Warum sollte man Studien manchmal NICHT in einer Metaanalyse zusammenfassen?

A. Pooling is always better than single studies
B. When heterogeneity is extreme or studies measure different things
C. Pooling is always appropriate for RCTs
D. Statistical methods handle any situation

2. Wo befinden sich systematische Überprüfungen von RCTs in der Evidenzhierarchie?

A. At the top
B. Same level as individual RCTs
C. Unter Kohortenstudien
D. Same as expert opinion

Beginnen Sie die Reise.

Modul 1: Die Frage

Modul 1: Die Frage (CAST)

Nicht jedes Signal ist wahr.

Dies ist keine Geschichte über Fehler.

Es ist eine Geschichte über Gewissheit.

🎯 Learning Objectives

  • Formulieren Sie eine gezielte PICO-Frage für eine systematische Überprüfung.
  • Distinguish surrogate outcomes from patient-important outcomes
  • Explain why biological plausibility alone is insufficient evidence
  • Beschreiben Sie die CAST-Studie und ihre Auswirkungen auf die evidenzbasierte Analyse Medizin
  • Wenden Sie den Grundsatz an: „Nicht jedes leuchtende Zeichen ist Führung“

excess deaths per year

From a treatment everyone believed worked.

Dies ist die Geschichte davon, wie wir geglaubt haben – und wie wir falsch lagen.

Patients with frequent PVCs after MI had 2-5x higher mortality.

400,000+
MI survivors/year
~40%
mit bedeutenden PVCs
160,000
at elevated risk

A massive clinical need. A clear target.

Antiarrhythmic drugs were developed, FDA approved,
and prescribed to ~200,000 patients per year.

Hier taucht kein Bösewicht auf Geschichte.

Jeder handelte auf der Grundlage der besten verfügbaren Beweise.

PREMISE 1

PVCs after MI predict sudden cardiac death

PREMISE 2

Antiarrhythmic drugs suppress PVCs

PREMISE 3

Suppressing PVCs should prevent sudden death

Die Kette war logisch. Die Schlussfolgerung schien unvermeidlich.

Finally, someone asked: "Does suppressing PVCs actually save lives?"

Design
Randomized, double-blind, placebo-controlled
Population
Post-MI patients with asymptomatic PVCs
Intervention
Encainide, flecainide, or moricizine vs placebo
Run-in
Only patients with ≥80% PVC suppression randomized
Primary endpoint
Death or cardiac arrest with resuscitation
Sample size
1,498 patients (encainide/flecainide arms)

Das Data Safety Monitoring Board stoppt den Versuch vorzeitig.

Outcome Drug (n=755) Placebo (n=743)
Arrhythmic deaths 33 9
All cardiac deaths 43 16
Total deaths 56 22
Death rate 7.4% 3.0%
Relative Risk of Death: 2.5
95% CI: 1.6 - 4.5 | p < 0.001

Die Medikamente, die Arrhythmien perfekt unterdrückten, erhöhten die Sterblichkeit um 150 %.

Der Mensch Kosten

Before CAST, ~200,000 Americans per year received these drugs.

~9,000

excess deaths per year - possibly more

Vietnam War: ~6,000 US deaths/year • These drugs: ~9,000+ deaths/year

For every number, a name we will never know.

Look again.

PREMISE 1

PVCs after MI predict sudden cardiac death

PREMISE 2

Antiarrhythmic drugs suppress PVCs

← THE LEAP
PREMISE 3

Suppressing PVCs should prevent sudden death

Die Annahme, dass die Unterdrückung des Markers das Ergebnis beheben würde, wurde nie überprüft.

1

PVCs waren ein Marker für geschädigtes Gewebe und keine Todesursache.

2

The drugs had proarrhythmic effects - triggering deadlier rhythms

3

Die Leihmutter verbesserte sich, während sich das Ergebnis verschlechterte – eine dissoziierte Leihmutter.

Die Leihmutter log nicht. Wir haben die falsche Frage gestellt.

Every answerable clinical question has four components:

P - POPULATION
Wer sind die Patienten? Was sind ihre Merkmale?
I - INTERVENTION
What treatment or exposure is being evaluated?
C - COMPARATOR
What is the alternative? Placebo? Standard care?
O - OUTCOME
What matters to patients? Hard endpoints vs surrogates.
CAST PICO
Post-MI patients with PVCs | Antiarrhythmics | Placebo | Mortality
🔍

Untersuchungsübung: Die Beweise vor CAST

Sie sind Kardiologe im Jahr 1988. Ein Patient hat einen Herzinfarkt überlebt, leidet aber häufig an PVC. Die Beobachtungsliteratur ist klar...

StudyPatienten mit PVCsMortality Risk
Lown (1977)High-grade PVCs2.4x higher
Bigger (1984)>10 PVCs/hour3.1x higher
Mukharji (1984)Complex PVCs4.8x higher

Das Signal ist klar. Der Mechanismus ist plausibel. Würden Sie Antiarrhythmika verschreiben?

Before: Observational Logic

PVCs → Higher mortality

Drugs suppress PVCs

∴ Drugs should reduce mortality

After: CAST RCT (1989)

Death rate on drug: 7.4%

Death rate on placebo: 3.0%

RR = 2.5 (150% increase in deaths)

Dem Ersatz ging es besser. Die Patienten starben. Deshalb fragen wir: „Was ist das Ergebnis, das zählt?“

1

Biologische Plausibilität ist kein Beweis

A logical mechanism doesn't guarantee the expected effect.

2

Surrogate endpoints can mislead

Improving a biomarker doesn't prove improvement in outcomes.

3

Randomisierte Studien liefern die stärksten kausalen Beweise

Beobachtungsdaten allein Stellt selten einen Kausalzusammenhang für Interventionen aufgrund von Verwirrung fest.

4

Konsens ist kein Beweis

200.000 Verschreibungen, FDA-Zulassung und Richtlinien waren alle falsch.

This is why we do meta-analysis: to see past apparent truths.

GESCHICHTE: Die DES-II-Ersatztragödie

Was Wenn die von Ihnen gestellte Frage darüber entscheidet, wer lebt und wer stirbt?

REAL DATA

Im Jahr 1989 wussten Kardiologen, dass PVC-Unterdrückung mit Encainid und Flecainid erreichbar war. Der Ersatzendpunkt sah perfekt aus: Medikamente unterdrückten die PVCs um 80%+. But CAST randomized 1,498 patients zum aktiven Medikament vs. Placebo. Die Studie wurde vorzeitig abgebrochen: 56 deaths in the drug group vs 22 in placebo. Mortality increased 2.5-fold. An estimated ~9,000 excess American deaths per year waren auf diese Medikamente zurückzuführen.

Die Wahl des Kardiologen: 1987
Ihr Patient nach einem Herzinfarkt hat häufig PVCs. Es gibt Medikamente, die sie vollständig unterdrücken. Was tun Sie?
PFAD A: Den Ersatz behandeln
Prescribe encainide — PVCs vanish, the ECG looks clean
Der Biomarker verbessert sich. Du fühlst dich zuversichtlich. Der Patient stirbt.
OUTCOME: An estimated 50,000+ excess deaths across the US during years of use
PATH B: Demand a Mortality Trial
Beharren Sie darauf: „Zeigen Sie mir, dass sich das Überleben verbessert, nicht nur das EKG.“
Die Studie zeigt Schäden. Die Medikamente werden abgesetzt. Leben werden gerettet.
ERGEBNIS: Die richtige PICO-Frage verhindert eine Katastrophe
THE REVELATION
Die Frage war nie „Können wir PVCs unterdrücken?“ Es lautete: „Rettet die PVC-Unterdrückung Leben?“ Ein Ersatzendpunkt hat die falsche Frage beantwortet. Der richtige PICO hätte von Anfang an Sterblichkeit als Ergebnis gefordert.

What appears certain may be wrong.

What everyone believes may be false.

Es gibt Methoden, sodass Patienten nicht für unser Vertrauen bezahlen.

Deshalb sind Sie hier.

1. Was war der grundlegende Fehler in der antiarrhythmischen Logik?

A. Die Studien waren nicht randomisiert
B. Treating a surrogate (PVCs) was assumed to improve outcomes
C. Die Stichprobengröße war zu klein
D. Die FDA-Zulassung wurde beschleunigt

2. Wofür steht in PICO das „O“ und warum ist es wichtig?

A. Observation - what researchers see
B. Ziel – das Forschungsziel
C. Outcome - what matters to patients
D. Organisation – Studienstruktur

Nicht jedes Signal ist wahr.

Methoden schützen Patienten vor unserem Vertrauen.

Modul 2: Das Protokoll (HRT)

What was hidden in plain sight?

Dies ist eine Geschichte über

observational evidence.

🎯 Learning Objectives

  • Explain why protocol pre-registration prevents bias
  • Identify key elements of a PROSPERO registration
  • Distinguish healthy user bias from true treatment effects
  • Describe why observational studies overestimated HRT benefits
  • Wenden Sie das Prinzip an: „Methoden schützen Patienten vor unserem.“ Vertrauen"

observational studies

All showing hormone replacement therapy protected postmenopausal women from heart disease.

Die Beweise schienen überwältigend. Die Schlussfolgerung schien sicher.

122,000 nurses followed for decades. HRT users had 40-50% lower cardiovascular mortality.

RR 0.56
Cardiovascular mortality
122,000
Women followed
20+ years
Follow-up

Landmark study. Impeccable methodology. Wrong conclusion.

1

Healthy User Bias: Women who chose HRT were healthier, wealthier, better educated

2

Compliance Bias: Women who took HRT consistently also took better care of themselves

3

Prescriber Bias: Doctors gave HRT to healthier women with fewer risk factors

Die Behandlung schützte sie nicht. Sie waren bereits geschützt.

The largest randomized trial of HRT ever conducted.

Design
Randomized, double-blind, placebo-controlled
Population
Postmenopausal women aged 50-79
Intervention
Estrogen + Progestin vs Placebo
Sample size
16,608 women
Primary endpoint
Coronary heart disease
Planned duration
8.5 years

Trial stopped early after 5.2 years. Harm exceeded benefits.

Outcome Hazard Ratio Direction
Coronary heart disease 1.29 HARM
Stroke 1.41 HARM
Breast cancer 1.26 HARM
Pulmonary embolism 2.13 HARM
Complete Reversal
30 Jahre Beobachtungsbeweise wurden aufgehoben

The Lesson

PRE-SPECIFY

A protocol written before the search begins prevents fishing, prevents bias, prevents hindsight distortion.

GESCHICHTE: Die Hormon-Timing-Hypothese

Was wäre, wenn die Behandlung wirkt – aber nur für einige?

REAL DATA

WHI showed HRT increased cardiovascular events overall. But later analyses revealed a critical pattern: women who started HRT within 10 years of menopause had REDUCED cardiovascular risk. Women starting 20+ years after menopause had INCREASED risk. The overall null/harm result hid a timing effect.

Das Analystendilemma
Sie analysieren WHI-Untergruppen. Das Gesamtergebnis zeigt Schaden. Graben Sie tiefer?
PATH A: Report Overall Only
Conclude HRT is harmful for all postmenopausal women
Simple message. Guidelines recommend against HRT universally.
OUTCOME: Deny potential benefit to younger menopausal women
PATH B: Pre-Specify Timing Subgroups
Analyze by years since menopause (biologically plausible)
Entdecken Sie das „Zeitfenster“ für eine sichere HRT-Einleitung.
OUTCOME: Enable personalized recommendations
THE REVELATION
Untergruppenanalyse ist beim Angeln gefährlich. Dies ist von entscheidender Bedeutung, wenn die Biologie Wirkungsmodifikationen vorhersagt. Die Timing-Hypothese war biologisch plausibel – und hätte vorab spezifiziert werden müssen.
1

Registrieren Sie sich, bevor Sie suchen

PROSPERO: International prospective register of systematic reviews

2

Sperren Sie Ihre Entscheidungen

PICO, search strategy, outcomes, analysis plan - all pre-specified

3

Document Amendments

Änderungen sind zulässig, müssen aber transparent und begründet sein

4

Prevent Duplication

Überprüfen Sie, ob Ihre Bewertung bereits vorhanden ist ab

1. Warum zeigte die Nurses' Health Study, dass die HRT einen Nutzen bringt, der bei WHI nicht der Fall war?

A. Nurses' Health had too few patients
B. Healthy user bias in observational studies
C. Nurses' Health had shorter follow-up
D. Different hormone formulations were used

2. What is the primary purpose of PROSPERO registration?

A. To register clinical trials
B. Um den Abschluss der Überprüfung zu beschleunigen
C. Um Methoden vorab festzulegen und Verzerrungen vorzubeugen
D. Um Finanzierung für Überprüfungen zu erhalten

Eine Vorabspezifikation ist nicht möglich Bürokratie.

It is protection.

Against our own tendency to find what we expect.

Methoden schützen Patienten vor unserem Vertrauen.

What was hidden in plain sight?

Modul 3: Die Suche

Modul 3: Die Suche (Rosiglitazon)

What was hidden in plain sight?

Dies ist eine Geschichte über

what they didn't publish.

🎯 Learning Objectives

  • Develop a comprehensive search strategy using PRESS guidelines
  • Search multiple databases including grey literature sources
  • Identify trial registries and regulatory databases (ClinicalTrials.gov, FDA)
  • Explain how the rosiglitazone case exposed hidden cardiovascular harms
  • Wenden Sie das Prinzip an: „Was war in aller Öffentlichkeit verborgen?“

annual sales at peak

Avandia (Rosiglitazon) war einer von ihnen Die weltweit meistverkauften Diabetesmedikamente.

Die veröffentlichten Studien sahen beruhigend aus. Die unveröffentlichten erzählten eine andere Geschichte.

Published trials showed rosiglitazone effectively lowered HbA1c. Cardiovascular outcomes were rarely reported.

1999
FDA approval
6M+
Patients treated
~0.7%
HbA1c reduction

Der Ersatz sah gut aus. Aber was ist mit tatsächlichen kardiovaskulären Ereignissen?

Dr. Steven Nissen erhielt unveröffentlichte Studiendaten von der GSK-eigenen Website.

GSK war aufgrund einer rechtlichen Einigung verpflichtet, die Ergebnisse klinischer Studien online zu veröffentlichen. Nissen und Wolski analysierten 42 Studien – viele wurden nie in Fachzeitschriften veröffentlicht.

Die Daten waren technisch öffentlich.

No one had systematically searched for it.

Outcome Odds Ratio 95% CI
Myocardial Infarction 1.43 1.03 - 1.98
CV Death 1.64 0.98 - 2.74
43% Increased Risk of Heart Attack
p = 0,03 für Myokardinfarkt

Published in NEJM. The FDA called an emergency advisory committee meeting.

The FDA Advisory Committee: July 2007

22-1
Voted: CV risk exists
20-3
Auf dem Markt bleiben mit Warnungen

Der Ausschuss war gespalten. Einige wollten, dass es zurückgezogen wird. Einige bezeichneten die Metaanalyse als fehlerhaft.

Aber das Signal war nicht zu übersehen.

1

Black box warning added for heart failure risk (2007)

2

Severe restrictions on prescribing in the US (2010)

3

Withdrawn vollständig vom europäischen Markt (2010)

4

FDA now requires cardiovascular outcome trials for all diabetes drugs

PUBLISHED
PubMed, Embase, CENTRAL, Web of Science
GREY LITERATURE
Conference abstracts, dissertations, regulatory docs
TRIAL REGISTRIES
ClinicalTrials.gov, WHO ICTRP, EU CTR
REGULATORY
FDA, EMA, Health Canada submissions
COMPANY DATA
GSK, Pfizer, Roche clinical trial registries
HAND SEARCH
Reference lists, contact authors, experts

Peer Review of Electronic Search Strategies

1

Übersetzung der Forschungsfrage

Spiegelt die Suche den PICO wider? Elemente?

2

Boolesche und Näherungsoperatoren

Werden AND, OR, NOT korrekt verwendet?

3

Subject Headings

Sind MeSH/Emtree-Begriffe angemessen und aufgelöst?

4

Text Words

Synonyms, spelling variants, truncation?

5

Spelling, Syntax, Line Numbers

Gibt es Fehler, die einen Abruf verursachen würden Fehler?

6

Grenzwerte und Filter

Sind Datum, Sprache und Studiendesign-Grenzwerte angemessen?

Peer-reviewed searches substantially improve retrieval of key studies.

PRESS guideline: McGowan et al., 2016

Die gleiche Suche muss für jede Datenbank angepasst werden:

PubMed

"diabetes mellitus, type 2"[MeSH] OR "type 2 diabetes"[tiab]

Embase

'non insulin dependent diabetes mellitus'/exp OR 'type 2 diabetes':ti,ab

Subject headings, field tags, and operators differ between databases.

GESCHICHTE: Die Tamiflu-Transparenz Kampagne

Was passiert, wenn Sie suchen – und nichts finden?

REAL DATA

Governments stockpiled $9 billion von Oseltamivir (Tamiflu) gegen eine pandemische Grippe. Die Cochrane Collaboration versuchte, die Beweise zu überprüfen. Von 77 clinical trials, full reports existed for only 20. Roche weigerte sich, Daten für 5 yearsweiterzugeben. Als das BMJ und Cochrane schließlich erhalten haben over 160,000 pages of clinical study reports, they found: Tamiflu reduced symptoms by less than 1 day, with no evidence it prevented hospitalizations or complications.

Das Dilemma des Rezensenten: 2009
Sie aktualisieren eine Cochrane-Rezension von Tamiflu. Veröffentlichte Studien sehen positiv aus. Für 57 Studien liegen jedoch keine vollständigen Berichte vor. Was tun Sie?
PATH A: Analyze What's Published
Use the 20 available trials. Conclude Tamiflu is effective.
Ihre Bewertung unterstützt die weitere Bevorratung. 9 Milliarden US-Dollar für schwache Beweise ausgegeben.
OUTCOME: Billions wasted, true efficacy unknown
PFAD B: Vollständige Daten verlangen
Refuse to publish until all trial data is accessible
5-year campaign. 160,000+ pages finally obtained. Truth emerges.
OUTCOME: Evidence policy changed; EMA now publishes all trial reports
THE REVELATION
Eine Suche ist nur so gut wie das, was gefunden werden kann. Wenn die graue Literatur hinter den Mauern von Unternehmen versteckt ist, wird selbst die umfassendste PubMed-Suche die Wahrheit verfehlen. Die Tamiflu-Saga veränderte die globale Politik: Die EMA veröffentlicht nun klinische Studienberichte für alle Arzneimittel.

If Nissen had searched only PubMed,

the signal would have remained hidden.

Comprehensive search is survival.

What was hidden in plain sight?

1. Welche Art von Beweisquelle enthüllte das kardiovaskuläre Signal von Rosiglitazon?

A. Published journal articles
B. Cochrane Library
C. Company clinical trial registry
D. FDA approval documents

2. What does PRESS stand for?

A. Publikationsüberprüfung von Standards für die Beweissuche
B. Peer Review of Electronic Search Strategies
C. Protokoll zur Berichterstattung über Studien zur Evidenzsynthese
D. Primary Research Evidence Search System

What was hidden in plain sight?

Modul 4: Das Screening

Modul 4: Das Screening (Vioxx)

Die Zahl ohne Herkunft ist keine Zahl.

Dies ist eine Geschichte über

what they chose to report.

🎯 Learning Objectives

  • Apply PRISMA flow diagram to document study selection
  • Implement dual-reviewer screening with conflict resolution
  • Identifizieren Sie selektive Ergebnisberichterstattung und Datenmanipulation
  • Calculate inter-rater reliability (Cohen's kappa)
  • Wenden Sie das Prinzip an: „Die Zahl ohne Herkunft ist keine Zahl“

heart attacks attributed to Vioxx

A blockbuster drug. A hidden signal. A preventable catastrophe.

Zwischen 1999 und 2004 nahmen Millionen dieses Schmerzmittel ein. Einige kamen nie nach Hause.

Rofecoxib (Vioxx) war ein COX-2-selektives NSAID. Wird als sicherer für den Magen vermarktet als herkömmliche Schmerzmittel.

1999
FDA approval
$2.5B
Peak annual sales
80M+
Patients prescribed

Vioxx Gastrointestinal Outcomes Research

Design
Randomized, double-blind
Comparison
Vioxx vs Naproxen
Population
Rheumatoid arthritis
Sample
8,076 patients
Primary Outcome
GI events
Published
NEJM, November 2000
GI Outcome Vioxx Naproxen
Confirmed GI events 2.1 per 100 pt-yrs 4.5 per 100 pt-yrs
Reduction 54% fewer GI events

Das wurde Ärzten gesagt. Das glaubten die Patienten.

CV Outcome Vioxx Naproxen
Myocardial Infarction 20 events 4 events
Relative Risk 5x higher in Vioxx group
5-fold Increase in Heart Attacks
Mentioned only briefly, attributed to naproxen being "cardioprotective"
1

Manipulation der Datenunterbrechung: 3 additional heart attacks occurred after the cutoff used in publication

2

Spin: CV-Signal wurde mit der kardioprotektiven Wirkung von Naproxen erklärt (keine Beweise)

3

Outcome switching: CV-Ereignisse wurden vorab spezifiziert, aber nicht hervorgehoben

4

Internal knowledge: Aus E-Mails von Merck geht hervor, dass sie von dem Signal wussten.

Die APPROVe-Studie (2004)

Eine Studie zur Prävention kolorektaler Polypen – aus Sicherheitsgründen vorzeitig abgebrochen.

RR 1.92
CV events vs placebo
Sept 2004
Vioxx withdrawn

Four years after VIGOR showed a 5x risk. Four years too late.

GESCHICHTE: Der Vioxx-Entscheidungsbaum

Haben Sie darüber nachgedacht, was passiert? wenn sich ein Signal im Lärm verbirgt?

REAL DATA

Vioxx (Rofecoxib) wurde zugelassen in 1999. By 2004, estimates suggest 88,000-140,000 excess heart attacks and 30,000-40,000 deaths. Merck's own VIGOR trial showed 5x cardiovascular risk in 2000—but it was dismissed as a "naproxen cardioprotective effect."

Die Weggabelung
Sie sind FDA-Gutachter im Jahr 2001. VIGOR-Daten zeigen ein 5-faches Herzinfarktrisiko mit Vioxx vs Naproxen.
PFAD A: Akzeptieren Sie die Erklärung
Believe Merck's hypothesis: naproxen is cardioprotective
No additional safety studies required. Drug stays on market at full speed.
ERGEBNIS: 40.000+ Todesfälle über 4 Jahre
PFAD B: Fordern Sie Beweise
Require a dedicated CV safety trial before continued marketing
Delay or restrict marketing until cardiovascular safety is established.
OUTCOME: Signal detected early, lives saved
THE REVELATION
Das Signal war im Jahr 2000 da. Das Falsche Erklärung verzögerte die Aktion um 4 Jahre. Eine alternative Hypothese – die ohne Beweise akzeptiert wurde – kostete Zehntausende Menschenleben.

Every step of screening must be documented and transparent.

Identification
Records from databases + other sources
Screening
Title/abstract review (duplicates removed)
Eligibility
Full-text assessment (with exclusion reasons)
Included
Studies in synthesis
1

Reduces Selection Bias

One reviewer might unconsciously favor certain studies

2

Catches Errors

Ermüdung, Fehlinterpretationen und Fehler sind unvermeidlich

3

Forces Explicit Criteria

Disagreements reveal ambiguity in inclusion rules

Typical agreement: κ = 0.6-0.8

Disagreements resolved by discussion or third reviewer

Before screening thousands of records, reviewers should calibrate on a sample of 50-100 records.

1

Screen the same set independently

2

Compare decisions and discuss disagreements

3

Refine inclusion criteria until κ > 0.7

4

Dokumentieren Sie die Kalibrierungsprozess und alle Regeländerungen

New in 2020
Separate reporting of database vs register searches
New in 2020
Automatisierungswerkzeuge müssen gemeldet werden
New in 2020
Citation searching documented separately
New in 2020
Reasons for exclusion at full-text mandatory

PRISMA 2020 hat die Checkliste grundlegend überarbeitet und die Berichterstattung über Synthesemethoden, Sicherheitsbewertung und Protokollregistrierung erweitert.

If Vioxx's cardiovascular data had been screened by independent reviewers,

if all pre-specified outcomes had been required to be reported,

88,000 heart attacks might have been prevented.

Die Zahl ohne Herkunft ist keine Zahl.

1. Wie hoch war in der VIGOR-Studie das relative MI-Risiko in der Vioxx-Gruppe im Vergleich zu Naproxen?

A. 1.5x higher
B. 2x higher
C. 5x higher
D. 10x higher

2. Why is dual screening (two independent reviewers) important?

A. It makes screening faster
B. It reduces selection bias and catches errors
C. Es reduziert die Anzahl der zu überprüfenden Studien
D. It allows reviewers to skip full-text review

Die Zahl ohne Herkunft ist keine Zahl.

Modul 5: Die Extraktion

Modul 5: Die Extraktion (ABNEHMEN)

Die Zahl ohne Herkunft ist keine Zahl.

Dies ist eine Geschichte über

Zahlen, die es nie gab.

🎯 Learning Objectives

  • Entwerfen Sie ein standardisiertes Datenextraktionsformular mit Herkunftsfeldern
  • Calculate effect sizes from various reported statistics (OR, RR, HR, SMD)
  • Implement dual-extraction with discrepancy resolution
  • Identifizieren Sie Warnsignale für Datenfälschung und Fehlverhalten
  • Explain how the DECREASE fraud affected clinical guidelines

possible excess deaths in Europe

Anhand von Richtlinien, die auf fabrizierten klinischen Studien basieren Daten.

Die DECREASE-Studien beeinflussten die perioperative Versorgung weltweit. Die Daten wurden erfunden.

Professor at Erasmus Medical Center, Rotterdam. Author of over 500 papers. Lead author of ESC guidelines on perioperative cardiac care.

500+
Publications
DECREASE
Trial series I-VI
ESC
Guideline chair

Eine scheinbar unanfechtbare Quelle. Bis sich jemand die Daten angesehen hat.

Trial Finding Impact
DECREASE-I (1999) 90% reduction in cardiac death Changed guidelines
DECREASE-IV (2009) Beta-blockers safe in low-risk Expanded recommendations

Effect sizes were implausibly large.

90% reduction? Almost nothing in medicine works that well.

1

Erasmus MC investigated after whistleblower complaints

2

Erfundene Patientendaten: Patients who didn't exist or weren't enrolled

3

No informed consent: Many "participants" never consented

4

Poldermans dismissed: From Erasmus MC in 2011

Die Kaskade des Schadens

Als DECREASE entfernt wurde Metaanalysen...

Benefit → Harm
Direction reversed
27% ↑
Stroke risk increase

Die POISE-Studie (2008) hatte Schäden gezeigt. Es wurde abgewiesen, weil es im Widerspruch zu DECREASE stand.

1

Trust in authority: Poldermans war der Autor der Leitlinien, der seine eigenen Beweise überprüfte

2

No data verification: Niemand fragte nach einzelnen Patienten Daten

3

Publication prestige: Published in top journals, assumed valid

4

Implausible effects accepted: 90% reductions should raise suspicion

1

Dual Extraction

Two extractors independently - catches transcription errors and forces scrutiny

2

Record Provenance

Table, page, paragraph - every number traceable to source

3

Verify Against Registry

ClinicalTrials.gov-Ergebnisse vs. Veröffentlichung – Diskrepanzen sind Warnsignale

4

Request IPD

Individual patient data reveals what aggregate summaries hide

Während der Extraktion berechnen Sie Effektgrößen aus gemeldeten Daten:

BINARY OUTCOMES

Odds Ratio, Risk Ratio, Risk Difference from 2x2 tables

CONTINUOUS OUTCOMES

Mittelwertdifferenz, standardisierte Mittelwertdifferenz aus Mittelwerten und Standardabweichungen

Immer Auszug aus der zuverlässigsten Quelle.

Prefer: ITT results > per-protocol > subgroups

!

Implausible effect sizes: 80-90% reductions should prompt scrutiny

!

Baseline imbalances: Gruppen, die „zu perfekt“ übereinstimmen

!

Round numbers: "Exactly 50" or "exactly 100" patients per arm

!

Registry discrepancies: Das veröffentlichte N unterscheidet sich vom registrierten N

Researcher

Studien berichten über Ergebnisse in unterschiedlichen Maßstäben. Um sie zusammenzufassen, sind häufig Konvertierungen erforderlich:

FromToFormula
SMD (d)log-ORlog-OR = d × π / √3
log-ORSMD (d)d = log-OR × √3 / π
Correlation (r)Fisher zz = 0.5 × ln((1+r)/(1−r))
ORRRRR = OR / (1 − P₀ + P₀ × OR)
ORNNTNNT = 1 / (P₀ − OR×P₀ / (1−P₀+OR×P₀))

P₀ = Grundrisiko in der Kontrollgruppe. Diese Formeln gehen von ungefähren Bedingungen aus; siehe Borenstein et al. (Kap. 7) für genaue Ableitungen.

Researcher

Many trials report time-to-event outcomes using hazard ratios (HR). Pooling HRs in meta-analysis requires special handling:

1

Die log(HR) + SE-Methode

Extrahieren Sie log(HR) und dessen SE aus der Testversion. Wenn nicht angegeben, leiten Sie SE aus dem CI ab: SE = (ln(oben) − ln(unten)) / (2 × 1,96). Pool mit Standardmethoden der inversen Varianz.

2

Wenn HR nicht gemeldet wird

Es gibt Methoden zur Rekonstruktion der IPD aus Kaplan-Meier-Kurven (Guyot et al. 2012) oder zur Schätzung der HR aus p-Werten und Ereigniszahlen (Parmar et al. 1998). Bevorzugen Sie immer die direkt gemeldete angepasste Herzfrequenz, sofern verfügbar.

HR < 1 favors treatment; HR > 1 favors control. Do not convert HRs to ORs or RRs—they measure fundamentally different quantities.

GESCHICHTE: Der Boldt-Kolloidskandal

Was wäre, wenn die Daten, die Sie extrahieren, niemals real wären?

REAL DATA

Joachim Boldt war der produktivste Forscher auf dem Gebiet des Anästhesieflüssigkeitsmanagements. Über 180 seiner Veröffentlichungen wurden zurückgezogen – einer der größten Retraktionsfälle in der Medizingeschichte. Seine erfundenen Daten zeigten, dass Hydroxyethylstärke (HES) sicher war. Metaanalysen, die seine Studien einschlossen, kamen zu dem Schluss, dass HES harmlos sei. Als Boldts Studien entfernt wurden, Der gepoolte Effekt kehrte sich um: HES increased kidney injury by 59% (RR 1.59, 95% CI 1.26-2.00) and mortality by ~9% (RR 1.09). An estimated thousands of patients received a harmful fluid based on fabricated evidence.

Die Wachsamkeit des Extraktors: 2010
Sie extrahieren Daten für eine Metaanalyse zur Flüssigkeitsreanimation. Boldts Studien dominieren die Literatur (über 90 Arbeiten). Ein Whistleblower hat Bedenken geäußert. Was machst du?
PATH A: Extract as Published
Trust peer-reviewed publications. Extract Boldt's data like any other.
Your meta-analysis shows HES is safe. Guidelines recommend it.
OUTCOME: Thousands receive a nephrotoxic fluid
PATH B: Verify Provenance
Überprüfen Sie ethische Genehmigungen, fordern Sie Quelldaten an und führen Sie Sensitivitätsanalysen durch, bei denen verdächtige Studien ausgeschlossen werden
Discover missing ethics approvals. Flag studies. Re-analyze without them.
OUTCOME: True signal emerges — HES causes harm
THE REVELATION
Provenienz ist keine Bürokratie. Es ist der Unterschied zwischen Beweis und Fiktion. Jede extrahierte Zahl muss auf eine ethisch anerkannte Studie mit überprüfbaren Patientendaten zurückgehen. Ohne Herkunft kann die Nummer ohne Besitzer zur Waffe werden.

Jede Zahl in Ihrer Metaanalyse

must trace back to a verifiable source.

Die Zahl ohne Herkunft ist keine Zahl.

Fraudulent data can kill as surely as fraudulent drugs.

1. Was geschah, als die Daten der DECREASE-Studie aus Betablocker-Metaanalysen entfernt wurden?

A. The benefit became even larger
B. No change in conclusions
C. The direction reversed to show potential harm
D. Die Ergebnisse waren nicht schlüssig

2. Why should dual extraction be standard practice?

A. It catches transcription errors and forces scrutiny
B. It makes extraction faster
C. Es hilft, weitere Studien zu finden
D. It reduces the amount of work needed

Die Zahl ohne Herkunft ist keine Zahl.

Modul 6: Die Voreingenommenheit

Modul 6: Der Bias (Aprotinin/BART)

Methoden schützen Patienten vor unserem Vertrauen.

Dies ist eine Geschichte über

Die Voreingenommenheit können wir nicht erkennen.

🎯 Learning Objectives

  • Apply Risk of Bias 2.0 (RoB 2) to randomized trials
  • Wenden Sie ROBINS-I auf nicht randomisierte Studien an
  • Assess all five RoB 2 domains (randomization, deviations, missing data, measurement, selection)
  • Distinguish confounding by indication from true treatment effects
  • Explain how BART revealed hidden harms of aprotinin

Jahre auf dem Markt

Aprotinin war der Goldstandard zur Reduzierung chirurgischer Blutungen.

Dann führte jemand ein RCT durch. Die Wahrheit war anders.

1

Sicker patients got aprotinin: Surgeons used it in complex, high-risk cases

2

Survivors bias: Dead patients can't report complications

3

Publication bias: Negative Studien wurden nicht veröffentlicht

Beobachtungsstudien konnten die Wirkung des Arzneimittels nicht vom Ausgangsrisiko des Patienten trennen.

Blood Conservation Using Antifibrinolytics in a Randomized Trial

OutcomeAprotininAlternatives
30-day mortality6.0%3.9%
Relative Risk1.53 (53% increased death)
Trial Stopped Early for Harm
November 2007 vom Markt genommen
🔍

Untersuchung: Bewerten Sie die Voreingenommenheit

Sie überprüfen die Beobachtungsstudien. Wenden Sie das Risk of Bias-Denken an:

QuestionObservationalBART (RCT)
Random allocation?❌ Surgeon choice✓ Yes
Baseline comparable?❌ Sicker got drug✓ Balanced
Blinding?❌ Open label✓ Double-blind

Confounding by indication: Chirurgen verabreichten den am stärksten erkrankten Patienten Aprotinin. Die Beobachtungsstudien führten das Überleben auf das Medikament zurück, während sie den Überlebensbias maßen.

D1

Randomization Process

D2

Abweichungen von beabsichtigten Interventionen

D3

Fehlende Ergebnisdaten

D4

Messung des Ergebnisses

D5

Auswahl des gemeldeten Ergebnisses

Wenn keine RCTs verfügbar sind, verwenden Sie ROBINS-I (Risk Of Bias In Non-randomized Studies of). Interventionen)

1

Confounding

Baseline differences between groups

2

Selection of Participants

Exclusions related to intervention

3

Classification of Interventions

Misclassification of exposure status

4

Abweichungen von beabsichtigten Interventionen

Co-interventions, contamination

5

Missing Data

Differential loss to follow-up

6

Measurement of Outcomes

Ascertainment bias

7

Selection of Reported Result

Selective reporting

Ratings: Low / Moderate / Serious / Critical / No information

GESCHICHTE: Die Aprotinin-BART-Studie

Was passiert, wenn 64 Studien übereinstimmen – und sie alle falsch sind?

REAL DATA

Aprotinin wurde in Herzoperationen verwendet, um Blutungen zu reduzieren 20 years. 64 small randomized trials legte nahe, dass es sicher und wirksam sei. Metaanalysen bestätigten den Nutzen. Dann ist das BART trial (2008) randomized 2,331 patients: aprotinin vs. tranexamic acid vs. aminocaproic acid. Result: aprotinin increased mortality by 53% (RR 1,53, 95 %-KI 1,06–2,22). Der Prozess wurde vorzeitig wegen Schadensersatzes abgebrochen. Bayer hat Aprotinin innerhalb weniger Monate vom Markt genommen.

Der Beweis des Chirurgen: 2006
Sie sind Herzchirurg und entscheiden sich für ein Antifibrinolytikum. 64 kleine Studien befürworteten Aprotinin, aber keine war aussagekräftig, um Mortalität festzustellen. Ein großes RCT (BART) ist immatrikuliert. Warten Sie?
PFAD A: Vertrauen Sie der Metaanalyse
64 trials can't all be wrong. Continue prescribing aprotinin.
In kleinen Studien wurden Blutungen gemessen, nicht Todesfälle. Keiner von ihnen verfügte über die nötige Kraft, um zu sterben. In der Metaanalyse wurden unzureichend aussagekräftige Ersatzergebnisse zusammengefasst.
OUTCOME: Excess deaths in cardiac surgery patients
PATH B: Assess Risk of Bias First
Bewerten Sie alle 64 Studien mit RoB. Beachten Sie, dass sie klein sind, Ersatzergebnisse verwenden und eine hohe Fluktuation aufweisen. Warten Sie auf die ausreichend leistungsstarke RCT.
BART reveals the truth. Switch to safer alternatives.
OUTCOME: Lives saved by demanding adequately powered evidence
THE REVELATION
Die Quantität der Beweise ist nicht gleichbedeutend mit der Qualität. Vierundsechzig ungenügend aussagekräftige Studien zur Messung des falschen Ergebnisses überwiegen nicht die Zahl einer ausreichend aussagekräftigen Studie zur Messung der Mortalität. Die Beurteilung des Risikos einer Verzerrung ist keine Formalität – sie ist der Schutzschild zwischen Patienten und irreführenden Schlussfolgerungen aus kleinen, ersatzbasierten Beweisen.

Sixty-four small trials measured bleeding, not death.

One adequately powered trial revealed 53% increased mortality.

Quantität der Beweise kann Qualität und Aussagekraft nicht ersetzen.

1. Why did 64 small trials miss aprotinin's harm?

A. Underpowered for mortality; used surrogate outcomes
B. Confounding by indication
C. Outcome measured incorrectly
D. Follow-up too short

Methoden schützen Patienten vor unserem Vertrauen.

Modul 7: Die Synthese

Modul 7: Die Synthese (Magnesium/ISIS-4)

Heterogenität ist eine Botschaft, kein Rauschen.

Die Magnesium-Kontroverse: 1991-1995

When pooling leads us astray.

🎯 Learning Objectives

  • Calculate pooled effect sizes using fixed-effect and random-effects models
  • Choose between DerSimonian-Laird and HKSJ estimators appropriately
  • Interpret forest plots including weights, confidence intervals, and diamonds
  • Explain why small-study effects can mislead meta-analyses
  • Wenden Sie das Prinzip an: „Heterogenität ist eine Botschaft, nicht.“ Lärm“

„Sie stehen am Scheideweg von Hoffnung und Beweisen …“

Heart disease kills more people worldwide than any other cause. In 1991, a new hope emerges: Could something as simple and cheap as intravenous magnesium save lives after myocardial infarction?

Die biologische Begründung war fundiert:

Magnesium stabilizes cardiac membranes, prevents arrhythmias, and vasodilates coronary arteries.

Leicester Intravenous Magnesium Intervention Trial, 1992

2,316
Patients enrolled
24%
Mortality reduction
p = 0.04
Statistically significant

A cheap, safe intervention that could save 250,000 lives per year globally.

Die medizinische Gemeinschaft war elektrisiert.

Researchers pooled seven randomized trials of IV magnesium in MI:

Trial Year N Odds Ratio
Morton 19841984400.10
Rasmussen 198619862730.35
Smith 198619864000.48
Abraham 19871987940.87
Shechter 199019901030.27
Ceremuzynski 19891989480.22
LIMIT-219922,3160.74
🔍

Investigation Exercise: The Meta-Analyst's Dilemma

Sie sind Cochrane-Rezensent im Jahr 1993. Sie wurden gebeten, die Beweise für Magnesium bei Myokardinfarkt zusammenzufassen. Die Daten aus sieben Versuchen liegen vor Ihnen.

Erkennen Sie das Muster in diesem Walddiagramm?

Pooled OR = 0.44 (95% CI: 0.27–0.71)
55% mortality reduction! Publish in the Lancet?

Aber warten Sie ... fällt Ihnen etwas an den Versuchsgrößen auf?

What should have given us pause?

1

Small sample sizes: Six of seven trials had <500 patients

2

Extreme effects: OR of 0.10 (90% reduction) is implausible for any drug

3

All positive: Wo waren die negativen Studien? Das Dateischubladenproblem...

4

Funnel asymmetry: Small trials showed much larger effects than larger ones

🔍

Der Funnel-Plot-Test

Bevor wir ein Pooling durchführen, müssen wir die Publikationsverzerrung prüfen. Lassen Sie uns das Trichterdiagramm untersuchen.

„Und dann kam die Wahrheit …“

The Fourth International Study of Infarct Survival (ISIS-4) enrolled 58,050 patients across 1,086 hospitals in 31 countries.

58,050
Patients
2,216
Deaths in Mg group
2,103
Deaths in placebo
OR = 1.06 (95% CI: 1.00–1.12)
No benefit. If anything, a trend toward harm.
📊

Vorher und Nachher: Das Gesamtbild

Sehen Sie sich an, was passiert, wenn wir den Mega-Prozess zu unserem Wald hinzufügen Handlung...

BEFORE ISIS-4

7 small trials (N = 3,274)

OR = 0.44

Strong benefit signal

AFTER ISIS-4

8 trials (N = 61,324)

OR = 1.02

No effect

1

Publication Bias

Small negative trials were never published—they sat in file drawers

2

Small-Study Effects

Smaller trials tend to show larger effects due to methodological weaknesses

3

Random High Bias

Durch Zufall erzielten einige kleine Versuche extreme Ergebnisse – und diese wurden veröffentlicht

4

Random-Effects Amplification

Random-effects models give more weight to small trials, amplifying bias

Which model should you choose?

FIXED EFFECT MODEL

Assumes one true effect. Weights studies by inverse variance (precision). Large trials dominate.

Magnesium result: OR = 0.96 (p = 0.52)

RANDOM EFFECTS MODEL

Assumes distribution of effects. Gives more weight to small trials. Wider confidence intervals.

Magnesium result: OR = 0.59 (p = 0.01)

⚠️ Die Wahl des Modells bestimmte die Schlussfolgerung!

Zufällige Effekte beheben keine Verzerrung; Bei Auswirkungen auf kleine Studien kann es zu einer Gewichtsverlagerung hin zu kleineren Studien und zu veränderten Schlussfolgerungen kommen.

1. Prüfen Sie, ob eine Publikationsverzerrung vorliegt bevor Sie einer gepoolten Schätzung vertrauen. Trichterdiagramme und Eggers Test sind Ihre Werkzeuge.

2. Be wary of small-study effects. If only small trials show benefit, wait for a large, well-conducted trial.

3. Model choice matters. Zufällige Effekte können voreingenommene Beweise verstärken. Betrachten Sie beide Modelle und verstehen Sie die Implikationen.

4. One large trial can overturn many small ones. Deshalb sind Megaversuche wie ISIS-4 so wertvoll.

Researcher

Nicht alle RCTs verwenden Standard-Parallelgruppendesigns. Zwei gängige Alternativen erfordern eine besondere Behandlung beim Zusammenführen von Ergebnissen:

1

Cluster-Randomized Trials

Gruppen (Krankenhäuser, Schulen) randomisieren, nicht Einzelpersonen. Das design effect = 1 + (m−1) × ICC reduziert die effektive Stichprobengröße. Dividieren Sie N durch den Designeffekt, bevor Sie es zusammenfassen, oder verwenden Sie den angepassten SE aus dem Versuch. Das Ignorieren von Clustering führt zu künstlich engen CIs.

2

Crossover Trials

Jeder Patient erhält beide Behandlungen. Das gepaarte Design reduziert die Varianz, aber Sie benötigen das within-patient correlation (oder das gepaarte Analyse-SE), um korrekt zu bündeln. Die Verwendung der Parallelgruppen-SE ist konservativ; unter Verwendung der falschen N-Doppelzählungen von Patienten.

Ausführliche Formeln und Arbeitsbeispiele finden Sie im Cochrane-Handbuch v6.4, Kapitel 23.

GESCHICHTE: Die frühe Surfactant-Umkehr

Was wäre, wenn die Art und Weise, wie Sie Studien kombinieren, darüber entscheidet, ob eine Behandlung lebensrettend aussieht oder nutzlos?

REAL DATA

Frühes Surfactant für Frühgeborene wurde unterstützt durch 6 small trials showing reduced mortality (RR 0.84). A fixed-effect meta-analysis confirmed benefit (p=0.04). But a random-effects model showed no significance (p=0.12) — the confidence interval crossed 1.0. Later, SUPPORT (2010) and VON (2012), two large pragmatic trials with ~2,000 neonates combined, found no benefit von frühem vs. späterem Surfactant. Die klinische Praxis wurde aufgrund kleiner Studien und des falschen Modells geändert.

Die Modellwahl des Neonatologen: 2005
Sie aktualisieren einen Cochrane-Review zu frühen Tensiden. Sechs kleine Studien zeigen Vorteile mit einem Fixed-Effect-Modell. Das Random-Effects-Modell ist nicht signifikant. Was melden Sie?
PATH A: Report Fixed-Effect Only
Fixed-effect is significant. Report the positive result. Change practice.
NICUs adopt early surfactant. Later trials show no benefit. Practice reverses.
OUTCOME: Years of unnecessary intubation of premature infants
PATH B: Report Both Models
FE- und RE-Ergebnisse anzeigen. Weisen Sie darauf hin, dass die Bedeutung von der Modellwahl abhängt. Rufen Sie große Versuche an.
Honest uncertainty. Large trials prioritized. True answer emerges faster.
OUTCOME: Premature babies spared unnecessary intervention
THE REVELATION
Wenn sich eine Schlussfolgerung ändert, je nachdem, ob Sie feste oder zufällige Effekte verwenden, ist die Schlussfolgerung fragil. Melde beides. Erkennen Sie die Unsicherheit an. Und denken Sie daran: Ein fragiles Ergebnis kleiner Studien ist kein Auftrag, die Praxis zu ändern.

1. Warum hat die Magnesium-Metaanalyse Vorteile gezeigt, die ISIS-4 nicht gefunden hat?

A. ISIS-4-Methodik war fehlerhaft
B. Calculation error in meta-analysis
C. Publication bias in small trials
D. LIMIT-2 war unzureichend

2. What warning sign should have alerted reviewers to potential bias?

A. Asymmetric funnel plot (small trials showing larger effects)
B. Low heterogeneity (I² = 0%)
C. Strong biological plausibility
D. Too few trials to analyze

3. When publication bias is suspected, which model may amplify the bias?

A. Fixed effect model
B. Random effects model
C. Bayesian model
D. Network meta-analysis

Small trials can show false signals.

Large trials anchor the truth.

Heterogenität ist eine Botschaft, kein Rauschen.

Heterogenität ist eine Botschaft, kein Rauschen.

Modul 8: Die Heterogenität

Modul 8: Die Heterogenität (ACCORD)

Heterogenität ist eine Botschaft, kein Rauschen.

ACCORD: 2008

Wenn der Durchschnitt die Wahrheit verbirgt.

🎯 Learning Objectives

  • Berechnen und interpretieren Sie I², τ² und Vorhersageintervalle
  • Apply ICEMAN criteria to assess subgroup credibility
  • Distinguish between clinical, methodological, and statistical heterogeneity
  • Conduct and interpret leave-one-out sensitivity analyses
  • Explain how ACCORD revealed differential effects across subgroups

"Sie sind dabei, Zeuge eines der schockierendsten Prozessabbrüche in der Geschichte zu werden..."

Seit Jahrzehnten Die Diabetes-Community hatte ein Leitprinzip: lower blood sugar is better. Die bahnbrechenden Studien DCCT (1993) und UKPDS (1998) zeigten, dass eine intensive Glukosekontrolle mikrovaskuläre Komplikationen – Blindheit, Nierenversagen, Nervenschäden – reduzierte.

Die logische Extrapolation:

If controlling glucose prevents complications, shouldn't intensive control prevent cardiovascular disease too?

The definitive test of intensive glucose control

10,251
Type 2 diabetics
HbA1c <6%
Intensive target
HbA1c 7-7.9%
Standard target

Alle Patienten hatten Typ-2-Diabetes mit hohem kardiovaskulären Risiko – entweder etablierte Herz-Kreislauf-Erkrankungen oder mehrere Risikofaktoren. Die Studie war auf 5,6 Jahre ausgelegt.

February 6, 2008

Das Data Safety Monitoring Board beruft eine Dringlichkeitssitzung ein.

After 3.5 years, they make an unprecedented decision:

STOPPEN SIE DIE VERSUCHUNG.

Outcome Intensive Standard HR (95% CI)
Primary CV endpoint 352 events 371 events 0.90 (0.78–1.04)
All-cause mortality 257 deaths 203 deaths 1.22 (1.01–1.46)
Severe hypoglycemia 10.5% 3.5% 3.0× higher
22% increase in mortality
54 excess deaths in the intensive arm
🔍

Investigation Exercise: The Clinician's Dilemma

Sie sind ein Endokrinologe mit 500 Diabetikern. Die ACCORD-Ergebnisse werden veröffentlicht. Was sagen Sie Ihren Patienten, die einen HbA1c <6 % anstreben?

Ist eine intensive Kontrolle für alle schädlich? Oder nur für einige?

Untergruppenanalyse enthüllt:

SubgroupIntensive HRInterpretation
No prior CVD1.00 (0.76–1.32)No effect
Prior CVD1.45 (1.15–1.84)Significant harm
Baseline HbA1c <8%1.02 (0.75–1.40)No effect
Baseline HbA1c ≥8%1.29 (1.03–1.60)Harm

The average effect masked critical heterogeneity!

Für Patienten mit nachgewiesener CVD oder schlechter Ausgangskontrolle war eine intensive Therapie schädlich.

Wenn Studien (oder Untergruppen) unterschiedliche Ergebnisse zeigen Effekte müssen wir diese Variation quantifizieren.

I² = 0–25%: Geringe Heterogenität. Die Effekte sind in allen Studien konsistent.

I² = 25–50%: Moderate. Look for sources of variation.

I² = 50–75%: Substantial. Consider whether pooling is appropriate.

I² = 75–100%: Considerable. A single pooled estimate may mislead.

Aber I² allein sagt Ihnen nicht, was Sie tun sollen – es signalisiert, dass Sie weitere Untersuchungen durchführen müssen.

Während I² Ihnen den Anteil der Varianz aufgrund von Heterogenität angibt, verrät Ihnen τ² die Größe.

I² (percentage)

"Welcher Anteil der Gesamtvarianz ist auf echte Unterschiede zwischen Studien zurückzuführen?"

Scale: 0% to 100%

τ² (absolute)

"Wie stark variieren die wahren Effekte zwischen Studien?"

Same scale as the effect measure

Use τ² to calculate prediction intervals

Ein Vorhersageintervall zeigt die Bandbreite der Effekte, die Sie in einer neuen Studie erwarten würden – oft viel größer als das Konfidenzniveau Intervall.

📊

The Prediction Interval: What ACCORD Really Tells Us

Consider a meta-analysis of intensive glucose control across multiple trials...

Confidence Interval

HR 1.10 (0.95–1.27)

"Unsere beste Schätzung des durchschnittlichen Effekts"

Prediction Interval

HR 1.10 (0.70–1.73)

"The range of effects in a new setting"

Das Vorhersageintervall umfasst sowohl Nutzen als auch Schaden!

In some settings, intensive control might help. In others, it could kill.

Subgroup Credibility Criteria (adapted from ICEMAN, Schandelmaier 2020 & Sun 2012)

1

Wurde die Untergruppenanalyse vorab festgelegt?

Post-hoc-Untergruppen sind anfällig für Daten Ausbaggern

2

Is there a plausible biological rationale?

Der Mechanismus sollte klar und unabhängig von den Daten sein

3

Is the effect consistent across related outcomes?

Wenn ein Schaden für die Sterblichkeit auftritt, gibt es einen ähnlichen Schaden für Herzinfarkt und Schlaganfall?

4

Is there independent replication?

Wurde der Subgruppeneffekt in anderen Studien bestätigt?

CriterionAssessmentScore
Pre-specified? Ja – frühere Herz-Kreislauf-Erkrankungen waren in der Protokoll
Biological rationale? Yes—hypoglycemia more dangerous with CVD
Consistent outcomes? Yes—CV mortality and all-cause mortality aligned
Independent replication? Partially—ADVANCE, VADT showed similar patterns ~

ICEMAN Rating: High Credibility

The differential harm in high-risk patients appears genuine.

Für Patienten ohne CVD: Moderate glucose control (HbA1c ~7%) remains the goal. Intensive control may reduce microvascular complications.

Für Patienten mit etablierter CVD: Avoid intensive targets. Hypoglycemia is dangerous for damaged hearts.

Für ältere Patienten: Relaxed targets. Quality of life matters. Tight control causes falls, confusion, and excess mortality.

"One size fits all" treatment is not patient-centered medicine.

When heterogeneity is high, meta-regression can identify study-level covariates that explain variation.

THE QUESTION

Variiert die Effektgröße systematisch mit der Studie? Merkmale?

Covariates
Year, dose, duration, baseline risk, study quality
Output
Regression coefficient (slope), R², residual heterogeneity

Caution

Meta-Regression erfordert ≥10 Studien pro Kovariate. Da es nur wenige Studien gibt, handelt es sich lediglich um explorative Studien. Ökologischer Irrtum: Assoziationen auf Studienebene gelten möglicherweise nicht für Einzelpersonen.

Example: In ACCORD, meta-regression might test if treatment effect varies by baseline HbA1c, showing harm concentrated in patients with very high levels.

GESCHICHTE: Die SPRINT-Blutdruckrevolution

What number saves lives? Who decides?

REAL DATA

Jahrzehntelang lautete das Ziel: Den Blutdruck behandeln <140 mmHg systolic. Then came SPRINT (2015): 9,361 high-risk patients randomized to intensive (<120) vs standard (<140) targets. Intensive treatment reduced CV events by 25% and death by 27%. Trial stopped early for benefit. Guidelines changed worldwide.

Before SPRINT: The Guidelines Committee
Sie legen 2014 Blutdruckrichtlinien fest. Das Ziel liegt seit Jahren bei <140. Sollten Sie auf bessere Beweise warten?
PATH A: Maintain Status Quo
Keep <140 target (established practice, minimal controversy)
Guidelines unchanged. Physicians continue treating to <140.
OUTCOME: Miss opportunity to prevent deaths
PATH B: Fund the Definitive Trial
Warten Sie auf SPRINT-Ergebnisse, bevor Sie Ziele aktualisieren
SPRINT demonstrates benefit. Update target to <120 for high-risk patients.
OUTCOME: Estimated 100,000+ lives saved globally
JNC 7 (2003): <140
Years of uncertainty
SPRINT (2015): <120 für Hochrisiko
THE REVELATION
„Standard der Pflege“ ist nicht festgelegt. Es ändert sich, wenn Versuche Annahmen in Frage stellen. Ein Jahrzehnt lang wurden Patienten möglicherweise unterbehandelt, weil niemand die offensichtliche Frage geprüft hat.

1. Warum wurde die ACCORD-Studie vorzeitig abgebrochen?

A. Intensive control showed clear cardiovascular benefit
B. Intensive control increased mortality
C. Die Rekrutierung war zu langsam
D. Budget ran out

2. What does a prediction interval tell us that a confidence interval doesn't?

A. The true effect is more precisely estimated
B. Die Stichprobengröße ist ausreichend
C. Die Bandbreite der Effekte, die wir in einer neuen Studie erwarten würden
D. Die mathematische Formel verwendet

3. According to ICEMAN, which factor is MOST important for subgroup credibility?

A. Vorabspezifikation der Untergruppenhypothese
B. Large sample size in the subgroup
C. Statistically significant p-value
D. Multiple outcomes showing same direction

Wenn Studien nicht übereinstimmen,

hören Sie sich die Meinungsverschiedenheiten an.

Heterogenität ist eine Botschaft, kein Rauschen.

Das Fehlen von Beweisen ist kein Beweis für das Fehlen.

Modul 9: Die verborgenen Studien

Modul 9: Die verborgenen Studien (Reboxetine)

Das Fehlen von Beweisen ist kein Beweis für das Fehlen.

Reboxetine: 2010

Die 74 %, die nie das Licht der Welt erblickten.

🎯 Learning Objectives

  • Interpret funnel plots for asymmetry detection
  • Wenden Sie den Egger-Test und andere an statistische Tests auf Publikationsbias
  • Implementieren Sie die Trim-and-Fill-Methode zur Bias-Anpassung
  • Critically appraise the limitations of publication bias tests
  • Wenden Sie den Grundsatz an: „Das Fehlen von Beweisen ist kein Beweis für das Fehlen“

"A new hope for depression patients who cannot tolerate SSRIs..."

Reboxetin (Edronax) war ein neuartiges Antidepressivum – ein selektiver Noradrenalin-Wiederaufnahmehemmer (NRI). Im Gegensatz zu SSRIs zielte es auf ein anderes Neurotransmittersystem ab. Für Patienten, die versagten oder Fluoxetin oder Sertralin nicht vertrugen, bot es einen neuen Mechanismus.

1997
EU approval
50+
Countries approved
Millions
Prescriptions written

What doctors could find in medical journals:

ComparisonPublished TrialsPublished Result
Reboxetine vs Placebo 3 trials (n=507) Significantly better (SMD = 0.56)
Reboxetine vs SSRIs 4 trials (n=628) Equivalent or better

Die veröffentlichte Literatur erzählte eine klare Geschichte:

Reboxetine works. Patients benefit. Prescribe with confidence.

Aber was ist mit den Studien, die Sie nicht sehen konnten?

In 2010, German researchers at IQWiG made a request to the European Medicines Agency...

They demanded access to all Studie Daten – veröffentlicht und unveröffentlicht.

What they found changed everything.

Eyding et al., BMJ 2010

ComparisonPublished OnlyALL DATA
Reboxetine vs Placebo SMD 0.56 (benefit) SMD 0.10 (no benefit)
Patients in analysis 507 (14%) 2,731 (100%)
Reboxetine vs SSRIs Equivalent Minderwertig (RR 1,23 für Schaden)
Patients in analysis 628 (26%) 2,411 (100%)
74 % der Patientendaten wurden nie veröffentlicht
Die versteckten Studien zeigten keinen Nutzen und mehr harm
🔍

Investigation Exercise: The File Drawer

Sie sind ein systematischer Gutachter im Jahr 2008. Sie durchsuchen PubMed, Embase und die Cochrane Library nach allen Reboxetin-Studien. Sie finden 7 veröffentlichte Studien, die einen Nutzen belegen.

Können Sie diesen Beweisen vertrauen?

⚠️ Der Trichter ist drastisch asymmetrisch!

Alle veröffentlichten Studien gruppieren sich auf einer Seite. Wo sind die Null- und Negativversuche?

1

Funnel Plot

Plot effect size vs. standard error. A symmetric funnel suggests no bias; asymmetry raises alarms.

2

Egger's Regression Test

Regress effect/SE on 1/SE. A non-zero intercept (P < 0.10) suggests small-study effects. Note: inflated false-positive rate with binary outcomes; use Peters' test instead.

3

Peters' Test

For binary outcomes, regresses log OR on inverse of total sample size. Less prone to false positives.

4

Trim-and-Fill

Imputiert „fehlende“ Studien, um den Trichter symmetrisch zu machen, und berechnet dann den gepoolten Effekt neu.

📊

Interaktiv: Trim-and-Fill Analyse

Lassen Sie uns Trim-and-Fill auf die Reboxetin-Daten anwenden und sehen, wie die angepasste Schätzung aussehen würde...

Published Only

7 trials

SMD = 0.56

Significant benefit

Trim-and-Fill

7 + 5 imputed = 12 trials

SMD = 0.23

Reduced, still nominally significant

But even trim-and-fill underestimated the problem!

Der wahre Effekt bei allen Daten war SMD = 0,10 (im Wesentlichen null).
Trim-and-fill is conservative—it doesn't fully correct for selective publication.

Die Methoden zur Erkennung von Publikationsbias sind unvollständig. Die eigentliche Lösung ist prospective registration.

ClinicalTrials.gov
US registry (2000)
WHO ICTRP
Global portal
PROSPERO
Review registration

Überprüfen Sie bei der Suche nach Studien immer die Register. Vergleichen Sie die Anzahl der registered Versuche mit der Anzahl published. Die Lücke ist Ihr Warnsignal.

Since 2005, ICMJE requires trial registration as a condition of publication.

"All trials registered. All results reported."

Der Reboxetin-Skandal löste zusammen mit ähnlichen Fällen bei anderen Medikamenten eine globale Bewegung aus:

2013: Klinische Datenrichtlinie der EMA

European Medicines Agency commits to publishing clinical study reports

2016: FDA Amendments Act enforcement

Mandatory results reporting on ClinicalTrials.gov within 12 months

AllTrials Coalition

Over 90,000 supporters, 700+ organizations demanding transparency

!

Germany's IQWiG recommended against reboxetine for depression

!

Das britische NICE stufte es auf „nicht empfohlen“ herab.

!

Die FDA hatte Reboxetin im Jahr 2001 abgelehnt (sie hatte Zugang zu unveröffentlichten Daten)

Über ein Jahrzehnt lang erhielten Patienten ein Medikament, das nicht besser war als Placebo.

Weil nur die positiven Studien veröffentlicht wurden.

GESCHICHTE: Die Paroxetin-Studie 329 Täuschung

Was wäre, wenn die veröffentlichte Schlussfolgerung das Gegenteil der tatsächlichen Daten wäre?

REAL DATA

GlaxoSmithKlines Studie 329 getestete Paroxetin in adolescent depression. Die veröffentlichte Arbeit (2001) kam zu dem Schluss, dass Paroxetin "generally well tolerated and effective." Die tatsächlichen Daten: Paroxetin failed on all 8 pre-specified outcomes. When re-analyzed (RIAT 2015), suicidal/self-harm events: 23 in der Paroxetin-Gruppe vs. 5 unter Placebowar. Das veröffentlichte Papier definierte die Ergebnisse nachträglich neu, um Bedeutung herzustellen. Im Jahr 2015 kam eine erneute Analyse des RIAT (Restoring Invisible and Abandoned Trials) unter Verwendung des ursprünglichen klinischen Studienberichts zu dem Schluss: Paroxetin war neither safe nor effective for adolescents.

Das Rätsel des verschreibenden Arztes: 2003
Sie sind Kinderpsychiater. Studie 329 – die einzige große Studie – besagt, dass Paroxetin bei Teenagern wirkt. Die FDA hat es jedoch nicht für Jugendliche zugelassen. Ein Elternteil bittet Sie, es zu verschreiben. Was tun Sie?
PFAD A: Der Veröffentlichung vertrauen
A peer-reviewed JAACAP paper says it works. Prescribe off-label.
Millions of prescriptions worldwide. Suicidal events in adolescents.
OUTCOME: FDA issues black box warning for SSRIs in youth (2004)
PATH B: Check the Trial Registry
Durchsuchen Sie ClinicalTrials.gov nach Originalendpunkten. Beachten Sie, dass die veröffentlichten Ergebnisse nicht mit dem registrierten Protokoll übereinstimmen.
Rote Flagge: Ergebniswechsel erkannt. Sie halten das Medikament zurück. Der Patient ist sicherer.
OUTCOME: Publication bias identified before harm
THE REVELATION
Bei Publikationsbias geht es nicht nur um fehlende Studien. Es geht darum, dass in veröffentlichten Studien die Wahrheit fehlt. Ergebniswechsel, Ghostwriting und selektive Berichterstattung können einen fehlgeschlagenen Versuch in ein Marketinginstrument verwandeln. Vergleichen Sie veröffentlichte Ergebnisse immer mit den Protokollen der Studienregistrierung.

1. Wie viel Prozent der Reboxetin-Studiendaten wurden in der veröffentlichten Literatur verborgen?

A. 25%
B. 50%
C. 74%
D. 90%

2. Why can trim-and-fill underestimate the correction needed?

A. It assumes effects are normally distributed
B. Es werden nur Studien unterstellt, um eine Symmetrie zu erreichen, die die Realität möglicherweise nicht vollständig widerspiegelt.
C. Es sind mindestens 20 Studien erforderlich.
D. Es funktioniert nur mit sehr großen Studien.

3. What is the best prospective defense against publication bias?

A. Funnel plots in all meta-analyses
B. Egger's test before pooling
C. Prospective trial registration
D. More medical journals

Was Sie nicht sehen können

may be more important than what you can.

Das Fehlen von Beweisen ist kein Beweis für das Fehlen.

Certainty must be earned, not assumed.

Modul 10: Die Gewissheit

Modul 10: Die Gewissheit (Early Surfactant)

Certainty must be earned, not assumed.

Early Surfactant: 2012

Wenn sich qualitativ hochwertige Beweise entwickeln.

🎯 Learning Objectives

  • Wenden Sie das vollständige GRADE-Framework an, um die Gewissheit von zu bewerten Beweise
  • Evaluate all five downgrade factors (RoB, inconsistency, indirectness, imprecision, publication bias)
  • Identify when to upgrade for large effect, dose-response, or confounding
  • Construct Summary of Findings tables with absolute effect estimates
  • Wenden Sie den Grundsatz an: „Gewissheit muss verdient und nicht angenommen werden“

"A revolution in neonatal care..."

Das Atemnotsyndrom (RDS) war die häufigste Todesursache bei Frühgeborenen. Die Entwicklung von exogenem surfactant– der Substanz, die den Alveolenkollaps verhindert – war einer der großen Fortschritte in der Neugeborenenmedizin.

Die Frage lautete: Wann sollten wir Surfactant verabreichen?

Prophylactically (to all high-risk infants) or selectively (only after RDS develops)?

Multiple RCTs conducted before the era of routine CPAP

OutcomeProphylactic vs SelectiveCertainty
Neonatal mortality RR 0.73 (favors prophylactic) High
BPD or death RR 0.84 (favors prophylactic) High
Recommendation: Give surfactant prophylactically
Guidelines worldwide adopted this approach

Aber die Welt der Neugeborenenpflege veränderte sich...

A new technology emerged: Continuous Positive Airway Pressure (CPAP)

Non-invasive support that could help preterm lungs without intubation.

Würden die alten Erkenntnisse noch gelten?

New trials conducted in the CPAP era

OutcomeOld TrialsNew Trials
BPD or death RR 0.84 (favors prophylactic) RR 1.12 (favors selective)
Bedarf an mechanischen Beatmung Niedriger mit Prophylaxe Höher mit Prophylaxe!
Complete Reversal
In the CPAP era, prophylactic surfactant causes more harm
🔍

Investigation: Why Did Evidence Evolve?

Sie sind Neonatologe. Ein Kollege fragt: „Wie können randomisierte Studien einander widersprechen?“

War die ursprüngliche Evidenz falsch?

1

Indirectness Changed

Old trials: No CPAP available. New trials: CPAP standard of care.

2

Der Vergleich wurde verbessert

Selective surfactant + CPAP is better than prophylactic intubation.

3

Context Matters

Evidenz aus einer Epoche gilt möglicherweise nicht für ein anderer.

This is why GRADE assesses Indirectness!

High-quality evidence can become inapplicable when context changes.

Grading of Recommendations, Assessment, Development and Evaluations

GRADE beantwortet die Frage: Wie sicher sind wir in dieser Schätzung?

⊕⊕⊕⊕ HIGH: Very confident. True effect is close to the estimate.

⊕⊕⊕◯ MODERATE: Moderately confident. True effect likely close, but may differ substantially.

⊕⊕◯◯ LOW: Limited confidence. True effect may differ substantially.

⊕◯◯◯ VERY LOW: Very little confidence. True effect likely substantially different.

RCT-Evidenz beginnt bei HOCH. Es kann herabgestuft werden für:

1

Risk of Bias

Flawed randomization, lack of blinding, incomplete follow-up, selective reporting

2

Inconsistency

Unexplained heterogeneity across studies (large I², non-overlapping CIs)

3

Indirectness

Unterschiede in der Population, der Intervention, dem Komparator oder den Ergebnissen der Frage

4

Imprecision

Wide confidence intervals, small sample size, few events

5

Publication Bias

Asymmetric funnel plot, missing registered trials, sponsor influence

Each factor can downgrade by one or two levels

High → Moderate → Low → Very Low

Example: Eine Metaanalyse von RCTs (beginnt HOCH) mit hohem Risiko für Verzerrungen (↓1) und schwerwiegender Indirektheit (↓1) würde bewertet werden LOW.

📊

Interactive: Apply GRADE to Surfactant

Lassen Sie uns die Glaubwürdigkeit der Evidenz für prophylaktische Tenside anhand alter und neuer Studien bewerten.

OLD TRIALS (Pre-CPAP)

Starting: HIGH (RCTs)

Risk of Bias: Low (−0)

Inconsistency: None (−0)

Indirectness: Serious (−1)

Different standard of care today

Final: ⊕⊕⊕◯ MODERATE

NEW TRIALS (CPAP Era)

Starting: HIGH (RCTs)

Risk of Bias: Low (−0)

Inconsistency: None (−0)

Indirectness: None (−0)

Matches current practice

Final: ⊕⊕⊕⊕ HIGH

Die Beobachtungsevidenz beginnt bei NIEDRIG. Es kann aktualisiert werden für:

+1

Large Magnitude of Effect

RR >2 oder <0,5 ohne plausible Verwechslung

+1

Dose-Response Gradient

Higher exposure = larger effect in a consistent pattern

+1

Residual Confounding

All plausible confounders would reduce the effect (strengthens causal inference)

GRADE requires transparent language about confidence:

HIGH: "Prophylactic surfactant reduces mortality..."

MODERATE: "Prophylactic surfactant probably reduces mortality..."

LOW: "Prophylactic surfactant may reduce mortality..."

VERY LOW: "We are uncertain whether prophylactic surfactant reduces mortality..."

Diese Sprache stellt sicher, dass Ärzte die Stärke der Beweise verstehen.

GESCHICHTE: Das Sauerstoffparadoxon bei Frühgeborenen

Can too much of a lifesaver become a killer?

REAL DATA

1940s-50s: High oxygen concentrations saved premature babies from respiratory failure. Then came an epidemic of blindness—retrolental fibroplasia (now called ROP). Doctors reduced oxygen dramatically. Blindness dropped. But then: increased deaths and brain damage von Hypoxie. Der optimale Sauerstoffgehalt ist erforderlich decades of trials to find. Recent SUPPORT/BOOST II trials finally defined the therapeutic window: SpO2 91-95%.

Das Dilemma des Neonatologen: 1955
Sie sind Neonatologe. Frühgeborene, die zu viel Sauerstoff erhalten, erblinden. Was machen Sie?
PATH A: Dramatic Reduction
Drastically reduce oxygen to prevent blindness
Blindness rates drop. But some babies die or suffer brain damage from hypoxia.
OUTCOME: Trading one harm for another
PFAD B: Systematische Studie
Sorgfältige Titrierung von Sauerstoff, Untersuchung der Dosis-Wirkungs-Beziehung
Takes decades but eventually identifies the optimal range.
OUTCOME: Optimize both survival and vision
1940s: High O2 saves lives
1950s: Blindness epidemic
1960er-70er Jahre: Todesfälle aufgrund von niedrigem O2
2010s: SUPPORT/BOOST define optimal range
THE REVELATION
Jede Intervention hat ein therapeutisches Fenster. Um es zu finden, bedarf es einer Messung, nicht einer Annahme. Das Pendel schwang 60 Jahre lang, bevor Beweise den Ausschlag gaben.

1. Warum hat sich die Tensidempfehlung zwischen 2003 und 2012 umgekehrt?

A. Die ursprünglichen Versuche waren betrügerisch
B. CPAP changed the comparator (indirectness)
C. Not enough patients in original trials
D. Das Ergebnis wurde anders gemessen

2. Welcher der folgenden Punkte ist KEIN GRADE-Downgrade-Faktor?

A. Risk of bias
B. Imprecision
C. Publication bias
D. Large magnitude of effect

3. Welche Sprache sollte für Beweise mit NIEDRIGER Vertrauenswürdigkeit verwendet werden?

A. „Der Eingriff reduziert …“
B. „Der Eingriff reduziert wahrscheinlich …“
C. „Der Eingriff kann …“ reduzieren
D. „Wir sind unsicher, ob …“

Eine Zahl ist nicht genug.

Sie müssen kommunizieren, wie sicher Sie sind.

Certainty must be earned, not assumed.

Methoden schützen Patienten vor unserem Vertrauen.

Modul 11: The Living Rezension

Modul 11: The Living Review (COVID-19)

Methoden schützen Patienten vor unserem Vertrauen.

COVID-19 Hydroxychloroquine: 2020

Wenn die Dringlichkeit erfüllt ist Beweise.

🎯 Learning Objectives

  • Wenden Sie die sequenzielle Testanalyse an, um festzustellen, wann Beweise ausreichend sind
  • Entwerfen und pflegen Sie eine lebendige systematische Überprüfung
  • Establish update triggers and futility/harm boundaries
  • Manage multiplicity and alpha-spending in sequential analyses
  • Explain how rapid evidence synthesis evolved during COVID-19

"Das Virus verbreitet sich schneller, als wir es verstehen..."

COVID-19 tötete Tausende. Die Intensivstationen waren überfüllt. Es gab keinen Impfstoff, keine Behandlung. Dann ein Hoffnungsschimmer: hydroxychloroquine (HCQ)—an old malaria drug—showed antiviral activity in lab studies.

March 20
Gautret-Studie (Frankreich)
36 pts
Non-randomized
Viral
Clearance improved

Wenige Wochen nach der Gautret-Studie:

!

March 28: FDA issues Emergency Use Authorization for HCQ

!

April 4: India bans HCQ export (hoarding fears)

!

Global: Shortages affect lupus and rheumatoid arthritis patients

Millions received HCQ based on a 36-patient observational study

What could go wrong?

🔍

Untersuchung: Die Gautret-Studie

Sie sind ein EBM-Experte, der die französische HCQ-Studie auswerten soll. Untersuchen Sie das Design...

IssueImpact
Non-randomizedSelection bias—who got HCQ?
6 patients excluded3 went to ICU, 1 died, 1 withdrew, 1 had nausea
Surrogate outcomeViral load, not clinical outcomes
Kontrolle aus verschiedenen KrankenhäusernDifferent care, different testing
No blindingExpectation bias in lab testing

Diese Studie würde ein HOHES Verzerrungsrisiko für RoB 2.0 erzielen

GRADE certainty: VERY LOW. Yet it changed global policy.

1

Immortal Time Bias

Patients must survive long enough to receive treatment. Survivors are compared to non-survivors.

2

Confounding by Indication

Sicker patients may get different treatments. Healthier patients received HCQ early.

3

Healthy User Effect

Patients who seek treatment tend to be healthier overall.

4

Outcome Reporting

Studien mit positiven Ergebnissen wurden schneller veröffentlicht.

Large, rigorous trials completed at remarkable speed

TrialNResult
RECOVERY (UK) 4,716 No benefit on mortality (RR 1.09)
WHO SOLIDARITY 954 No benefit (RR 1.19)
ORCHID (US) 479 Gestoppt für Sinnlosigkeit
HCQ provided no benefit—and may have caused harm
June 15, 2020: FDA revokes Emergency Use Authorization
📊

Zeitleiste: Beobachtungs- vs. RCT-Evidenz

March-May 2020

Observational: ~20 studies

Suggest benefit

Pooled OR ~0.65

June-July 2020

RCTs: RECOVERY, SOLIDARITY

Show no benefit/harm

Pooled RR ~1.10

Von „vielversprechend“ zu „ineffektiv“ in 3 Monaten

Deshalb brauchen wir Randomisierung – und lebendige Reviews, um sich entwickelnde Evidenz zu verfolgen.

Eine neue Ansatz für sich schnell entwickelnde Beweise:

1

Continuous Surveillance

Suchen Sie wöchentlich oder sogar täglich in der Literatur nach neuen Beweisen

2

Cumulative Meta-Analysis

Update pooled estimates as each new trial reports

3

Versuchssequenzanalyse (TSA)

Determine when sufficient information has accumulated to conclude

4

Transparent Versioning

Track every change, maintain full audit trail

When have we learned enough?

TSA wendet bei der Metaanalyse Grenzen an – ähnlich der Zwischenanalyse in einer einzelnen Studie. Dies ist verantwortlich für die required information size (RIS) needed to detect or exclude a clinically meaningful effect.

RIS
Required sample size
α-spending
Controls type I error
Boundaries
Benefit / Harm / Futility

Für HCQ bei COVID zeigte die TSA, dass die Grenze der Sinnlosigkeit im Juni 2020 überschritten wurde.

1. Observational studies can mislead spectacularly wenn Voreingenommenheit vorherrscht. Auch viele Studien, die in die gleiche Richtung weisen, können falsch sein.

2. RCTs can be conducted quickly when the will exists. RECOVERY enrolled 5,000+ patients in weeks.

3. Lebendige Bewertungen sind unerlässlich for evolving topics. Fixed-point-in-time reviews become obsolete instantly.

4. Political pressure doesn't change biology. Strenge Methoden schützen Patienten auch unter Druck.

GESCHICHTE: Die LEAP-Erdnussallergie-Revolution

Was wäre, wenn die Prävention die Ursache IST?

REAL DATA

For decades, pediatric guidelines recommended: avoid peanuts in infancy to prevent allergy. Meanwhile, peanut allergy rates tripled von 1997 bis 2008. Dann kam LEAP (2015): 640 high-risk infants randomized to early peanut introduction vs. avoidance. Result: Early introduction reduced peanut allergy by 81% (1,9 % vs. 13,7 %). Die Präventionsstrategie verursachte die Epidemie.

Der Scheideweg des Allergologen: 2010
Sie sind pädiatrischer Allergologe. Erdnussallergien nehmen trotz Vermeidungsrichtlinien zu. Stellen Sie das Dogma in Frage?
PATH A: Follow Guidelines
Continue recommending peanut avoidance in high-risk infants
Guidelines are "evidence-based." Safe to follow consensus.
OUTCOME: Peanut allergies continue to rise
PFAD B: Stellen Sie das Dogma in Frage
Design a trial to test if early introduction might be protective
LEAP trial reveals the truth. Guidelines reverse worldwide.
OUTCOME: Prevent an epidemic
2000: AAP recommends avoidance
2008: Allergy rates triple
2015: LEAP kehrt die Beweise um
2017: Guidelines flip to early introduction
THE REVELATION
„Erstens: keinen Schaden anrichten“ erfordert Beweise. Annahmen, auch gut gemeinte, können großen Schaden anrichten. Das Immunsystem musste ausgesetzt werden, um Toleranz zu entwickeln – Vermeidung führte zu Sensibilisierung.

1. Was war der Hauptfehler in der Gautret-Hydroxychloroquin-Studie?

A. Too few patients
B. No blinding
C. Excluding patients who deteriorated
D. Too short follow-up

2. What does Trial Sequential Analysis help determine?

A. Which studies have high risk of bias
B. When enough evidence has accumulated
C. Der Grad der Heterogenität
D. Which treatment is best

3. Warum haben beobachtende COVID-Studien einen HCQ-Vorteil gezeigt, RCTs dagegen nicht?

A. RCTs enrolled sicker patients
B. RCTs used different outcomes
C. Verzerrung in Beobachtungsstudien
D. Beobachtungsstudien hatten bessere Daten

Speed cannot replace rigor.

But rigor can be fast.

Living reviews balance both.

Nicht jedes Signal ist wahr.

Modul 12: Fortgeschrittene Methoden

Modul 12: Fortgeschrittene Methoden

Nicht jedes Signal ist wahr.

Advanced Methods

Beyond pairwise meta-analysis.

🎯 Learning Objectives

  • Interpret network meta-analysis geometry and SUCRA rankings
  • Apply bivariate models for diagnostic test accuracy meta-analysis
  • Conduct dose-response meta-analysis with flexible splines
  • Understand when individual patient data (IPD) meta-analysis is needed
  • Erkennen Sie die Annahmen und Einschränkungen von jede fortgeschrittene Methode

"Manchmal ist die Frage komplexer als A gegen B..."

Die Methoden, die Sie gelernt haben, bilden die Grundlage. Aber die klinische Realität erfordert oft mehr: Which of 10 antidepressants is best? What's the optimal dose of statin? Does this test accurately diagnose early cancer?

Dieses Modul stellt vier fortgeschrittene Methoden vor, die jeweils unterschiedliche komplexe Fragen beantworten.

When you have many treatments but few head-to-head trials

NMA combines direct evidence (A vs B) with indirect evidence (A vs C, B vs C → inferred A vs B) to compare multiple treatments simultaneously.

SUCRA
Ranking probabilities, not effect size
Consistency
Direct = Indirect?
Networks
Visualize evidence
🔍

NMA Example: Antidepressants

The landmark Cipriani 2018 NMA compared 21 antidepressants using 522 trials.

The Challenge

21 drugs, but not every pair tested head-to-head

Many vs. placebo, few vs. each other

The Solution

NMA kombiniert direkte und indirekte Evidenz aus allen Bereichen Netzwerk

Rang alle 21 hinsichtlich Wirksamkeit und Akzeptanz

Ergebnis: Einige Medikamente wurden hinsichtlich ihrer Wirksamkeit höher eingestuft, andere hinsichtlich ihrer Akzeptanz

Kein einzelnes Medikament ist allgemein „am besten“; Interpretieren Sie Rankings mit glaubwürdigen Intervallen, Transitivität und klinischen Kompromissen.

1

Transitivity

Effect modifiers should be similarly distributed across comparisons; otherwise indirect comparisons may be biased

2

Consistency

Direkte und indirekte Beweise stimmen überein (überprüfbar)

3

Connected Network

All treatments linked through at least one common comparator

When assumptions fail, NMA can mislead

Beurteilen Sie immer die Transitivität und testen Sie auf Inkonsistenz.

Finden der optimalen Dosis

Uses the Greenland-Longnecker method mit eingeschränkten kubischen Splines zur Modellierung nichtlinearer Beziehungen zwischen Dosis und Wirkung.

1

Non-linear patterns

J-shaped (alcohol & mortality), U-shaped (vitamin D), threshold (aspirin)

2

Clinical relevance

Finden Sie die Dosis mit dem besten Nutzen-Schaden-Verhältnis, nicht nur „Mehr ist besser“

Der Goldstandard für die Subgruppenanalyse

Instead of published summary data, obtain roh Daten auf Patientenebene von Studienärzten. Ermöglicht präzise Untergruppenanalysen, Time-to-Event-Modellierung und standardisierte Definitionen.

One-Stage
Single hierarchical model (not mega-trial)
Two-Stage
Analyze, then pool
80%+ target
Datenverfügbarkeitsziel

Die Early Breast Cancer Trialists' Collaborative Group leistete in den 1980er Jahren Pionierarbeit bei IPD MA.

Wenn die „Intervention“ eine ist Test

DTA meta-analysis synthesizes sensitivity (richtige positive Rate) und specificity (true negative rate)—two correlated outcomes requiring bivariate models.

1

Bivariate/HSROC Model

Berücksichtigt die Korrelation zwischen Sensitivität und Spezifität

2

SROC Curve

Zusammenfassende ROC-Kurve mit 95 % Konfidenz und Vorhersagebereichen

3

QUADAS-2

Quality Assessment of Diagnostic Accuracy Studies

QuestionMethod
Does A beat B?Pairwise MA
Which of many treatments is best?Network MA (NMA)
Was ist die optimale Dosis?Dose-Response MA
Who benefits most? (subgroups)IPD MA
Wie genau ist dieser Test?DTA MA
Wie entwickelt sich die Wirkung im Laufe der Zeit?Survival/Time-to-Event MA

Die Methode muss zur Frage passen. Erzwingen Sie niemals eine Frage mit der falschen Methode.

STORY: Die Steroide in der Sepsis-Saga

Three large trials. Three different answers. What do you believe?

REAL DATA

CORTICUS (2008): 499 patients. Hydrocortisone in septic shock. No mortality benefit. ADRENAL (2018): 3,658 patients. Hydrocortisone. No mortality benefit. APROCCHSS (2018): 1,241 patients. Hydrocortisone + fludrocortisone. Mortality reduced (43% vs 49.1%, p=0.03). Same class of intervention. Different protocols. Different results.

Die Herausforderung für Richtlinienautoren
Sie schreiben Sepsis-Richtlinien. Drei große Studien sind anderer Meinung. Wie empfehlen Sie?
PATH A: Simple Average
Pool all three trials. Overall effect uncertain. Conclude "evidence unclear."
Guidelines say steroids are optional. No strong recommendation.
OUTCOME: Clinicians left without clear guidance
PATH B: Investigate Heterogeneity
Analyze why APROCCHSS differed (fludrocortisone, longer duration, different population)
Stellen Sie fest, dass sich das wirksame Protokoll von den ineffektiven unterscheidet.
OUTCOME: Recommend the specific effective protocol
THE REVELATION
Konfliktierende Versuche sind keine Misserfolge. Es handelt sich um Karten, wo die Behandlung wirkt und wo nicht. Die Unterschiede zwischen den Studien – Dosis, Dauer, Co-Interventionen, Population – sind der Schlüssel zum Verständnis.

1. Was ist der Hauptvorteil der Netzwerk-Metaanalyse gegenüber der paarweisen Analyse?

A. Es ist keine Datenextraktion erforderlich.
B. It compares treatments not directly tested against each other
C. Es entfällt die Notwendigkeit einer Risikobewertung für Verzerrungen.
D. It produces better forest plots

2. Why does DTA meta-analysis require bivariate models?

A. To handle more than two studies
B. Zur Anpassung an Publikationsverzerrungen.
C. Sensitivität und Spezifität sind vorhanden korreliert
D. To generate forest plots

3. What does the "consistency" assumption in NMA require?

A. All studies must be high quality
B. Direkte und indirekte Beweise müssen übereinstimmen
C. Sample sizes must be similar
D. No missing studies
Methodologist

Dieser Kurs deckt den gesamten systematischen Review-Workflow ab. Erkunden Sie für tiefergehende Einblicke die Begleitkurse:

DTA Course
Bivariate/HSROC, SROC curves, QUADAS-2
Risk of Bias Mastery
RoB 2, ROBINS-I/E, domain-level assessment
GRADE Certainty
Full SoF tables, GRADE-CERQual
IPD Meta-Analysis
One-stage/two-stage, mixed-effects models
Publication Bias Detective
Copas, PET-PEESE, p-curve, selection models
Umbrella Reviews
AMSTAR 2, ROBIS, overlap correction
Prognostic Reviews
CHARMS, PROBAST, c-statistic pooling
Living Reviews + Rapid Reviews
TSA, update triggers, abbreviated methods

Module 12 Complete

„Die Methode muss zur Frage passen. Fortgeschrittene Methoden beantworten fortgeschrittene Fragen – aber die Grundlagen ändern sich nie.“

Sie beherrschen den Kernworkflow. Die nächsten zehn Module erforschen die Grenzen: Bayesianische Inferenz, Netzwerk-Metaanalyse, individuelle Patientendaten, Dosis-Wirkungs-Modellierung, Robustheit und Fragilität, Gerechtigkeit, KI-gestützte Synthese, qualitative Evidenz, multivariate Methoden und Reproduzierbarkeit.

Nicht jedes Signal ist wahr.

Modul 13: Das Bayesianische Turn

=========================================================== MODUL 13: THE BAYESIAN TURN (Testversion der STAMPEDE-Plattform) =========================================================

Nicht jedes Signal ist wahr.

Modul 13: Das Bayesianische Turn

🎯 Learning Objectives

  • Erklären Sie den Unterschied zwischen frequentistischer und bayesianischer Inferenz
  • Interpret prior distributions, likelihoods, and posterior distributions
  • Distinguish credible intervals from confidence intervals
  • Understand when Bayesian meta-analysis offers advantages
  • Recognize how prior choice affects conclusions
Eröffnung der Geschichte: STAMPEDE

In 2005, a trial began

that would never truly end.

Die STAMPEDE-Studie für Prostatakrebs verwendete ein mehrarmiges, mehrstufiges (MAMS) Plattformdesign. Waffen könnten hinzugefügt oder weggelassen werden, wenn sich Beweise ansammeln. Obwohl ihre Statistiken frequentistisch waren, verkörperte die adaptive Philosophie den Bayes'schen Geist: Entscheidungen aktualisieren, wenn sich Daten ansammeln.

In frequentist statistics, probability means long-run frequency. Ein 95 %-KI bedeutet NICHT „95 % Wahrscheinlichkeit, dass der wahre Effekt vorhanden ist“. Das bedeutet: Wenn wir die Studie unendlich wiederholen würden, würden 95 % der Intervalle die Wahrheit enthalten.

p-value
P(data | H₀), nicht P(H₀ | data)
95% CI
Abdeckungseigenschaft, nicht Glaube
Fixed
Der wahre Parameter ist festgelegt

In Bayesian statistics, probability represents degree of belief. We start with a prior (was wir vor den Daten glauben), aktualisieren Sie mit dem likelihood (was uns die Daten sagen) und erhalten Sie a posterior (updated belief).

1

Prior × Likelihood = Posterior

Satz von Bayes: P(θ|Daten) ∝ P(Daten|θ) × P(θ)

2

Credible Intervals

Ein 95 % glaubwürdiges Intervall ist probabilistisch interpretierbar, abhängig vom angegebenen Modell und prior.

Researcher
1

Non-informative (Vague)

Normal(0, 10000) oder einheitlich. Lassen Sie Daten dominieren. Imitiert frequentistische Ergebnisse.

2

Weakly Informative

Normal(0, 1) for log-OR. Regularizes extreme estimates while remaining flexible.

3

Informative

Based on previous evidence. Powerful but controversial. Must be pre-specified.

4

Half-Cauchy for τ

Recommended for heterogeneity. Half-Cauchy(0, 0.5) allows large τ but concentrates near zero.

Researcher

Most Bayesian models cannot be solved analytically. We use Markov Chain Monte Carlo (MCMC) zur Entnahme von Proben aus dem Seitenzahnbereich. Tools: JAGS, Stan, brms (R), PyMC (Python).

Chains
Multiple independent chains (typically 4)
Convergence: R̂ < 1.01 (strict; older texts use < 1.1)
ESS
Bulk-ESS > 400 für Mittel; tail-ESS > 400 für CIs
Methodologist

Instead of choosing between fixed-effect and random-effects models, Bayesian model averaging (BMA) gewichtet jedes Modell nach seiner A-Posteriori-Wahrscheinlichkeit. Dies erklärt die Modellunsicherheit in der endgültigen Schätzung.

BF

Bayes Factors

BF₁₀ > 10 = starker Beweis für H₁. BF₁₀ < 1/10 = starker Beweis für H₀.

Interaktiver Werkzeugplatzhalter

Passen Sie die vorherige Stärke an, um zu sehen, wie sie sich auf den Seitenzahn auswirkt. Sehen Sie, wie mehr Daten den Vorgänger überfordern.



Die STAMPEDE-Geschichte

STAMPEDE wurde 2005 mit fünf Forschungszweigen gestartet, die Behandlungen für fortgeschrittenen Prostatakrebs vergleichen. Bis 2016 wurde Abirateron hinzugefügt und es wurde eine 37-prozentige Reduzierung der Todesfälle festgestellt (HR 0,63, 95 %-KI 0,52–0,76).

Das Plattformdesign verkörpert Bayes'sches adaptives Denken: Zwischenanalysen leiten die Armauswahl, neue Arme können hinzugefügt werden, wenn Behandlungen auftauchen, und vergebliche Arme fallen frühzeitig weg – so werden Patienten vor Unwirksamkeit bewahrt Therapien.

STAMPEDE hat über 10.000 Patienten in über 100 Zentren aufgenommen und die Behandlung von Prostatakrebs grundlegend verändert. Mit der bayesianischen Denkweise können Beweise gesammelt und Entscheidungen in Echtzeit getroffen werden.

Frequentist vs Bayesian Meta-Analysis
Wählen Sie Bayesian, wenn: (1) Sie über echte Vorinformationen verfügen, (2) Sie probabilistische Aussagen benötigen („80 % Zufallseffekt > 0“), (3) wenige Studien häufige Eigenschaften unzuverlässig machen oder (4) Sie eine Modellmittelung durchführen möchten.
Bayesian with weakly informative prior
A common practical default. Regularizes extreme estimates without forcing strong prior conclusions.
Bayesian mit informativem Vorhergehenden
Nur wenn die vorherige Evidenz stark und vorab spezifiziert ist. Es muss eine Sensitivitätsanalyse durchgeführt werden.
Stay frequentist
Simpler, well-understood. Preferred when k is large and no prior information.

Remember Module 1?

CAST Through a Bayesian Lens

Hätte eine Bayes'sche CAST-Analyse einen aus der Grundlagenforschung abgeleiteten informativen Prior verwendet (Antiarrhythmika unterdrücken PVCs), wäre der Posterior immer noch stark in Richtung Schaden verschoben. Bei genügend Daten ergibt sich sogar ein starker A-priori als wahrscheinlich. Die Lektion: Bayesianische Methoden schützen nicht vor schlechten Priors – aber sie gehen von den Annahmen aus transparent.

Q1. What does a 95% Bayesian credible interval mean?

A. 95% of repeated experiments would produce intervals containing the true value
B. Es besteht eine 95-prozentige Wahrscheinlichkeit, dass der wahre Parameter in diesem Intervall liegt
C. The interval has a 95% chance of being correct
D. 95 % der zukünftigen Daten werden in diesen Bereich fallen

Q2. Was ist der empfohlene Prior für die Heterogenität zwischen Studien? (τ)?

A. Uniform(0, 100)
B. Normal(0, 1)
C. Half-Cauchy(0, 0.5)
D. Fixed at 0.5

Module 13 Complete

„Bei der Bayes’schen Wende geht es nicht um Mathematik. Es geht um Ehrlichkeit – um unsere Annahmen sichtbar zu machen.“

Nicht jedes Signal ist wahr.

Modul 14: Die Netzwerk

========================================================== MODUL 14: DAS NETZWERK (Cipriani 2018 – 21 Antidepressiva) =========================================================

Methoden schützen Patienten vor unserem Vertrauen.

Modul 14: Die Netzwerk

🎯 Learning Objectives

  • Explain why pairwise comparisons are insufficient when many treatments exist
  • Interpret network geometry (nodes, edges, thickness)
  • Verstehen Sie Transitivität, Konsistenz und die Rolle indirekter Beweise
  • Interpret SUCRA rankings and league tables
  • Recognize when NMA assumptions are violated

A clinician faces a patient

bei Depressionen. Welches Medikament?

Es gibt 21 häufig verschriebene Antidepressiva. Die meisten direkten Studien vergleichen nur 2 oder 3. Cipriani et al. (2018, Lancet) verbanden 522 Studien und 116.477 Patienten in einem einzigen Netzwerk.

1

Direct Evidence

Trials directly comparing A vs B give the most reliable estimate.

2

Indirect Evidence

Wenn A vs. C und B vs. C existieren, können wir A vs. B ableiten. Dies ist der „transitive“ Annahme.

3

Mixed Evidence

NMA combines both, weighted by precision, to rank all treatments simultaneously.

Jeder Knoten ist eine Behandlung. Die Kantendicke stellt die Anzahl der Studien dar, die diese beiden Behandlungen vergleichen.

Researcher

Transitivity: Die indirekte Schätzung (über einen gemeinsamen Komparator) sollte sich der direkten Schätzung annähern. Dies erfordert, dass die Effektmodifikatoren bei den Vergleichen ähnlich verteilt sind.

Consistency: Statistischer Test, der direkte und indirekte Beweise vergleicht. Globale (Design-by-Treatment-Interaktion) und lokale (Node-Splitting) Tests helfen bei der Identifizierung von Inkonsistenzschleifen.

Researcher
SUCRA
Surface Under Cumulative Ranking. Höhere Werte bedeuten eine bessere Ranking-Wahrscheinlichkeit, keine garantierte Überlegenheit.
P-score
Frequentistisches Analogon zu Ranking-Wahrscheinlichkeitszusammenfassungen. Interpretieren Sie mit Effektgrößen und Unsicherheit.

Caution: Ranking is seductive but misleading when differences between treatments are small or uncertain. Always report credible/confidence intervals alongside ranks.

Methodologist

When interventions are complex (e.g., behavioral + pharmacological), component NMA decomposes multi-component treatments to estimate the individual contribution of each component. Uses additive models: effect(A+B) = effect(A) + effect(B) + interaction.

Das Cipriani-Netzwerk

Die Lancet-Analyse von 2018 ergab, dass alle 21 Antidepressiva wirksamer waren als Placebo. Amitriptylin, Mirtazapin und Venlafaxin rangierten hinsichtlich der Wirksamkeit am höchsten. Agomelatin, Fluoxetin und Escitalopram rangierten hinsichtlich der Akzeptanz am höchsten (wenigste Studienabbrecher).

Kein einzelnes Medikament „gewann“ bei allen Ergebnissen. Das Netzwerk deckte Kompromisse auf, die für die paarweise Analyse nicht sichtbar sind.

NMA Feasibility Check
Sie haben 15 RCTs, in denen 6 verschiedene Statine verglichen werden. Für einige Paare gibt es direkte Beweise, für andere nicht.
Check transitivity, then fit NMA
Überprüfen Sie, ob Patientenpopulationen und Studiendesigns in den Vergleichen hinreichend ähnlich sind.
Indirekte Beweise ignorieren
Verliert die statistische Aussagekraft und hinterlässt Lücken in der Evidenzbasis.
Pool all into one pairwise comparison
Verletzt die Struktur von die Beweise. Statine sind verschiedene Medikamente.

Q1. Welche Annahme muss gelten, damit indirekte Evidenz bei NMA gültig ist?

A. Transitivity — effect modifiers are balanced across comparisons
B. Homogeneity — I² must be below 25%
C. All studies must have similar sample sizes
D. Alle Studien müssen doppelblind sein

Module 14 Complete

„Das Netzwerk sieht, was paarweise Vergleiche nicht können: die gesamte Landschaft der Behandlungswahl.“

Nicht jedes Signal ist wahr.

Modul 15: Das Individuum

=========================================================== MODUL 15: DAS INDIVIDUELL (EBCTCG – IPD-Metaanalyse) =========================================================

What was hidden in plain sight?

Modul 15: Das Individuum

🎯 Learning Objectives

  • Explain why aggregate data can mask treatment–covariate interactions
  • Distinguish one-stage from two-stage IPD models
  • Recognize ecological bias in aggregate meta-analysis
  • Understand the practical challenges of IPD collection
  • Interpret treatment–covariate interaction plots

For decades, breast cancer trials

veröffentlichte Zusammenfassungen. Keine Patienten.

Die Early Breast Cancer Trialists' Collaborative Group (EBCTCG) hat in Hunderten von Studien Einzeldaten von über 100.000 Frauen gesammelt. Ihre IPD-Metaanalysen zeigten, dass der Nutzen von Tamoxifen stark vom Östrogenrezeptorstatus abhängt – etwas, das in aggregierten Daten nicht sichtbar ist.

Jede veröffentlichte Studie zu Tamoxifen berichtete über ein Gesamtergebnis. In Hunderten von Studien schien Tamoxifen einen bescheidenen Nutzen zu bieten. Aber „bescheidener Nutzen“ war ein Durchschnitt, der eine tiefgreifende Wahrheit verbarg.

Die versteckte Untergruppenaufteilung

RR 0.59
ER-positive subgroup: 41% reduction in recurrence
RR 0.97
ER-negative subgroup: essentially no benefit at all

Der Gesamteffekt – die Vermischung von ansprechenden und nicht ansprechenden Patienten – war eine statistische Fiktion. Ein „bescheidener“ Durchschnitt, der den Nutzen für eine Gruppe überbewertet und einen Nutzen impliziert, der für die andere Gruppe nicht vorhanden war.

AD
Aggregate: published effect + CI only
IPD
Individual: raw patient-level records

IPD ermöglicht: (1) konsistente Ergebnisdefinitionen, (2) Untergruppenanalyse nach Patientenmerkmalen, (3) Zeit-bis-Ereignis-Modellierung, (4) Überprüfung auf ökologische Verzerrungen. Dabei handelt es sich um die gold standard for exploring treatment effect modification.

Researcher
1

Two-Stage

Analyze each study separately, then combine estimates (like standard MA). Simple but loses information.

2

One-Stage

Anpassung eines einzelnen Mixed-Effects-Modells an alle Patientendaten gleichzeitig. Stärker für Interaktionen und seltene Ereignisse.

Key: Beide sollten die Studienclusterung berücksichtigen. Fassen Sie IPD niemals wie aus einer Megastudie zusammen – dies führt zu Verwirrung (Simpson-Paradoxon).

Methodologist

A meta-regression using study-level mean age might show older patients benefit more. But this could be ecological bias– der Zusammenhang auf Studienebene spiegelt nicht die Wahrheit auf Patientenebene wider. Nur IPD kann within-study from between-study effects.

Wenn das Ganze über seine Teile lügt

Simpsons Paradoxon trennen: Ein Trend, der in aggregierten Daten auftritt, kehrt sich um, wenn die Daten nach einer verwirrenden Variablen gruppiert werden.

Das Paradoxon in der Praxis

A mega-trial analysis found Treatment X beneficial overall. But innerhalb jedes einzelnen Studie, es war schädlich. Wie? Unterschiede im Ausgangsrisiko zwischen Studien erzeugten eine Illusion – kränkere Bevölkerungsgruppen erhielten zufällig mehr Behandlung, was den Gesamtnutzen erhöhte.

Cates (2002, BMJ) zeigte, dass eine Bündelung über Studien hinweg ohne Berücksichtigung von Clustering die scheinbare Wirkungsrichtung umkehren kann.

Aus diesem Grund berücksichtigen einstufige IPD-Modelle Studie als Clustering-Variable – um zu verhindern, dass Verwechslungen zwischen Studien als Behandlung getarnt werden Wirkung.

Das EBTCCG-Erbe

Die IPD-Metaanalysen des EBCTCG definieren seit 40 Jahren die Behandlung von Brustkrebs. Ihre Analyse von Tamoxifen im Vergleich zu keiner Behandlung aus dem Jahr 2005 zeigte einen klaren Nutzen bei ER-positiven Tumoren (RR 0,59), aber keinen Nutzen bei ER-negativen Tumoren (RR 0,97).

Ohne IPD wäre der gesamte Gesamteffekt auf beide Gruppen gebündelt worden – was den Nutzen verwässert hätte und ER-positiven Patienten möglicherweise das Ausmaß ihres Gewinns vorenthalten hätte.

Do you suspect treatment–covariate interactions?
Yes →

Können Sie IPD aus mehr als 80 % der Studien erhalten?

Yes → One-stage IPD meta-analysis with interaction terms
No → Zweistufig: Verfügbare IPD + Aggregat für den Rest anfordern
No →

Is ecological bias a concern?

Yes → IPD preferred even without interactions
No → Aggregate data meta-analysis may suffice

EBCTCG sammelte über einen Zeitraum von 40 Jahren Daten aus Hunderten von Versuchen. Die meisten IPD-Metaanalysen umfassen 5–20 Studien. Die Entscheidung hängt von der Frage ab, nicht vom Ehrgeiz.

Methodologist

Erinnern Sie sich an Modul 3? In Beobachtungsstudien schien eine HRT vorteilhaft zu sein, in RCTs jedoch schädlich. Es trat die gleiche aggregierte Maskierung auf: Der Gesamtnutzen verbarg den Schaden für die Untergruppe.

Das zeigte später eine IPD-Analyse der Women's Health Initiative timing mattered– Frauen, die innerhalb von 10 Jahren nach der Menopause mit einer HRT begannen, hatten andere Ergebnisse als Frauen, die später damit begannen. Die „Timing-Hypothese“ war in veröffentlichten aggregierten Zusammenfassungen unsichtbar.

Die Lektion wiederholt sich: Aggregierte Daten können kritische Interaktionen zwischen Behandlung und Kovariate verschleiern. Ob es sich um den ER-Status bei Brustkrebs oder den Zeitpunkt bei einer HRT handelt, die Daten auf individueller Ebene zeigen, was Zusammenfassungen verbergen.

Q1. Was ist der Hauptvorteil von IPD gegenüber der Metaanalyse aggregierter Daten?

A. Es beinhaltet immer weitere Studien
B. Es ist günstiger und schneller
C. It can explore treatment–covariate interactions without ecological bias
D. Dadurch entfällt die Notwendigkeit von Zufallseffektmodellen

Module 15 Complete

„Hinter jeder gebündelten Schätzung stehen Einzelpersonen, deren Geschichten die Gesamtheit nicht erzählen kann.“

Heterogenität ist eine Botschaft, kein Rauschen.

Modul 16: Die Dosis

========================================================== MODUL 16: DIE DOSIERUNG (Alkohol-J-Kurve / Stockwell 2016) =========================================================

Heterogenität ist eine Botschaft, kein Rauschen.

Modul 16: Die Dosis

🎯 Learning Objectives

  • Explain why simple pairwise comparisons miss dose–response relationships
  • Distinguish linear, quadratic, and spline dose–response models
  • Interpret restricted cubic splines with knots
  • Identify threshold effects and J/U-shaped curves
  • Understand model comparison with AIC/BIC

Seit Jahrzehnten mäßiger Alkoholkonsum

schien das Herz zu schützen.

Die „J-förmige Kurve“ zeigte, dass Nichttrinker eine höhere kardiovaskuläre Mortalität aufwiesen als mäßige Trinker. Aber Stockwell et al. (2016) zeigten, dass die J-Kurve ein Artefakt der fälschlichen Klassifizierung ehemaliger Trinker (die aus Krankheitsgründen mit dem Rauchen aufgehört haben) als „Abstinenzler“ war.

Bis 2010 hatten über 100 Beobachtungsstudien die J-Kurve bestätigt. Medizinische Lehrbücher lehrten es. Kardiologen haben es zitiert. Lobbyisten der Weinindustrie finanzierten Konferenzen zu diesem Thema.

100+
Beobachtungsstudien bestätigen die J-Kurve
15–25%
Lower cardiovascular mortality in moderate drinkers vs abstainers

Die Beweise schienen überwältigend. Was aber, wenn die Vergleichsgruppe – „Abstinenzler“ – kontaminiert wäre?

Der kranke Drückeberger

A Hidden Confounder

The Problem

People who stop drinking often do so because they are already ill– Lebererkrankungen, Wechselwirkungen mit Medikamenten, Krebsdiagnose. Diese „ehemaligen Trinker“ wurden in den meisten Studien als „Abstinenzler“ eingestuft.

The Effect: The reference group (abstainers) appeared less healthy– nicht weil die Abstinenz schädlich war, sondern weil sich ihr kranke Menschen angeschlossen hatten.

When Stockwell et al. (2016, J Stud Alcohol Drugs) removed former drinkers and applied appropriate study-quality corrections: die J-Kurve verschwand. Die Schutzwirkung war ein Phantom.

Standard meta-analysis asks: "Does treatment X work?" Dose–response meta-analysis asks: "At what dose Funktioniert Behandlung X am besten?“ Es modelliert die Beziehung zwischen Dosishöhe und Ergebnis über mehrere Studien hinweg.

Linear
Simplest: log(RR) = β × dose
Spline
Flexible: piecewise polynomials with knots
Fractional
Polynomial: dose^p1 + dose^p2
Researcher

RCS place knots an vorab festgelegten Dosispunkten und passen glatte Polynome dazwischen an. Typischerweise 3–5 Knoten bei Quantilen der Dosisverteilung. Linear über Grenzknoten hinaus. Tests auf Nichtlinearität vergleichen das Spline-Modell mit einem einfacheren linearen Modell.

AIC

Model Comparison

AIC/BIC vergleicht lineare und Spline-Anpassung. Niedriger = besser. Testen Sie auch die Abweichung von der Linearität (p-Wert für Spline-Terme).

Vergleichen Sie lineare, quadratische und Spline-Anpassungen. Beobachten Sie, wie sich die Modellform mit unterschiedlichen Annahmen ändert.

Die Alkohol-J-Kurve entlarvt

Die erneute Analyse von Stockwell aus dem Jahr 2016 ergab, dass die schützende Wirkung von mäßigem Alkoholkonsum verschwand, wenn ehemalige Trinker korrekt aus der Referenzgruppe der „Abstinenzler“ ausgeschlossen wurden. Die J-Kurve wurde durch die Voreingenommenheit, krank aufzuhören, bestimmt.

Die Dosis-Wirkungs-Metaanalyse brachte die Wahrheit ans Licht: Die Form der Kurve hängt entscheidend davon ab, wie Sie „Nulldosis“ definieren. Die falsche Referenzkategorie führte zu einem Phantomnutzen.

The phantom J-curve influenced alcohol guidelines worldwide:

UK

NHS Guidance (until 2016)

„Mäßiger Alkoholkonsum kann das Herz schützen“ stand in den offiziellen Leitlinien. Nach Stockwells Korrektur revidierte das Vereinigte Königreich die Grenzwerte auf 14 Einheiten/Woche für all Trinker (zuvor 21 für Männer). Keine Menge wurde als „sicher“ eingestuft.

US

Dietary Guidelines Advisory Committee

J-Kurven-Studien wurden im Jahr 2015 zitiert. Das Komitee von 2020 empfahl die Senkung der Grenzwerte auf 1 Getränk/Tag für Männer und bestätigte damit die Voreingenommenheit gegenüber der Referenzgruppe.

AU

Australian Guidelines

Safe drinking limits were delayed by industry-funded J-curve research promoting “cardioprotective” moderate intake.

Haben Sie ≥3 Expositionsniveaus (nicht nur exponiert vs unbelichtet)?
Yes →

Ist die Beziehung plausibel nichtlinear?

Yes → Restricted cubic splines (3–5 knots). Compare AIC with linear model.
No → Linear dose-response meta-regression may suffice
No →

Standard pairwise meta-analysis (no dose-response possible with only two levels)

Warning: Überprüfen Sie immer: Ist Ihre Referenzkategorie sauber? Die J-Kurven-Lektion: Eine kontaminierte Referenzgruppe erzeugt Phantom-Nichtlinearität.

Q1. What makes restricted cubic splines useful in dose–response meta-analysis?

A. They always produce a straight line
B. They flexibly capture non-linear dose–response curves
C. Sie reduzieren die Anzahl der erforderlichen Studien
D. They simplify the model to fewer parameters

Module 16 Complete

"Die Dosis macht das Gift. Und die Form der Kurve zeigt, ob das Gift real ist."

Das Fehlen von Beweisen ist kein Beweis für das Fehlen.

Modul 17: Die Fragilität

=========================================================== MODUL 17: DIE FRAGILITÄT (Oseltamivir / Jefferson 2014) ==========================================================

Das Fehlen von Beweisen ist kein Beweis für das Fehlen.

Modul 17: Die Fragilität

🎯 Learning Objectives

  • Berechnen und interpretieren Sie den Fragilitätsindex
  • Verwenden Sie GOSH-Diagramme, um einflussreiche Studien und Teilmengen zu identifizieren Auswirkungen
  • Interpret contour-enhanced funnel plots
  • Wenden Sie Copas-Auswahlmodelle und PET-PEESE für Publikationsbias an
  • Understand how sensitivity analyses strengthen meta-analytic conclusions

Governments stockpiled billions

auf der Grundlage von Beweisen, die sie nicht sehen konnten.

Nach H1N1 gaben Regierungen Milliarden für die Vorräte von Oseltamivir (Tamiflu) aus. Das Cochrane-Team (Jefferson et al. 2014) kämpfte jahrelang um den Zugriff auf unveröffentlichte Daten. Als sie es schließlich taten, verflüchtigten sich die Belege für die Verhinderung von Komplikationen.

Der Fragilitätsindex fragt: "How many patients would need to change outcome to flip a statistically significant result to non-significant?" Er fügt iterativ Ereignisse hinzu (wandelt Nicht-Ereignisse in Ereignisse um) in der Gruppe mit weniger Ereignissen bis p > 0.05.

FI = 1
Extremely fragile. One patient flip changes conclusion.
FI > 8
Reasonably robust. Less sensitive to individual outcomes.

Enter a 2×2 table to calculate the fragility index. Watch events shift until significance flips.

Events
Total N
Treatment
Control
Researcher

Grafischer Überblick über die Studienheterogenität (GOSH) passt Metaanalysemodelle an alle möglichen Teilmengen von Studien an. Jeder Punkt stellt den gepoolten Effekt gegen I² für eine Teilmenge dar. Cluster deuten auf unterschiedliche Untergruppen hin; Ausreißerwolken deuten darauf hin, dass eine Studie die Heterogenität fördert.

Für k Studien gibt es 2k−1 subsets. For k > 15, random sampling is used.

Researcher

Standard funnel plots show effect size vs standard error. Contour-enhanced Versionen fügen schattierte Bereiche für p < 0,01, p < 0,05 und p < 0,10 hinzu. Wenn fehlende Studien in nicht signifikante Regionen fallen, ist ein Publikationsbias wahrscheinlich. Wenn sie in signifikante Regionen fallen, können andere Ursachen (z. B. Studienqualität) die Asymmetrie erklären.

Methodologist
1

Copas Selection Model

Modelliert die Wahrscheinlichkeit, dass eine Studie veröffentlicht wird, als Funktion ihrer SE und Effektgröße. Schätzt gemeinsam die wahre Wirkung und den Selektionsmechanismus.

2

PET-PEESE

Precision-Effect Test (PET): regress effects on SE. If intercept = 0, no true effect. PEESE uses SE² for better performance when a true effect exists.

Die Oseltamivir-Saga

Die ursprüngliche von Roche finanzierte Metaanalyse (Kaiser 2003) zeigte, dass Oseltamivir Influenza-Komplikationen um 67 % reduzierte. Aber 8 von 10 Studien wurden nie veröffentlicht. Nachdem Cochrane die klinischen Studienberichte erhalten hatte, sank der Nutzen bei Komplikationen auf nicht signifikante 11 %.

Die Fragilität war nicht nur statistisch – sie war informativ. Der Evidenzbasis selbst fehlten die meisten Daten.

Sie haben den Fragilitätsindex berechnet. Was bedeutet die Zahl?
FI ≤ 3

Highly fragile. Eine Handvoll verschiedener Ereignisse würden die Schlussfolgerung umkehren. Interpretieren Sie mit äußerster Vorsicht.

FI 4–8

Moderately fragile. Empfindlich gegenüber kleinen Störungen. Gibt es unveröffentlichte Studien, die dies ändern könnten?

FI > 8

Relatively robust. But remember: fragility is only one dimension. Publication bias can undermine even robust results.

Walsh et al. (2014, J Clin Epidemiol) ergab, dass in 399 RCTs, die in Top-Zeitschriften veröffentlicht wurden, der mittlere Fragilitätsindex nur 8 betrug. Über 25 % hatten einen FI ≤ 3. Wegweisende Studien, die die klinische Praxis beeinflussten, hingen oft an einem statistischen Faden.

Methodologist

Die Oseltamivir-Saga wurde enthüllt three types of fragility– und der Fragilitätsindex erfasst nur den ersten.

1

Statistical Fragility (FI)

Wie viele Ereignisse drehen den p-Wert um? Dies misst der Fragilitätsindex. Es quantifiziert die Sensitivität gegenüber individuellen Patientenergebnissen.

2

Informational Fragility

Wie viele Beweise sind verborgen? Acht von zehn Roche-Oseltamivir-Studien waren unveröffentlicht. Die Evidenzbasis war strukturell unvollständig.

3

Analytical Fragility

Wie viele Freiheitsgrade der Forscher könnten die Schlussfolgerung ändern? Unterschiedliche Ergebnisdefinitionen, Analysepopulationen oder statistische Methoden.

Rückruf zu Modul 10 (Paroxetin): Eine erneute Analyse mit unterschiedlichen Ergebnisdefinitionen kehrte die Schlussfolgerung vollständig um. Das war analytische Fragilität – der FI wurde nie berechnet, weil der Endpunkt selbst umstritten war. Eine vollständige Robustheitsbewertung untersucht alle drei Dimensionen.

Q1. Eine Studie umfasst 200 Patienten pro Arm, 12 Ereignisse in der Behandlung, 25 in der Kontrolle (p=0,03). Der Fragilitätsindex beträgt 3. Was bedeutet das?

A. Die Effektgröße beträgt genau 3
B. Changing just 3 patient outcomes would flip the result to non-significant
C. Das Ergebnis ist mit 3 bestätigenden Studien sehr robust
D. Für die Studie werden mindestens 3 Patienten benötigt

Module 17 Complete

„Die Zahl, die jeden Versuch, sie zu knacken, übersteht, ist vertrauenswürdig.“

Nicht jedes Signal ist wahr.

Modul 18: Das Eigenkapital

========================================================== MODUL 18: DIE EQUITY (SPRINT-Ausschlüsse / PROGRESS-Plus) =========================================================

Certainty must be earned, not assumed.

Modul 18: Das Eigenkapital

🎯 Learning Objectives

  • Identify how trial exclusion criteria create evidence gaps
  • Wenden Sie das PROGRESS-Plus-Framework an, um die Gleichheit der Beweise zu bewerten
  • Use PRISMA-Equity reporting guidelines
  • Understand transportability: when trial findings fail in practice
  • Design equity-sensitive search and synthesis strategies

SPRINT proved tight blood pressure control

saves lives. But whose lives?

Die bahnbrechende SPRINT-Studie schloss Patienten mit Diabetes, Schlaganfall und Herzinsuffizienz aus. Über 75 % der Bluthochdruckpatienten in den USA wären nicht qualifiziert gewesen. Die Beweise waren stark, aber die Anwendbarkeit war begrenzt.

Folie A: Die fehlende Mehrheit

SPRINT nahm 9.361 Patienten auf und bewies, dass eine intensive Blutdruckkontrolle (Zielwert <120 mmHg) kardiovaskuläre Ereignisse um 25 % reduzierte (HR 0,75, 95 %-KI 0,64–0,89). Aber die Einschlusskriterien sagten eine andere Geschichte.

Wer wurde ausgeschlossen:

  • Diabetes – 35 % der Erwachsenen in den USA leiden an Bluthochdruck
  • Prior stroke — 8 % der hypertensiven Bevölkerung
  • Symptomatic heart failure — 6% of hypertensive adults
  • Expected survival <3 years – die gebrechlichsten Patienten
  • Nursing home residents — excluded entirely
  • GFR <20 mL/min — advanced kidney disease

Ergebnis: Über 75 % der Erwachsenen in den USA mit Bluthochdruck hätten sich NICHT qualifiziert. Die Beweise waren stark. Aber für wen?

Folie B: Die Geographie der Beweise

Woher die Beweise kommen

78%

of cardiovascular mega-trial participants came from high-income countries (2000–2020).

6%

from sub-Saharan Africa — where cardiovascular disease is rising fastest.

Polypillenversuche: 4 von 5 wurden in Populationen mit einem mittleren BMI <25 durchgeführt. Der durchschnittliche BMI in den USA liegt bei 30. Der Arzneimittelstoffwechsel, die Komorbiditätsmuster, der Zugang zur Gesundheitsversorgung und die genetische Variation unterscheiden sich zwischen den Bevölkerungsgruppen. Efficacy in one population does not guarantee effectiveness in another.

Referenz: Multinationale Studien und die PROGRESS-Plus-Lücke

P
Place of residence
R
Race / ethnicity
O
Occupation
G
Gender / sex
R
Religion
E
Education
S
SES (socioeconomic)
S
Social capital

Plus: Age, disability, sexual orientation, other vulnerable groups.

Researcher

PRISMA-Equity erweitert PRISMA um eine Berichterstattung darüber, wie Gerechtigkeit in der Überprüfung berücksichtigt wurde: Bevölkerungsmerkmale, Untergruppenanalysen nach Benachteiligung und Bewertung der Anwendbarkeit auf unterversorgte Bevölkerungsgruppen.

Transportability: Die Wirksamkeit der Studie entspricht nicht der Wirksamkeit in der Praxis. Es gibt Methoden, um Versuchsdaten neu zu gewichten, um sie an die Zielpopulationsverteilung anzupassen.

Folie C: Die Transportfähigkeitsfrage
Researcher

Transportability = Können Ergebnisse der Versuchspopulation X auf die Zielpopulation Y angewendet werden? Dies ist keine philosophische Frage – sie hat formale Methoden.

1

Inverse Probability of Participation Weighting (IPPW)

Re-weights trial participants so they resemble the target population on key covariates.

2

Generalizability Index

Quantifiziert, wie ähnlich die Versuchsstichprobe hinsichtlich der beobachteten Merkmale der Zielpopulation ist.

Stuart et al. (2015, Stat Med): Als die SPRINT-Ergebnisse neu gewichtet wurden, um sie an die hypertensive Bevölkerung in den USA anzupassen, wurde der geschätzte Nutzen abgeschwächt – HR 0,82 (gegenüber 0,75 in der Studie). Die Behandlung funktioniert immer noch. Aber das Ausmaß ändert sich, wenn sich die Bevölkerung ändert.

SPRINT und die fehlende Mehrheit

SPRINT war eine gut konzipierte Studie mit 9.361 Patienten. Sein Ergebnis (HR 0,75 für intensive vs. Standard-Blutdruckkontrolle) veränderte die Leitlinien weltweit. Nachfolgende Analysen zeigten jedoch, dass der Nutzen in der Untergruppe, die der Versuchspopulation am ähnlichsten war, am stärksten war – und für ausgeschlossene Gruppen unsicher war.

Gerechtigkeit bei der Evidenzsynthese bedeutet, nicht nur zu fragen: „Funktioniert es?“ aber „Für wen funktioniert es?“

ROOT: Stammt die Evidenz Ihrer Bewertung aus Populationen, die Ihrer Zielgruppe ähneln?

YES → Good. But check: Are subgroups (age, sex, ethnicity, SES) reported separately?

  • Yes: Use subgroup effects for population-specific recommendations
  • No: Flag as limitation — equity gap in reporting

NO → Does PROGRESS-Plus analysis reveal differential effects?

  • Yes: Population-specific recommendations needed. Consider transportability re-weighting.
  • No: Cautious generalization with explicit equity statement in discussion
Folie E: Rückruf zu Modul 3
Methodologist

Callback: The HRT Lesson Revisited

Erinnern Sie sich an Modul 3? Die HRT-Geschichte zeigte, dass healthy-user bias eine schädliche Behandlung vorteilhaft erscheinen ließ. SPRINT hat möglicherweise das gegenteilige Problem – der „gesunde Freiwillige“-Effekt kann eine wirksame Behandlung erscheinen lassen more effective than it would be in the real world.

Jede Metaanalyse sollte fragen: Wer wurde einbezogen? Wer wurde ausgeschlossen? Und spielt das eine Rolle?

Q1. What does the PROGRESS-Plus framework help reviewers assess?

A. Statistical heterogeneity
B. Equity and applicability across disadvantaged populations
C. Interne Validität der eingeschlossenen Studien
D. Gesamtsicherheit der Beweise

Module 18 Complete

„Beweise, die die Schwachen ausschließen, können nicht den Anspruch erheben, ihnen zu dienen.“

Nicht jedes Signal ist wahr.

Modul 19: Die Maschine

=========================================================== MODUL 19: DIE MASCHINE (Cochrane-COVID-Screening) =========================================================

Die Zahl ohne Herkunft ist keine Zahl.

Modul 19: Die Maschine

🎯 Learning Objectives

  • Describe how AI/ML is used in systematic review screening
  • Explain active learning and human-in-the-loop workflows
  • Assess automation validation: recall, workload savings, and risk
  • Erkennen Sie die Einschränkungen und Vorurteile des algorithmischen Screenings
  • Anwenden Sie Rahmenwerke für den verantwortungsvollen Einsatz von KI in Beweismitteln Synthese

When COVID-19 hit,

papers arrived faster than humans could read.

Bis 2021 gab es über 300.000 COVID-Artikel. Cochrane nutzte Klassifikatoren für maschinelles Lernen, um Studien für ihre Schnellrezensionen zu selektieren. Dadurch wurde der Screening-Arbeitsaufwand um bis zu 70 % reduziert und gleichzeitig eine Erinnerung von >95 % aufrechterhalten.

By April 2020, 4,000 COVID preprints appeared every week.

PubMed indexed 500 new COVID articles per day.

Cochrane's screening queue hit 10,000 unreviewed titles.

🔍 Die Mathematik der Unmöglichkeit

A pair of reviewers screens ~200 titles per day.

At 500 new articles/day, they fell further behind with every hour.

Die lebende Rezension starb, bevor sie leben konnte.

Die Erste Versuche

Die Idee war nicht neu. Cohen et al. (2006, JAMIA) zeigten erstmals, dass maschinelles Lernen die Screening-Arbeitsbelastung um 50 % reduzieren kann – mit weniger als 5 % Verlust in der Erinnerung.

📅
2006: Cohen et al. — SVM classifiers for drug class reviews. Proof of concept.
📅
2016: RobotReviewer (Marshall et al., JMLR) — ML for risk of bias assessment. Inter-rater reliability comparable to human reviewers.
📅
2021: ASReview (van de Schoot et al., Nature Machine Intelligence) — active learning that simulated 95% workload reduction.

Aber Simulation ist nicht die Realität. COVID wäre der erste echte Test im großen Maßstab.

1

Screening Prioritization

Active learning ranks citations by relevance. Reviewers screen the most likely relevant first.

2

Datenextraktionsunterstützung

NLP extrahiert PICO-Elemente, Ergebnisse und Ergebnisse. Erfordert immer eine menschliche Überprüfung.

3

Risk of Bias Assessment

ML classifiers predict RoB domains. Experimental—human judgment remains gold standard.

Researcher
Recall
>95% required. Missing 1 study can change conclusions.
WSS@95%
Work Saved over Sampling at 95% recall.
Stopping
When to stop screening? Consecutive irrelevant threshold.

Die grundlegende Spannung: Automatisierung spart Zeit, führt aber zu einer neuen Fehlerquelle. Melden Sie immer das Tool, die Version, die Trainingsdaten und die Stoppkriterien.

Die Validierungskrise
🔍 Das Paradox der Validierung

Um herauszufinden, ob die Maschine eine relevante Studie verpasst hat, you need a human to screen everything.

But if humans screen everything, warum das verwenden? Maschine?

The solution: prospective holdout validation.

  • Random 10% sample screened by both human and machine
  • Vergleiche: Hat die Maschine übersehen, was der Mensch gefunden hat?
  • If recall drops below 95%, retrain and expand human screening

Vertrauen, aber überprüfen. Die Maschine verdient ihre Rolle – sie erbt sie nicht.

Cochrane's COVID Response

Cochrane hat das COVID-19-Studienregister mithilfe von Klassifikatoren für maschinelles Lernen erstellt, die auf Millionen von Datensätzen trainiert wurden. Das System erreichte eine Empfindlichkeit von 99 % und reduzierte gleichzeitig die manuelle Überprüfung von Wochen auf Tage.

Aber die Maschine war ein Werkzeug, kein Ersatz. Jede eingeschlossene Studie wurde weiterhin von menschlichen Gutachtern überprüft. Die Lektion: KI erweitert den Gutachter, ersetzt ihn nicht.

Die Studie, die fast nicht gefunden wurde

Im Juni 2020 veröffentlichte die RECOVERY-Studie ihre Dexamethason-Ergebnisse –the first treatment proven to reduce COVID mortality (28-day mortality: 22.9% vs 25.7%, RR 0.83).

Der Vorabdruck erschien auf medRxiv mit einem nicht standardmäßigen Titel. Szenarien wie dieses traten während der Pandemie wiederholt auf: ML-Klassifikatoren, die auf der vorhandenen Terminologie geschult waren, stuften unbekannte Formulierungen niedrig ein.

In mehreren Live-Reviews erkannten menschliche Gutachter, die markierte Titel scannten, wichtige Medikamentennamen und eskalierten Studien, die von Klassifizierern herabgestuft worden waren.

Ohne diese Menschen hätten bahnbrechende Behandlungsergebnisse womöglich Wochen auf ihre Veröffentlichung gewartet die lebende Rezension.

Die Maschine liest schneller. Der Mensch liest tiefer. Beides allein reicht nicht aus.

Ihre Rezension wird mehr als 5.000 Titel prüfen?
Yes → Consider AI-assisted screening

Active learning prioritization. Dual-screen random 10% holdout. Stop when 3 consecutive batches yield 0 relevant studies.

Report: classifier type, training data, recall on holdout, stopping rule.

No → Manual screening is feasible

For <5,000 titles, dual human screening remains gold standard. AI adds complexity without proportionate benefit.

Ist dies eine lebendige oder eine schnelle Rezension?

If yes → AI is especially valuable. Continuous classifier retraining on new evidence. But: Überlassen Sie niemals die Maschine die endgültige Aufnahmeentscheidung.

Das Muster wiederholt sich
Methodologist

Erinnern Sie sich an Modul 6? Poldermans fabrizierte DECREASE-Daten, die ein Jahrzehnt lang die Leitlinien für perioperative Betablocker leiteten.

AI can now detect statistical anomalies automatically:

  • GRIM test: Sind die gemeldeten Mittelwerte mit ganzzahligen Stichprobengrößen konsistent?
  • SPRITE: Können die gemeldeten zusammenfassenden Statistiken aus plausiblen Einzeldaten rekonstruiert werden?
  • Statcheck: Do reported p-values match the test statistics?

Diese Tools fanden Anomalien in hundreds of published papers—faster than any human auditor.

Aber die Maschine meldet sich. Die menschlichen Richter. Die Entscheidung zum Zurückziehen bleibt zutiefst menschlich.

Q1. Was ist der akzeptable Mindestrückruf für KI-gestütztes Screening in systematischen Übersichten?

A. 80%
B. 90%
C. >95%
D. 100%

Module 19 Complete

„Die Maschine liest schneller. Der Mensch liest tiefer. Gemeinsam lesen sie die Wahrheit.“

Nicht jedes Signal ist wahr.

Modul 20: Die Qualitativ

=========================================================== MODUL 20: DIE QUALITATIVE (Bohren 2015 – Mutterschaftsbetreuung) =========================================================

Methoden schützen Patienten vor unserem Vertrauen.

Modul 20: Die Qualitativ

🎯 Learning Objectives

  • Explain why some questions require qualitative evidence synthesis
  • Describe meta-ethnography (Noblit & Hare) and thematic synthesis
  • Apply the CERQual framework to assess confidence in qualitative findings
  • Understand mixed-methods synthesis approaches
  • Recognize when qualitative evidence changes practice

Die WHO stellte eine Frage

kein RCT konnte Antwort.

Warum erleben Frauen weltweit Respektlosigkeit und Missbrauch während der Geburt? Bohren et al. (2015) fassten 65 qualitative Studien aus 34 Ländern in einem Rahmen aus sieben Bereichen der Misshandlung zusammen.

Folie A: Eine Frage jenseits der Randomisierung

Im Jahr 2014 berief die WHO ein Gremium ein, um eine globale Krise anzugehen: Frauen wurden körperlich misshandelt, verbal gedemütigt und ihnen wurde die Betreuung während der Geburt verweigert. Dies war kein seltenes Ereignis – Berichte kamen von 34 countries.

They needed to understand WHY. What drives disrespect and abuse in maternity care?

Kein RCT konnte darauf eine Antwort geben. Sie können Frauen nicht nach dem Zufallsprinzip entweder einer missbräuchlichen oder einer respektvollen Fürsorge zuordnen. Sie können Geburtshelfer nicht blenden. Man kann „Würde“ nicht auf einer Likert-Skala messen. Die Beweise mussten qualitativ sein.

Developed by Noblit & Hare (1988), meta-ethnography translates Konzepte über Studien hinweg, statt Zahlen zu aggregieren. Es erzeugt neue Interpretationsrahmen (Konstrukte dritter Ordnung) aus Daten erster Ordnung (Teilnehmerzitate) und zweiter Ordnung (Interpretationen von Autoren).

Reciprocal
Studien bestätigen sich gegenseitig
Refutational
Studien widersprechen sich
Line of
argument
Studien bilden ein Neues Theorie

What Bohren Found: A Taxonomy of Mistreatment

1. Physical abuse

Hitting, pinching, slapping during labor

2. Sexual abuse

Inappropriate touching, non-consensual procedures

3. Verbal abuse

Shouting, threats, judgmental comments

4. Stigma & discrimination

Based on HIV status, ethnicity, age, poverty

5. Professional standards failure

Neglect, lack of informed consent

6. Poor rapport

Poor communication, dismissiveness

7. Health system conditions

Overcrowding, understaffing, lack of supplies

65 Studien. 34 Länder. Dieselben Muster wiederholen sich in allen Sprachen, Kulturen und Systemen. Das war keine Anekdote. Hierbei handelte es sich um synthetisierte Beweise.

Researcher

CERQual assesses confidence in qualitative review findings across four components:

1

Methodological Limitations

Qualität der beitragenden Studien.

2

Coherence

Wie gut Daten den Befund stützen.

3

Adequacy

Datenreichtum (nicht nur die Anzahl der Studien).

4

Relevance

Anwendbarkeit auf den Kontext der Überprüfungsfrage.

Folie C: Von der Evidenz zur Aktion

Bohren's synthesis informed the WHO's 2018 Recommendations on Intrapartum Care for a Positive Childbirth Experience. Specific changes grounded in qualitative evidence:

Rec. 15
Companionship during labor
Rec. 1
Respectful maternity care
Rec. 3
Effective communication
Rec. 12
Emotional support

Diese auf qualitativer Evidenz basierenden Empfehlungen leiten nun die Geburtshilfe in 194 WHO-Mitgliedstaaten. Kein Waldstück hätte sie hervorbringen können. Keine I²-Statistik hätte sie aufdecken können.

Bohren's Framework of Mistreatment

Die qualitative Synthese von 2015 identifizierte sieben Bereiche: körperlicher Missbrauch, sexueller Missbrauch, verbaler Missbrauch, Stigmatisierung und Diskriminierung, Nichteinhaltung beruflicher Standards, schlechte Beziehungen und Zustände im Gesundheitssystem. Dieser Rahmen floss in die WHO-Empfehlungen zur intrapartalen Versorgung (2018) ein.

Kein p-Wert konnte die Erfahrung einer Ohrfeige während der Wehen erfassen. Qualitative Synthese gab dem Ausdruck, was Zahlen nicht konnten.

ROOT: Geht es bei Ihrer Forschungsfrage um Erfahrungen, Wahrnehmungen, Barrieren oder Erleichterungen?

YES → Geht es bei Ihrer Frage um das WIE oder WARUM, nicht nur um das OB?

  • Yes: Qualitative evidence synthesis (meta-ethnography, thematic synthesis, or framework synthesis)
  • No: Betrachten Sie gemischte Methoden: quantitativ für die Wirkung + qualitativ für Mechanismus

NO → Geht es bei Ihrer Frage um Wirksamkeit/Wirksamkeit?

  • Yes: Quantitative meta-analysis
  • But: Ergänzung durch qualitative Überprüfung der Implementierungsbarrieren (CERQual-assessed)

Key insight: Die stärksten systematischen Überprüfungen beantworten BEIDE: Funktioniert es? (quantitativ) UND Warum funktioniert es oder scheitert es? (qualitativ)

Q1. What distinguishes meta-ethnography from quantitative meta-analysis?

A. Es umfasst nur 3–5 Studien
B. It translates concepts across studies rather than pooling numbers
C. It does not require a systematic search
D. It is less rigorous than quantitative synthesis

Module 20 Complete

„Nicht alles, was zählt, kann gezählt werden. Nicht alles, was gezählt wird, zählt.“

Heterogenität ist eine Botschaft, kein Rauschen.

Modul 21: Die Multivariat

========================================================== MODUL 21: DAS MULTIVARIAT (Korrelierte Ergebnisse / RVE) =========================================================

Heterogenität ist eine Botschaft, kein Rauschen.

Modul 21: Die Multivariat

🎯 Learning Objectives

  • Erkennen Sie, wann Ergebnisse innerhalb einer Studie korrelieren
  • Explain multivariate random-effects models
  • Apply robust variance estimation (RVE) for dependent effect sizes
  • Drei-Ebenen-Modelle für verschachtelte Modelle verstehen Daten
  • Choose between multivariate approaches based on data structure

Cardiovascular trials report

Mortalität, MI, Schlaganfall und mehr.

Diese Ergebnisse korrelieren innerhalb der Patienten. Ein Patient, der stirbt, kann keinen MI-Endpunkt haben. Die Standard-Metaanalyse behandelt jedes Ergebnis unabhängig voneinander – ignoriert die Abhängigkeit und potenziell doppelt gezählte Beweise.

Folie A: Die Bequemlichkeitslüge

Öffnen Sie ein beliebiges Standard-Metaanalyse-Lehrbuch. Die Modelle gehen davon aus, dass jede Studie einen Beitrag leistet one independent effect size. But reality is different.

Eine einzelne kardiovaskuläre Studie berichtet über Mortalität, Myokardinfarkt, Schlaganfall und Revaskularisation. Eine einzelne Psychotherapiestudie berichtet über Depressionen, Angstzustände und Lebensqualität nach 3, 6 und 12 Monaten.

30 trials
× 4 outcomes
= 120
effect sizes

Most analysts either: (a) treat all 120 as independent (inflating precision by a factor of √4), or (b) Wählen Sie ein Ergebnis und verwerfen Sie den Rest. Beide Ansätze sind falsch.

In standard pairwise meta-analysis, each study contributes one effect size. But many studies report multiple outcomes, subgroups, timepoints, or arms—creating dependent Effektgrößen. Das Ignorieren erhöht die Präzision und verzerrt die Schlussfolgerung.

RVE
Robust Variance Estimation. Sandwich estimator handles unknown correlation.
3-Level
Study → Outcome nesting modeled explicitly.
Researcher

RVE (Hedges, Tipton & Johnson, 2010) uses a sandwich-type Schätzer, der unabhängig von der wahren Korrelation zwischen abhängigen Effekten gültige Standardfehler liefert. Es ist nicht erforderlich, die Korrelation innerhalb der Studie zu kennen oder abzuschätzen. Am besten für ≥20 Studien.

Small-sample correction: Tipton & Pustejovsky (2015) entwickelten Korrekturen für kleine Stichproben (CR2) für RVE unter Verwendung von Satterthwaite-Freiheitsgraden, wenn die Anzahl der Cluster klein ist.

Folie B: Die mathematische Wahrheit
Researcher

What Dependence Does to Your Confidence Intervals

Wenn 4 Die Ergebnisse derselben Studie weisen eine studieninterne Korrelation von ρ = 0,5 auf:

Treating as independent

CI width = X

Berücksichtigung der Abhängigkeit

CI width = 1.58X

Ihr Konfidenzintervall sollte 58% widersein. Jede Metaanalyse, die dies ignorierte, veröffentlichte falsch genaue Ergebnisse.

RVE (Hedges, Tipton & Johnson, 2010): Uses a “sandwich” variance estimator that produces correct standard errors without needing to know the exact within-study correlation.

Researcher
1

Level 1: Sampling Variance

Measurement error within each effect size estimate.

2

Level 2: Within-Study Variance

Ergebnisse und Zeitpunkte variieren innerhalb einer einzelnen Studie.

3

Level 3: Between-Study Variance

Studien unterscheiden sich voneinander in Populationen, Settings und Methoden.

Example: In einer Metaanalyse der Psychotherapie bei Depressionen (k=50 Studien, 180 Wirkung Größen), 35% der Varianz war innerhalb der Studie (verschiedene Ergebnisse) und 65% zwischen den Studien (verschiedene Therapien, Populationen). Diese Zerlegung zeigt, wie groß die Heterogenität ist. within vs between studies.

Methodologist

Wenn Effekte verschachtelt sind (z. B. mehrere Ergebnisse innerhalb von Studien oder Studien innerhalb von Forschungsgruppen), a three-level model unterteilt die Varianz in: (1) Stichprobenvarianz (Stufe 1), (2) studieninterne Varianz (Stufe 2) und (3) studienübergreifende Varianz (Stufe 3). Dadurch bleibt die korrekte Schlussfolgerung erhalten, während die Stärke auf allen Ebenen ausgeliehen wird.

Die kardiovaskuläre Herausforderung

Eine Metaanalyse von Statinen könnte 30 Studien umfassen, von denen jede über Mortalität, Myokardinfarkt, Schlaganfall und Revaskularisation berichtet. Das sind 120 Effektgrößen aus 30 Clustern. Wenn man sie als 120 unabhängige Schätzungen behandelt, erhöht sich die Präzision um einen Faktor, der mit der Korrelation innerhalb der Studie zusammenhängt.

RVE or multivariate models handle this correctly—producing wider, honest confidence intervals.

ROOT: Hat Ihre Metaanalyse mehrere Effekte pro Studie?

YES → Kennen (oder können Sie abschätzen) die studieninternen Zusammenhänge?

  • Yes: Multivariate random-effects model (most efficient)
  • No: RVE with small-sample correction (robust to unknown correlations)

NO → Standard univariate random-effects model

Sub-question: Sind Ihre multiplen Effekte auf unterschiedliche Ergebnisse, Zeitpunkte oder Untergruppen zurückzuführen?

  • Different outcomes → Three-level model or RVE with clustering
  • Different timepoints → Network of timepoints with temporal correlation
  • Different subgroups → Consider if subgroups are meaningful or should be averaged

Q1. What problem does Robust Variance Estimation (RVE) solve?

A. Publication bias
B. Abhängigkeit zwischen mehreren Effektgrößen aus derselben Studie
C. Between-study heterogeneity
D. Small-study effects

Module 21 Complete

„Wenn die Ergebnisse miteinander verflochten sind, ist es eine Lüge aus Bequemlichkeit, so zu tun, als wären sie unabhängig.“

Die Zahl ohne Herkunft ist keine Zahl.

Modul 22: Der Beweis

========================================================= MODUL 22: DER BEWEIS (Reinhart-Rogoff Excel-Fehler) =========================================================

Die Zahl ohne Herkunft ist keine Zahl.

Modul 22: Der Beweis

🎯 Learning Objectives

  • Understand how computational errors propagate through policy
  • Definieren Sie Reproduzierbarkeit und unterscheiden Sie von Reproduzierbarkeit
  • Wenden Sie Beweis-Hashing und beweistragende Zahlen an
  • Use reproducibility checklists for meta-analysis
  • Erkennen Sie die Rolle der Vorregistrierung und offener Daten

A graduate student opened a spreadsheet

und stellte fest, dass die Ära der Sparmaßnahmen auf einem Fehler beruhte.

Im Jahr 2010 behaupteten Reinhart und Rogoff, dass Länder mit einer Schuldenquote von >90 % im Verhältnis zum BIP ein negatives Wachstum verzeichneten. Dies beeinflusste die Sparpolitik in ganz Europa. Im Jahr 2013 entdeckte Thomas Herndon einen Excel-Fehler, der fünf Länder aus dem Durchschnitt ausschloss. Das korrigierte Ergebnis: bescheidenes positives Wachstum, kein Einbruch.

Reproducible
Same data + same code = same result
Replicable
Neue Daten + gleiche Methoden = konsistentes Ergebnis

Reproducibility is the minimum standard. Wenn andere Ihre gepoolte Schätzung anhand Ihrer gemeldeten Daten nicht reproduzieren können, kann die Analyse nicht verifiziert werden. Metaanalysen sollten Folgendes teilen: extrahierte Daten, Analyseskripte, Softwareversionen und zufällige Seeds.

Researcher

Every number in a meta-analysis should carry its provenance: woher es kam, wie es transformiert wurde und welcher Code es erzeugte. Evidence hashing creates a cryptographic fingerprint of inputs so any change (accidental or deliberate) is detectable.

SHA

Input Hash

SHA-256-Hash der extrahierten Daten. Wenn sich eine Zelle ändert, ändert sich der Hash. Provenienzkette: Daten → Code → Ergebnis → Hash.

Kreuzen Sie jedes Element an, um die Reproduzierbarkeit einer Metaanalyse zu beurteilen. Wie schneidet Ihre Rezension ab?

Der Excel-Fehler, der die Volkswirtschaften veränderte

Reinhart-Rogoffs „Wachstum in einer Zeit der Schulden“ wurde in Zeugenaussagen vor dem Kongress, in Berichten der Europäischen Kommission und in Policy Briefs des IWF zitiert. Der Excel-Fehler (Zeilen 30–34 wurden aus einer AVERAGE-Formel ausgeschlossen) führte dazu, dass fünf Länder – Australien, Österreich, Belgien, Kanada und Dänemark – einfach fehlten.

Der korrigierte Durchschnitt stieg von −0,1 % auf +2,2 %. Millionen Menschen waren von der Sparpolitik betroffen. Reproduzierbarkeit ist kein akademischer Perfektionismus – sie ist ein Schutz vor Katastrophen.

Remember Module 5?

DECREASE Through the Lens of Reproducibility

Die DECREASE-Studien von Don Poldermans wurden wegen gefälschter Daten zurückgezogen. Hätten beweiskräftige Zahlen existiert – gehashte Eingaben, Herkunftsketten, verifizierte Berechnungen –, wäre die Fälschung erkennbar gewesen before Die Beweise gingen in Metaanalysen ein und veränderten die chirurgischen Richtlinien.

Q1. War der Reinhart-Rogoff-Fehler?

A. They used too small a sample
B. An Excel formula excluded 5 countries, reversing the conclusion
C. They studied the wrong time period
D. They used the wrong statistical test

Module 22 Complete

„Die Zahl ohne Herkunft ist keine Zahl. Die Analyse ohne Reproduzierbarkeit ist kein Beweis.“

Certainty must be earned, not assumed.

Modul 23: Ihr erster Meta-Sprint

Modul 23: Capstone – Ihr erster Meta-Sprint

Certainty must be earned, not assumed.

Modul 23: Ihr erster Meta-Sprint

🎯 Learning Objectives

  • Verstehen Sie den 40-tägigen systematischen Überprüfungsworkflow
  • Map the Seven Principles to real practice phases
  • Recognize Definition-of-Done (DoD) gates as quality checkpoints
  • Appreciate why structure prevents the failures you've studied
  • Graduate ready to conduct (not just understand) meta-analysis
Die Reise ist abgeschlossen

Du hast die Geschichten gelernt.

Jetzt müssen Sie den Weg gehen.

Jede Umkehrung der Beweise, die Sie untersucht haben, geschah aufgrund von Teams knew die Methoden, aber nicht follow them systematically.

Das META-SPRINT Framework

Ein 40-tägiger strukturierter Workflow mit 5 Phasentoren. Jedes Gate ist ein Definition-of-Done (DoD)-Kontrollpunkt, der Sie daran hindert, weiterzumachen, bis die Qualität sichergestellt ist.

40
Days to Completion
5
DoD Phase Gates
Day 34
Hard Freeze

Why 40 days? Lang genug für Genauigkeit, kurz genug, um ein Scope Creep zu verhindern. Die Rosiglitazon-Herzsignale wurden jahrelang vergraben, weil es keine Frist gab, die Transparenz erzwang.

Die fünf Tore
A

DoD-A: Protocol Lock (Days 1-3)

PICOS defined, timepoint rules set, model choices pre-specified. No moving target.

B

DoD-B: Search Lock (Days 6-10)

All databases searched, grey literature checked, PRESS validated. No hidden studies.

C

DoD-C: Extraction Lock (Days 10-28)

Dual extraction, provenance linked, RoB assessed. No fabricated numbers.

D

DoD-D: Analysesperre (Tage 21-33)

Forest plots generated, sensitivity analyses run, heterogeneity explored. No cherry-picking.

E

DoD-E: Submission Lock (Days 33-40)

GRADE certainty rated, clinical summary written, manuscript finalized. No overconfidence.

Day 34 Freeze: Das können keine neuen Studien nach Tag 34 hinzugefügt werden. Dies verhindert das „Waffe-Scope-Creep“, das die BMP-Metaanalysen zur Wirbelsäulenchirurgie plagte, in denen die Industrie immer wieder günstige Studien „fand“.

Every principle you learned maps to a specific phase gate:

DoD-A "Nicht jedes Signal ist wahr“ – Geben Sie im Voraus an, was zählt Beweise
DoD-B "What was hidden in plain sight?" — Search comprehensively
DoD-C "Die Zahl ohne Herkunft ist keine Zahl" — Verknüpfen Sie jeden Datenpunkt
DoD-D "Heterogenität ist eine Botschaft, kein Rauschen" — Investigate, don't ignore
DoD-E "Certainty must be earned, not assumed" — GRADE everything

Das Red-Team-Prinzip

Ihr eigenes Team versucht es Unterbrechen Sie Ihre Arbeit.

Jeden Tag verbringen zwei rotierende Teammitglieder 12 Minuten damit, als Gegner die Datenqualität zu überprüfen. Auf diese Weise wurde Boldts Betrug aufgedeckt – nicht durch eine freundliche Überprüfung, sondern durch eine skeptische Überprüfung, bei der unmögliche Rekrutierungsquoten festgestellt wurden.

What happens when you discover a critical problem mid-sprint?

CondGO = Conditional Go

A bounded rescue protocol. You have exactly 72 hours um das Problem nur mithilfe zulässiger Aktionen zu beheben. Wenn Sie das Problem nicht beheben können, müssen Sie die Überprüfung beenden.

📖 Die Avandia-Lektion: GSK sah im Jahr 2000 kardiovaskuläre Signale, hatte aber keine vorgeschriebene Frist. Sie haben sieben Jahre lang „zugeschaut und gewartet“. Zehntausende wurden verletzt. CondGO existiert, weil „wir uns irgendwann damit befassen“ Menschen umbringt.

Sie haben diesen Kurs mit Geschichten begonnen.

Sie beenden ihn bereit zum Üben.

Der META-SPRINT-Workflow nimmt alles, was Sie gelernt haben, und strukturiert es in ein 40-Tage-System, das die Fehler verhindert, die Sie haben untersucht.

Wenn Sie bereit sind, eine echte systematische Überprüfung durchzuführen, öffnen Sie die META-SPRINT-Anwendung. Die Geschichten, die Sie hier gelernt haben, werden Sie leiten und bei jedem Schritt als Erinnerung auftauchen.

GESCHICHTE: Die CTT-Zusammenarbeit – Wenn Methoden Millionen retten

What does it look like when every principle is followed?

REAL DATA

Die Zusammenarbeit der Cholesterol Treatment Trialists (CTT) ist der Goldstandard der Metaanalyse. Sie erhielten individuelle Patientendaten von mehr als 170.000 Teilnehmern across 26 statin trials. Pre-specified protocol. IPD from all major trials. Standardized outcomes. Result: statins reduce major vascular events by 21% per mmol/L LDL reduction (RR 0.79, 95% CI 0.77-0.81), regardless of baseline risk. This finding, replicated across 5 Metaanalysen über 15 Jahre, has prevented an estimated millions of heart attacks and strokes worldwide.

Die sieben Prinzipien wurden angewendet
Die CTT-Geschichte zeigt, was passiert, wenn jedes Prinzip aus diesem Kurs befolgt wird. Betrachten Sie die Alternative:
PFAD A: Ohne die Prinzipien
No protocol. Published data only. No RoB. No heterogeneity investigation. No GRADE.
Conflicting small trials. Statin controversy persists. Millions untreated.
OUTCOME: Preventable cardiovascular deaths continue
PFAD B: Der CTT-Weg
Vorregistriertes Protokoll. IPD aus allen Studien. Standardisierte Ergebnisse. Transparente Methoden. STUFE Hohe Sicherheit.
Definitive Antwort. Globale Richtlinien ändern sich. Statine werden denen verschrieben, die davon profitieren.
OUTCOME: Millions of lives saved by rigorous evidence synthesis
THE REVELATION
Jeder Grundsatz in diesem Kurs existiert, weil sein Fehlen Schaden verursacht hat. Die CTT-Kollaboration beweist, dass die Metaanalyse zum leistungsstärksten Werkzeug in der Medizin wird, wenn die Methoden streng sind, wenn die Daten ihre Herkunft haben, wenn Voreingenommenheit beurteilt und Gewissheit erlangt wird. Sie tragen nun diese Prinzipien. Benutze sie.

1. Was ist der Zweck des „Hard Freeze“ an Tag 34 in META-SPRINT?

A. Um Zeit für die Begutachtung durch Fachkollegen zu haben
B. Um zu verhindern, dass spät hinzugefügte Studien Ergebnisse manipulieren
C. To speed up publication
D. Zur Abstimmung mit Zeitschriftenfristen

2. The CondGO protocol gives teams how long to fix critical problems?

A. 24 hours
B. 48 hours
C. 72 hours
D. 1 week

3. Red-team adversarial QA caught Joachim Boldt's fraud by noticing:

A. Impossible patient recruitment rates
B. p-hacking in statistical tests
C. Inconsistent effect sizes
D. Whistleblower testimony

Die Geschichten, die Sie gelernt haben, sind keine Geschichte.

Es sind Warnungen, die Ihre zukünftige Arbeit schützen.

Wenn Sie Ihre erste Metaanalyse durchführen,
remember CAST before you trust a signal,
remember Poldermans before you skip provenance,
denken Sie an Reboxetine, bevor Sie den Trichter ignorieren.

Sie sind jetzt bereit. Gehen Sie mit Struktur vor. Gehen Sie mit Demut. Befolgen Sie die sieben Prinzipien.

Nicht jedes Signal ist wahr.

Modul 24: Abschlussprüfung

Certainty must be earned, not assumed.

Final Examination

Testen Sie Ihre Beherrschung der Prinzipien der Metaanalyse. Jede Frage befasst sich mit einem Kernkonzept des Kurses.

Q1. Ein Forscher möchte „die Auswirkungen von Bewegung auf die Gesundheit“ untersuchen. Was ist das PRIMÄRE Problem bei dieser Forschungsfrage?

A. It lacks randomization
B. Sample size is too small
C. It is not answerable—lacks specific PICO elements
D. It lacks ethical approval

Q2. Ein Trichterdiagramm zeigt eine ausgeprägte Asymmetrie mit fehlenden Studien im unteren linken Bereich. Was deutet das darauf hin?

A. Large studies have more precise estimates
B. Kleine negative Studien sind wahrscheinlich unveröffentlicht
C. The true effect is stronger than estimated
D. Random sampling error

Q3. Eine Metaanalyse berichtet von I² = 85 % und τ² = 0,42. Was ist die am besten geeignete Interpretation?

A. There is an 85% chance of a true effect
B. The effect size is very large
C. Substantial between-study variance exists; investigate sources
D. Die Ergebnisse sind klinisch wichtig

Q4. Was ist in GRADE die Ausgangssicherheit für eine Reihe von Beweisen aus randomisierten kontrollierten Studien?

A. High
B. Moderate
C. Low
D. Very low

Q5. In RoB 2.0, which domain assesses whether outcome assessors knew the treatment allocation?

A. D1: Randomization process
B. D2: Abweichungen von beabsichtigten Interventionen
C. D3: Fehlendes Ergebnis Daten
D. D4: Messung des Ergebnisses

Q6. Die CAST-Studie zeigte, dass Antiarrhythmika die Sterblichkeit trotz der Unterdrückung von Arrhythmien erhöhten. Dies ist ein Beispiel für:

A. Random sampling error
B. Surrogate outcome failure
C. Confounding by indication
D. Reverse causation

Q7. When should a random-effects model be preferred over a fixed-effect model?

A. When sample sizes are large
B. Wenn Ergebnisse binär sind
C. When between-study heterogeneity is expected
D. When publication bias is suspected

Q8. According to ICEMAN criteria, which makes a subgroup analysis MORE credible?

A. Hypothesis specified a priori
B. Large number of subgroups tested
C. No biological rationale
D. Inconsistent effects across trials within subgroup

Q9. What assumption must be checked in network meta-analysis to ensure valid indirect comparisons?

A. All studies have equal sample sizes
B. Alle Studien messen das gleiche Ergebnis
C. Transitivity (consistency of effect modifiers)
D. Double-blinding in all trials

Q10. Was zeigt das Überschreiten der Sinnlosigkeitsgrenze in der Trial Sequential Analysis (TSA) an?

A. Die Behandlung verursacht Schaden
B. Weitere Studien werden wahrscheinlich keine bedeutsame Wirkung zeigen
C. Die Evidenz ist schlüssig für den Nutzen
D. Die Metaanalyse ist unzureichend

Part 1 Complete — continue to Part 2 (Advanced Modules)

Teil 2: Fragen zum fortgeschrittenen Modul (Q11-Q25)

Questions 11–25 cover Modules 13–22 (Bayesian, NMA, IPD, Dose-Response, Fragility, Equity, AI, Qualitative, Multivariate, Reproducibility).

Q11. Was passiert in der Bayes'schen Metaanalyse, wenn Sie in vielen Studien einen vagen Prior verwenden?

A. Der Posterior stimmt gut mit dem frequentistischen Ergebnis überein
B. Der Prior dominiert den Posterior
C. The credible interval becomes infinitely wide
D. Das Modell versagt konvergieren

Q12. Warum wurde bei Ciprianis Antidepressivum NMA kein einzelnes Medikament zum „Gewinner“ erklärt?

A. Zu wenige Studien
B. Different drugs ranked best on different outcomes
C. Es waren keine indirekten Beweise verfügbar
D. SUCRA konnte nicht sein berechnet

Q13. Warum sollten Sie IPD niemals wie aus einer Megastudie zusammenfassen?

A. IPD always has fewer studies than aggregate
B. Es ignoriert Studien-Clustering und führt zu Verwirrung
C. Es kann keine Zeit-bis-Ereignis-Daten verarbeiten
D. Binary outcomes cannot be pooled

Q14. What caused the alcohol "J-curve" to disappear in Stockwell's reanalysis?

A. Neue Studien wurden hinzugefügt, die nein zeigten Nutzen
B. Ehemalige Trinker wurden korrekt aus der Referenzgruppe der Abstinenzler entfernt
C. Die Stichprobengröße wurde erhöht
D. Bessere Anpassung für Störfaktoren

Q15. Was hat Cochrane in der Oseltamivir-Saga herausgefunden, als er auf unveröffentlichte klinische Ergebnisse zugegriffen hat? Studienberichte?

A. Das Medikament war völlig wirkungslos
B. Die Wirkung war größer als ursprünglich angenommen
C. Der Nutzen für Komplikationen verschwand weitgehend
D. Side effects were more common than reported

Q16. Wie viel Prozent der US-amerikanischen Hypertoniker hätten sich NICHT für die SPRINT-Studie qualifiziert?

A. About 25%
B. About 50%
C. Over 75%
D. Nearly 100%

Q17. Why is AI considered an "augmenter" rather than a "replacer" in systematic reviews?

A. AI is slower than human reviewers
B. AI has perfect recall
C. AI screens fast but cannot make human-level contextual judgments
D. AI is too expensive for most reviews

Q18. What does the "adequacy" component of CERQual assess?

A. Die Anzahl der Studien Nur
B. Die Fülle und Menge der Daten, die den Befund stützen
C. Konsistenz der Ergebnisse über Studien hinweg
D. Generalizability to other populations

Q19. A meta-analysis includes 30 statin trials, each reporting 4 correlated outcomes (120 effect sizes). Which approach is correct?

A. Treat all 120 as independent effect sizes
B. Use RVE with small-sample correction
C. Pick only one outcome per study
D. Durchschnitt der 4 Ergebnisse innerhalb jeder Studie

Q20. Wie hoch war im Reinhart-Rogoff-Fehler die korrigierte durchschnittliche Wachstumsrate für hohe Schulden? Länder?

A. −0.1% (same as claimed)
B. +2.2%
C. 0%
D. +5%

Passing Score: 15/20 across both parts

Überprüfen Sie alle verpassten Fragen, indem Sie zum entsprechenden Modul zurückkehren. Jede Frage testet ein Kernkonzept.

Nicht jedes Signal ist wahr.

Methoden schützen Patienten vor unserem Vertrauen.

Congratulations

Sie haben den Kurs „Evidence Reversal: A Meta-Analysis“ abgeschlossen.

Möge Ihre Synthese von der Wahrheit, Ihre Zusammenfassung von Weisheit,
und Ihre Schlussfolgerungen von Demut geleitet werden.

Die Sieben Prinzipien:

„Nicht jedes Signal ist die Wahrheit.“

„Methoden schützen Patienten vor unserem Vertrauen.“

"What was hidden in plain sight?"

„Die Zahl ohne Herkunft ist keine Zahl.“

“Heterogenität ist eine Botschaft, kein Rauschen.“

“Das Fehlen von Beweisen ist kein Beweis für Abwesenheit.“

"Certainty must be earned, not assumed."

"Führe uns auf den geraden Weg..."