Nicht jedes Signal ist wahr.
Modul 0: Die Eröffnung
🎯 Learning Objectives
- Definieren Sie die Metaanalyse und erklären Sie ihre Rolle bei der Evidenzsynthese
- Identifizieren Sie, wann Studien NICHT gepoolt werden sollten
- Beschreiben Sie die Evidenzhierarchie und wo systematische Überprüfungen stattfinden sit
- Recognize that meta-analysis can mislead when done poorly
- Erinnern Sie sich an die sieben Prinzipien, die diesem Kurs zugrunde liegen
Dieser Kurs existiert, weil
die Medizin falsch war.
Nicht ein einziges Mal. Nicht selten. Wiederholt. Auf eine Weise, die Patienten tötete, die darauf vertrauten, dass die Beweise stichhaltig waren.
What is Meta-Analysis?
Eine statistische Methode zum Kombinieren von Ergebnissen aus mehreren unabhängigen Studien, die sich mit derselben Frage befassen.
*When well conducted. Quality of conduct matters more than study design alone — as GRADE recognizes.
Warum Pool-Studien?
Increase Statistical Power
Individual studies may be too small to detect effects.
Improve Precision
Narrower confidence intervals around effect estimates.
Resolve Disagreement
Wenn Studien widersprüchlich sind, kann das Pooling das Signal klären.
Explore Heterogeneity
Identify why effects differ across populations or settings.
But meta-analysis can also
MISLEAD
When done poorly, it amplifies bias rather than truth.
Wann NICHT gepoolt werden sollte
Studien messen grundlegend unterschiedliche Dinge (Äpfel und Orangen)
Extreme heterogeneity that cannot be explained
One study dominates all others (megastudy problem)
Studien weisen ein hohes Risiko einer Verzerrung auf, die nicht angepasst werden kann
Pooling ist ein Privileg, kein Recht.
The decision to combine must be defended.
Die Hierarchie der Beweise
Systematic Reviews & Meta-Analyses of RCTs
Randomized Controlled Trials
Cohort Studies
Case-Control Studies
Case Series / Expert Opinion
Die Position in der Hierarchie hängt von der Qualität der Methodik ab, nicht vom Studientyp allein.
Dieser Kurs vermittelt durch
evidence reversals.
Jedes Modul beginnt mit einer Geschichte darüber, wie die Medizin Fehler gemacht hat. Dann lernen wir die Methode kennen, die den Schaden verhindert hätte.
Die sieben Prinzipien
Diese Sätze werden auf Ihrer Reise immer wiederkehren:
1. „Nicht jedes Signal ist die Wahrheit.“
2. „Methoden schützen Patienten vor unserem Vertrauen.“
3. "What was hidden in plain sight?"
4. „Die Zahl ohne Herkunft ist keine Zahl.“
5. “Heterogenität ist eine Botschaft, kein Rauschen.“
6. “Das Fehlen von Beweisen ist kein Beweis für Abwesenheit.“
7. "Certainty must be earned, not assumed."
Module 0 Quiz
1. Warum sollte man Studien manchmal NICHT in einer Metaanalyse zusammenfassen?
2. Wo befinden sich systematische Überprüfungen von RCTs in der Evidenzhierarchie?
Beginnen Sie die Reise.
Modul 1: Die Frage
Nicht jedes Signal ist wahr.
Dies ist keine Geschichte über Fehler.
Es ist eine Geschichte über Gewissheit.
Modul 1: Die Frage
🎯 Learning Objectives
- Formulieren Sie eine gezielte PICO-Frage für eine systematische Überprüfung.
- Distinguish surrogate outcomes from patient-important outcomes
- Explain why biological plausibility alone is insufficient evidence
- Beschreiben Sie die CAST-Studie und ihre Auswirkungen auf die evidenzbasierte Analyse Medizin
- Wenden Sie den Grundsatz an: „Nicht jedes leuchtende Zeichen ist Führung“
~9,000
excess deaths per year
From a treatment everyone believed worked.
Dies ist die Geschichte davon, wie wir geglaubt haben – und wie wir falsch lagen.
The Observation
Patients with frequent PVCs after MI had 2-5x higher mortality.
A massive clinical need. A clear target.
The Response
Antiarrhythmic drugs were developed, FDA approved,
and prescribed to ~200,000 patients per year.
Hier taucht kein Bösewicht auf Geschichte.
Jeder handelte auf der Grundlage der besten verfügbaren Beweise.
Die Logik, die alle überzeugte
PVCs after MI predict sudden cardiac death
Antiarrhythmic drugs suppress PVCs
Suppressing PVCs should prevent sudden death
Antiarrhythmics save lives in post-MI patients
Die Kette war logisch. Die Schlussfolgerung schien unvermeidlich.
CAST: The Cardiac Arrhythmia Suppression Trial
Finally, someone asked: "Does suppressing PVCs actually save lives?"
Die Ergebnisse: April 1989
Das Data Safety Monitoring Board stoppt den Versuch vorzeitig.
| Outcome | Drug (n=755) | Placebo (n=743) |
|---|---|---|
| Arrhythmic deaths | 33 | 9 |
| All cardiac deaths | 43 | 16 |
| Total deaths | 56 | 22 |
| Death rate | 7.4% | 3.0% |
Die Medikamente, die Arrhythmien perfekt unterdrückten, erhöhten die Sterblichkeit um 150 %.
Der Mensch Kosten
Before CAST, ~200,000 Americans per year received these drugs.
~9,000
excess deaths per year - possibly more
Vietnam War: ~6,000 US deaths/year • These drugs: ~9,000+ deaths/year
For every number, a name we will never know.
Look again.
Die Logik – überarbeitet
PVCs after MI predict sudden cardiac death
Antiarrhythmic drugs suppress PVCs
Suppressing PVCs should prevent sudden death
Antiarrhythmics save lives in post-MI patients
Die Annahme, dass die Unterdrückung des Markers das Ergebnis beheben würde, wurde nie überprüft.
What Went Wrong: The Surrogate Trap
PVCs waren ein Marker für geschädigtes Gewebe und keine Todesursache.
The drugs had proarrhythmic effects - triggering deadlier rhythms
Die Leihmutter verbesserte sich, während sich das Ergebnis verschlechterte – eine dissoziierte Leihmutter.
Die Leihmutter log nicht. Wir haben die falsche Frage gestellt.
Das PICO-Framework
Every answerable clinical question has four components:
Untersuchungsübung: Die Beweise vor CAST
Sie sind Kardiologe im Jahr 1988. Ein Patient hat einen Herzinfarkt überlebt, leidet aber häufig an PVC. Die Beobachtungsliteratur ist klar...
| Study | Patienten mit PVCs | Mortality Risk |
|---|---|---|
| Lown (1977) | High-grade PVCs | 2.4x higher |
| Bigger (1984) | >10 PVCs/hour | 3.1x higher |
| Mukharji (1984) | Complex PVCs | 4.8x higher |
Das Signal ist klar. Der Mechanismus ist plausibel. Würden Sie Antiarrhythmika verschreiben?
Before: Observational Logic
PVCs → Higher mortality
Drugs suppress PVCs
∴ Drugs should reduce mortality
After: CAST RCT (1989)
Death rate on drug: 7.4%
Death rate on placebo: 3.0%
RR = 2.5 (150% increase in deaths)
Dem Ersatz ging es besser. Die Patienten starben. Deshalb fragen wir: „Was ist das Ergebnis, das zählt?“
Die Lehren für die Evidenzsynthese
Biologische Plausibilität ist kein Beweis
A logical mechanism doesn't guarantee the expected effect.
Surrogate endpoints can mislead
Improving a biomarker doesn't prove improvement in outcomes.
Randomisierte Studien liefern die stärksten kausalen Beweise
Beobachtungsdaten allein Stellt selten einen Kausalzusammenhang für Interventionen aufgrund von Verwirrung fest.
Konsens ist kein Beweis
200.000 Verschreibungen, FDA-Zulassung und Richtlinien waren alle falsch.
This is why we do meta-analysis: to see past apparent truths.
Was Wenn die von Ihnen gestellte Frage darüber entscheidet, wer lebt und wer stirbt?
REAL DATA
Im Jahr 1989 wussten Kardiologen, dass PVC-Unterdrückung mit Encainid und Flecainid erreichbar war. Der Ersatzendpunkt sah perfekt aus: Medikamente unterdrückten die PVCs um 80%+. But CAST randomized 1,498 patients zum aktiven Medikament vs. Placebo. Die Studie wurde vorzeitig abgebrochen: 56 deaths in the drug group vs 22 in placebo. Mortality increased 2.5-fold. An estimated ~9,000 excess American deaths per year waren auf diese Medikamente zurückzuführen.
What appears certain may be wrong.
What everyone believes may be false.
Es gibt Methoden, sodass Patienten nicht für unser Vertrauen bezahlen.
Deshalb sind Sie hier.
Module 1 Quiz
1. Was war der grundlegende Fehler in der antiarrhythmischen Logik?
2. Wofür steht in PICO das „O“ und warum ist es wichtig?
Nicht jedes Signal ist wahr.
Methoden schützen Patienten vor unserem Vertrauen.
What was hidden in plain sight?
Dies ist eine Geschichte über
observational evidence.
Modul 2: Das Protokoll
🎯 Learning Objectives
- Explain why protocol pre-registration prevents bias
- Identify key elements of a PROSPERO registration
- Distinguish healthy user bias from true treatment effects
- Describe why observational studies overestimated HRT benefits
- Wenden Sie das Prinzip an: „Methoden schützen Patienten vor unserem.“ Vertrauen"
30+
observational studies
All showing hormone replacement therapy protected postmenopausal women from heart disease.
Die Beweise schienen überwältigend. Die Schlussfolgerung schien sicher.
Die Gesundheitsstudie der Krankenschwestern
122,000 nurses followed for decades. HRT users had 40-50% lower cardiovascular mortality.
Landmark study. Impeccable methodology. Wrong conclusion.
Die versteckte Voreingenommenheit
Healthy User Bias: Women who chose HRT were healthier, wealthier, better educated
Compliance Bias: Women who took HRT consistently also took better care of themselves
Prescriber Bias: Doctors gave HRT to healthier women with fewer risk factors
Die Behandlung schützte sie nicht. Sie waren bereits geschützt.
WHI: The Women's Health Initiative
The largest randomized trial of HRT ever conducted.
Die Ergebnisse: Juli 2002
Trial stopped early after 5.2 years. Harm exceeded benefits.
| Outcome | Hazard Ratio | Direction |
|---|---|---|
| Coronary heart disease | 1.29 | HARM |
| Stroke | 1.41 | HARM |
| Breast cancer | 1.26 | HARM |
| Pulmonary embolism | 2.13 | HARM |
The Lesson
PRE-SPECIFY
A protocol written before the search begins prevents fishing, prevents bias, prevents hindsight distortion.
Was wäre, wenn die Behandlung wirkt – aber nur für einige?
REAL DATA
WHI showed HRT increased cardiovascular events overall. But later analyses revealed a critical pattern: women who started HRT within 10 years of menopause had REDUCED cardiovascular risk. Women starting 20+ years after menopause had INCREASED risk. The overall null/harm result hid a timing effect.
PROSPERO Registration
Registrieren Sie sich, bevor Sie suchen
PROSPERO: International prospective register of systematic reviews
Sperren Sie Ihre Entscheidungen
PICO, search strategy, outcomes, analysis plan - all pre-specified
Document Amendments
Änderungen sind zulässig, müssen aber transparent und begründet sein
Prevent Duplication
Überprüfen Sie, ob Ihre Bewertung bereits vorhanden ist ab
Module 2 Quiz
1. Warum zeigte die Nurses' Health Study, dass die HRT einen Nutzen bringt, der bei WHI nicht der Fall war?
2. What is the primary purpose of PROSPERO registration?
Eine Vorabspezifikation ist nicht möglich Bürokratie.
It is protection.
Against our own tendency to find what we expect.
Methoden schützen Patienten vor unserem Vertrauen.
What was hidden in plain sight?
Modul 3: Die Suche
What was hidden in plain sight?
Dies ist eine Geschichte über
what they didn't publish.
Modul 3: Die Suche
🎯 Learning Objectives
- Develop a comprehensive search strategy using PRESS guidelines
- Search multiple databases including grey literature sources
- Identify trial registries and regulatory databases (ClinicalTrials.gov, FDA)
- Explain how the rosiglitazone case exposed hidden cardiovascular harms
- Wenden Sie das Prinzip an: „Was war in aller Öffentlichkeit verborgen?“
$3.2B
annual sales at peak
Avandia (Rosiglitazon) war einer von ihnen Die weltweit meistverkauften Diabetesmedikamente.
Die veröffentlichten Studien sahen beruhigend aus. Die unveröffentlichten erzählten eine andere Geschichte.
Die veröffentlichten Beweise (vor 2007)
Published trials showed rosiglitazone effectively lowered HbA1c. Cardiovascular outcomes were rarely reported.
Der Ersatz sah gut aus. Aber was ist mit tatsächlichen kardiovaskulären Ereignissen?
Nissen's Discovery: May 2007
Dr. Steven Nissen erhielt unveröffentlichte Studiendaten von der GSK-eigenen Website.
GSK war aufgrund einer rechtlichen Einigung verpflichtet, die Ergebnisse klinischer Studien online zu veröffentlichen. Nissen und Wolski analysierten 42 Studien – viele wurden nie in Fachzeitschriften veröffentlicht.
Die Daten waren technisch öffentlich.
No one had systematically searched for it.
Die Ergebnisse der Metaanalyse
| Outcome | Odds Ratio | 95% CI |
|---|---|---|
| Myocardial Infarction | 1.43 | 1.03 - 1.98 |
| CV Death | 1.64 | 0.98 - 2.74 |
Published in NEJM. The FDA called an emergency advisory committee meeting.
The FDA Advisory Committee: July 2007
Der Ausschuss war gespalten. Einige wollten, dass es zurückgezogen wird. Einige bezeichneten die Metaanalyse als fehlerhaft.
Aber das Signal war nicht zu übersehen.
The Aftermath
Black box warning added for heart failure risk (2007)
Severe restrictions on prescribing in the US (2010)
Withdrawn vollständig vom europäischen Markt (2010)
FDA now requires cardiovascular outcome trials for all diabetes drugs
What a Comprehensive Search Requires
Die PRESS-Checkliste
Peer Review of Electronic Search Strategies
Übersetzung der Forschungsfrage
Spiegelt die Suche den PICO wider? Elemente?
Boolesche und Näherungsoperatoren
Werden AND, OR, NOT korrekt verwendet?
Subject Headings
Sind MeSH/Emtree-Begriffe angemessen und aufgelöst?
Text Words
Synonyms, spelling variants, truncation?
PRESS Checklist (continued)
Spelling, Syntax, Line Numbers
Gibt es Fehler, die einen Abruf verursachen würden Fehler?
Grenzwerte und Filter
Sind Datum, Sprache und Studiendesign-Grenzwerte angemessen?
Peer-reviewed searches substantially improve retrieval of key studies.
PRESS guideline: McGowan et al., 2016
Database Translation
Die gleiche Suche muss für jede Datenbank angepasst werden:
"diabetes mellitus, type 2"[MeSH] OR "type 2 diabetes"[tiab]
'non insulin dependent diabetes mellitus'/exp OR 'type 2 diabetes':ti,ab
Subject headings, field tags, and operators differ between databases.
Was passiert, wenn Sie suchen – und nichts finden?
REAL DATA
Governments stockpiled $9 billion von Oseltamivir (Tamiflu) gegen eine pandemische Grippe. Die Cochrane Collaboration versuchte, die Beweise zu überprüfen. Von 77 clinical trials, full reports existed for only 20. Roche weigerte sich, Daten für 5 yearsweiterzugeben. Als das BMJ und Cochrane schließlich erhalten haben over 160,000 pages of clinical study reports, they found: Tamiflu reduced symptoms by less than 1 day, with no evidence it prevented hospitalizations or complications.
If Nissen had searched only PubMed,
the signal would have remained hidden.
Comprehensive search is survival.
What was hidden in plain sight?
Module 3 Quiz
1. Welche Art von Beweisquelle enthüllte das kardiovaskuläre Signal von Rosiglitazon?
2. What does PRESS stand for?
What was hidden in plain sight?
Modul 4: Das Screening
Die Zahl ohne Herkunft ist keine Zahl.
Dies ist eine Geschichte über
what they chose to report.
Modul 4: Das Screening
🎯 Learning Objectives
- Apply PRISMA flow diagram to document study selection
- Implement dual-reviewer screening with conflict resolution
- Identifizieren Sie selektive Ergebnisberichterstattung und Datenmanipulation
- Calculate inter-rater reliability (Cohen's kappa)
- Wenden Sie das Prinzip an: „Die Zahl ohne Herkunft ist keine Zahl“
88,000
heart attacks attributed to Vioxx
A blockbuster drug. A hidden signal. A preventable catastrophe.
Zwischen 1999 und 2004 nahmen Millionen dieses Schmerzmittel ein. Einige kamen nie nach Hause.
Der Aufstieg von Vioxx
Rofecoxib (Vioxx) war ein COX-2-selektives NSAID. Wird als sicherer für den Magen vermarktet als herkömmliche Schmerzmittel.
Die VIGOR-Studie (2000)
Vioxx Gastrointestinal Outcomes Research
What VIGOR Published
| GI Outcome | Vioxx | Naproxen |
|---|---|---|
| Confirmed GI events | 2.1 per 100 pt-yrs | 4.5 per 100 pt-yrs |
| Reduction | 54% fewer GI events | |
Die Schlagzeile: Vioxx ist sicherer für Ihren Magen!
Das wurde Ärzten gesagt. Das glaubten die Patienten.
What VIGOR Buried
| CV Outcome | Vioxx | Naproxen |
|---|---|---|
| Myocardial Infarction | 20 events | 4 events |
| Relative Risk | 5x higher in Vioxx group | |
Die selektive Berichterstattung
Manipulation der Datenunterbrechung: 3 additional heart attacks occurred after the cutoff used in publication
Spin: CV-Signal wurde mit der kardioprotektiven Wirkung von Naproxen erklärt (keine Beweise)
Outcome switching: CV-Ereignisse wurden vorab spezifiziert, aber nicht hervorgehoben
Internal knowledge: Aus E-Mails von Merck geht hervor, dass sie von dem Signal wussten.
Die APPROVe-Studie (2004)
Eine Studie zur Prävention kolorektaler Polypen – aus Sicherheitsgründen vorzeitig abgebrochen.
Four years after VIGOR showed a 5x risk. Four years too late.
Haben Sie darüber nachgedacht, was passiert? wenn sich ein Signal im Lärm verbirgt?
REAL DATA
Vioxx (Rofecoxib) wurde zugelassen in 1999. By 2004, estimates suggest 88,000-140,000 excess heart attacks and 30,000-40,000 deaths. Merck's own VIGOR trial showed 5x cardiovascular risk in 2000—but it was dismissed as a "naproxen cardioprotective effect."
Das PRISMA-Flussdiagramm
Every step of screening must be documented and transparent.
Dual Screening: Why Two Reviewers?
Reduces Selection Bias
One reviewer might unconsciously favor certain studies
Catches Errors
Ermüdung, Fehlinterpretationen und Fehler sind unvermeidlich
Forces Explicit Criteria
Disagreements reveal ambiguity in inclusion rules
Typical agreement: κ = 0.6-0.8
Disagreements resolved by discussion or third reviewer
Kalibrierung: Die Pilotphase
Before screening thousands of records, reviewers should calibrate on a sample of 50-100 records.
Screen the same set independently
Compare decisions and discuss disagreements
Refine inclusion criteria until κ > 0.7
Dokumentieren Sie die Kalibrierungsprozess und alle Regeländerungen
PRISMA 2020 Updates
PRISMA 2020 hat die Checkliste grundlegend überarbeitet und die Berichterstattung über Synthesemethoden, Sicherheitsbewertung und Protokollregistrierung erweitert.
If Vioxx's cardiovascular data had been screened by independent reviewers,
if all pre-specified outcomes had been required to be reported,
88,000 heart attacks might have been prevented.
Die Zahl ohne Herkunft ist keine Zahl.
Module 4 Quiz
1. Wie hoch war in der VIGOR-Studie das relative MI-Risiko in der Vioxx-Gruppe im Vergleich zu Naproxen?
2. Why is dual screening (two independent reviewers) important?
Die Zahl ohne Herkunft ist keine Zahl.
Modul 5: Die Extraktion
Die Zahl ohne Herkunft ist keine Zahl.
Dies ist eine Geschichte über
Zahlen, die es nie gab.
Modul 5: Die Extraktion
🎯 Learning Objectives
- Entwerfen Sie ein standardisiertes Datenextraktionsformular mit Herkunftsfeldern
- Calculate effect sizes from various reported statistics (OR, RR, HR, SMD)
- Implement dual-extraction with discrepancy resolution
- Identifizieren Sie Warnsignale für Datenfälschung und Fehlverhalten
- Explain how the DECREASE fraud affected clinical guidelines
~10,000
possible excess deaths in Europe
Anhand von Richtlinien, die auf fabrizierten klinischen Studien basieren Daten.
Die DECREASE-Studien beeinflussten die perioperative Versorgung weltweit. Die Daten wurden erfunden.
Don Poldermans: A Star Researcher
Professor at Erasmus Medical Center, Rotterdam. Author of over 500 papers. Lead author of ESC guidelines on perioperative cardiac care.
Eine scheinbar unanfechtbare Quelle. Bis sich jemand die Daten angesehen hat.
Die DECREASE-Studien: Die Behauptung
| Trial | Finding | Impact |
|---|---|---|
| DECREASE-I (1999) | 90% reduction in cardiac death | Changed guidelines |
| DECREASE-IV (2009) | Beta-blockers safe in low-risk | Expanded recommendations |
Effect sizes were implausibly large.
90% reduction? Almost nothing in medicine works that well.
The Investigation: 2011
Erasmus MC investigated after whistleblower complaints
Erfundene Patientendaten: Patients who didn't exist or weren't enrolled
No informed consent: Many "participants" never consented
Poldermans dismissed: From Erasmus MC in 2011
Die Kaskade des Schadens
Als DECREASE entfernt wurde Metaanalysen...
Die POISE-Studie (2008) hatte Schäden gezeigt. Es wurde abgewiesen, weil es im Widerspruch zu DECREASE stand.
Warum wurde das nicht erfasst?
Trust in authority: Poldermans war der Autor der Leitlinien, der seine eigenen Beweise überprüfte
No data verification: Niemand fragte nach einzelnen Patienten Daten
Publication prestige: Published in top journals, assumed valid
Implausible effects accepted: 90% reductions should raise suspicion
Data Extraction: Defense Against Fraud
Dual Extraction
Two extractors independently - catches transcription errors and forces scrutiny
Record Provenance
Table, page, paragraph - every number traceable to source
Verify Against Registry
ClinicalTrials.gov-Ergebnisse vs. Veröffentlichung – Diskrepanzen sind Warnsignale
Request IPD
Individual patient data reveals what aggregate summaries hide
Effect Size Calculation
Während der Extraktion berechnen Sie Effektgrößen aus gemeldeten Daten:
Odds Ratio, Risk Ratio, Risk Difference from 2x2 tables
Mittelwertdifferenz, standardisierte Mittelwertdifferenz aus Mittelwerten und Standardabweichungen
Immer Auszug aus der zuverlässigsten Quelle.
Prefer: ITT results > per-protocol > subgroups
Red Flags During Extraction
Implausible effect sizes: 80-90% reductions should prompt scrutiny
Baseline imbalances: Gruppen, die „zu perfekt“ übereinstimmen
Round numbers: "Exactly 50" or "exactly 100" patients per arm
Registry discrepancies: Das veröffentlichte N unterscheidet sich vom registrierten N
Effect Size Conversions
Studien berichten über Ergebnisse in unterschiedlichen Maßstäben. Um sie zusammenzufassen, sind häufig Konvertierungen erforderlich:
| From | To | Formula |
|---|---|---|
| SMD (d) | log-OR | log-OR = d × π / √3 |
| log-OR | SMD (d) | d = log-OR × √3 / π |
| Correlation (r) | Fisher z | z = 0.5 × ln((1+r)/(1−r)) |
| OR | RR | RR = OR / (1 − P₀ + P₀ × OR) |
| OR | NNT | NNT = 1 / (P₀ − OR×P₀ / (1−P₀+OR×P₀)) |
P₀ = Grundrisiko in der Kontrollgruppe. Diese Formeln gehen von ungefähren Bedingungen aus; siehe Borenstein et al. (Kap. 7) für genaue Ableitungen.
Time-to-Event-(Überlebens-)Daten
Many trials report time-to-event outcomes using hazard ratios (HR). Pooling HRs in meta-analysis requires special handling:
Die log(HR) + SE-Methode
Extrahieren Sie log(HR) und dessen SE aus der Testversion. Wenn nicht angegeben, leiten Sie SE aus dem CI ab: SE = (ln(oben) − ln(unten)) / (2 × 1,96). Pool mit Standardmethoden der inversen Varianz.
Wenn HR nicht gemeldet wird
Es gibt Methoden zur Rekonstruktion der IPD aus Kaplan-Meier-Kurven (Guyot et al. 2012) oder zur Schätzung der HR aus p-Werten und Ereigniszahlen (Parmar et al. 1998). Bevorzugen Sie immer die direkt gemeldete angepasste Herzfrequenz, sofern verfügbar.
HR < 1 favors treatment; HR > 1 favors control. Do not convert HRs to ORs or RRs—they measure fundamentally different quantities.
Was wäre, wenn die Daten, die Sie extrahieren, niemals real wären?
REAL DATA
Joachim Boldt war der produktivste Forscher auf dem Gebiet des Anästhesieflüssigkeitsmanagements. Über 180 seiner Veröffentlichungen wurden zurückgezogen – einer der größten Retraktionsfälle in der Medizingeschichte. Seine erfundenen Daten zeigten, dass Hydroxyethylstärke (HES) sicher war. Metaanalysen, die seine Studien einschlossen, kamen zu dem Schluss, dass HES harmlos sei. Als Boldts Studien entfernt wurden, Der gepoolte Effekt kehrte sich um: HES increased kidney injury by 59% (RR 1.59, 95% CI 1.26-2.00) and mortality by ~9% (RR 1.09). An estimated thousands of patients received a harmful fluid based on fabricated evidence.
Jede Zahl in Ihrer Metaanalyse
must trace back to a verifiable source.
Die Zahl ohne Herkunft ist keine Zahl.
Fraudulent data can kill as surely as fraudulent drugs.
Module 5 Quiz
1. Was geschah, als die Daten der DECREASE-Studie aus Betablocker-Metaanalysen entfernt wurden?
2. Why should dual extraction be standard practice?
Die Zahl ohne Herkunft ist keine Zahl.
Modul 6: Die Voreingenommenheit
Methoden schützen Patienten vor unserem Vertrauen.
Dies ist eine Geschichte über
Die Voreingenommenheit können wir nicht erkennen.
Modul 6: Die Voreingenommenheit
🎯 Learning Objectives
- Apply Risk of Bias 2.0 (RoB 2) to randomized trials
- Wenden Sie ROBINS-I auf nicht randomisierte Studien an
- Assess all five RoB 2 domains (randomization, deviations, missing data, measurement, selection)
- Distinguish confounding by indication from true treatment effects
- Explain how BART revealed hidden harms of aprotinin
20+
Jahre auf dem Markt
Aprotinin war der Goldstandard zur Reduzierung chirurgischer Blutungen.
Dann führte jemand ein RCT durch. Die Wahrheit war anders.
The Hidden Bias: Confounding by Indication
Sicker patients got aprotinin: Surgeons used it in complex, high-risk cases
Survivors bias: Dead patients can't report complications
Publication bias: Negative Studien wurden nicht veröffentlicht
Beobachtungsstudien konnten die Wirkung des Arzneimittels nicht vom Ausgangsrisiko des Patienten trennen.
BART: Die randomisierte Wahrheit
Blood Conservation Using Antifibrinolytics in a Randomized Trial
| Outcome | Aprotinin | Alternatives |
|---|---|---|
| 30-day mortality | 6.0% | 3.9% |
| Relative Risk | 1.53 (53% increased death) | |
Untersuchung: Bewerten Sie die Voreingenommenheit
Sie überprüfen die Beobachtungsstudien. Wenden Sie das Risk of Bias-Denken an:
| Question | Observational | BART (RCT) |
|---|---|---|
| Random allocation? | ❌ Surgeon choice | ✓ Yes |
| Baseline comparable? | ❌ Sicker got drug | ✓ Balanced |
| Blinding? | ❌ Open label | ✓ Double-blind |
Confounding by indication: Chirurgen verabreichten den am stärksten erkrankten Patienten Aprotinin. Die Beobachtungsstudien führten das Überleben auf das Medikament zurück, während sie den Überlebensbias maßen.
Risk of Bias 2.0: The Five Domains
Randomization Process
Abweichungen von beabsichtigten Interventionen
Fehlende Ergebnisdaten
Messung des Ergebnisses
Auswahl des gemeldeten Ergebnisses
ROBINS-I: Für nicht randomisierte Studien
Wenn keine RCTs verfügbar sind, verwenden Sie ROBINS-I (Risk Of Bias In Non-randomized Studies of). Interventionen)
Confounding
Baseline differences between groups
Selection of Participants
Exclusions related to intervention
Classification of Interventions
Misclassification of exposure status
Abweichungen von beabsichtigten Interventionen
Co-interventions, contamination
Missing Data
Differential loss to follow-up
Measurement of Outcomes
Ascertainment bias
Selection of Reported Result
Selective reporting
Ratings: Low / Moderate / Serious / Critical / No information
Was passiert, wenn 64 Studien übereinstimmen – und sie alle falsch sind?
REAL DATA
Aprotinin wurde in Herzoperationen verwendet, um Blutungen zu reduzieren 20 years. 64 small randomized trials legte nahe, dass es sicher und wirksam sei. Metaanalysen bestätigten den Nutzen. Dann ist das BART trial (2008) randomized 2,331 patients: aprotinin vs. tranexamic acid vs. aminocaproic acid. Result: aprotinin increased mortality by 53% (RR 1,53, 95 %-KI 1,06–2,22). Der Prozess wurde vorzeitig wegen Schadensersatzes abgebrochen. Bayer hat Aprotinin innerhalb weniger Monate vom Markt genommen.
Sixty-four small trials measured bleeding, not death.
One adequately powered trial revealed 53% increased mortality.
Quantität der Beweise kann Qualität und Aussagekraft nicht ersetzen.
Module 6 Quiz
1. Why did 64 small trials miss aprotinin's harm?
Methoden schützen Patienten vor unserem Vertrauen.
Modul 7: Die Synthese
Heterogenität ist eine Botschaft, kein Rauschen.
Die Magnesium-Kontroverse: 1991-1995
When pooling leads us astray.
Modul 7: Die Synthese
🎯 Learning Objectives
- Calculate pooled effect sizes using fixed-effect and random-effects models
- Choose between DerSimonian-Laird and HKSJ estimators appropriately
- Interpret forest plots including weights, confidence intervals, and diamonds
- Explain why small-study effects can mislead meta-analyses
- Wenden Sie das Prinzip an: „Heterogenität ist eine Botschaft, nicht.“ Lärm“
The Year: 1991
„Sie stehen am Scheideweg von Hoffnung und Beweisen …“
Heart disease kills more people worldwide than any other cause. In 1991, a new hope emerges: Could something as simple and cheap as intravenous magnesium save lives after myocardial infarction?
Die biologische Begründung war fundiert:
Magnesium stabilizes cardiac membranes, prevents arrhythmias, and vasodilates coronary arteries.
LIMIT-2: Der wegweisende Prozess
Leicester Intravenous Magnesium Intervention Trial, 1992
A cheap, safe intervention that could save 250,000 lives per year globally.
Die medizinische Gemeinschaft war elektrisiert.
The Meta-Analysis: 1993
Researchers pooled seven randomized trials of IV magnesium in MI:
| Trial | Year | N | Odds Ratio |
|---|---|---|---|
| Morton 1984 | 1984 | 40 | 0.10 |
| Rasmussen 1986 | 1986 | 273 | 0.35 |
| Smith 1986 | 1986 | 400 | 0.48 |
| Abraham 1987 | 1987 | 94 | 0.87 |
| Shechter 1990 | 1990 | 103 | 0.27 |
| Ceremuzynski 1989 | 1989 | 48 | 0.22 |
| LIMIT-2 | 1992 | 2,316 | 0.74 |
Investigation Exercise: The Meta-Analyst's Dilemma
Sie sind Cochrane-Rezensent im Jahr 1993. Sie wurden gebeten, die Beweise für Magnesium bei Myokardinfarkt zusammenzufassen. Die Daten aus sieben Versuchen liegen vor Ihnen.
Erkennen Sie das Muster in diesem Walddiagramm?
Aber warten Sie ... fällt Ihnen etwas an den Versuchsgrößen auf?
Die Warnung Zeichen
What should have given us pause?
Small sample sizes: Six of seven trials had <500 patients
Extreme effects: OR of 0.10 (90% reduction) is implausible for any drug
All positive: Wo waren die negativen Studien? Das Dateischubladenproblem...
Funnel asymmetry: Small trials showed much larger effects than larger ones
Der Funnel-Plot-Test
Bevor wir ein Pooling durchführen, müssen wir die Publikationsverzerrung prüfen. Lassen Sie uns das Trichterdiagramm untersuchen.
⚠️ Asymmetric Funnel
Kleine Versuchsgruppe auf der linken Seite (zeigt den Nutzen). Wo sind die kleinen negativen Prozesse?
Egger's test p = 0.04 — statistically significant asymmetry.
Das Jahr: 1995 – ISIS-4-Berichte
„Und dann kam die Wahrheit …“
The Fourth International Study of Infarct Survival (ISIS-4) enrolled 58,050 patients across 1,086 hospitals in 31 countries.
Vorher und Nachher: Das Gesamtbild
Sehen Sie sich an, was passiert, wenn wir den Mega-Prozess zu unserem Wald hinzufügen Handlung...
BEFORE ISIS-4
7 small trials (N = 3,274)
OR = 0.44
Strong benefit signal
AFTER ISIS-4
8 trials (N = 61,324)
OR = 1.02
No effect
Why Did Small Trials Mislead?
Publication Bias
Small negative trials were never published—they sat in file drawers
Small-Study Effects
Smaller trials tend to show larger effects due to methodological weaknesses
Random High Bias
Durch Zufall erzielten einige kleine Versuche extreme Ergebnisse – und diese wurden veröffentlicht
Random-Effects Amplification
Random-effects models give more weight to small trials, amplifying bias
Fixed vs. Random Effects
Which model should you choose?
Assumes one true effect. Weights studies by inverse variance (precision). Large trials dominate.
Magnesium result: OR = 0.96 (p = 0.52)
Assumes distribution of effects. Gives more weight to small trials. Wider confidence intervals.
Magnesium result: OR = 0.59 (p = 0.01)
⚠️ Die Wahl des Modells bestimmte die Schlussfolgerung!
Zufällige Effekte beheben keine Verzerrung; Bei Auswirkungen auf kleine Studien kann es zu einer Gewichtsverlagerung hin zu kleineren Studien und zu veränderten Schlussfolgerungen kommen.
Die Lehren aus Magnesium
1. Prüfen Sie, ob eine Publikationsverzerrung vorliegt bevor Sie einer gepoolten Schätzung vertrauen. Trichterdiagramme und Eggers Test sind Ihre Werkzeuge.
2. Be wary of small-study effects. If only small trials show benefit, wait for a large, well-conducted trial.
3. Model choice matters. Zufällige Effekte können voreingenommene Beweise verstärken. Betrachten Sie beide Modelle und verstehen Sie die Implikationen.
4. One large trial can overturn many small ones. Deshalb sind Megaversuche wie ISIS-4 so wertvoll.
Spezielle Studiendesigns in der Metaanalyse
Nicht alle RCTs verwenden Standard-Parallelgruppendesigns. Zwei gängige Alternativen erfordern eine besondere Behandlung beim Zusammenführen von Ergebnissen:
Cluster-Randomized Trials
Gruppen (Krankenhäuser, Schulen) randomisieren, nicht Einzelpersonen. Das design effect = 1 + (m−1) × ICC reduziert die effektive Stichprobengröße. Dividieren Sie N durch den Designeffekt, bevor Sie es zusammenfassen, oder verwenden Sie den angepassten SE aus dem Versuch. Das Ignorieren von Clustering führt zu künstlich engen CIs.
Crossover Trials
Jeder Patient erhält beide Behandlungen. Das gepaarte Design reduziert die Varianz, aber Sie benötigen das within-patient correlation (oder das gepaarte Analyse-SE), um korrekt zu bündeln. Die Verwendung der Parallelgruppen-SE ist konservativ; unter Verwendung der falschen N-Doppelzählungen von Patienten.
Ausführliche Formeln und Arbeitsbeispiele finden Sie im Cochrane-Handbuch v6.4, Kapitel 23.
Was wäre, wenn die Art und Weise, wie Sie Studien kombinieren, darüber entscheidet, ob eine Behandlung lebensrettend aussieht oder nutzlos?
REAL DATA
Frühes Surfactant für Frühgeborene wurde unterstützt durch 6 small trials showing reduced mortality (RR 0.84). A fixed-effect meta-analysis confirmed benefit (p=0.04). But a random-effects model showed no significance (p=0.12) — the confidence interval crossed 1.0. Later, SUPPORT (2010) and VON (2012), two large pragmatic trials with ~2,000 neonates combined, found no benefit von frühem vs. späterem Surfactant. Die klinische Praxis wurde aufgrund kleiner Studien und des falschen Modells geändert.
Module 7 Quiz
1. Warum hat die Magnesium-Metaanalyse Vorteile gezeigt, die ISIS-4 nicht gefunden hat?
2. What warning sign should have alerted reviewers to potential bias?
3. When publication bias is suspected, which model may amplify the bias?
Small trials can show false signals.
Large trials anchor the truth.
Heterogenität ist eine Botschaft, kein Rauschen.
Heterogenität ist eine Botschaft, kein Rauschen.
Modul 8: Die Heterogenität
Heterogenität ist eine Botschaft, kein Rauschen.
ACCORD: 2008
Wenn der Durchschnitt die Wahrheit verbirgt.
Modul 8: Die Heterogenität
🎯 Learning Objectives
- Berechnen und interpretieren Sie I², τ² und Vorhersageintervalle
- Apply ICEMAN criteria to assess subgroup credibility
- Distinguish between clinical, methodological, and statistical heterogeneity
- Conduct and interpret leave-one-out sensitivity analyses
- Explain how ACCORD revealed differential effects across subgroups
The Year: 2008
"Sie sind dabei, Zeuge eines der schockierendsten Prozessabbrüche in der Geschichte zu werden..."
Seit Jahrzehnten Die Diabetes-Community hatte ein Leitprinzip: lower blood sugar is better. Die bahnbrechenden Studien DCCT (1993) und UKPDS (1998) zeigten, dass eine intensive Glukosekontrolle mikrovaskuläre Komplikationen – Blindheit, Nierenversagen, Nervenschäden – reduzierte.
Die logische Extrapolation:
If controlling glucose prevents complications, shouldn't intensive control prevent cardiovascular disease too?
ACCORD: Action to Control Cardiovascular Risk in Diabetes
The definitive test of intensive glucose control
Alle Patienten hatten Typ-2-Diabetes mit hohem kardiovaskulären Risiko – entweder etablierte Herz-Kreislauf-Erkrankungen oder mehrere Risikofaktoren. Die Studie war auf 5,6 Jahre ausgelegt.
February 6, 2008
Das Data Safety Monitoring Board beruft eine Dringlichkeitssitzung ein.
After 3.5 years, they make an unprecedented decision:
STOPPEN SIE DIE VERSUCHUNG.
Die schockierenden Ergebnisse
| Outcome | Intensive | Standard | HR (95% CI) |
|---|---|---|---|
| Primary CV endpoint | 352 events | 371 events | 0.90 (0.78–1.04) |
| All-cause mortality | 257 deaths | 203 deaths | 1.22 (1.01–1.46) |
| Severe hypoglycemia | 10.5% | 3.5% | 3.0× higher |
Investigation Exercise: The Clinician's Dilemma
Sie sind ein Endokrinologe mit 500 Diabetikern. Die ACCORD-Ergebnisse werden veröffentlicht. Was sagen Sie Ihren Patienten, die einen HbA1c <6 % anstreben?
Ist eine intensive Kontrolle für alle schädlich? Oder nur für einige?
Untergruppenanalyse enthüllt:
| Subgroup | Intensive HR | Interpretation |
|---|---|---|
| No prior CVD | 1.00 (0.76–1.32) | No effect |
| Prior CVD | 1.45 (1.15–1.84) | Significant harm |
| Baseline HbA1c <8% | 1.02 (0.75–1.40) | No effect |
| Baseline HbA1c ≥8% | 1.29 (1.03–1.60) | Harm |
The average effect masked critical heterogeneity!
Für Patienten mit nachgewiesener CVD oder schlechter Ausgangskontrolle war eine intensive Therapie schädlich.
Heterogenität verstehen: I² und darüber hinaus
Wenn Studien (oder Untergruppen) unterschiedliche Ergebnisse zeigen Effekte müssen wir diese Variation quantifizieren.
I² = 0–25%: Geringe Heterogenität. Die Effekte sind in allen Studien konsistent.
I² = 25–50%: Moderate. Look for sources of variation.
I² = 50–75%: Substantial. Consider whether pooling is appropriate.
I² = 75–100%: Considerable. A single pooled estimate may mislead.
Aber I² allein sagt Ihnen nicht, was Sie tun sollen – es signalisiert, dass Sie weitere Untersuchungen durchführen müssen.
Tau² (τ²): Die Varianz zwischen Studien
Während I² Ihnen den Anteil der Varianz aufgrund von Heterogenität angibt, verrät Ihnen τ² die Größe.
"Welcher Anteil der Gesamtvarianz ist auf echte Unterschiede zwischen Studien zurückzuführen?"
Scale: 0% to 100%
"Wie stark variieren die wahren Effekte zwischen Studien?"
Same scale as the effect measure
Use τ² to calculate prediction intervals
Ein Vorhersageintervall zeigt die Bandbreite der Effekte, die Sie in einer neuen Studie erwarten würden – oft viel größer als das Konfidenzniveau Intervall.
The Prediction Interval: What ACCORD Really Tells Us
Consider a meta-analysis of intensive glucose control across multiple trials...
Confidence Interval
HR 1.10 (0.95–1.27)
"Unsere beste Schätzung des durchschnittlichen Effekts"
Prediction Interval
HR 1.10 (0.70–1.73)
"The range of effects in a new setting"
Das Vorhersageintervall umfasst sowohl Nutzen als auch Schaden!
In some settings, intensive control might help. In others, it could kill.
When Is a Subgroup Effect Credible?
Subgroup Credibility Criteria (adapted from ICEMAN, Schandelmaier 2020 & Sun 2012)
Wurde die Untergruppenanalyse vorab festgelegt?
Post-hoc-Untergruppen sind anfällig für Daten Ausbaggern
Is there a plausible biological rationale?
Der Mechanismus sollte klar und unabhängig von den Daten sein
Is the effect consistent across related outcomes?
Wenn ein Schaden für die Sterblichkeit auftritt, gibt es einen ähnlichen Schaden für Herzinfarkt und Schlaganfall?
Is there independent replication?
Wurde der Subgruppeneffekt in anderen Studien bestätigt?
ICEMAN Applied to ACCORD
| Criterion | Assessment | Score |
|---|---|---|
| Pre-specified? | Ja – frühere Herz-Kreislauf-Erkrankungen waren in der Protokoll | ✓ |
| Biological rationale? | Yes—hypoglycemia more dangerous with CVD | ✓ |
| Consistent outcomes? | Yes—CV mortality and all-cause mortality aligned | ✓ |
| Independent replication? | Partially—ADVANCE, VADT showed similar patterns | ~ |
ICEMAN Rating: High Credibility
The differential harm in high-risk patients appears genuine.
Die klinischen Implikationen
Für Patienten ohne CVD: Moderate glucose control (HbA1c ~7%) remains the goal. Intensive control may reduce microvascular complications.
Für Patienten mit etablierter CVD: Avoid intensive targets. Hypoglycemia is dangerous for damaged hearts.
Für ältere Patienten: Relaxed targets. Quality of life matters. Tight control causes falls, confusion, and excess mortality.
"One size fits all" treatment is not patient-centered medicine.
Meta-Regression: Explaining Heterogeneity
When heterogeneity is high, meta-regression can identify study-level covariates that explain variation.
Variiert die Effektgröße systematisch mit der Studie? Merkmale?
Caution
Meta-Regression erfordert ≥10 Studien pro Kovariate. Da es nur wenige Studien gibt, handelt es sich lediglich um explorative Studien. Ökologischer Irrtum: Assoziationen auf Studienebene gelten möglicherweise nicht für Einzelpersonen.
Example: In ACCORD, meta-regression might test if treatment effect varies by baseline HbA1c, showing harm concentrated in patients with very high levels.
What number saves lives? Who decides?
REAL DATA
Jahrzehntelang lautete das Ziel: Den Blutdruck behandeln <140 mmHg systolic. Then came SPRINT (2015): 9,361 high-risk patients randomized to intensive (<120) vs standard (<140) targets. Intensive treatment reduced CV events by 25% and death by 27%. Trial stopped early for benefit. Guidelines changed worldwide.
Module 8 Quiz
1. Warum wurde die ACCORD-Studie vorzeitig abgebrochen?
2. What does a prediction interval tell us that a confidence interval doesn't?
3. According to ICEMAN, which factor is MOST important for subgroup credibility?
Wenn Studien nicht übereinstimmen,
hören Sie sich die Meinungsverschiedenheiten an.
Heterogenität ist eine Botschaft, kein Rauschen.
Das Fehlen von Beweisen ist kein Beweis für das Fehlen.
Modul 9: Die verborgenen Studien
Das Fehlen von Beweisen ist kein Beweis für das Fehlen.
Reboxetine: 2010
Die 74 %, die nie das Licht der Welt erblickten.
Modul 9: Die verborgenen Studien
🎯 Learning Objectives
- Interpret funnel plots for asymmetry detection
- Wenden Sie den Egger-Test und andere an statistische Tests auf Publikationsbias
- Implementieren Sie die Trim-and-Fill-Methode zur Bias-Anpassung
- Critically appraise the limitations of publication bias tests
- Wenden Sie den Grundsatz an: „Das Fehlen von Beweisen ist kein Beweis für das Fehlen“
The Year: 1997
"A new hope for depression patients who cannot tolerate SSRIs..."
Reboxetin (Edronax) war ein neuartiges Antidepressivum – ein selektiver Noradrenalin-Wiederaufnahmehemmer (NRI). Im Gegensatz zu SSRIs zielte es auf ein anderes Neurotransmittersystem ab. Für Patienten, die versagten oder Fluoxetin oder Sertralin nicht vertrugen, bot es einen neuen Mechanismus.
Die veröffentlichten Beweise
What doctors could find in medical journals:
| Comparison | Published Trials | Published Result |
|---|---|---|
| Reboxetine vs Placebo | 3 trials (n=507) | Significantly better (SMD = 0.56) |
| Reboxetine vs SSRIs | 4 trials (n=628) | Equivalent or better |
Die veröffentlichte Literatur erzählte eine klare Geschichte:
Reboxetine works. Patients benefit. Prescribe with confidence.
Aber was ist mit den Studien, die Sie nicht sehen konnten?
In 2010, German researchers at IQWiG made a request to the European Medicines Agency...
They demanded access to all Studie Daten – veröffentlicht und unveröffentlicht.
What they found changed everything.
Das vollständige Bild
Eyding et al., BMJ 2010
| Comparison | Published Only | ALL DATA |
|---|---|---|
| Reboxetine vs Placebo | SMD 0.56 (benefit) | SMD 0.10 (no benefit) |
| Patients in analysis | 507 (14%) | 2,731 (100%) |
| Reboxetine vs SSRIs | Equivalent | Minderwertig (RR 1,23 für Schaden) |
| Patients in analysis | 628 (26%) | 2,411 (100%) |
Investigation Exercise: The File Drawer
Sie sind ein systematischer Gutachter im Jahr 2008. Sie durchsuchen PubMed, Embase und die Cochrane Library nach allen Reboxetin-Studien. Sie finden 7 veröffentlichte Studien, die einen Nutzen belegen.
Können Sie diesen Beweisen vertrauen?
⚠️ Der Trichter ist drastisch asymmetrisch!
Alle veröffentlichten Studien gruppieren sich auf einer Seite. Wo sind die Null- und Negativversuche?
Das Publication Bias Toolkit
Funnel Plot
Plot effect size vs. standard error. A symmetric funnel suggests no bias; asymmetry raises alarms.
Egger's Regression Test
Regress effect/SE on 1/SE. A non-zero intercept (P < 0.10) suggests small-study effects. Note: inflated false-positive rate with binary outcomes; use Peters' test instead.
Peters' Test
For binary outcomes, regresses log OR on inverse of total sample size. Less prone to false positives.
Trim-and-Fill
Imputiert „fehlende“ Studien, um den Trichter symmetrisch zu machen, und berechnet dann den gepoolten Effekt neu.
Interaktiv: Trim-and-Fill Analyse
Lassen Sie uns Trim-and-Fill auf die Reboxetin-Daten anwenden und sehen, wie die angepasste Schätzung aussehen würde...
Published Only
7 trials
SMD = 0.56
Significant benefit
Trim-and-Fill
7 + 5 imputed = 12 trials
SMD = 0.23
Reduced, still nominally significant
But even trim-and-fill underestimated the problem!
Der wahre Effekt bei allen Daten war SMD = 0,10 (im Wesentlichen null).
Trim-and-fill is conservative—it doesn't fully correct for selective publication.
The Best Defense: Trial Registries
Die Methoden zur Erkennung von Publikationsbias sind unvollständig. Die eigentliche Lösung ist prospective registration.
Überprüfen Sie bei der Suche nach Studien immer die Register. Vergleichen Sie die Anzahl der registered Versuche mit der Anzahl published. Die Lücke ist Ihr Warnsignal.
Since 2005, ICMJE requires trial registration as a condition of publication.
Die AllTrials-Kampagne
"All trials registered. All results reported."
Der Reboxetin-Skandal löste zusammen mit ähnlichen Fällen bei anderen Medikamenten eine globale Bewegung aus:
2013: Klinische Datenrichtlinie der EMA
European Medicines Agency commits to publishing clinical study reports
2016: FDA Amendments Act enforcement
Mandatory results reporting on ClinicalTrials.gov within 12 months
AllTrials Coalition
Over 90,000 supporters, 700+ organizations demanding transparency
Das Reboxetin Nachwirkungen
Germany's IQWiG recommended against reboxetine for depression
Das britische NICE stufte es auf „nicht empfohlen“ herab.
Die FDA hatte Reboxetin im Jahr 2001 abgelehnt (sie hatte Zugang zu unveröffentlichten Daten)
Über ein Jahrzehnt lang erhielten Patienten ein Medikament, das nicht besser war als Placebo.
Weil nur die positiven Studien veröffentlicht wurden.
Was wäre, wenn die veröffentlichte Schlussfolgerung das Gegenteil der tatsächlichen Daten wäre?
REAL DATA
GlaxoSmithKlines Studie 329 getestete Paroxetin in adolescent depression. Die veröffentlichte Arbeit (2001) kam zu dem Schluss, dass Paroxetin "generally well tolerated and effective." Die tatsächlichen Daten: Paroxetin failed on all 8 pre-specified outcomes. When re-analyzed (RIAT 2015), suicidal/self-harm events: 23 in der Paroxetin-Gruppe vs. 5 unter Placebowar. Das veröffentlichte Papier definierte die Ergebnisse nachträglich neu, um Bedeutung herzustellen. Im Jahr 2015 kam eine erneute Analyse des RIAT (Restoring Invisible and Abandoned Trials) unter Verwendung des ursprünglichen klinischen Studienberichts zu dem Schluss: Paroxetin war neither safe nor effective for adolescents.
Module 9 Quiz
1. Wie viel Prozent der Reboxetin-Studiendaten wurden in der veröffentlichten Literatur verborgen?
2. Why can trim-and-fill underestimate the correction needed?
3. What is the best prospective defense against publication bias?
Was Sie nicht sehen können
may be more important than what you can.
Das Fehlen von Beweisen ist kein Beweis für das Fehlen.
Certainty must be earned, not assumed.
Modul 10: Die Gewissheit
Certainty must be earned, not assumed.
Early Surfactant: 2012
Wenn sich qualitativ hochwertige Beweise entwickeln.
Modul 10: Die Gewissheit
🎯 Learning Objectives
- Wenden Sie das vollständige GRADE-Framework an, um die Gewissheit von zu bewerten Beweise
- Evaluate all five downgrade factors (RoB, inconsistency, indirectness, imprecision, publication bias)
- Identify when to upgrade for large effect, dose-response, or confounding
- Construct Summary of Findings tables with absolute effect estimates
- Wenden Sie den Grundsatz an: „Gewissheit muss verdient und nicht angenommen werden“
The Year: 1990s
"A revolution in neonatal care..."
Das Atemnotsyndrom (RDS) war die häufigste Todesursache bei Frühgeborenen. Die Entwicklung von exogenem surfactant– der Substanz, die den Alveolenkollaps verhindert – war einer der großen Fortschritte in der Neugeborenenmedizin.
Die Frage lautete: Wann sollten wir Surfactant verabreichen?
Prophylactically (to all high-risk infants) or selectively (only after RDS develops)?
Der ursprüngliche Cochrane Review (2003)
Multiple RCTs conducted before the era of routine CPAP
| Outcome | Prophylactic vs Selective | Certainty |
|---|---|---|
| Neonatal mortality | RR 0.73 (favors prophylactic) | High |
| BPD or death | RR 0.84 (favors prophylactic) | High |
Aber die Welt der Neugeborenenpflege veränderte sich...
A new technology emerged: Continuous Positive Airway Pressure (CPAP)
Non-invasive support that could help preterm lungs without intubation.
Würden die alten Erkenntnisse noch gelten?
Das Cochrane Update 2012
New trials conducted in the CPAP era
| Outcome | Old Trials | New Trials |
|---|---|---|
| BPD or death | RR 0.84 (favors prophylactic) | RR 1.12 (favors selective) |
| Bedarf an mechanischen Beatmung | Niedriger mit Prophylaxe | Höher mit Prophylaxe! |
Investigation: Why Did Evidence Evolve?
Sie sind Neonatologe. Ein Kollege fragt: „Wie können randomisierte Studien einander widersprechen?“
War die ursprüngliche Evidenz falsch?
Indirectness Changed
Old trials: No CPAP available. New trials: CPAP standard of care.
Der Vergleich wurde verbessert
Selective surfactant + CPAP is better than prophylactic intubation.
Context Matters
Evidenz aus einer Epoche gilt möglicherweise nicht für ein anderer.
This is why GRADE assesses Indirectness!
High-quality evidence can become inapplicable when context changes.
Das GRADE-Framework
Grading of Recommendations, Assessment, Development and Evaluations
GRADE beantwortet die Frage: Wie sicher sind wir in dieser Schätzung?
⊕⊕⊕⊕ HIGH: Very confident. True effect is close to the estimate.
⊕⊕⊕◯ MODERATE: Moderately confident. True effect likely close, but may differ substantially.
⊕⊕◯◯ LOW: Limited confidence. True effect may differ substantially.
⊕◯◯◯ VERY LOW: Very little confidence. True effect likely substantially different.
GRADE: Factors That Downgrade Certainty
RCT-Evidenz beginnt bei HOCH. Es kann herabgestuft werden für:
Risk of Bias
Flawed randomization, lack of blinding, incomplete follow-up, selective reporting
Inconsistency
Unexplained heterogeneity across studies (large I², non-overlapping CIs)
Indirectness
Unterschiede in der Population, der Intervention, dem Komparator oder den Ergebnissen der Frage
Imprecision
Wide confidence intervals, small sample size, few events
GRADE: Der fünfte Faktor
Publication Bias
Asymmetric funnel plot, missing registered trials, sponsor influence
Each factor can downgrade by one or two levels
High → Moderate → Low → Very Low
Example: Eine Metaanalyse von RCTs (beginnt HOCH) mit hohem Risiko für Verzerrungen (↓1) und schwerwiegender Indirektheit (↓1) würde bewertet werden LOW.
Interactive: Apply GRADE to Surfactant
Lassen Sie uns die Glaubwürdigkeit der Evidenz für prophylaktische Tenside anhand alter und neuer Studien bewerten.
OLD TRIALS (Pre-CPAP)
Starting: HIGH (RCTs)
Risk of Bias: Low (−0)
Inconsistency: None (−0)
Indirectness: Serious (−1)
Different standard of care today
Final: ⊕⊕⊕◯ MODERATE
NEW TRIALS (CPAP Era)
Starting: HIGH (RCTs)
Risk of Bias: Low (−0)
Inconsistency: None (−0)
Indirectness: None (−0)
Matches current practice
Final: ⊕⊕⊕⊕ HIGH
GRADE: Factors That Upgrade Certainty
Die Beobachtungsevidenz beginnt bei NIEDRIG. Es kann aktualisiert werden für:
Large Magnitude of Effect
RR >2 oder <0,5 ohne plausible Verwechslung
Dose-Response Gradient
Higher exposure = larger effect in a consistent pattern
Residual Confounding
All plausible confounders would reduce the effect (strengthens causal inference)
Communicating Certainty
GRADE requires transparent language about confidence:
HIGH: "Prophylactic surfactant reduces mortality..."
MODERATE: "Prophylactic surfactant probably reduces mortality..."
LOW: "Prophylactic surfactant may reduce mortality..."
VERY LOW: "We are uncertain whether prophylactic surfactant reduces mortality..."
Diese Sprache stellt sicher, dass Ärzte die Stärke der Beweise verstehen.
Can too much of a lifesaver become a killer?
REAL DATA
1940s-50s: High oxygen concentrations saved premature babies from respiratory failure. Then came an epidemic of blindness—retrolental fibroplasia (now called ROP). Doctors reduced oxygen dramatically. Blindness dropped. But then: increased deaths and brain damage von Hypoxie. Der optimale Sauerstoffgehalt ist erforderlich decades of trials to find. Recent SUPPORT/BOOST II trials finally defined the therapeutic window: SpO2 91-95%.
Module 10 Quiz
1. Warum hat sich die Tensidempfehlung zwischen 2003 und 2012 umgekehrt?
2. Welcher der folgenden Punkte ist KEIN GRADE-Downgrade-Faktor?
3. Welche Sprache sollte für Beweise mit NIEDRIGER Vertrauenswürdigkeit verwendet werden?
Eine Zahl ist nicht genug.
Sie müssen kommunizieren, wie sicher Sie sind.
Certainty must be earned, not assumed.
Methoden schützen Patienten vor unserem Vertrauen.
Modul 11: The Living Rezension
Methoden schützen Patienten vor unserem Vertrauen.
COVID-19 Hydroxychloroquine: 2020
Wenn die Dringlichkeit erfüllt ist Beweise.
Modul 11: The Living Rezension
🎯 Learning Objectives
- Wenden Sie die sequenzielle Testanalyse an, um festzustellen, wann Beweise ausreichend sind
- Entwerfen und pflegen Sie eine lebendige systematische Überprüfung
- Establish update triggers and futility/harm boundaries
- Manage multiplicity and alpha-spending in sequential analyses
- Explain how rapid evidence synthesis evolved during COVID-19
March 2020: A World in Crisis
"Das Virus verbreitet sich schneller, als wir es verstehen..."
COVID-19 tötete Tausende. Die Intensivstationen waren überfüllt. Es gab keinen Impfstoff, keine Behandlung. Dann ein Hoffnungsschimmer: hydroxychloroquine (HCQ)—an old malaria drug—showed antiviral activity in lab studies.
Der Ansturm auf Adoption
Wenige Wochen nach der Gautret-Studie:
March 28: FDA issues Emergency Use Authorization for HCQ
April 4: India bans HCQ export (hoarding fears)
Global: Shortages affect lupus and rheumatoid arthritis patients
Millions received HCQ based on a 36-patient observational study
What could go wrong?
Untersuchung: Die Gautret-Studie
Sie sind ein EBM-Experte, der die französische HCQ-Studie auswerten soll. Untersuchen Sie das Design...
| Issue | Impact |
|---|---|
| Non-randomized | Selection bias—who got HCQ? |
| 6 patients excluded | 3 went to ICU, 1 died, 1 withdrew, 1 had nausea |
| Surrogate outcome | Viral load, not clinical outcomes |
| Kontrolle aus verschiedenen Krankenhäusern | Different care, different testing |
| No blinding | Expectation bias in lab testing |
Diese Studie würde ein HOHES Verzerrungsrisiko für RoB 2.0 erzielen
GRADE certainty: VERY LOW. Yet it changed global policy.
Why Observational COVID Studies Misled
Immortal Time Bias
Patients must survive long enough to receive treatment. Survivors are compared to non-survivors.
Confounding by Indication
Sicker patients may get different treatments. Healthier patients received HCQ early.
Healthy User Effect
Patients who seek treatment tend to be healthier overall.
Outcome Reporting
Studien mit positiven Ergebnissen wurden schneller veröffentlicht.
Juni 2020: Der RCTs-Bericht
Large, rigorous trials completed at remarkable speed
| Trial | N | Result |
|---|---|---|
| RECOVERY (UK) | 4,716 | No benefit on mortality (RR 1.09) |
| WHO SOLIDARITY | 954 | No benefit (RR 1.19) |
| ORCHID (US) | 479 | Gestoppt für Sinnlosigkeit |
Zeitleiste: Beobachtungs- vs. RCT-Evidenz
March-May 2020
Observational: ~20 studies
Suggest benefit
Pooled OR ~0.65
June-July 2020
RCTs: RECOVERY, SOLIDARITY
Show no benefit/harm
Pooled RR ~1.10
Von „vielversprechend“ zu „ineffektiv“ in 3 Monaten
Deshalb brauchen wir Randomisierung – und lebendige Reviews, um sich entwickelnde Evidenz zu verfolgen.
Living Systematic Reviews
Eine neue Ansatz für sich schnell entwickelnde Beweise:
Continuous Surveillance
Suchen Sie wöchentlich oder sogar täglich in der Literatur nach neuen Beweisen
Cumulative Meta-Analysis
Update pooled estimates as each new trial reports
Versuchssequenzanalyse (TSA)
Determine when sufficient information has accumulated to conclude
Transparent Versioning
Track every change, maintain full audit trail
Versuchssequenzanalyse (TSA)
When have we learned enough?
TSA wendet bei der Metaanalyse Grenzen an – ähnlich der Zwischenanalyse in einer einzelnen Studie. Dies ist verantwortlich für die required information size (RIS) needed to detect or exclude a clinically meaningful effect.
Für HCQ bei COVID zeigte die TSA, dass die Grenze der Sinnlosigkeit im Juni 2020 überschritten wurde.
Lehren aus der HCQ-Saga
1. Observational studies can mislead spectacularly wenn Voreingenommenheit vorherrscht. Auch viele Studien, die in die gleiche Richtung weisen, können falsch sein.
2. RCTs can be conducted quickly when the will exists. RECOVERY enrolled 5,000+ patients in weeks.
3. Lebendige Bewertungen sind unerlässlich for evolving topics. Fixed-point-in-time reviews become obsolete instantly.
4. Political pressure doesn't change biology. Strenge Methoden schützen Patienten auch unter Druck.
Was wäre, wenn die Prävention die Ursache IST?
REAL DATA
For decades, pediatric guidelines recommended: avoid peanuts in infancy to prevent allergy. Meanwhile, peanut allergy rates tripled von 1997 bis 2008. Dann kam LEAP (2015): 640 high-risk infants randomized to early peanut introduction vs. avoidance. Result: Early introduction reduced peanut allergy by 81% (1,9 % vs. 13,7 %). Die Präventionsstrategie verursachte die Epidemie.
Module 11 Quiz
1. Was war der Hauptfehler in der Gautret-Hydroxychloroquin-Studie?
2. What does Trial Sequential Analysis help determine?
3. Warum haben beobachtende COVID-Studien einen HCQ-Vorteil gezeigt, RCTs dagegen nicht?
Speed cannot replace rigor.
But rigor can be fast.
Living reviews balance both.
Nicht jedes Signal ist wahr.
Modul 12: Fortgeschrittene Methoden
Nicht jedes Signal ist wahr.
Advanced Methods
Beyond pairwise meta-analysis.
Modul 12: Fortgeschrittene Methoden
🎯 Learning Objectives
- Interpret network meta-analysis geometry and SUCRA rankings
- Apply bivariate models for diagnostic test accuracy meta-analysis
- Conduct dose-response meta-analysis with flexible splines
- Understand when individual patient data (IPD) meta-analysis is needed
- Erkennen Sie die Annahmen und Einschränkungen von jede fortgeschrittene Methode
Wenn paarweise nicht ausreicht
"Manchmal ist die Frage komplexer als A gegen B..."
Die Methoden, die Sie gelernt haben, bilden die Grundlage. Aber die klinische Realität erfordert oft mehr: Which of 10 antidepressants is best? What's the optimal dose of statin? Does this test accurately diagnose early cancer?
Dieses Modul stellt vier fortgeschrittene Methoden vor, die jeweils unterschiedliche komplexe Fragen beantworten.
Network Meta-Analysis (NMA)
When you have many treatments but few head-to-head trials
NMA combines direct evidence (A vs B) with indirect evidence (A vs C, B vs C → inferred A vs B) to compare multiple treatments simultaneously.
NMA Example: Antidepressants
The landmark Cipriani 2018 NMA compared 21 antidepressants using 522 trials.
The Challenge
21 drugs, but not every pair tested head-to-head
Many vs. placebo, few vs. each other
The Solution
NMA kombiniert direkte und indirekte Evidenz aus allen Bereichen Netzwerk
Rang alle 21 hinsichtlich Wirksamkeit und Akzeptanz
Ergebnis: Einige Medikamente wurden hinsichtlich ihrer Wirksamkeit höher eingestuft, andere hinsichtlich ihrer Akzeptanz
Kein einzelnes Medikament ist allgemein „am besten“; Interpretieren Sie Rankings mit glaubwürdigen Intervallen, Transitivität und klinischen Kompromissen.
NMA: Critical Assumptions
Transitivity
Effect modifiers should be similarly distributed across comparisons; otherwise indirect comparisons may be biased
Consistency
Direkte und indirekte Beweise stimmen überein (überprüfbar)
Connected Network
All treatments linked through at least one common comparator
When assumptions fail, NMA can mislead
Beurteilen Sie immer die Transitivität und testen Sie auf Inkonsistenz.
Dose-Response Meta-Analysis
Finden der optimalen Dosis
Uses the Greenland-Longnecker method mit eingeschränkten kubischen Splines zur Modellierung nichtlinearer Beziehungen zwischen Dosis und Wirkung.
Non-linear patterns
J-shaped (alcohol & mortality), U-shaped (vitamin D), threshold (aspirin)
Clinical relevance
Finden Sie die Dosis mit dem besten Nutzen-Schaden-Verhältnis, nicht nur „Mehr ist besser“
Individuelle Patientendaten (IPD)
Der Goldstandard für die Subgruppenanalyse
Instead of published summary data, obtain roh Daten auf Patientenebene von Studienärzten. Ermöglicht präzise Untergruppenanalysen, Time-to-Event-Modellierung und standardisierte Definitionen.
Die Early Breast Cancer Trialists' Collaborative Group leistete in den 1980er Jahren Pionierarbeit bei IPD MA.
Diagnostic Test Accuracy (DTA)
Wenn die „Intervention“ eine ist Test
DTA meta-analysis synthesizes sensitivity (richtige positive Rate) und specificity (true negative rate)—two correlated outcomes requiring bivariate models.
Bivariate/HSROC Model
Berücksichtigt die Korrelation zwischen Sensitivität und Spezifität
SROC Curve
Zusammenfassende ROC-Kurve mit 95 % Konfidenz und Vorhersagebereichen
QUADAS-2
Quality Assessment of Diagnostic Accuracy Studies
Das Richtige wählen Methode
| Question | Method |
|---|---|
| Does A beat B? | Pairwise MA |
| Which of many treatments is best? | Network MA (NMA) |
| Was ist die optimale Dosis? | Dose-Response MA |
| Who benefits most? (subgroups) | IPD MA |
| Wie genau ist dieser Test? | DTA MA |
| Wie entwickelt sich die Wirkung im Laufe der Zeit? | Survival/Time-to-Event MA |
Die Methode muss zur Frage passen. Erzwingen Sie niemals eine Frage mit der falschen Methode.
Three large trials. Three different answers. What do you believe?
REAL DATA
CORTICUS (2008): 499 patients. Hydrocortisone in septic shock. No mortality benefit. ADRENAL (2018): 3,658 patients. Hydrocortisone. No mortality benefit. APROCCHSS (2018): 1,241 patients. Hydrocortisone + fludrocortisone. Mortality reduced (43% vs 49.1%, p=0.03). Same class of intervention. Different protocols. Different results.
Module 12 Quiz
1. Was ist der Hauptvorteil der Netzwerk-Metaanalyse gegenüber der paarweisen Analyse?
2. Why does DTA meta-analysis require bivariate models?
3. What does the "consistency" assumption in NMA require?
Das Kurs-Ökosystem
Dieser Kurs deckt den gesamten systematischen Review-Workflow ab. Erkunden Sie für tiefergehende Einblicke die Begleitkurse:
Bivariate/HSROC, SROC curves, QUADAS-2
RoB 2, ROBINS-I/E, domain-level assessment
Full SoF tables, GRADE-CERQual
One-stage/two-stage, mixed-effects models
Copas, PET-PEESE, p-curve, selection models
AMSTAR 2, ROBIS, overlap correction
CHARMS, PROBAST, c-statistic pooling
TSA, update triggers, abbreviated methods
Module 12 Complete
„Die Methode muss zur Frage passen. Fortgeschrittene Methoden beantworten fortgeschrittene Fragen – aber die Grundlagen ändern sich nie.“
Sie beherrschen den Kernworkflow. Die nächsten zehn Module erforschen die Grenzen: Bayesianische Inferenz, Netzwerk-Metaanalyse, individuelle Patientendaten, Dosis-Wirkungs-Modellierung, Robustheit und Fragilität, Gerechtigkeit, KI-gestützte Synthese, qualitative Evidenz, multivariate Methoden und Reproduzierbarkeit.
Nicht jedes Signal ist wahr.
Modul 13: Das Bayesianische Turn
Nicht jedes Signal ist wahr.
Modul 13: Das Bayesianische Turn
Modul 13: Das Bayesianische Turn
🎯 Learning Objectives
- Erklären Sie den Unterschied zwischen frequentistischer und bayesianischer Inferenz
- Interpret prior distributions, likelihoods, and posterior distributions
- Distinguish credible intervals from confidence intervals
- Understand when Bayesian meta-analysis offers advantages
- Recognize how prior choice affects conclusions
In 2005, a trial began
that would never truly end.
Die STAMPEDE-Studie für Prostatakrebs verwendete ein mehrarmiges, mehrstufiges (MAMS) Plattformdesign. Waffen könnten hinzugefügt oder weggelassen werden, wenn sich Beweise ansammeln. Obwohl ihre Statistiken frequentistisch waren, verkörperte die adaptive Philosophie den Bayes'schen Geist: Entscheidungen aktualisieren, wenn sich Daten ansammeln.
Die Weltanschauung der Frequentisten
In frequentist statistics, probability means long-run frequency. Ein 95 %-KI bedeutet NICHT „95 % Wahrscheinlichkeit, dass der wahre Effekt vorhanden ist“. Das bedeutet: Wenn wir die Studie unendlich wiederholen würden, würden 95 % der Intervalle die Wahrheit enthalten.
Die Bayesianische Weltanschauung
In Bayesian statistics, probability represents degree of belief. We start with a prior (was wir vor den Daten glauben), aktualisieren Sie mit dem likelihood (was uns die Daten sagen) und erhalten Sie a posterior (updated belief).
Prior × Likelihood = Posterior
Satz von Bayes: P(θ|Daten) ∝ P(Daten|θ) × P(θ)
Credible Intervals
Ein 95 % glaubwürdiges Intervall ist probabilistisch interpretierbar, abhängig vom angegebenen Modell und prior.
Choosing Priors
Non-informative (Vague)
Normal(0, 10000) oder einheitlich. Lassen Sie Daten dominieren. Imitiert frequentistische Ergebnisse.
Weakly Informative
Normal(0, 1) for log-OR. Regularizes extreme estimates while remaining flexible.
Informative
Based on previous evidence. Powerful but controversial. Must be pre-specified.
Half-Cauchy for τ
Recommended for heterogeneity. Half-Cauchy(0, 0.5) allows large τ but concentrates near zero.
MCMC Sampling
Most Bayesian models cannot be solved analytically. We use Markov Chain Monte Carlo (MCMC) zur Entnahme von Proben aus dem Seitenzahnbereich. Tools: JAGS, Stan, brms (R), PyMC (Python).
Bayesian Model Averaging
Instead of choosing between fixed-effect and random-effects models, Bayesian model averaging (BMA) gewichtet jedes Modell nach seiner A-Posteriori-Wahrscheinlichkeit. Dies erklärt die Modellunsicherheit in der endgültigen Schätzung.
Bayes Factors
BF₁₀ > 10 = starker Beweis für H₁. BF₁₀ < 1/10 = starker Beweis für H₀.
Interactive: Posterior Visualizer
Passen Sie die vorherige Stärke an, um zu sehen, wie sie sich auf den Seitenzahn auswirkt. Sehen Sie, wie mehr Daten den Vorgänger überfordern.
Die STAMPEDE-Geschichte
STAMPEDE wurde 2005 mit fünf Forschungszweigen gestartet, die Behandlungen für fortgeschrittenen Prostatakrebs vergleichen. Bis 2016 wurde Abirateron hinzugefügt und es wurde eine 37-prozentige Reduzierung der Todesfälle festgestellt (HR 0,63, 95 %-KI 0,52–0,76).
Das Plattformdesign verkörpert Bayes'sches adaptives Denken: Zwischenanalysen leiten die Armauswahl, neue Arme können hinzugefügt werden, wenn Behandlungen auftauchen, und vergebliche Arme fallen frühzeitig weg – so werden Patienten vor Unwirksamkeit bewahrt Therapien.
STAMPEDE hat über 10.000 Patienten in über 100 Zentren aufgenommen und die Behandlung von Prostatakrebs grundlegend verändert. Mit der bayesianischen Denkweise können Beweise gesammelt und Entscheidungen in Echtzeit getroffen werden.
Decision Tree: When to Go Bayesian?
Remember Module 1?
CAST Through a Bayesian Lens
Hätte eine Bayes'sche CAST-Analyse einen aus der Grundlagenforschung abgeleiteten informativen Prior verwendet (Antiarrhythmika unterdrücken PVCs), wäre der Posterior immer noch stark in Richtung Schaden verschoben. Bei genügend Daten ergibt sich sogar ein starker A-priori als wahrscheinlich. Die Lektion: Bayesianische Methoden schützen nicht vor schlechten Priors – aber sie gehen von den Annahmen aus transparent.
Module 13 Quiz
Q1. What does a 95% Bayesian credible interval mean?
Q2. Was ist der empfohlene Prior für die Heterogenität zwischen Studien? (τ)?
Module 13 Complete
„Bei der Bayes’schen Wende geht es nicht um Mathematik. Es geht um Ehrlichkeit – um unsere Annahmen sichtbar zu machen.“
Nicht jedes Signal ist wahr.
Modul 14: Die Netzwerk
Methoden schützen Patienten vor unserem Vertrauen.
Modul 14: Die Netzwerk
Modul 14: Die Netzwerk
🎯 Learning Objectives
- Explain why pairwise comparisons are insufficient when many treatments exist
- Interpret network geometry (nodes, edges, thickness)
- Verstehen Sie Transitivität, Konsistenz und die Rolle indirekter Beweise
- Interpret SUCRA rankings and league tables
- Recognize when NMA assumptions are violated
A clinician faces a patient
bei Depressionen. Welches Medikament?
Es gibt 21 häufig verschriebene Antidepressiva. Die meisten direkten Studien vergleichen nur 2 oder 3. Cipriani et al. (2018, Lancet) verbanden 522 Studien und 116.477 Patienten in einem einzigen Netzwerk.
Die Logik der Netzwerk-Metaanalyse
Direct Evidence
Trials directly comparing A vs B give the most reliable estimate.
Indirect Evidence
Wenn A vs. C und B vs. C existieren, können wir A vs. B ableiten. Dies ist der „transitive“ Annahme.
Mixed Evidence
NMA combines both, weighted by precision, to rank all treatments simultaneously.
Interactive: Network Graph
Jeder Knoten ist eine Behandlung. Die Kantendicke stellt die Anzahl der Studien dar, die diese beiden Behandlungen vergleichen.
Transitivity & Consistency
Transitivity: Die indirekte Schätzung (über einen gemeinsamen Komparator) sollte sich der direkten Schätzung annähern. Dies erfordert, dass die Effektmodifikatoren bei den Vergleichen ähnlich verteilt sind.
Consistency: Statistischer Test, der direkte und indirekte Beweise vergleicht. Globale (Design-by-Treatment-Interaktion) und lokale (Node-Splitting) Tests helfen bei der Identifizierung von Inkonsistenzschleifen.
SUCRA & P-scores
Caution: Ranking is seductive but misleading when differences between treatments are small or uncertain. Always report credible/confidence intervals alongside ranks.
Component NMA
When interventions are complex (e.g., behavioral + pharmacological), component NMA decomposes multi-component treatments to estimate the individual contribution of each component. Uses additive models: effect(A+B) = effect(A) + effect(B) + interaction.
Das Cipriani-Netzwerk
Die Lancet-Analyse von 2018 ergab, dass alle 21 Antidepressiva wirksamer waren als Placebo. Amitriptylin, Mirtazapin und Venlafaxin rangierten hinsichtlich der Wirksamkeit am höchsten. Agomelatin, Fluoxetin und Escitalopram rangierten hinsichtlich der Akzeptanz am höchsten (wenigste Studienabbrecher).
Kein einzelnes Medikament „gewann“ bei allen Ergebnissen. Das Netzwerk deckte Kompromisse auf, die für die paarweise Analyse nicht sichtbar sind.
Decision Tree: Is NMA Appropriate?
Module 14 Quiz
Q1. Welche Annahme muss gelten, damit indirekte Evidenz bei NMA gültig ist?
Module 14 Complete
„Das Netzwerk sieht, was paarweise Vergleiche nicht können: die gesamte Landschaft der Behandlungswahl.“
Nicht jedes Signal ist wahr.
Modul 15: Das Individuum
What was hidden in plain sight?
Modul 15: Das Individuum
Modul 15: Das Individuum
🎯 Learning Objectives
- Explain why aggregate data can mask treatment–covariate interactions
- Distinguish one-stage from two-stage IPD models
- Recognize ecological bias in aggregate meta-analysis
- Understand the practical challenges of IPD collection
- Interpret treatment–covariate interaction plots
For decades, breast cancer trials
veröffentlichte Zusammenfassungen. Keine Patienten.
Die Early Breast Cancer Trialists' Collaborative Group (EBCTCG) hat in Hunderten von Studien Einzeldaten von über 100.000 Frauen gesammelt. Ihre IPD-Metaanalysen zeigten, dass der Nutzen von Tamoxifen stark vom Östrogenrezeptorstatus abhängt – etwas, das in aggregierten Daten nicht sichtbar ist.
Was die Zusammenfassungen verheimlichten
Jede veröffentlichte Studie zu Tamoxifen berichtete über ein Gesamtergebnis. In Hunderten von Studien schien Tamoxifen einen bescheidenen Nutzen zu bieten. Aber „bescheidener Nutzen“ war ein Durchschnitt, der eine tiefgreifende Wahrheit verbarg.
Die versteckte Untergruppenaufteilung
Der Gesamteffekt – die Vermischung von ansprechenden und nicht ansprechenden Patienten – war eine statistische Fiktion. Ein „bescheidener“ Durchschnitt, der den Nutzen für eine Gruppe überbewertet und einen Nutzen impliziert, der für die andere Gruppe nicht vorhanden war.
Aggregierte vs. individuelle Patientendaten
IPD ermöglicht: (1) konsistente Ergebnisdefinitionen, (2) Untergruppenanalyse nach Patientenmerkmalen, (3) Zeit-bis-Ereignis-Modellierung, (4) Überprüfung auf ökologische Verzerrungen. Dabei handelt es sich um die gold standard for exploring treatment effect modification.
One-Stage vs Two-Stage IPD
Two-Stage
Analyze each study separately, then combine estimates (like standard MA). Simple but loses information.
One-Stage
Anpassung eines einzelnen Mixed-Effects-Modells an alle Patientendaten gleichzeitig. Stärker für Interaktionen und seltene Ereignisse.
Key: Beide sollten die Studienclusterung berücksichtigen. Fassen Sie IPD niemals wie aus einer Megastudie zusammen – dies führt zu Verwirrung (Simpson-Paradoxon).
Ecological Bias
A meta-regression using study-level mean age might show older patients benefit more. But this could be ecological bias– der Zusammenhang auf Studienebene spiegelt nicht die Wahrheit auf Patientenebene wider. Nur IPD kann within-study from between-study effects.
Wenn das Ganze über seine Teile lügt
Simpsons Paradoxon trennen: Ein Trend, der in aggregierten Daten auftritt, kehrt sich um, wenn die Daten nach einer verwirrenden Variablen gruppiert werden.
Das Paradoxon in der Praxis
A mega-trial analysis found Treatment X beneficial overall. But innerhalb jedes einzelnen Studie, es war schädlich. Wie? Unterschiede im Ausgangsrisiko zwischen Studien erzeugten eine Illusion – kränkere Bevölkerungsgruppen erhielten zufällig mehr Behandlung, was den Gesamtnutzen erhöhte.
Cates (2002, BMJ) zeigte, dass eine Bündelung über Studien hinweg ohne Berücksichtigung von Clustering die scheinbare Wirkungsrichtung umkehren kann.
Aus diesem Grund berücksichtigen einstufige IPD-Modelle Studie als Clustering-Variable – um zu verhindern, dass Verwechslungen zwischen Studien als Behandlung getarnt werden Wirkung.
Das EBTCCG-Erbe
Die IPD-Metaanalysen des EBCTCG definieren seit 40 Jahren die Behandlung von Brustkrebs. Ihre Analyse von Tamoxifen im Vergleich zu keiner Behandlung aus dem Jahr 2005 zeigte einen klaren Nutzen bei ER-positiven Tumoren (RR 0,59), aber keinen Nutzen bei ER-negativen Tumoren (RR 0,97).
Ohne IPD wäre der gesamte Gesamteffekt auf beide Gruppen gebündelt worden – was den Nutzen verwässert hätte und ER-positiven Patienten möglicherweise das Ausmaß ihres Gewinns vorenthalten hätte.
Decision Tree: When Is IPD Worth Pursuing?
Können Sie IPD aus mehr als 80 % der Studien erhalten?
Is ecological bias a concern?
EBCTCG sammelte über einen Zeitraum von 40 Jahren Daten aus Hunderten von Versuchen. Die meisten IPD-Metaanalysen umfassen 5–20 Studien. Die Entscheidung hängt von der Frage ab, nicht vom Ehrgeiz.
Das Muster wiederholt sich
Erinnern Sie sich an Modul 3? In Beobachtungsstudien schien eine HRT vorteilhaft zu sein, in RCTs jedoch schädlich. Es trat die gleiche aggregierte Maskierung auf: Der Gesamtnutzen verbarg den Schaden für die Untergruppe.
Das zeigte später eine IPD-Analyse der Women's Health Initiative timing mattered– Frauen, die innerhalb von 10 Jahren nach der Menopause mit einer HRT begannen, hatten andere Ergebnisse als Frauen, die später damit begannen. Die „Timing-Hypothese“ war in veröffentlichten aggregierten Zusammenfassungen unsichtbar.
Die Lektion wiederholt sich: Aggregierte Daten können kritische Interaktionen zwischen Behandlung und Kovariate verschleiern. Ob es sich um den ER-Status bei Brustkrebs oder den Zeitpunkt bei einer HRT handelt, die Daten auf individueller Ebene zeigen, was Zusammenfassungen verbergen.
Module 15 Quiz
Q1. Was ist der Hauptvorteil von IPD gegenüber der Metaanalyse aggregierter Daten?
Module 15 Complete
„Hinter jeder gebündelten Schätzung stehen Einzelpersonen, deren Geschichten die Gesamtheit nicht erzählen kann.“
Heterogenität ist eine Botschaft, kein Rauschen.
Modul 16: Die Dosis
Heterogenität ist eine Botschaft, kein Rauschen.
Modul 16: Die Dosis
Modul 16: Die Dosis
🎯 Learning Objectives
- Explain why simple pairwise comparisons miss dose–response relationships
- Distinguish linear, quadratic, and spline dose–response models
- Interpret restricted cubic splines with knots
- Identify threshold effects and J/U-shaped curves
- Understand model comparison with AIC/BIC
Seit Jahrzehnten mäßiger Alkoholkonsum
schien das Herz zu schützen.
Die „J-förmige Kurve“ zeigte, dass Nichttrinker eine höhere kardiovaskuläre Mortalität aufwiesen als mäßige Trinker. Aber Stockwell et al. (2016) zeigten, dass die J-Kurve ein Artefakt der fälschlichen Klassifizierung ehemaliger Trinker (die aus Krankheitsgründen mit dem Rauchen aufgehört haben) als „Abstinenzler“ war.
A Scientific Consensus Built on Sand
Bis 2010 hatten über 100 Beobachtungsstudien die J-Kurve bestätigt. Medizinische Lehrbücher lehrten es. Kardiologen haben es zitiert. Lobbyisten der Weinindustrie finanzierten Konferenzen zu diesem Thema.
Die Beweise schienen überwältigend. Was aber, wenn die Vergleichsgruppe – „Abstinenzler“ – kontaminiert wäre?
Der kranke Drückeberger
A Hidden Confounder
The Problem
People who stop drinking often do so because they are already ill– Lebererkrankungen, Wechselwirkungen mit Medikamenten, Krebsdiagnose. Diese „ehemaligen Trinker“ wurden in den meisten Studien als „Abstinenzler“ eingestuft.
The Effect: The reference group (abstainers) appeared less healthy– nicht weil die Abstinenz schädlich war, sondern weil sich ihr kranke Menschen angeschlossen hatten.
When Stockwell et al. (2016, J Stud Alcohol Drugs) removed former drinkers and applied appropriate study-quality corrections: die J-Kurve verschwand. Die Schutzwirkung war ein Phantom.
Dose–Response Meta-Analysis
Standard meta-analysis asks: "Does treatment X work?" Dose–response meta-analysis asks: "At what dose Funktioniert Behandlung X am besten?“ Es modelliert die Beziehung zwischen Dosishöhe und Ergebnis über mehrere Studien hinweg.
Restricted Cubic Splines
RCS place knots an vorab festgelegten Dosispunkten und passen glatte Polynome dazwischen an. Typischerweise 3–5 Knoten bei Quantilen der Dosisverteilung. Linear über Grenzknoten hinaus. Tests auf Nichtlinearität vergleichen das Spline-Modell mit einem einfacheren linearen Modell.
Model Comparison
AIC/BIC vergleicht lineare und Spline-Anpassung. Niedriger = besser. Testen Sie auch die Abweichung von der Linearität (p-Wert für Spline-Terme).
Interactive: Dose–Response Builder
Vergleichen Sie lineare, quadratische und Spline-Anpassungen. Beobachten Sie, wie sich die Modellform mit unterschiedlichen Annahmen ändert.
Die Alkohol-J-Kurve entlarvt
Die erneute Analyse von Stockwell aus dem Jahr 2016 ergab, dass die schützende Wirkung von mäßigem Alkoholkonsum verschwand, wenn ehemalige Trinker korrekt aus der Referenzgruppe der „Abstinenzler“ ausgeschlossen wurden. Die J-Kurve wurde durch die Voreingenommenheit, krank aufzuhören, bestimmt.
Die Dosis-Wirkungs-Metaanalyse brachte die Wahrheit ans Licht: Die Form der Kurve hängt entscheidend davon ab, wie Sie „Nulldosis“ definieren. Die falsche Referenzkategorie führte zu einem Phantomnutzen.
When Curves Shape Policy
The phantom J-curve influenced alcohol guidelines worldwide:
NHS Guidance (until 2016)
„Mäßiger Alkoholkonsum kann das Herz schützen“ stand in den offiziellen Leitlinien. Nach Stockwells Korrektur revidierte das Vereinigte Königreich die Grenzwerte auf 14 Einheiten/Woche für all Trinker (zuvor 21 für Männer). Keine Menge wurde als „sicher“ eingestuft.
Dietary Guidelines Advisory Committee
J-Kurven-Studien wurden im Jahr 2015 zitiert. Das Komitee von 2020 empfahl die Senkung der Grenzwerte auf 1 Getränk/Tag für Männer und bestätigte damit die Voreingenommenheit gegenüber der Referenzgruppe.
Australian Guidelines
Safe drinking limits were delayed by industry-funded J-curve research promoting “cardioprotective” moderate intake.
Decision Tree: Is Dose-Response Analysis Appropriate?
Ist die Beziehung plausibel nichtlinear?
Standard pairwise meta-analysis (no dose-response possible with only two levels)
Module 16 Quiz
Q1. What makes restricted cubic splines useful in dose–response meta-analysis?
Module 16 Complete
"Die Dosis macht das Gift. Und die Form der Kurve zeigt, ob das Gift real ist."
Das Fehlen von Beweisen ist kein Beweis für das Fehlen.
Modul 17: Die Fragilität
Das Fehlen von Beweisen ist kein Beweis für das Fehlen.
Modul 17: Die Fragilität
Modul 17: Die Fragilität
🎯 Learning Objectives
- Berechnen und interpretieren Sie den Fragilitätsindex
- Verwenden Sie GOSH-Diagramme, um einflussreiche Studien und Teilmengen zu identifizieren Auswirkungen
- Interpret contour-enhanced funnel plots
- Wenden Sie Copas-Auswahlmodelle und PET-PEESE für Publikationsbias an
- Understand how sensitivity analyses strengthen meta-analytic conclusions
Governments stockpiled billions
auf der Grundlage von Beweisen, die sie nicht sehen konnten.
Nach H1N1 gaben Regierungen Milliarden für die Vorräte von Oseltamivir (Tamiflu) aus. Das Cochrane-Team (Jefferson et al. 2014) kämpfte jahrelang um den Zugriff auf unveröffentlichte Daten. Als sie es schließlich taten, verflüchtigten sich die Belege für die Verhinderung von Komplikationen.
Der Fragilitätsindex
Der Fragilitätsindex fragt: "How many patients would need to change outcome to flip a statistically significant result to non-significant?" Er fügt iterativ Ereignisse hinzu (wandelt Nicht-Ereignisse in Ereignisse um) in der Gruppe mit weniger Ereignissen bis p > 0.05.
Interactive: Fragility Calculator
Enter a 2×2 table to calculate the fragility index. Watch events shift until significance flips.
GOSH Plots
Grafischer Überblick über die Studienheterogenität (GOSH) passt Metaanalysemodelle an alle möglichen Teilmengen von Studien an. Jeder Punkt stellt den gepoolten Effekt gegen I² für eine Teilmenge dar. Cluster deuten auf unterschiedliche Untergruppen hin; Ausreißerwolken deuten darauf hin, dass eine Studie die Heterogenität fördert.
Für k Studien gibt es 2k−1 subsets. For k > 15, random sampling is used.
Contour-Enhanced Funnel Plots
Standard funnel plots show effect size vs standard error. Contour-enhanced Versionen fügen schattierte Bereiche für p < 0,01, p < 0,05 und p < 0,10 hinzu. Wenn fehlende Studien in nicht signifikante Regionen fallen, ist ein Publikationsbias wahrscheinlich. Wenn sie in signifikante Regionen fallen, können andere Ursachen (z. B. Studienqualität) die Asymmetrie erklären.
Copas Selection & PET-PEESE
Copas Selection Model
Modelliert die Wahrscheinlichkeit, dass eine Studie veröffentlicht wird, als Funktion ihrer SE und Effektgröße. Schätzt gemeinsam die wahre Wirkung und den Selektionsmechanismus.
PET-PEESE
Precision-Effect Test (PET): regress effects on SE. If intercept = 0, no true effect. PEESE uses SE² for better performance when a true effect exists.
Die Oseltamivir-Saga
Die ursprüngliche von Roche finanzierte Metaanalyse (Kaiser 2003) zeigte, dass Oseltamivir Influenza-Komplikationen um 67 % reduzierte. Aber 8 von 10 Studien wurden nie veröffentlicht. Nachdem Cochrane die klinischen Studienberichte erhalten hatte, sank der Nutzen bei Komplikationen auf nicht signifikante 11 %.
Die Fragilität war nicht nur statistisch – sie war informativ. Der Evidenzbasis selbst fehlten die meisten Daten.
Entscheidungsbaum: Interpretation Ihrer Fragilitätsergebnisse
Highly fragile. Eine Handvoll verschiedener Ereignisse würden die Schlussfolgerung umkehren. Interpretieren Sie mit äußerster Vorsicht.
Moderately fragile. Empfindlich gegenüber kleinen Störungen. Gibt es unveröffentlichte Studien, die dies ändern könnten?
Relatively robust. But remember: fragility is only one dimension. Publication bias can undermine even robust results.
Walsh et al. (2014, J Clin Epidemiol) ergab, dass in 399 RCTs, die in Top-Zeitschriften veröffentlicht wurden, der mittlere Fragilitätsindex nur 8 betrug. Über 25 % hatten einen FI ≤ 3. Wegweisende Studien, die die klinische Praxis beeinflussten, hingen oft an einem statistischen Faden.
Beyond the Index: Structural Fragility
Die Oseltamivir-Saga wurde enthüllt three types of fragility– und der Fragilitätsindex erfasst nur den ersten.
Statistical Fragility (FI)
Wie viele Ereignisse drehen den p-Wert um? Dies misst der Fragilitätsindex. Es quantifiziert die Sensitivität gegenüber individuellen Patientenergebnissen.
Informational Fragility
Wie viele Beweise sind verborgen? Acht von zehn Roche-Oseltamivir-Studien waren unveröffentlicht. Die Evidenzbasis war strukturell unvollständig.
Analytical Fragility
Wie viele Freiheitsgrade der Forscher könnten die Schlussfolgerung ändern? Unterschiedliche Ergebnisdefinitionen, Analysepopulationen oder statistische Methoden.
Rückruf zu Modul 10 (Paroxetin): Eine erneute Analyse mit unterschiedlichen Ergebnisdefinitionen kehrte die Schlussfolgerung vollständig um. Das war analytische Fragilität – der FI wurde nie berechnet, weil der Endpunkt selbst umstritten war. Eine vollständige Robustheitsbewertung untersucht alle drei Dimensionen.
Module 17 Quiz
Q1. Eine Studie umfasst 200 Patienten pro Arm, 12 Ereignisse in der Behandlung, 25 in der Kontrolle (p=0,03). Der Fragilitätsindex beträgt 3. Was bedeutet das?
Module 17 Complete
„Die Zahl, die jeden Versuch, sie zu knacken, übersteht, ist vertrauenswürdig.“
Nicht jedes Signal ist wahr.
Modul 18: Das Eigenkapital
Certainty must be earned, not assumed.
Modul 18: Das Eigenkapital
Modul 18: Das Eigenkapital
🎯 Learning Objectives
- Identify how trial exclusion criteria create evidence gaps
- Wenden Sie das PROGRESS-Plus-Framework an, um die Gleichheit der Beweise zu bewerten
- Use PRISMA-Equity reporting guidelines
- Understand transportability: when trial findings fail in practice
- Design equity-sensitive search and synthesis strategies
SPRINT proved tight blood pressure control
saves lives. But whose lives?
Die bahnbrechende SPRINT-Studie schloss Patienten mit Diabetes, Schlaganfall und Herzinsuffizienz aus. Über 75 % der Bluthochdruckpatienten in den USA wären nicht qualifiziert gewesen. Die Beweise waren stark, aber die Anwendbarkeit war begrenzt.
Die Studie, die die meisten ihrer Patienten ausschloss
SPRINT nahm 9.361 Patienten auf und bewies, dass eine intensive Blutdruckkontrolle (Zielwert <120 mmHg) kardiovaskuläre Ereignisse um 25 % reduzierte (HR 0,75, 95 %-KI 0,64–0,89). Aber die Einschlusskriterien sagten eine andere Geschichte.
Wer wurde ausgeschlossen:
- Diabetes – 35 % der Erwachsenen in den USA leiden an Bluthochdruck
- Prior stroke — 8 % der hypertensiven Bevölkerung
- Symptomatic heart failure — 6% of hypertensive adults
- Expected survival <3 years – die gebrechlichsten Patienten
- Nursing home residents — excluded entirely
- GFR <20 mL/min — advanced kidney disease
Ergebnis: Über 75 % der Erwachsenen in den USA mit Bluthochdruck hätten sich NICHT qualifiziert. Die Beweise waren stark. Aber für wen?
Woher die Beweise kommen
78%
of cardiovascular mega-trial participants came from high-income countries (2000–2020).
6%
from sub-Saharan Africa — where cardiovascular disease is rising fastest.
Polypillenversuche: 4 von 5 wurden in Populationen mit einem mittleren BMI <25 durchgeführt. Der durchschnittliche BMI in den USA liegt bei 30. Der Arzneimittelstoffwechsel, die Komorbiditätsmuster, der Zugang zur Gesundheitsversorgung und die genetische Variation unterscheiden sich zwischen den Bevölkerungsgruppen. Efficacy in one population does not guarantee effectiveness in another.
Referenz: Multinationale Studien und die PROGRESS-Plus-Lücke
PROGRESS-Plus Framework
Plus: Age, disability, sexual orientation, other vulnerable groups.
PRISMA-Equity & Transportability
PRISMA-Equity erweitert PRISMA um eine Berichterstattung darüber, wie Gerechtigkeit in der Überprüfung berücksichtigt wurde: Bevölkerungsmerkmale, Untergruppenanalysen nach Benachteiligung und Bewertung der Anwendbarkeit auf unterversorgte Bevölkerungsgruppen.
Transportability: Die Wirksamkeit der Studie entspricht nicht der Wirksamkeit in der Praxis. Es gibt Methoden, um Versuchsdaten neu zu gewichten, um sie an die Zielpopulationsverteilung anzupassen.
From Trial to Real World: Transportability
Transportability = Können Ergebnisse der Versuchspopulation X auf die Zielpopulation Y angewendet werden? Dies ist keine philosophische Frage – sie hat formale Methoden.
Inverse Probability of Participation Weighting (IPPW)
Re-weights trial participants so they resemble the target population on key covariates.
Generalizability Index
Quantifiziert, wie ähnlich die Versuchsstichprobe hinsichtlich der beobachteten Merkmale der Zielpopulation ist.
Stuart et al. (2015, Stat Med): Als die SPRINT-Ergebnisse neu gewichtet wurden, um sie an die hypertensive Bevölkerung in den USA anzupassen, wurde der geschätzte Nutzen abgeschwächt – HR 0,82 (gegenüber 0,75 in der Studie). Die Behandlung funktioniert immer noch. Aber das Ausmaß ändert sich, wenn sich die Bevölkerung ändert.
SPRINT und die fehlende Mehrheit
SPRINT war eine gut konzipierte Studie mit 9.361 Patienten. Sein Ergebnis (HR 0,75 für intensive vs. Standard-Blutdruckkontrolle) veränderte die Leitlinien weltweit. Nachfolgende Analysen zeigten jedoch, dass der Nutzen in der Untergruppe, die der Versuchspopulation am ähnlichsten war, am stärksten war – und für ausgeschlossene Gruppen unsicher war.
Gerechtigkeit bei der Evidenzsynthese bedeutet, nicht nur zu fragen: „Funktioniert es?“ aber „Für wen funktioniert es?“
Entscheidungsbaum: Gerechtigkeitsbewertung für Ihre Bewertung
ROOT: Stammt die Evidenz Ihrer Bewertung aus Populationen, die Ihrer Zielgruppe ähneln?
YES → Good. But check: Are subgroups (age, sex, ethnicity, SES) reported separately?
- Yes: Use subgroup effects for population-specific recommendations
- No: Flag as limitation — equity gap in reporting
NO → Does PROGRESS-Plus analysis reveal differential effects?
- Yes: Population-specific recommendations needed. Consider transportability re-weighting.
- No: Cautious generalization with explicit equity statement in discussion
Callback: The HRT Lesson Revisited
Erinnern Sie sich an Modul 3? Die HRT-Geschichte zeigte, dass healthy-user bias eine schädliche Behandlung vorteilhaft erscheinen ließ. SPRINT hat möglicherweise das gegenteilige Problem – der „gesunde Freiwillige“-Effekt kann eine wirksame Behandlung erscheinen lassen more effective than it would be in the real world.
Jede Metaanalyse sollte fragen: Wer wurde einbezogen? Wer wurde ausgeschlossen? Und spielt das eine Rolle?
Module 18 Quiz
Q1. What does the PROGRESS-Plus framework help reviewers assess?
Module 18 Complete
„Beweise, die die Schwachen ausschließen, können nicht den Anspruch erheben, ihnen zu dienen.“
Nicht jedes Signal ist wahr.
Modul 19: Die Maschine
Die Zahl ohne Herkunft ist keine Zahl.
Modul 19: Die Maschine
Modul 19: Die Maschine
🎯 Learning Objectives
- Describe how AI/ML is used in systematic review screening
- Explain active learning and human-in-the-loop workflows
- Assess automation validation: recall, workload savings, and risk
- Erkennen Sie die Einschränkungen und Vorurteile des algorithmischen Screenings
- Anwenden Sie Rahmenwerke für den verantwortungsvollen Einsatz von KI in Beweismitteln Synthese
When COVID-19 hit,
papers arrived faster than humans could read.
Bis 2021 gab es über 300.000 COVID-Artikel. Cochrane nutzte Klassifikatoren für maschinelles Lernen, um Studien für ihre Schnellrezensionen zu selektieren. Dadurch wurde der Screening-Arbeitsaufwand um bis zu 70 % reduziert und gleichzeitig eine Erinnerung von >95 % aufrechterhalten.
The Flood
By April 2020, 4,000 COVID preprints appeared every week.
PubMed indexed 500 new COVID articles per day.
Cochrane's screening queue hit 10,000 unreviewed titles.
A pair of reviewers screens ~200 titles per day.
At 500 new articles/day, they fell further behind with every hour.
Die lebende Rezension starb, bevor sie leben konnte.
Die Erste Versuche
Die Idee war nicht neu. Cohen et al. (2006, JAMIA) zeigten erstmals, dass maschinelles Lernen die Screening-Arbeitsbelastung um 50 % reduzieren kann – mit weniger als 5 % Verlust in der Erinnerung.
Aber Simulation ist nicht die Realität. COVID wäre der erste echte Test im großen Maßstab.
AI in Systematic Reviews
Screening Prioritization
Active learning ranks citations by relevance. Reviewers screen the most likely relevant first.
Datenextraktionsunterstützung
NLP extrahiert PICO-Elemente, Ergebnisse und Ergebnisse. Erfordert immer eine menschliche Überprüfung.
Risk of Bias Assessment
ML classifiers predict RoB domains. Experimental—human judgment remains gold standard.
Validating Automation
Die grundlegende Spannung: Automatisierung spart Zeit, führt aber zu einer neuen Fehlerquelle. Melden Sie immer das Tool, die Version, die Trainingsdaten und die Stoppkriterien.
Um herauszufinden, ob die Maschine eine relevante Studie verpasst hat, you need a human to screen everything.
But if humans screen everything, warum das verwenden? Maschine?
The solution: prospective holdout validation.
- Random 10% sample screened by both human and machine
- Vergleiche: Hat die Maschine übersehen, was der Mensch gefunden hat?
- If recall drops below 95%, retrain and expand human screening
Vertrauen, aber überprüfen. Die Maschine verdient ihre Rolle – sie erbt sie nicht.
Cochrane's COVID Response
Cochrane hat das COVID-19-Studienregister mithilfe von Klassifikatoren für maschinelles Lernen erstellt, die auf Millionen von Datensätzen trainiert wurden. Das System erreichte eine Empfindlichkeit von 99 % und reduzierte gleichzeitig die manuelle Überprüfung von Wochen auf Tage.
Aber die Maschine war ein Werkzeug, kein Ersatz. Jede eingeschlossene Studie wurde weiterhin von menschlichen Gutachtern überprüft. Die Lektion: KI erweitert den Gutachter, ersetzt ihn nicht.
Die Studie, die fast nicht gefunden wurde
Im Juni 2020 veröffentlichte die RECOVERY-Studie ihre Dexamethason-Ergebnisse –the first treatment proven to reduce COVID mortality (28-day mortality: 22.9% vs 25.7%, RR 0.83).
Der Vorabdruck erschien auf medRxiv mit einem nicht standardmäßigen Titel. Szenarien wie dieses traten während der Pandemie wiederholt auf: ML-Klassifikatoren, die auf der vorhandenen Terminologie geschult waren, stuften unbekannte Formulierungen niedrig ein.
In mehreren Live-Reviews erkannten menschliche Gutachter, die markierte Titel scannten, wichtige Medikamentennamen und eskalierten Studien, die von Klassifizierern herabgestuft worden waren.
Ohne diese Menschen hätten bahnbrechende Behandlungsergebnisse womöglich Wochen auf ihre Veröffentlichung gewartet die lebende Rezension.
Die Maschine liest schneller. Der Mensch liest tiefer. Beides allein reicht nicht aus.
Decision Tree: When Should You Use AI?
Active learning prioritization. Dual-screen random 10% holdout. Stop when 3 consecutive batches yield 0 relevant studies.
Report: classifier type, training data, recall on holdout, stopping rule.
For <5,000 titles, dual human screening remains gold standard. AI adds complexity without proportionate benefit.
If yes → AI is especially valuable. Continuous classifier retraining on new evidence. But: Überlassen Sie niemals die Maschine die endgültige Aufnahmeentscheidung.
Das Muster wiederholt sich
Erinnern Sie sich an Modul 6? Poldermans fabrizierte DECREASE-Daten, die ein Jahrzehnt lang die Leitlinien für perioperative Betablocker leiteten.
AI can now detect statistical anomalies automatically:
- GRIM test: Sind die gemeldeten Mittelwerte mit ganzzahligen Stichprobengrößen konsistent?
- SPRITE: Können die gemeldeten zusammenfassenden Statistiken aus plausiblen Einzeldaten rekonstruiert werden?
- Statcheck: Do reported p-values match the test statistics?
Diese Tools fanden Anomalien in hundreds of published papers—faster than any human auditor.
Aber die Maschine meldet sich. Die menschlichen Richter. Die Entscheidung zum Zurückziehen bleibt zutiefst menschlich.
Module 19 Quiz
Q1. Was ist der akzeptable Mindestrückruf für KI-gestütztes Screening in systematischen Übersichten?
Module 19 Complete
„Die Maschine liest schneller. Der Mensch liest tiefer. Gemeinsam lesen sie die Wahrheit.“
Nicht jedes Signal ist wahr.
Modul 20: Die Qualitativ
Methoden schützen Patienten vor unserem Vertrauen.
Modul 20: Die Qualitativ
Modul 20: Die Qualitativ
🎯 Learning Objectives
- Explain why some questions require qualitative evidence synthesis
- Describe meta-ethnography (Noblit & Hare) and thematic synthesis
- Apply the CERQual framework to assess confidence in qualitative findings
- Understand mixed-methods synthesis approaches
- Recognize when qualitative evidence changes practice
Die WHO stellte eine Frage
kein RCT konnte Antwort.
Warum erleben Frauen weltweit Respektlosigkeit und Missbrauch während der Geburt? Bohren et al. (2015) fassten 65 qualitative Studien aus 34 Ländern in einem Rahmen aus sieben Bereichen der Misshandlung zusammen.
Eine Frage jenseits der Randomisierung
Im Jahr 2014 berief die WHO ein Gremium ein, um eine globale Krise anzugehen: Frauen wurden körperlich misshandelt, verbal gedemütigt und ihnen wurde die Betreuung während der Geburt verweigert. Dies war kein seltenes Ereignis – Berichte kamen von 34 countries.
They needed to understand WHY. What drives disrespect and abuse in maternity care?
Kein RCT konnte darauf eine Antwort geben. Sie können Frauen nicht nach dem Zufallsprinzip entweder einer missbräuchlichen oder einer respektvollen Fürsorge zuordnen. Sie können Geburtshelfer nicht blenden. Man kann „Würde“ nicht auf einer Likert-Skala messen. Die Beweise mussten qualitativ sein.
Meta-Ethnography
Developed by Noblit & Hare (1988), meta-ethnography translates Konzepte über Studien hinweg, statt Zahlen zu aggregieren. Es erzeugt neue Interpretationsrahmen (Konstrukte dritter Ordnung) aus Daten erster Ordnung (Teilnehmerzitate) und zweiter Ordnung (Interpretationen von Autoren).
argument
What Bohren Found: A Taxonomy of Mistreatment
Hitting, pinching, slapping during labor
Inappropriate touching, non-consensual procedures
Shouting, threats, judgmental comments
Based on HIV status, ethnicity, age, poverty
Neglect, lack of informed consent
Poor communication, dismissiveness
Overcrowding, understaffing, lack of supplies
65 Studien. 34 Länder. Dieselben Muster wiederholen sich in allen Sprachen, Kulturen und Systemen. Das war keine Anekdote. Hierbei handelte es sich um synthetisierte Beweise.
CERQual: Vertrauen in qualitative Evidenz
CERQual assesses confidence in qualitative review findings across four components:
Methodological Limitations
Qualität der beitragenden Studien.
Coherence
Wie gut Daten den Befund stützen.
Adequacy
Datenreichtum (nicht nur die Anzahl der Studien).
Relevance
Anwendbarkeit auf den Kontext der Überprüfungsfrage.
When Qualitative Evidence Changes Practice
Bohren's synthesis informed the WHO's 2018 Recommendations on Intrapartum Care for a Positive Childbirth Experience. Specific changes grounded in qualitative evidence:
Diese auf qualitativer Evidenz basierenden Empfehlungen leiten nun die Geburtshilfe in 194 WHO-Mitgliedstaaten. Kein Waldstück hätte sie hervorbringen können. Keine I²-Statistik hätte sie aufdecken können.
Bohren's Framework of Mistreatment
Die qualitative Synthese von 2015 identifizierte sieben Bereiche: körperlicher Missbrauch, sexueller Missbrauch, verbaler Missbrauch, Stigmatisierung und Diskriminierung, Nichteinhaltung beruflicher Standards, schlechte Beziehungen und Zustände im Gesundheitssystem. Dieser Rahmen floss in die WHO-Empfehlungen zur intrapartalen Versorgung (2018) ein.
Kein p-Wert konnte die Erfahrung einer Ohrfeige während der Wehen erfassen. Qualitative Synthese gab dem Ausdruck, was Zahlen nicht konnten.
Decision Tree: When Is Qualitative Synthesis Appropriate?
ROOT: Geht es bei Ihrer Forschungsfrage um Erfahrungen, Wahrnehmungen, Barrieren oder Erleichterungen?
YES → Geht es bei Ihrer Frage um das WIE oder WARUM, nicht nur um das OB?
- Yes: Qualitative evidence synthesis (meta-ethnography, thematic synthesis, or framework synthesis)
- No: Betrachten Sie gemischte Methoden: quantitativ für die Wirkung + qualitativ für Mechanismus
NO → Geht es bei Ihrer Frage um Wirksamkeit/Wirksamkeit?
- Yes: Quantitative meta-analysis
- But: Ergänzung durch qualitative Überprüfung der Implementierungsbarrieren (CERQual-assessed)
Key insight: Die stärksten systematischen Überprüfungen beantworten BEIDE: Funktioniert es? (quantitativ) UND Warum funktioniert es oder scheitert es? (qualitativ)
Module 20 Quiz
Q1. What distinguishes meta-ethnography from quantitative meta-analysis?
Module 20 Complete
„Nicht alles, was zählt, kann gezählt werden. Nicht alles, was gezählt wird, zählt.“
Heterogenität ist eine Botschaft, kein Rauschen.
Modul 21: Die Multivariat
Heterogenität ist eine Botschaft, kein Rauschen.
Modul 21: Die Multivariat
Modul 21: Die Multivariat
🎯 Learning Objectives
- Erkennen Sie, wann Ergebnisse innerhalb einer Studie korrelieren
- Explain multivariate random-effects models
- Apply robust variance estimation (RVE) for dependent effect sizes
- Drei-Ebenen-Modelle für verschachtelte Modelle verstehen Daten
- Choose between multivariate approaches based on data structure
Cardiovascular trials report
Mortalität, MI, Schlaganfall und mehr.
Diese Ergebnisse korrelieren innerhalb der Patienten. Ein Patient, der stirbt, kann keinen MI-Endpunkt haben. Die Standard-Metaanalyse behandelt jedes Ergebnis unabhängig voneinander – ignoriert die Abhängigkeit und potenziell doppelt gezählte Beweise.
Die Annahme, dass niemand Fragen stellt
Öffnen Sie ein beliebiges Standard-Metaanalyse-Lehrbuch. Die Modelle gehen davon aus, dass jede Studie einen Beitrag leistet one independent effect size. But reality is different.
Eine einzelne kardiovaskuläre Studie berichtet über Mortalität, Myokardinfarkt, Schlaganfall und Revaskularisation. Eine einzelne Psychotherapiestudie berichtet über Depressionen, Angstzustände und Lebensqualität nach 3, 6 und 12 Monaten.
Most analysts either: (a) treat all 120 as independent (inflating precision by a factor of √4), or (b) Wählen Sie ein Ergebnis und verwerfen Sie den Rest. Beide Ansätze sind falsch.
Das Abhängigkeitsproblem
In standard pairwise meta-analysis, each study contributes one effect size. But many studies report multiple outcomes, subgroups, timepoints, or arms—creating dependent Effektgrößen. Das Ignorieren erhöht die Präzision und verzerrt die Schlussfolgerung.
Robust Variance Estimation
RVE (Hedges, Tipton & Johnson, 2010) uses a sandwich-type Schätzer, der unabhängig von der wahren Korrelation zwischen abhängigen Effekten gültige Standardfehler liefert. Es ist nicht erforderlich, die Korrelation innerhalb der Studie zu kennen oder abzuschätzen. Am besten für ≥20 Studien.
Small-sample correction: Tipton & Pustejovsky (2015) entwickelten Korrekturen für kleine Stichproben (CR2) für RVE unter Verwendung von Satterthwaite-Freiheitsgraden, wenn die Anzahl der Cluster klein ist.
What Dependence Does to Your Confidence Intervals
Wenn 4 Die Ergebnisse derselben Studie weisen eine studieninterne Korrelation von ρ = 0,5 auf:
Treating as independent
CI width = X
Berücksichtigung der Abhängigkeit
CI width = 1.58X
Ihr Konfidenzintervall sollte 58% widersein. Jede Metaanalyse, die dies ignorierte, veröffentlichte falsch genaue Ergebnisse.
RVE (Hedges, Tipton & Johnson, 2010): Uses a “sandwich” variance estimator that produces correct standard errors without needing to know the exact within-study correlation.
Three-Level Models: Making Structure Explicit
Level 1: Sampling Variance
Measurement error within each effect size estimate.
Level 2: Within-Study Variance
Ergebnisse und Zeitpunkte variieren innerhalb einer einzelnen Studie.
Level 3: Between-Study Variance
Studien unterscheiden sich voneinander in Populationen, Settings und Methoden.
Example: In einer Metaanalyse der Psychotherapie bei Depressionen (k=50 Studien, 180 Wirkung Größen), 35% der Varianz war innerhalb der Studie (verschiedene Ergebnisse) und 65% zwischen den Studien (verschiedene Therapien, Populationen). Diese Zerlegung zeigt, wie groß die Heterogenität ist. within vs between studies.
Three-Level Models: Formal Framework
Wenn Effekte verschachtelt sind (z. B. mehrere Ergebnisse innerhalb von Studien oder Studien innerhalb von Forschungsgruppen), a three-level model unterteilt die Varianz in: (1) Stichprobenvarianz (Stufe 1), (2) studieninterne Varianz (Stufe 2) und (3) studienübergreifende Varianz (Stufe 3). Dadurch bleibt die korrekte Schlussfolgerung erhalten, während die Stärke auf allen Ebenen ausgeliehen wird.
Die kardiovaskuläre Herausforderung
Eine Metaanalyse von Statinen könnte 30 Studien umfassen, von denen jede über Mortalität, Myokardinfarkt, Schlaganfall und Revaskularisation berichtet. Das sind 120 Effektgrößen aus 30 Clustern. Wenn man sie als 120 unabhängige Schätzungen behandelt, erhöht sich die Präzision um einen Faktor, der mit der Korrelation innerhalb der Studie zusammenhängt.
RVE or multivariate models handle this correctly—producing wider, honest confidence intervals.
Decision Tree: Which Approach for Dependent Effect Sizes?
ROOT: Hat Ihre Metaanalyse mehrere Effekte pro Studie?
YES → Kennen (oder können Sie abschätzen) die studieninternen Zusammenhänge?
- Yes: Multivariate random-effects model (most efficient)
- No: RVE with small-sample correction (robust to unknown correlations)
NO → Standard univariate random-effects model
Sub-question: Sind Ihre multiplen Effekte auf unterschiedliche Ergebnisse, Zeitpunkte oder Untergruppen zurückzuführen?
- Different outcomes → Three-level model or RVE with clustering
- Different timepoints → Network of timepoints with temporal correlation
- Different subgroups → Consider if subgroups are meaningful or should be averaged
Module 21 Quiz
Q1. What problem does Robust Variance Estimation (RVE) solve?
Module 21 Complete
„Wenn die Ergebnisse miteinander verflochten sind, ist es eine Lüge aus Bequemlichkeit, so zu tun, als wären sie unabhängig.“
Die Zahl ohne Herkunft ist keine Zahl.
Modul 22: Der Beweis
Die Zahl ohne Herkunft ist keine Zahl.
Modul 22: Der Beweis
Modul 22: Der Beweis
🎯 Learning Objectives
- Understand how computational errors propagate through policy
- Definieren Sie Reproduzierbarkeit und unterscheiden Sie von Reproduzierbarkeit
- Wenden Sie Beweis-Hashing und beweistragende Zahlen an
- Use reproducibility checklists for meta-analysis
- Erkennen Sie die Rolle der Vorregistrierung und offener Daten
A graduate student opened a spreadsheet
und stellte fest, dass die Ära der Sparmaßnahmen auf einem Fehler beruhte.
Im Jahr 2010 behaupteten Reinhart und Rogoff, dass Länder mit einer Schuldenquote von >90 % im Verhältnis zum BIP ein negatives Wachstum verzeichneten. Dies beeinflusste die Sparpolitik in ganz Europa. Im Jahr 2013 entdeckte Thomas Herndon einen Excel-Fehler, der fünf Länder aus dem Durchschnitt ausschloss. Das korrigierte Ergebnis: bescheidenes positives Wachstum, kein Einbruch.
Reproducibility vs Replicability
Reproducibility is the minimum standard. Wenn andere Ihre gepoolte Schätzung anhand Ihrer gemeldeten Daten nicht reproduzieren können, kann die Analyse nicht verifiziert werden. Metaanalysen sollten Folgendes teilen: extrahierte Daten, Analyseskripte, Softwareversionen und zufällige Seeds.
Proof-Carrying Numbers
Every number in a meta-analysis should carry its provenance: woher es kam, wie es transformiert wurde und welcher Code es erzeugte. Evidence hashing creates a cryptographic fingerprint of inputs so any change (accidental or deliberate) is detectable.
Input Hash
SHA-256-Hash der extrahierten Daten. Wenn sich eine Zelle ändert, ändert sich der Hash. Provenienzkette: Daten → Code → Ergebnis → Hash.
Interactive: Reproducibility Checklist
Kreuzen Sie jedes Element an, um die Reproduzierbarkeit einer Metaanalyse zu beurteilen. Wie schneidet Ihre Rezension ab?
Der Excel-Fehler, der die Volkswirtschaften veränderte
Reinhart-Rogoffs „Wachstum in einer Zeit der Schulden“ wurde in Zeugenaussagen vor dem Kongress, in Berichten der Europäischen Kommission und in Policy Briefs des IWF zitiert. Der Excel-Fehler (Zeilen 30–34 wurden aus einer AVERAGE-Formel ausgeschlossen) führte dazu, dass fünf Länder – Australien, Österreich, Belgien, Kanada und Dänemark – einfach fehlten.
Der korrigierte Durchschnitt stieg von −0,1 % auf +2,2 %. Millionen Menschen waren von der Sparpolitik betroffen. Reproduzierbarkeit ist kein akademischer Perfektionismus – sie ist ein Schutz vor Katastrophen.
Remember Module 5?
DECREASE Through the Lens of Reproducibility
Die DECREASE-Studien von Don Poldermans wurden wegen gefälschter Daten zurückgezogen. Hätten beweiskräftige Zahlen existiert – gehashte Eingaben, Herkunftsketten, verifizierte Berechnungen –, wäre die Fälschung erkennbar gewesen before Die Beweise gingen in Metaanalysen ein und veränderten die chirurgischen Richtlinien.
Module 22 Quiz
Q1. War der Reinhart-Rogoff-Fehler?
Module 22 Complete
„Die Zahl ohne Herkunft ist keine Zahl. Die Analyse ohne Reproduzierbarkeit ist kein Beweis.“
Certainty must be earned, not assumed.
Modul 23: Ihr erster Meta-Sprint
Certainty must be earned, not assumed.
Modul 23: Ihr erster Meta-Sprint
Modul 23: Ihr erster Meta-Sprint
🎯 Learning Objectives
- Verstehen Sie den 40-tägigen systematischen Überprüfungsworkflow
- Map the Seven Principles to real practice phases
- Recognize Definition-of-Done (DoD) gates as quality checkpoints
- Appreciate why structure prevents the failures you've studied
- Graduate ready to conduct (not just understand) meta-analysis
Du hast die Geschichten gelernt.
Jetzt müssen Sie den Weg gehen.
Jede Umkehrung der Beweise, die Sie untersucht haben, geschah aufgrund von Teams knew die Methoden, aber nicht follow them systematically.
Das META-SPRINT Framework
Ein 40-tägiger strukturierter Workflow mit 5 Phasentoren. Jedes Gate ist ein Definition-of-Done (DoD)-Kontrollpunkt, der Sie daran hindert, weiterzumachen, bis die Qualität sichergestellt ist.
Why 40 days? Lang genug für Genauigkeit, kurz genug, um ein Scope Creep zu verhindern. Die Rosiglitazon-Herzsignale wurden jahrelang vergraben, weil es keine Frist gab, die Transparenz erzwang.
Die fünf Phasentore
DoD-A: Protocol Lock (Days 1-3)
PICOS defined, timepoint rules set, model choices pre-specified. No moving target.
DoD-B: Search Lock (Days 6-10)
All databases searched, grey literature checked, PRESS validated. No hidden studies.
DoD-C: Extraction Lock (Days 10-28)
Dual extraction, provenance linked, RoB assessed. No fabricated numbers.
The Five Phase Gates (continued)
DoD-D: Analysesperre (Tage 21-33)
Forest plots generated, sensitivity analyses run, heterogeneity explored. No cherry-picking.
DoD-E: Submission Lock (Days 33-40)
GRADE certainty rated, clinical summary written, manuscript finalized. No overconfidence.
Day 34 Freeze: Das können keine neuen Studien nach Tag 34 hinzugefügt werden. Dies verhindert das „Waffe-Scope-Creep“, das die BMP-Metaanalysen zur Wirbelsäulenchirurgie plagte, in denen die Industrie immer wieder günstige Studien „fand“.
Die sieben Prinzipien in der Praxis
Every principle you learned maps to a specific phase gate:
Das Red-Team-Prinzip
Ihr eigenes Team versucht es Unterbrechen Sie Ihre Arbeit.
Jeden Tag verbringen zwei rotierende Teammitglieder 12 Minuten damit, als Gegner die Datenqualität zu überprüfen. Auf diese Weise wurde Boldts Betrug aufgedeckt – nicht durch eine freundliche Überprüfung, sondern durch eine skeptische Überprüfung, bei der unmögliche Rekrutierungsquoten festgestellt wurden.
CondGO: When Things Go Wrong
What happens when you discover a critical problem mid-sprint?
CondGO = Conditional Go
A bounded rescue protocol. You have exactly 72 hours um das Problem nur mithilfe zulässiger Aktionen zu beheben. Wenn Sie das Problem nicht beheben können, müssen Sie die Überprüfung beenden.
📖 Die Avandia-Lektion: GSK sah im Jahr 2000 kardiovaskuläre Signale, hatte aber keine vorgeschriebene Frist. Sie haben sieben Jahre lang „zugeschaut und gewartet“. Zehntausende wurden verletzt. CondGO existiert, weil „wir uns irgendwann damit befassen“ Menschen umbringt.
Sie haben diesen Kurs mit Geschichten begonnen.
Sie beenden ihn bereit zum Üben.
Der META-SPRINT-Workflow nimmt alles, was Sie gelernt haben, und strukturiert es in ein 40-Tage-System, das die Fehler verhindert, die Sie haben untersucht.
Wenn Sie bereit sind, eine echte systematische Überprüfung durchzuführen, öffnen Sie die META-SPRINT-Anwendung. Die Geschichten, die Sie hier gelernt haben, werden Sie leiten und bei jedem Schritt als Erinnerung auftauchen.
What does it look like when every principle is followed?
REAL DATA
Die Zusammenarbeit der Cholesterol Treatment Trialists (CTT) ist der Goldstandard der Metaanalyse. Sie erhielten individuelle Patientendaten von mehr als 170.000 Teilnehmern across 26 statin trials. Pre-specified protocol. IPD from all major trials. Standardized outcomes. Result: statins reduce major vascular events by 21% per mmol/L LDL reduction (RR 0.79, 95% CI 0.77-0.81), regardless of baseline risk. This finding, replicated across 5 Metaanalysen über 15 Jahre, has prevented an estimated millions of heart attacks and strokes worldwide.
Capstone Quiz
1. Was ist der Zweck des „Hard Freeze“ an Tag 34 in META-SPRINT?
2. The CondGO protocol gives teams how long to fix critical problems?
3. Red-team adversarial QA caught Joachim Boldt's fraud by noticing:
Die Geschichten, die Sie gelernt haben, sind keine Geschichte.
Es sind Warnungen, die Ihre zukünftige Arbeit schützen.
Wenn Sie Ihre erste Metaanalyse durchführen,
remember CAST before you trust a signal,
remember Poldermans before you skip provenance,
denken Sie an Reboxetine, bevor Sie den Trichter ignorieren.
Sie sind jetzt bereit. Gehen Sie mit Struktur vor. Gehen Sie mit Demut. Befolgen Sie die sieben Prinzipien.
Nicht jedes Signal ist wahr.
Modul 24: Abschlussprüfung
Certainty must be earned, not assumed.
Final Examination
Final Exam: Part 1 of 2
Testen Sie Ihre Beherrschung der Prinzipien der Metaanalyse. Jede Frage befasst sich mit einem Kernkonzept des Kurses.
Q1. Ein Forscher möchte „die Auswirkungen von Bewegung auf die Gesundheit“ untersuchen. Was ist das PRIMÄRE Problem bei dieser Forschungsfrage?
Q2. Ein Trichterdiagramm zeigt eine ausgeprägte Asymmetrie mit fehlenden Studien im unteren linken Bereich. Was deutet das darauf hin?
Q3. Eine Metaanalyse berichtet von I² = 85 % und τ² = 0,42. Was ist die am besten geeignete Interpretation?
Q4. Was ist in GRADE die Ausgangssicherheit für eine Reihe von Beweisen aus randomisierten kontrollierten Studien?
Q5. In RoB 2.0, which domain assesses whether outcome assessors knew the treatment allocation?
Final Exam: Part 2 of 2
Q6. Die CAST-Studie zeigte, dass Antiarrhythmika die Sterblichkeit trotz der Unterdrückung von Arrhythmien erhöhten. Dies ist ein Beispiel für:
Q7. When should a random-effects model be preferred over a fixed-effect model?
Q8. According to ICEMAN criteria, which makes a subgroup analysis MORE credible?
Q9. What assumption must be checked in network meta-analysis to ensure valid indirect comparisons?
Q10. Was zeigt das Überschreiten der Sinnlosigkeitsgrenze in der Trial Sequential Analysis (TSA) an?
Part 1 Complete — continue to Part 2 (Advanced Modules)
Final Exam: Part 2 of 2 (Advanced)
Questions 11–25 cover Modules 13–22 (Bayesian, NMA, IPD, Dose-Response, Fragility, Equity, AI, Qualitative, Multivariate, Reproducibility).
Q11. Was passiert in der Bayes'schen Metaanalyse, wenn Sie in vielen Studien einen vagen Prior verwenden?
Q12. Warum wurde bei Ciprianis Antidepressivum NMA kein einzelnes Medikament zum „Gewinner“ erklärt?
Q13. Warum sollten Sie IPD niemals wie aus einer Megastudie zusammenfassen?
Q14. What caused the alcohol "J-curve" to disappear in Stockwell's reanalysis?
Q15. Was hat Cochrane in der Oseltamivir-Saga herausgefunden, als er auf unveröffentlichte klinische Ergebnisse zugegriffen hat? Studienberichte?
Q16. Wie viel Prozent der US-amerikanischen Hypertoniker hätten sich NICHT für die SPRINT-Studie qualifiziert?
Q17. Why is AI considered an "augmenter" rather than a "replacer" in systematic reviews?
Q18. What does the "adequacy" component of CERQual assess?
Q19. A meta-analysis includes 30 statin trials, each reporting 4 correlated outcomes (120 effect sizes). Which approach is correct?
Q20. Wie hoch war im Reinhart-Rogoff-Fehler die korrigierte durchschnittliche Wachstumsrate für hohe Schulden? Länder?
Passing Score: 15/20 across both parts
Überprüfen Sie alle verpassten Fragen, indem Sie zum entsprechenden Modul zurückkehren. Jede Frage testet ein Kernkonzept.
Nicht jedes Signal ist wahr.
Methoden schützen Patienten vor unserem Vertrauen.
Congratulations
Sie haben den Kurs „Evidence Reversal: A Meta-Analysis“ abgeschlossen.
Möge Ihre Synthese von der Wahrheit, Ihre Zusammenfassung von Weisheit,
und Ihre Schlussfolgerungen von Demut geleitet werden.
Die Sieben Prinzipien:
„Nicht jedes Signal ist die Wahrheit.“
„Methoden schützen Patienten vor unserem Vertrauen.“
"What was hidden in plain sight?"
„Die Zahl ohne Herkunft ist keine Zahl.“
“Heterogenität ist eine Botschaft, kein Rauschen.“
“Das Fehlen von Beweisen ist kein Beweis für Abwesenheit.“
"Certainty must be earned, not assumed."
"Führe uns auf den geraden Weg..."