Inversione delle prove: un corso di meta-analisi

Non tutti i segnali sono verità.

Modulo 0: L'apertura

🎯 Learning Objectives

Definire la meta-analisi e spiegare il suo ruolo nella sintesi delle prove
Identificare quando gli studi NON dovrebbero essere pool
Descrivi la gerarchia delle prove e dove si trovano le revisioni sistematiche
Recognize that meta-analysis can mislead when done poorly
Ricorda i sette principi su cui si basa questo corso

Questo corso esiste perché

la medicina era sbagliata.

Nemmeno una volta. Non raramente. Ripetutamente. In modi che hanno ucciso pazienti che confidavano nella fondatezza delle prove.

What is Meta-Analysis?

Un metodo statistico per combinare i risultati di più studi indipendenti che affrontano la stessa domanda.

1976

Term coined by Gene Glass

~50,000

Published per year

#1

Evidence hierarchy*

*When well conducted. Quality of conduct matters more than study design alone — as GRADE recognizes.

Perché raggruppare gli studi?

1

Increase Statistical Power

Individual studies may be too small to detect effects.

2

Improve Precision

Narrower confidence intervals around effect estimates.

3

Resolve Disagreement

Quando gli studi sono in conflitto, il raggruppamento può chiarire il segnale.

4

Explore Heterogeneity

Identify why effects differ across populations or settings.

But meta-analysis can also

MISLEAD

When done poorly, it amplifies bias rather than truth.

Quando NON raggruppare

1

Gli studi misurano cose fondamentalmente diverse (mele e arance)

2

Extreme heterogeneity that cannot be explained

3

One study dominates all others (megastudy problem)

4

Gli studi presentano un alto rischio di bias che non può essere corretto per

Il pooling è un privilegio, non un diritto.

The decision to combine must be defended.

La gerarchia delle prove

Systematic Reviews & Meta-Analyses of RCTs

Randomized Controlled Trials

Cohort Studies

Case-Control Studies

Case Series / Expert Opinion

La posizione nella gerarchia dipende dalla qualità della metodologia, non dal tipo di studio da solo.

Questo corso insegna

evidence reversals.

Ogni modulo si apre con una storia di come la medicina ha sbagliato. Poi impareremo il metodo che avrebbe prevenuto il danno.

I Sette Principi

Queste frasi torneranno durante il tuo viaggio:

1. "Non tutti i segnali sono verità."

2. "I metodi proteggono i pazienti dalla nostra fiducia."

3. "What was hidden in plain sight?"

4. "Il numero senza provenienza non è un numero."

5. "L'eterogeneità è un messaggio, non un rumore."

6. "L'assenza di prove non è prova di assenza."

7. "Certainty must be earned, not assumed."

Module 0 Quiz

1. Perché a volte NON dovresti raggruppare gli studi in una meta-analisi?

A. Pooling is always better than single studies

B. When heterogeneity is extreme or studies measure different things

C. Pooling is always appropriate for RCTs

D. Statistical methods handle any situation

2. Dove si collocano le revisioni sistematiche degli RCT nella gerarchia delle evidenze?

A. At the top

B. Same level as individual RCTs

C. Di seguito gli studi di coorte

D. Same as expert opinion

Inizia il viaggio.

Modulo 1: La domanda

Non tutti i segnali sono verità.

Questa non è una storia sull'errore.

È una storia sulla certezza.

Modulo 1: La domanda

🎯 Learning Objectives

Formulare una domanda PICO mirata per una revisione sistematica
Distinguish surrogate outcomes from patient-important outcomes
Explain why biological plausibility alone is insufficient evidence
Descrivere lo studio CAST e le sue implicazioni per una revisione basata sull'evidenza medicina
Applica il principio: "Non tutti i segni luminosi sono una guida"

~9,000

excess deaths per year

From a treatment everyone believed worked.

Questa è la storia di come credevamo - e di come ci sbagliavamo.

The Observation

Patients with frequent PVCs after MI had 2-5x higher mortality.

400,000+

MI survivors/year

~40%

con PVC significativi

160,000

at elevated risk

A massive clinical need. A clear target.

The Response

Antiarrhythmic drugs were developed, FDA approved,
and prescribed to ~200,000 patients per year.

Nessun cattivo appare in questo storia.

Tutti hanno agito in base alle migliori prove disponibili.

La logica che ha convinto tutti

PREMISE 1

PVCs after MI predict sudden cardiac death

↓

PREMISE 2

Antiarrhythmic drugs suppress PVCs

↓

PREMISE 3

Suppressing PVCs should prevent sudden death

↓

CONCLUSION

Antiarrhythmics save lives in post-MI patients

La catena era logica. La conclusione sembrava inevitabile.

CAST: The Cardiac Arrhythmia Suppression Trial

Finally, someone asked: "Does suppressing PVCs actually save lives?"

Design

Randomized, double-blind, placebo-controlled

Population

Post-MI patients with asymptomatic PVCs

Intervention

Encainide, flecainide, or moricizine vs placebo

Run-in

Only patients with ≥80% PVC suppression randomized

Primary endpoint

Death or cardiac arrest with resuscitation

Sample size

1,498 patients (encainide/flecainide arms)

I risultati: aprile 1989

Il Data Safety Monitoring Board interrompe anticipatamente lo studio.

Outcome	Drug (n=755)	Placebo (n=743)
Arrhythmic deaths	33	9
All cardiac deaths	43	16
Total deaths	56	22
Death rate	7.4%	3.0%

Relative Risk of Death: 2.5

95% CI: 1.6 - 4.5 | p < 0.001

I farmaci che hanno soppresso perfettamente le aritmie hanno aumentato la mortalità del 150%.

Il costo umano

Before CAST, ~200,000 Americans per year received these drugs.

~9,000

excess deaths per year - possibly more

Vietnam War: ~6,000 US deaths/year • These drugs: ~9,000+ deaths/year

For every number, a name we will never know.

Look again.

La logica rivisitata

PREMISE 1

PVCs after MI predict sudden cardiac death

↓

PREMISE 2

Antiarrhythmic drugs suppress PVCs

← THE LEAP

↓

PREMISE 3

Suppressing PVCs should prevent sudden death

↓

CONCLUSION

Antiarrhythmics save lives in post-MI patients

L'ipotesi che la soppressione del marcatore avrebbe risolto il risultato non è mai stata testata.

What Went Wrong: The Surrogate Trap

1

I PVC erano un indicatore di tessuto danneggiato, non una causa di morte

2

The drugs had proarrhythmic effects - triggering deadlier rhythms

3

La surrogata è migliorata mentre l'esito è peggiorato: una surrogata dissociata

La surrogata non ha mentito. Abbiamo posto la domanda sbagliata.

Il quadro PICO

Every answerable clinical question has four components:

P - POPULATION

Chi sono i pazienti? Quali sono le loro caratteristiche?

I - INTERVENTION

What treatment or exposure is being evaluated?

C - COMPARATOR

What is the alternative? Placebo? Standard care?

O - OUTCOME

What matters to patients? Hard endpoints vs surrogates.

CAST PICO

Post-MI patients with PVCs | Antiarrhythmics | Placebo | Mortality

🔍

Esercizio di indagine: le prove prima del CAST

Sei un cardiologo nel 1988. Un paziente è sopravvissuto a un infarto miocardico ma ha frequenti PVC. La letteratura osservativa è chiara...

Study	Pazienti con PVC	Mortality Risk
Lown (1977)	High-grade PVCs	2.4x higher
Bigger (1984)	>10 PVCs/hour	3.1x higher
Mukharji (1984)	Complex PVCs	4.8x higher

Il segnale è chiaro. Il meccanismo è plausibile. Prescriveresti degli antiaritmici?

Before: Observational Logic

PVCs → Higher mortality

Drugs suppress PVCs

∴ Drugs should reduce mortality

After: CAST RCT (1989)

Death rate on drug: 7.4%

Death rate on placebo: 3.0%

RR = 2.5 (150% increase in deaths)

Il surrogato è migliorato. I pazienti sono morti. Questo è il motivo per cui ci chiediamo: "Qual è il risultato che conta?"

Le lezioni per la sintesi delle prove

1

La plausibilità biologica non è una prova

A logical mechanism doesn't guarantee the expected effect.

2

Surrogate endpoints can mislead

Improving a biomarker doesn't prove improvement in outcomes.

3

Gli studi randomizzati forniscono la prova causale più forte

I soli dati osservativi raramente stabilisce la causalità degli interventi a causa di fattori confondenti.

4

Il consenso non è una prova

200.000 prescrizioni, l'approvazione della FDA e le linee guida erano tutte sbagliate.

This is why we do meta-analysis: to see past apparent truths.

STORIA: La tragedia del surrogato DES-II

E se la domanda che ti poni determina chi vive e chi muore?

REAL DATA

Nel 1989, i cardiologi sapevano che la soppressione del PVC era ottenibile con encainide e flecainide. L'endpoint surrogato sembrava perfetto: i farmaci hanno soppresso le PVC tramite 80%+. But CAST randomized 1,498 patients rispetto al farmaco attivo rispetto al placebo. Lo studio è stato interrotto prematuramente: 56 deaths in the drug group vs 22 in placebo. Mortality increased 2.5-fold. An estimated ~9,000 excess American deaths per year erano attribuibili a questi farmaci.

La scelta del cardiologo: 1987

Il tuo paziente post-IM ha frequenti PVC. Hai farmaci che li sopprimono completamente. Cosa fai?

PERCORSO A: Trattare il surrogato

Prescribe encainide — PVCs vanish, the ECG looks clean

↓

Il biomarcatore migliora. Ti senti sicuro. Il paziente muore.

OUTCOME: An estimated 50,000+ excess deaths across the US during years of use

PATH B: Demand a Mortality Trial

Insistere: "Dimostrami che la sopravvivenza migliora, non solo l'ECG"

↓

Lo studio rivela un danno. I farmaci vengono ritirati. Le vite vengono salvate.

RISULTATO: la giusta domanda PICO previene una catastrofe

THE REVELATION

La domanda non è mai stata "Possiamo sopprimere i PVC?" Era "La soppressione del PVC salva vite umane?" Un endpoint surrogato ha risposto alla domanda sbagliata. Il PICO giusto avrebbe richiesto la mortalità come risultato fin dall'inizio.

What appears certain may be wrong.

What everyone believes may be false.

Esistono metodi affinché i pazienti non paghino per la nostra fiducia.

Ecco perché sei qui.

Module 1 Quiz

1. Qual è stato l'errore fondamentale nella logica antiaritmica?

A. Gli studi non sono stati randomizzati

B. Treating a surrogate (PVCs) was assumed to improve outcomes

C. La dimensione del campione era troppo piccola

D. L'approvazione della FDA è stata affrettata

2. In PICO, cosa significa la "O" e perché è importante?

A. Observation - what researchers see

B. Obiettivo: l'obiettivo della ricerca

C. Outcome - what matters to patients

D. Organizzazione: struttura dello studio

Non tutti i segnali sono verità.

I metodi proteggono i pazienti dalla nostra fiducia.

What was hidden in plain sight?

Questa è una storia su

observational evidence.

Modulo 2: Il protocollo

🎯 Learning Objectives

Explain why protocol pre-registration prevents bias
Identify key elements of a PROSPERO registration
Distinguish healthy user bias from true treatment effects
Describe why observational studies overestimated HRT benefits
Applicare il principio: "I metodi proteggono i pazienti dalla nostra fiducia"

30+

observational studies

All showing hormone replacement therapy protected postmenopausal women from heart disease.

Le prove sembravano schiaccianti. La conclusione sembrava certa.

The Nurses' Health Study

122,000 nurses followed for decades. HRT users had 40-50% lower cardiovascular mortality.

RR 0.56

Cardiovascular mortality

122,000

Women followed

20+ years

Follow-up

Landmark study. Impeccable methodology. Wrong conclusion.

I pregiudizi nascosti

1

Healthy User Bias: Women who chose HRT were healthier, wealthier, better educated

2

Compliance Bias: Women who took HRT consistently also took better care of themselves

3

Prescriber Bias: Doctors gave HRT to healthier women with fewer risk factors

Il trattamento non li proteggeva. Erano già protetti.

WHI: The Women's Health Initiative

The largest randomized trial of HRT ever conducted.

Design

Randomized, double-blind, placebo-controlled

Population

Postmenopausal women aged 50-79

Intervention

Estrogen + Progestin vs Placebo

Sample size

16,608 women

Primary endpoint

Coronary heart disease

Planned duration

8.5 years

I risultati: luglio 2002

Trial stopped early after 5.2 years. Harm exceeded benefits.

Outcome	Hazard Ratio	Direction
Coronary heart disease	1.29	HARM
Stroke	1.41	HARM
Breast cancer	1.26	HARM
Pulmonary embolism	2.13	HARM

Complete Reversal

30 anni di prove osservative ribaltate

The Lesson

PRE-SPECIFY

A protocol written before the search begins prevents fishing, prevents bias, prevents hindsight distortion.

STORIA: l'ipotesi del timing ormonale

E se il trattamento funzionasse, ma solo per alcuni?

REAL DATA

WHI showed HRT increased cardiovascular events overall. But later analyses revealed a critical pattern: women who started HRT within 10 years of menopause had REDUCED cardiovascular risk. Women starting 20+ years after menopause had INCREASED risk. The overall null/harm result hid a timing effect.

Il dilemma dell'analista

Stai analizzando i sottogruppi WHI. Il risultato complessivo mostra un danno. Scavi più a fondo?

PATH A: Report Overall Only

Conclude HRT is harmful for all postmenopausal women

↓

Simple message. Guidelines recommend against HRT universally.

OUTCOME: Deny potential benefit to younger menopausal women

PATH B: Pre-Specify Timing Subgroups

Analyze by years since menopause (biologically plausible)

↓

Scopri la "finestra temporale" per un avvio sicuro della terapia ormonale sostitutiva.

OUTCOME: Enable personalized recommendations

THE REVELATION

L'analisi dei sottogruppi è pericolosa durante la pesca. È essenziale quando la biologia prevede la modificazione degli effetti. L'ipotesi temporale era biologicamente plausibile e avrebbe dovuto essere pre-specificata.

PROSPERO Registration

1

Registrati prima di effettuare la ricerca

PROSPERO: International prospective register of systematic reviews

2

Blocca le tue decisioni

PICO, search strategy, outcomes, analysis plan - all pre-specified

3

Document Amendments

Le modifiche sono consentite ma devono essere trasparenti e giustificate

4

Prevent Duplication

Controlla se la tua recensione esiste già prima avvio

Module 2 Quiz

1. Perché il Nurses' Health Study ha dimostrato di beneficiare della terapia ormonale sostitutiva rispetto al WHI?

A. Nurses' Health had too few patients

B. Healthy user bias in observational studies

C. Nurses' Health had shorter follow-up

D. Different hormone formulations were used

2. What is the primary purpose of PROSPERO registration?

A. To register clinical trials

B. Per accelerare il completamento della revisione

C. Per pre-specificare i metodi e prevenire errori

D. Per ottenere finanziamenti per le revisioni

La pre-specificazione non è burocrazia.

It is protection.

Against our own tendency to find what we expect.

I metodi proteggono i pazienti dalla nostra fiducia.

What was hidden in plain sight?

Modulo 3: La ricerca

What was hidden in plain sight?

Questa è una storia su

what they didn't publish.

Modulo 3: La ricerca

🎯 Learning Objectives

Develop a comprehensive search strategy using PRESS guidelines
Search multiple databases including grey literature sources
Identify trial registries and regulatory databases (ClinicalTrials.gov, FDA)
Explain how the rosiglitazone case exposed hidden cardiovascular harms
Applicare il principio: "Cosa era nascosto in bella vista?"

$3.2B

annual sales at peak

Avandia (rosiglitazone) era uno dei farmaci antidiabetici più venduti.

Gli studi pubblicati sembravano rassicuranti. Quelli inediti raccontavano una storia diversa.

Le prove pubblicate (pre-2007)

Published trials showed rosiglitazone effectively lowered HbA1c. Cardiovascular outcomes were rarely reported.

1999

FDA approval

6M+

Patients treated

~0.7%

HbA1c reduction

Il surrogato sembrava buono. Ma che dire degli eventi cardiovascolari reali?

Nissen's Discovery: May 2007

Dr. Steven Nissen ha ottenuto dati di sperimentazione non pubblicati dal sito web di GSK.

GSK era stato obbligato da un accordo legale a pubblicare online i risultati della sperimentazione clinica. Nissen e Wolski hanno analizzato 42 studi clinici, molti dei quali mai pubblicati su riviste.

I dati erano tecnicamente pubblici.

No one had systematically searched for it.

Risultati della meta-analisi

Outcome	Odds Ratio	95% CI
Myocardial Infarction	1.43	1.03 - 1.98
CV Death	1.64	0.98 - 2.74

43% Increased Risk of Heart Attack

p = 0,03 per l'infarto del miocardio

Published in NEJM. The FDA called an emergency advisory committee meeting.

The FDA Advisory Committee: July 2007

22-1

Voted: CV risk exists

20-3

Conservare sul mercato con avvertimenti

Il comitato era diviso. Alcuni volevano che fosse ritirato. Alcuni hanno definito la meta-analisi imperfetta.

Ma il segnale non poteva passare inosservato.

The Aftermath

1

Black box warning added for heart failure risk (2007)

2

Severe restrictions on prescribing in the US (2010)

3

Withdrawn dal mercato interamente europeo (2010)

4

FDA now requires cardiovascular outcome trials for all diabetes drugs

What a Comprehensive Search Requires

PUBLISHED

PubMed, Embase, CENTRAL, Web of Science

GREY LITERATURE

Conference abstracts, dissertations, regulatory docs

TRIAL REGISTRIES

ClinicalTrials.gov, WHO ICTRP, EU CTR

REGULATORY

FDA, EMA, Health Canada submissions

COMPANY DATA

GSK, Pfizer, Roche clinical trial registries

HAND SEARCH

Reference lists, contact authors, experts

La checklist PRESS

Peer Review of Electronic Search Strategies

1

Traduzione della domanda di ricerca

La ricerca riflette il PICO elementi?

2

Operatori booleani e di prossimità

Vengono utilizzati AND, OR e NOT correttamente?

3

Subject Headings

I termini MeSH/Emtree sono appropriati ed esplosi?

4

Text Words

Synonyms, spelling variants, truncation?

PRESS Checklist (continued)

5

Spelling, Syntax, Line Numbers

Sono presenti errori che potrebbero causare il recupero fallimenti?

6

Limiti e filtri

La data, la lingua, i limiti di progettazione dello studio sono appropriati?

Peer-reviewed searches substantially improve retrieval of key studies.

PRESS guideline: McGowan et al., 2016

Database Translation

La stessa ricerca deve essere adattata per ciascun database:

PubMed

"diabetes mellitus, type 2"[MeSH] OR "type 2 diabetes"[tiab]

Embase

'non insulin dependent diabetes mellitus'/exp OR 'type 2 diabetes':ti,ab

Subject headings, field tags, and operators differ between databases.

STORIA: The Tamiflu Transparency Campagna

Cosa succede quando si cerca e non si trova nulla?

REAL DATA

Governments stockpiled $9 billion di oseltamivir (Tamiflu) per l'influenza pandemica. La Cochrane Collaboration ha provato a rivedere le prove. Di 77 clinical trials, full reports existed for only 20. Roche ha rifiutato di condividere i dati per 5 years. Quando il BMJ e la Cochrane hanno finalmente ottenuto over 160,000 pages of clinical study reports, they found: Tamiflu reduced symptoms by less than 1 day, with no evidence it prevented hospitalizations or complications.

Il dilemma del revisore: 2009

Stai aggiornando una revisione Cochrane del Tamiflu. Gli studi pubblicati sembrano positivi. Ma 57 studi non hanno resoconti completi accessibili. Cosa fai?

PATH A: Analyze What's Published

Use the 20 available trials. Conclude Tamiflu is effective.

↓

La tua recensione supporta l'accumulo continuo di scorte. $9 miliardi spesi per prove deboli.

OUTCOME: Billions wasted, true efficacy unknown

PERCORSO B: Richiedi dati completi

Refuse to publish until all trial data is accessible

↓

5-year campaign. 160,000+ pages finally obtained. Truth emerges.

OUTCOME: Evidence policy changed; EMA now publishes all trial reports

THE REVELATION

Una ricerca è valida tanto quanto ciò che è trovabile. Quando la letteratura grigia è nascosta dietro i muri aziendali, anche la ricerca più completa su PubMed non riuscirà a cogliere la verità. La saga del Tamiflu ha cambiato la politica globale: l'EMA ora pubblica rapporti sugli studi clinici per tutti i medicinali.

If Nissen had searched only PubMed,

the signal would have remained hidden.

Comprehensive search is survival.

What was hidden in plain sight?

Module 3 Quiz

1. Quale tipo di fonte di evidenza ha rivelato il segnale cardiovascolare del rosiglitazone?

A. Published journal articles

B. Cochrane Library

C. Company clinical trial registry

D. FDA approval documents

2. What does PRESS stand for?

A. Revisione della pubblicazione degli standard di ricerca delle prove

B. Peer Review of Electronic Search Strategies

C. Protocollo per la segnalazione degli studi di sintesi delle prove

D. Primary Research Evidence Search System

What was hidden in plain sight?

Modulo 4: Lo screening

Il numero senza provenienza non è un numero.

Questa è una storia su

what they chose to report.

Modulo 4: Lo screening

🎯 Learning Objectives

Apply PRISMA flow diagram to document study selection
Implement dual-reviewer screening with conflict resolution
Identificare il reporting selettivo dei risultati e la manipolazione dei dati
Calculate inter-rater reliability (Cohen's kappa)
Applicare il principio: "Il numero senza provenienza non è un numero"

88,000

heart attacks attributed to Vioxx

A blockbuster drug. A hidden signal. A preventable catastrophe.

Tra il 1999 e Nel 2004, milioni di persone hanno preso questo antidolorifico. Alcuni non sono mai tornati a casa.

The Rise of Vioxx

Rofecoxib (Vioxx) era un FANS selettivo per la COX-2. Commercializzato come più sicuro per lo stomaco rispetto ai tradizionali antidolorifici.

1999

FDA approval

$2.5B

Peak annual sales

80M+

Patients prescribed

The VIGOR Prova (2000)

Vioxx Gastrointestinal Outcomes Research

Design

Randomized, double-blind

Comparison

Vioxx vs Naproxen

Population

Rheumatoid arthritis

Sample

8,076 patients

Primary Outcome

GI events

Published

NEJM, November 2000

What VIGOR Published

GI Outcome	Vioxx	Naproxen
Confirmed GI events	2.1 per 100 pt-yrs	4.5 per 100 pt-yrs
Reduction	54% fewer GI events

Il titolo: Vioxx è più sicuro per il tuo stomaco!

Questo è ciò che è stato detto ai medici. Questo è ciò che credevano i pazienti.

What VIGOR Buried

CV Outcome	Vioxx	Naproxen
Myocardial Infarction	20 events	4 events
Relative Risk	5x higher in Vioxx group

5-fold Increase in Heart Attacks

Mentioned only briefly, attributed to naproxen being "cardioprotective"

La segnalazione selettiva

1

Manipolazione del cut-off dei dati: 3 additional heart attacks occurred after the cutoff used in publication

2

Spin: Il segnale CV è stato spiegato come naproxene cardioprotettivo (nessuna evidenza)

3

Outcome switching: Gli eventi CV erano pre-specificati ma non enfatizzati

4

Internal knowledge: Le e-mail di Merck mostrano che erano a conoscenza del segnale

Il processo APPROVe (2004)

Uno studio per la prevenzione della poliposi colorettale - interrotto in anticipo per sicurezza.

RR 1.92

CV events vs placebo

Sept 2004

Vioxx withdrawn

Four years after VIGOR showed a 5x risk. Four years too late.

STORIA: The Vioxx Decision Tree

Hai considerato cosa succede quando un segnale si nasconde nel rumore?

REAL DATA

Vioxx (rofecoxib) è stato approvato in 1999. By 2004, estimates suggest 88,000-140,000 excess heart attacks and 30,000-40,000 deaths. Merck's own VIGOR trial showed 5x cardiovascular risk in 2000—but it was dismissed as a "naproxen cardioprotective effect."

Il bivio

Sei un revisore della FDA nel 2001. I dati VIGOR mostrano un rischio di attacco cardiaco 5 volte maggiore con Vioxx rispetto a naprossene.

PERCORSO A: accettare la spiegazione

Believe Merck's hypothesis: naproxen is cardioprotective

↓

No additional safety studies required. Drug stays on market at full speed.

RISULTATO: oltre 40.000 decessi in 4 anni

PERCORSO B: richiedere prove

Require a dedicated CV safety trial before continued marketing

↓

Delay or restrict marketing until cardiovascular safety is established.

OUTCOME: Signal detected early, lives saved

THE REVELATION

Il segnale era lì nel 2000. spiegazione sbagliata azione ritardata di 4 anni. Un'ipotesi alternativa, accettata senza prove, è costata decine di migliaia di vite.

Il diagramma di flusso PRISMA

Every step of screening must be documented and transparent.

Identification

Records from databases + other sources

↓

Screening

Title/abstract review (duplicates removed)

↓

Eligibility

Full-text assessment (with exclusion reasons)

↓

Included

Studies in synthesis

Dual Screening: Why Two Reviewers?

1

Reduces Selection Bias

One reviewer might unconsciously favor certain studies

2

Catches Errors

Fatica, interpretazioni errate ed errori sono inevitabili

3

Forces Explicit Criteria

Disagreements reveal ambiguity in inclusion rules

Typical agreement: κ = 0.6-0.8

Disagreements resolved by discussion or third reviewer

Calibrazione: la fase pilota

Before screening thousands of records, reviewers should calibrate on a sample of 50-100 records.

1

Screen the same set independently

2

Compare decisions and discuss disagreements

3

Refine inclusion criteria until κ > 0.7

4

Documentare il processo di calibrazione e qualsiasi regola modifiche

PRISMA 2020 Updates

New in 2020

Separate reporting of database vs register searches

New in 2020

Gli strumenti di automazione devono essere segnalati

New in 2020

Citation searching documented separately

New in 2020

Reasons for exclusion at full-text mandatory

PRISMA 2020 ha sostanzialmente rivisto la lista di controllo con rapporti ampliati sui metodi di sintesi, valutazione della certezza e registrazione del protocollo.

If Vioxx's cardiovascular data had been screened by independent reviewers,

if all pre-specified outcomes had been required to be reported,

88,000 heart attacks might have been prevented.

Il numero senza provenienza non è un numero.

Module 4 Quiz

1. Nello studio VIGOR, qual è stato il rischio relativo di IM nel gruppo Vioxx rispetto al naprossene?

A. 1.5x higher

B. 2x higher

C. 5x higher

D. 10x higher

2. Why is dual screening (two independent reviewers) important?

A. It makes screening faster

B. It reduces selection bias and catches errors

C. Riduce il numero di studi da rivedere

D. It allows reviewers to skip full-text review

Il numero senza provenienza non è un numero.

Modulo 5: L'estrazione

Il numero senza provenienza non è un numero.

Questa è una storia su

numeri che non sono mai esistiti.

Modulo 5: L'estrazione

🎯 Learning Objectives

Progettare un modulo standardizzato di estrazione dei dati con campi di provenienza
Calculate effect sizes from various reported statistics (OR, RR, HR, SMD)
Implement dual-extraction with discrepancy resolution
Identificare i segnali di allarme per la fabbricazione di dati e la cattiva condotta
Explain how the DECREASE fraud affected clinical guidelines

~10,000

possible excess deaths in Europe

Da linee guida basate su studi clinici fabbricati dati.

Gli studi DECREASE hanno influenzato le cure perioperatorie in tutto il mondo. I dati sono stati inventati.

Don Poldermans: A Star Researcher

Professor at Erasmus Medical Center, Rotterdam. Author of over 500 papers. Lead author of ESC guidelines on perioperative cardiac care.

500+

Publications

DECREASE

Trial series I-VI

ESC

Guideline chair

Una fonte apparentemente ineccepibile. Finché qualcuno non ha esaminato i dati.

Gli studi DECREASE: The Claim

Trial	Finding	Impact
DECREASE-I (1999)	90% reduction in cardiac death	Changed guidelines
DECREASE-IV (2009)	Beta-blockers safe in low-risk	Expanded recommendations

Effect sizes were implausibly large.

90% reduction? Almost nothing in medicine works that well.

The Investigation: 2011

1

Erasmus MC investigated after whistleblower complaints

2

Dati paziente fabbricati: Patients who didn't exist or weren't enrolled

3

No informed consent: Many "participants" never consented

4

Poldermans dismissed: From Erasmus MC in 2011

La cascata di danni

Quando DECREASE è stato rimosso da meta-analisi...

Benefit → Harm

Direction reversed

27% ↑

Stroke risk increase

Lo studio POISE (2008) aveva mostrato danni. È stato respinto perché in conflitto con DECREASE.

Perché non è stato rilevato?

1

Trust in authority: Poldermans è stato l'autore della linea guida che ha rivisto le proprie prove

2

No data verification: Nessuno ha chiesto i dati dei singoli pazienti

3

Publication prestige: Published in top journals, assumed valid

4

Implausible effects accepted: 90% reductions should raise suspicion

Data Extraction: Defense Against Fraud

1

Dual Extraction

Two extractors independently - catches transcription errors and forces scrutiny

2

Record Provenance

Table, page, paragraph - every number traceable to source

3

Verify Against Registry

Risultati di ClinicalTrials.gov rispetto alla pubblicazione - le discrepanze sono segnali di allarme

4

Request IPD

Individual patient data reveals what aggregate summaries hide

Effect Size Calculation

Durante l'estrazione, si calcolano le dimensioni degli effetti dai dati riportati:

BINARY OUTCOMES

Odds Ratio, Risk Ratio, Risk Difference from 2x2 tables

CONTINUOUS OUTCOMES

Differenza media, differenza media standardizzata dalle medie e SD

Estrarre sempre dalla fonte più affidabile.

Prefer: ITT results > per-protocol > subgroups

Red Flags During Extraction

!

Implausible effect sizes: 80-90% reductions should prompt scrutiny

!

Baseline imbalances: I gruppi che corrispondono "troppo perfettamente"

!

Round numbers: "Exactly 50" or "exactly 100" patients per arm

!

Registry discrepancies: N pubblicati differiscono da N registrati

Researcher

Effect Size Conversions

I risultati dei report degli studi presentano metriche diverse. Per metterli in comune, spesso sono necessarie conversioni:

From	To	Formula
SMD (d)	log-OR	log-OR = d × π / √3
log-OR	SMD (d)	d = log-OR × √3 / π
Correlation (r)	Fisher z	z = 0.5 × ln((1+r)/(1−r))
OR	RR	RR = OR / (1 − P₀ + P₀ × OR)
OR	NNT	NNT = 1 / (P₀ − OR×P₀ / (1−P₀+OR×P₀))

P₀ = rischio di base nel gruppo di controllo. Queste formule presuppongono condizioni approssimative; vedere Borenstein et al. (Cap. 7) per derivazioni esatte.

Researcher

Dati tempo all'evento (sopravvivenza)

Many trials report time-to-event outcomes using hazard ratios (HR). Pooling HRs in meta-analysis requires special handling:

1

Il metodo log(HR) + SE

Estrai log(HR) e il suo SE dalla prova. Se non riportato, derivare SE dall'IC: SE = (ln(superiore) − ln(inferiore)) / (2 × 1,96). Pool utilizzando metodi standard di varianza inversa.

2

Quando la FC non viene riportata

Esistono metodi per ricostruire l'IPD dalle curve di Kaplan-Meier (Guyot et al. 2012) o stimare la FC dai valori p e dal conteggio degli eventi (Parmar et al. 1998). Preferisci sempre la FC aggiustata riportata direttamente, quando disponibile.

HR < 1 favors treatment; HR > 1 favors control. Do not convert HRs to ORs or RRs—they measure fundamentally different quantities.

STORIA: Lo scandalo colloidale di Boldt

E se i dati estratti non fossero mai reali?

REAL DATA

Joachim Boldt è stato il ricercatore più prolifico nella gestione dei fluidi anestetici. Oltre 180 delle sue pubblicazioni sono state ritirate — uno dei più grandi casi di ritrattazione nella storia della medicina. I suoi dati falsificati mostravano che l’amido idrossietilico (HES) era sicuro. Le meta-analisi che includevano i suoi studi hanno concluso che l'HES era innocuo. Quando gli studi di Boldt furono rimossi, l'effetto complessivo si invertì: HES increased kidney injury by 59% (RR 1.59, 95% CI 1.26-2.00) and mortality by ~9% (RR 1.09). An estimated thousands of patients received a harmful fluid based on fabricated evidence.

La vigilanza dell'estrattore: 2010

Stai estraendo dati per una meta-analisi sulla rianimazione con fluidi. Gli studi di Boldt dominano la letteratura (oltre 90 articoli). Un informatore ha espresso preoccupazione. Cosa fai?

PATH A: Extract as Published

Trust peer-reviewed publications. Extract Boldt's data like any other.

↓

Your meta-analysis shows HES is safe. Guidelines recommend it.

OUTCOME: Thousands receive a nephrotoxic fluid

PATH B: Verify Provenance

Controlla incrociato le approvazioni etiche, richiede dati di origine, conduce analisi di sensibilità escludendo studi sospetti

↓

Discover missing ethics approvals. Flag studies. Re-analyze without them.

OUTCOME: True signal emerges — HES causes harm

THE REVELATION

La provenienza non è burocrazia. È la differenza tra prova e finzione. Ogni numero estratto deve risalire a uno studio approvato dall'etica, con dati verificabili del paziente. Senza provenienza, il numero senza proprietario può diventare un'arma.

Ogni numero nella tua meta-analisi

must trace back to a verifiable source.

Il numero senza provenienza non è un numero.

Fraudulent data can kill as surely as fraudulent drugs.

Module 5 Quiz

1. Cosa è successo quando i dati dello studio DECREASE sono stati rimossi dalle meta-analisi sui beta-bloccanti?

A. The benefit became even larger

B. No change in conclusions

C. The direction reversed to show potential harm

D. I risultati sono diventati inconcludenti

2. Why should dual extraction be standard practice?

A. It catches transcription errors and forces scrutiny

B. It makes extraction faster

C. Aiuta a trovare più studi

D. It reduces the amount of work needed

Il numero senza provenienza non è un numero.

Modulo 6: Il Bias

I metodi proteggono i pazienti dalla nostra fiducia.

Questa è una storia su

il pregiudizio che non possiamo vedere.

Modulo 6: Il Bias

🎯 Learning Objectives

Apply Risk of Bias 2.0 (RoB 2) to randomized trials
Applicare ROBINS-I a studi non randomizzati
Assess all five RoB 2 domains (randomization, deviations, missing data, measurement, selection)
Distinguish confounding by indication from true treatment effects
Explain how BART revealed hidden harms of aprotinin

20+

anni sul mercato

L'aprotinina era il gold standard per la riduzione degli interventi chirurgici sanguinamento.

Poi qualcuno ha eseguito un RCT. La verità era un'altra.

The Hidden Bias: Confounding by Indication

1

Sicker patients got aprotinin: Surgeons used it in complex, high-risk cases

2

Survivors bias: Dead patients can't report complications

3

Publication bias: Non sono stati pubblicati studi negativi

Studi osservazionali non sono riusciti a separare l'effetto del farmaco dal rischio di base del paziente.

BART: La verità randomizzata

Blood Conservation Using Antifibrinolytics in a Randomized Trial

Outcome	Aprotinin	Alternatives
30-day mortality	6.0%	3.9%
Relative Risk	1.53 (53% increased death)

Trial Stopped Early for Harm

Ritirato dal mercato a novembre 2007

🔍

Investigazione: valutazione del bias

Stai rivedendo gli studi osservazionali. Applicare il concetto di rischio di bias:

Question	Observational	BART (RCT)
Random allocation?	❌ Surgeon choice	✓ Yes
Baseline comparable?	❌ Sicker got drug	✓ Balanced
Blinding?	❌ Open label	✓ Double-blind

Confounding by indication: I chirurghi hanno somministrato aprotinina ai pazienti più malati. Gli studi osservazionali attribuivano la sopravvivenza al farmaco, quando misuravano il bias di sopravvivenza.

Risk of Bias 2.0: The Five Domains

D1

Randomization Process

D2

Deviazioni dagli interventi previsti

D3

Dati sui risultati mancanti

D4

Misurazione del risultato

D5

Selezione del risultato riportato

ROBINS-I: per studi non randomizzati

Quando gli studi randomizzati non sono disponibili, utilizzare ROBINS-I (Risk Of Bias In Non-randomized Studies of Interventi)

1

Confounding

Baseline differences between groups

2

Selection of Participants

Exclusions related to intervention

3

Classification of Interventions

Misclassification of exposure status

4

Deviazioni dagli interventi previsti

Co-interventions, contamination

5

Missing Data

Differential loss to follow-up

6

Measurement of Outcomes

Ascertainment bias

7

Selection of Reported Result

Selective reporting

Ratings: Low / Moderate / Serious / Critical / No information

STORIA: lo studio sull'aprotinina BART

Cosa succede quando 64 studi concordano e sono tutti sbagliati?

REAL DATA

L'aprotinina è stata utilizzata in chirurgia cardiaca per ridurre il sanguinamento per 20 years. 64 small randomized trials suggeriva che fosse sicura ed efficace. Le meta-analisi hanno confermato i benefici. Quindi il BART trial (2008) randomized 2,331 patients: aprotinin vs. tranexamic acid vs. aminocaproic acid. Result: aprotinin increased mortality by 53% (RR 1,53, IC 95% 1,06-2,22). Il processo è stato interrotto anticipatamente per danni. La Bayer ritirò l'aprotinina dal mercato nel giro di pochi mesi.

La prova del chirurgo: 2006

Lei è un cardiochirurgo che sceglie un antifibrinolitico. 64 piccoli studi sono a favore dell'aprotinina, ma nessuno è stato dimensionato per rilevare la mortalità. Si sta arruolando un grande RCT (BART). Aspetti?

PERCORSO A: fidati della meta-analisi

64 trials can't all be wrong. Continue prescribing aprotinin.

↓

Piccoli studi hanno misurato il sanguinamento, non la morte. Nessuno aveva un potere adeguato per la mortalità. La meta-analisi ha riunito risultati surrogati sottodimensionati.

OUTCOME: Excess deaths in cardiac surgery patients

PATH B: Assess Risk of Bias First

Valutare tutti i 64 studi con RoB. Si noti che sono piccoli, utilizzano risultati surrogati e presentano un elevato attrito. Attendere l'RCT adeguatamente alimentato.

↓

BART reveals the truth. Switch to safer alternatives.

OUTCOME: Lives saved by demanding adequately powered evidence

THE REVELATION

La quantità delle prove non equivale alla qualità. Sessantaquattro studi sottodimensionati che misurano il risultato sbagliato non superano uno studio adeguatamente dimensionato che misura la mortalità. La valutazione del rischio di bias non è una formalità: è lo scudo tra i pazienti e le conclusioni fuorvianti derivanti da piccole prove surrogate.

Sixty-four small trials measured bleeding, not death.

One adequately powered trial revealed 53% increased mortality.

La quantità di prove non può sostituire la qualità e la potenza.

Module 6 Quiz

1. Why did 64 small trials miss aprotinin's harm?

A. Underpowered for mortality; used surrogate outcomes

B. Confounding by indication

C. Outcome measured incorrectly

D. Follow-up too short

I metodi proteggono i pazienti dalla nostra fiducia.

Modulo 7: La sintesi

L'eterogeneità è un messaggio, non un rumore.

La controversia sul magnesio: 1991-1995

When pooling leads us astray.

Modulo 7: La sintesi

🎯 Learning Objectives

Calculate pooled effect sizes using fixed-effect and random-effects models
Choose between DerSimonian-Laird and HKSJ estimators appropriately
Interpret forest plots including weights, confidence intervals, and diamonds
Explain why small-study effects can mislead meta-analyses
Applicare il principio: "L'eterogeneità è un messaggio, non rumore"

The Year: 1991

"Ti trovi al crocevia tra speranza e prove..."

Heart disease kills more people worldwide than any other cause. In 1991, a new hope emerges: Could something as simple and cheap as intravenous magnesium save lives after myocardial infarction?

La logica biologica era solida:

Magnesium stabilizes cardiac membranes, prevents arrhythmias, and vasodilates coronary arteries.

LIMIT-2: Lo studio fondamentale

Leicester Intravenous Magnesium Intervention Trial, 1992

2,316

Patients enrolled

24%

Mortality reduction

p = 0.04

Statistically significant

A cheap, safe intervention that could save 250,000 lives per year globally.

La comunità medica era elettrificato.

The Meta-Analysis: 1993

Researchers pooled seven randomized trials of IV magnesium in MI:

Trial	Year	N	Odds Ratio
Morton 1984	1984	40	0.10
Rasmussen 1986	1986	273	0.35
Smith 1986	1986	400	0.48
Abraham 1987	1987	94	0.87
Shechter 1990	1990	103	0.27
Ceremuzynski 1989	1989	48	0.22
LIMIT-2	1992	2,316	0.74

🔍

Investigation Exercise: The Meta-Analyst's Dilemma

Sei un revisore Cochrane nel 1993. Ti è stato chiesto di sintetizzare le prove sul magnesio per l'IM. I dati di sette studi sono davanti a te.

Vedi lo schema in questo forest plot?

Pooled OR = 0.44 (95% CI: 0.27–0.71)

55% mortality reduction! Publish in the Lancet?

Ma aspetta... noti qualcosa riguardo alle dimensioni degli studi?

L'Avvertimento Segni

What should have given us pause?

1

Small sample sizes: Six of seven trials had <500 patients

2

Extreme effects: OR of 0.10 (90% reduction) is implausible for any drug

3

All positive: Dove erano le prove negative? Il problema del cassetto dei file...

4

Funnel asymmetry: Small trials showed much larger effects than larger ones

🔍

Il test del grafico a imbuto

Prima di raggruppare, dobbiamo verificare eventuali errori di pubblicazione. Esaminiamo il grafico a imbuto.

L'anno: 1995 - Rapporti ISIS-4

"E poi venne la verità..."

The Fourth International Study of Infarct Survival (ISIS-4) enrolled 58,050 patients across 1,086 hospitals in 31 countries.

58,050

Patients

2,216

Deaths in Mg group

2,103

Deaths in placebo

OR = 1.06 (95% CI: 1.00–1.12)

No benefit. If anything, a trend toward harm.

📊

Prima e dopo: il quadro completo

Guarda cosa succede quando aggiungiamo il mega-esperimento alla nostra foresta trama...

BEFORE ISIS-4

7 small trials (N = 3,274)

OR = 0.44

Strong benefit signal

AFTER ISIS-4

8 trials (N = 61,324)

OR = 1.02

No effect

Why Did Small Trials Mislead?

1

Publication Bias

Small negative trials were never published—they sat in file drawers

2

Small-Study Effects

Smaller trials tend to show larger effects due to methodological weaknesses

3

Random High Bias

Per caso, alcuni piccoli esperimenti hanno raggiunto risultati estremi e questi vengono pubblicati

4

Random-Effects Amplification

Random-effects models give more weight to small trials, amplifying bias

Fixed vs. Random Effects

Which model should you choose?

FIXED EFFECT MODEL

Assumes one true effect. Weights studies by inverse variance (precision). Large trials dominate.

Magnesium result: OR = 0.96 (p = 0.52)

RANDOM EFFECTS MODEL

Assumes distribution of effects. Gives more weight to small trials. Wider confidence intervals.

Magnesium result: OR = 0.59 (p = 0.01)

⚠️ La scelta del modello ha determinato la conclusione!

Gli effetti casuali non risolvono i bias; con effetti su piccoli studi, potrebbe spostare il peso verso studi più piccoli e cambiare le conclusioni.

Le lezioni del magnesio

1. Verificare la presenza di bias di pubblicazione prima di fidarsi di una stima aggregata. I grafici a imbuto e il test di Egger sono i tuoi strumenti.

2. Be wary of small-study effects. If only small trials show benefit, wait for a large, well-conducted trial.

3. Model choice matters. Gli effetti casuali possono amplificare prove distorte. Considerare entrambi i modelli e comprenderne le implicazioni.

4. One large trial can overturn many small ones. Questo è il motivo per cui i mega-trial come ISIS-4 sono così preziosi.

Researcher

Progetti di studio speciali nella meta-analisi

Non tutti gli RCT utilizzano disegni standard a gruppi paralleli. Due alternative comuni richiedono una gestione speciale quando si raggruppano i risultati:

1

Cluster-Randomized Trials

Randomizzare i gruppi (ospedali, scuole), non gli individui. Il design effect = 1 + (m−1) × ICC riduce la dimensione effettiva del campione. Dividere N per l'effetto del progetto prima di raggruppare o utilizzare l'ES corretto dalla prova. Ignorare il clustering produce CI artificialmente ristretti.

2

Crossover Trials

Ogni paziente riceve entrambi i trattamenti. Il progetto accoppiato riduce la varianza, ma è necessario within-patient correlation (o l'analisi accoppiata SE) per raggruppare correttamente. L'uso dell'SE a gruppi paralleli è conservativo; utilizzando N errati pazienti con doppio conteggio.

Vedere Cochrane Handbook v6.4, Capitolo 23 per formule dettagliate ed esempi pratici.

STORIA: The Early Surfactant Reversal

E se il modo in cui si combinano gli studi determina se un trattamento sembra salvavita o inutile?

REAL DATA

Il tensioattivo precoce per neonati prematuri è stato supportato da 6 small trials showing reduced mortality (RR 0.84). A fixed-effect meta-analysis confirmed benefit (p=0.04). But a random-effects model showed no significance (p=0.12) — the confidence interval crossed 1.0. Later, SUPPORT (2010) and VON (2012), two large pragmatic trials with ~2,000 neonates combined, found no benefit del tensioattivo precoce rispetto a quello successivo. La pratica clinica è stata modificata sulla base di piccoli studi e del modello sbagliato.

La scelta del modello del neonatologo: 2005

Stai aggiornando una revisione Cochrane del tensioattivo precoce. Sei piccoli studi mostrano benefici con un modello a effetti fissi. Il modello a effetti casuali non è significativo. Quale riporti?

PATH A: Report Fixed-Effect Only

Fixed-effect is significant. Report the positive result. Change practice.

↓

NICUs adopt early surfactant. Later trials show no benefit. Practice reverses.

OUTCOME: Years of unnecessary intubation of premature infants

PATH B: Report Both Models

Mostra i risultati FE e RE. Segnala che il significato dipende dalla scelta del modello. Richiesta di sperimentazioni di grandi dimensioni.

↓

Honest uncertainty. Large trials prioritized. True answer emerges faster.

OUTCOME: Premature babies spared unnecessary intervention

THE REVELATION

Quando una conclusione cambia a seconda che si utilizzino effetti fissi o effetti casuali, la conclusione è fragile. Segnalateli entrambi. Riconoscere l'incertezza. E ricorda: un risultato fragile ottenuto da piccoli studi non è un mandato per cambiare la pratica.

Module 7 Quiz

1. Perché la meta-analisi del magnesio ha mostrato benefici che ISIS-4 non ha riscontrato?

A. La metodologia ISIS-4 era difettosa

B. Calculation error in meta-analysis

C. Publication bias in small trials

D. LIMIT-2 era sottodimensionato

2. What warning sign should have alerted reviewers to potential bias?

A. Asymmetric funnel plot (small trials showing larger effects)

B. Low heterogeneity (I² = 0%)

C. Strong biological plausibility

D. Too few trials to analyze

3. When publication bias is suspected, which model may amplify the bias?

A. Fixed effect model

B. Random effects model

C. Bayesian model

D. Network meta-analysis

Small trials can show false signals.

Large trials anchor the truth.

L'eterogeneità è un messaggio, non un rumore.

Modulo 8: L'eterogeneità

L'eterogeneità è un messaggio, non un rumore.

ACCORD: 2008

Quando la media nasconde la verità.

Modulo 8: L'eterogeneità

🎯 Learning Objectives

Calcola e interpreta I², τ² e intervalli di previsione
Apply ICEMAN criteria to assess subgroup credibility
Distinguish between clinical, methodological, and statistical heterogeneity
Conduct and interpret leave-one-out sensitivity analyses
Explain how ACCORD revealed differential effects across subgroups

The Year: 2008

"Stai per assistere a uno dei processi più scioccanti della storia..."

Per decenni, la comunità del diabete ha avuto un principio guida: lower blood sugar is better. Gli studi di riferimento DCCT (1993) e UKPDS (1998) hanno dimostrato che il controllo intensivo del glucosio riduceva le complicanze microvascolari: cecità, insufficienza renale, danni ai nervi.

L'estrapolazione logica:

If controlling glucose prevents complications, shouldn't intensive control prevent cardiovascular disease too?

ACCORD: Action to Control Cardiovascular Risk in Diabetes

The definitive test of intensive glucose control

10,251

Type 2 diabetics

HbA1c <6%

Intensive target

HbA1c 7-7.9%

Standard target

Tutti i pazienti avevano diabete di tipo 2 con alto rischio cardiovascolare: malattia cardiovascolare accertata o fattori di rischio multipli. Lo studio è stato progettato per 5,6 anni.

February 6, 2008

Il Data Safety Monitoring Board convoca una riunione di emergenza.

After 3.5 years, they make an unprecedented decision:

FERMA LO STUDIO.

I risultati scioccanti

Outcome	Intensive	Standard	HR (95% CI)
Primary CV endpoint	352 events	371 events	0.90 (0.78–1.04)
All-cause mortality	257 deaths	203 deaths	1.22 (1.01–1.46)
Severe hypoglycemia	10.5%	3.5%	3.0× higher

22% increase in mortality

54 excess deaths in the intensive arm

🔍

Investigation Exercise: The Clinician's Dilemma

Lei è un endocrinologo con 500 pazienti diabetici. I risultati ACCORD sono pubblicati. Cosa dici ai tuoi pazienti che hanno cercato di raggiungere un livello di HbA1c <6%?

Il controllo intensivo è dannoso per tutti? O solo per alcuni?

Rivelata l'analisi dei sottogruppi:

Subgroup	Intensive HR	Interpretation
No prior CVD	1.00 (0.76–1.32)	No effect
Prior CVD	1.45 (1.15–1.84)	Significant harm
Baseline HbA1c <8%	1.02 (0.75–1.40)	No effect
Baseline HbA1c ≥8%	1.29 (1.03–1.60)	Harm

The average effect masked critical heterogeneity!

Per i pazienti con CVD accertata o scarso controllo di base, la terapia intensiva è stata dannosa.

Comprensione dell'eterogeneità: I² e oltre

Quando gli studi (o sottogruppi) mostrano effetti diversi, dobbiamo quantificare questa variazione.

I² = 0–25%: Bassa eterogeneità. Gli effetti sono coerenti tra gli studi.

I² = 25–50%: Moderate. Look for sources of variation.

I² = 50–75%: Substantial. Consider whether pooling is appropriate.

I² = 75–100%: Considerable. A single pooled estimate may mislead.

Ma I² da solo non ti dice cosa fare: segnala che devi indagare ulteriormente.

Tau² (τ²): la varianza tra studi

Mentre I² ti dice la proporzione della varianza dovuta all'eterogeneità, τ² te lo dice l'entità.

I² (percentage)

"Quale frazione della varianza totale è dovuta alle reali differenze tra gli studi?"

Scale: 0% to 100%

τ² (absolute)

"Quanto variano gli effetti reali tra gli studi?"

Same scale as the effect measure

Use τ² to calculate prediction intervals

Un intervallo di previsione mostra la gamma di effetti che ci si aspetterebbe in un nuovo studio, spesso molto più ampio della confidenza intervallo.

📊

The Prediction Interval: What ACCORD Really Tells Us

Consider a meta-analysis of intensive glucose control across multiple trials...

Confidence Interval

HR 1.10 (0.95–1.27)

"La nostra migliore stima dell'effetto medio"

Prediction Interval

HR 1.10 (0.70–1.73)

"The range of effects in a new setting"

L'intervallo di previsione copre sia i benefici che i danni!

In some settings, intensive control might help. In others, it could kill.

When Is a Subgroup Effect Credible?

Subgroup Credibility Criteria (adapted from ICEMAN, Schandelmaier 2020 & Sun 2012)

1

L'analisi dei sottogruppi è stata pre-specificata?

I sottogruppi post-hoc sono soggetti a dati dragaggio

2

Is there a plausible biological rationale?

Il meccanismo deve essere chiaro e indipendente dai dati

3

Is the effect consistent across related outcomes?

Se il danno appare per la mortalità, esiste un danno simile per IM e ictus?

4

Is there independent replication?

L'effetto del sottogruppo è stato confermato in altri studi?

ICEMAN Applied to ACCORD

Criterion	Assessment	Score
Pre-specified?	Sì, una precedente CVD era nel protocollo	✓
Biological rationale?	Yes—hypoglycemia more dangerous with CVD	✓
Consistent outcomes?	Yes—CV mortality and all-cause mortality aligned	✓
Independent replication?	Partially—ADVANCE, VADT showed similar patterns	~

ICEMAN Rating: High Credibility

The differential harm in high-risk patients appears genuine.

Le implicazioni cliniche

Per pazienti senza CVD: Moderate glucose control (HbA1c ~7%) remains the goal. Intensive control may reduce microvascular complications.

Per pazienti con CVD accertata: Avoid intensive targets. Hypoglycemia is dangerous for damaged hearts.

Per pazienti anziani: Relaxed targets. Quality of life matters. Tight control causes falls, confusion, and excess mortality.

"One size fits all" treatment is not patient-centered medicine.

Meta-Regression: Explaining Heterogeneity

When heterogeneity is high, meta-regression can identify study-level covariates that explain variation.

THE QUESTION

La dimensione dell'effetto varia sistematicamente con lo studio caratteristiche?

Covariates

Year, dose, duration, baseline risk, study quality

Output

Regression coefficient (slope), R², residual heterogeneity

Caution

La meta-regressione richiede ≥10 studi per covariata. Con pochi studi, è solo esplorativo. Errore ecologico: le associazioni a livello di studio potrebbero non applicarsi agli individui.

Example: In ACCORD, meta-regression might test if treatment effect varies by baseline HbA1c, showing harm concentrated in patients with very high levels.

STORIA: La rivoluzione SPRINT della pressione sanguigna

What number saves lives? Who decides?

REAL DATA

Per decenni, l'obiettivo è stato: trattare la pressione sanguigna a <140 mmHg systolic. Then came SPRINT (2015): 9,361 high-risk patients randomized to intensive (<120) vs standard (<140) targets. Intensive treatment reduced CV events by 25% and death by 27%. Trial stopped early for benefit. Guidelines changed worldwide.

Before SPRINT: The Guidelines Committee

Stai stabilendo linee guida sulla pressione sanguigna nel 2014. L'obiettivo è stato <140 per anni. Dovresti aspettare prove migliori?

PATH A: Maintain Status Quo

Keep <140 target (established practice, minimal controversy)

↓

Guidelines unchanged. Physicians continue treating to <140.

OUTCOME: Miss opportunity to prevent deaths

PATH B: Fund the Definitive Trial

Attendere i risultati di SPRINT prima di aggiornare gli obiettivi

↓

SPRINT demonstrates benefit. Update target to <120 for high-risk patients.

OUTCOME: Estimated 100,000+ lives saved globally

JNC 7 (2003): <140

Years of uncertainty

SPRINT (2015): <120 per ad alto rischio

THE REVELATION

"Standard di cura" non è stato corretto. Cambia quando le prove mettono in discussione le ipotesi. Per un decennio, i pazienti potrebbero essere stati sottotrattati perché nessuno ha testato la domanda ovvia.

Module 8 Quiz

1. Perché lo studio ACCORD è stato interrotto anticipatamente?

A. Intensive control showed clear cardiovascular benefit

B. Intensive control increased mortality

C. L'arruolamento è stato troppo lento

D. Budget ran out

2. What does a prediction interval tell us that a confidence interval doesn't?

A. The true effect is more precisely estimated

B. La dimensione del campione è adeguata

C. La gamma di effetti che ci aspetteremmo in un nuovo studio

D. La formula matematica usato

3. According to ICEMAN, which factor is MOST important for subgroup credibility?

A. Pre-specificazione dell'ipotesi del sottogruppo

B. Large sample size in the subgroup

C. Statistically significant p-value

D. Multiple outcomes showing same direction

Quando gli studi non sono d'accordo,

ascolta il disaccordo.

L'eterogeneità è un messaggio, non un rumore.

L'assenza di prove non è prova di assenza.

Modulo 9: Gli studi nascosti

L'assenza di prove non è prova di assenza.

Reboxetine: 2010

Il 74% che non ha mai visto la luce.

Modulo 9: Gli studi nascosti

🎯 Learning Objectives

Interpret funnel plots for asymmetry detection
Applica il metodo di Egger test e altri test statistici per i bias di pubblicazione
Implementare il metodo trim-and-fill per l'aggiustamento dei bias
Critically appraise the limitations of publication bias tests
Applicare il principio: "L'assenza di prove non è prova di assenza"

The Year: 1997

"A new hope for depression patients who cannot tolerate SSRIs..."

La reboxetina (Edronax) era un nuovo antidepressivo, un inibitore selettivo della ricaptazione della norepinefrina (NRI). A differenza degli SSRI, ha preso di mira un diverso sistema di neurotrasmettitori. Per i pazienti che hanno fallito o non hanno potuto tollerare fluoxetina o sertralina, ha offerto un nuovo meccanismo.

1997

EU approval

50+

Countries approved

Millions

Prescriptions written

Le prove pubblicate

What doctors could find in medical journals:

Comparison	Published Trials	Published Result
Reboxetine vs Placebo	3 trials (n=507)	Significantly better (SMD = 0.56)
Reboxetine vs SSRIs	4 trials (n=628)	Equivalent or better

La letteratura pubblicata raccontava una storia chiara:

Reboxetine works. Patients benefit. Prescribe with confidence.

Ma per quanto riguarda gli studi che non potevi vedere?

In 2010, German researchers at IQWiG made a request to the European Medicines Agency...

They demanded access to all esperimento dati: pubblicati e non.

What they found changed everything.

Il quadro completo

Eyding et al., BMJ 2010

Comparison	Published Only	ALL DATA
Reboxetine vs Placebo	SMD 0.56 (benefit)	SMD 0.10 (no benefit)
Patients in analysis	507 (14%)	2,731 (100%)
Reboxetine vs SSRIs	Equivalent	Inferiore (RR 1,23 per il danno)
Patients in analysis	628 (26%)	2,411 (100%)

Il 74% dei dati dei pazienti non è mai stato pubblicato

Gli studi nascosti non hanno mostrato alcun beneficio e altro danno

🔍

Investigation Exercise: The File Drawer

Sei un revisore sistematico nel 2008. Cerchi su PubMed, Embase e Cochrane Library tutti gli studi sulla reboxetina. Trovi 7 studi pubblicati che mostrano benefici.

Puoi fidarti di queste prove?

⚠️ L'imbuto è drasticamente asimmetrico!

Tutti gli studi pubblicati si raggruppano su un lato. Dove sono le prove nulle e negative?

Il Publication Bias Toolkit

1

Funnel Plot

Plot effect size vs. standard error. A symmetric funnel suggests no bias; asymmetry raises alarms.

2

Egger's Regression Test

Regress effect/SE on 1/SE. A non-zero intercept (P < 0.10) suggests small-study effects. Note: inflated false-positive rate with binary outcomes; use Peters' test instead.

3

Peters' Test

For binary outcomes, regresses log OR on inverse of total sample size. Less prone to false positives.

4

Trim-and-Fill

Imputa gli studi "mancanti" per rendere il funnel simmetrico, quindi ricalcola l'effetto aggregato.

📊

Interattivo: Trim-and-Fill Analisi

Applichiamo il trim-and-fill ai dati sulla reboxetina e vediamo quale sarebbe la stima corretta...

Published Only

7 trials

SMD = 0.56

Significant benefit

Trim-and-Fill

7 + 5 imputed = 12 trials

SMD = 0.23

Reduced, still nominally significant

But even trim-and-fill underestimated the problem!

L'effetto reale con tutti i dati era SMD = 0,10 (sostanzialmente nullo).
Trim-and-fill is conservative—it doesn't fully correct for selective publication.

The Best Defense: Trial Registries

I metodi di rilevamento dei bias di pubblicazione sono imperfetti. La vera soluzione è prospective registration.

ClinicalTrials.gov

US registry (2000)

WHO ICTRP

Global portal

PROSPERO

Review registration

Quando cerchi prove, controlla sempre i registri. Confrontare il numero di registered prove con il numero published. Il divario è il tuo segnale di allarme.

Since 2005, ICMJE requires trial registration as a condition of publication.

La campagna AllTrials

"All trials registered. All results reported."

Lo scandalo della reboxetina, insieme a casi simili riguardanti altri farmaci, ha catalizzato un movimento globale:

✓

2013: Politica sui dati clinici dell'EMA

European Medicines Agency commits to publishing clinical study reports

✓

2016: FDA Amendments Act enforcement

Mandatory results reporting on ClinicalTrials.gov within 12 months

✓

AllTrials Coalition

Over 90,000 supporters, 700+ organizations demanding transparency

La reboxetina Conseguenze

!

Germany's IQWiG recommended against reboxetine for depression

!

Il NICE del Regno Unito lo ha declassato a "non raccomandato"

!

La FDA aveva rifiutato la reboxetina nel 2001 (aveva accesso a dati non pubblicati)

Per oltre un decennio, i pazienti hanno ricevuto un farmaco non migliore di placebo.

Perché sono stati pubblicati solo gli studi positivi.

STORIA: Lo studio sulla paroxetina 329 L'inganno

E se la conclusione pubblicata fosse l'opposto dei dati reali?

REAL DATA

Studio di GlaxoSmithKline 329 hanno testato la paroxetina in adolescent depression. L'articolo pubblicato (2001) ha concluso che la paroxetina era "generally well tolerated and effective." I dati attuali: paroxetina failed on all 8 pre-specified outcomes. When re-analyzed (RIAT 2015), suicidal/self-harm events: 23 nel gruppo paroxetina rispetto a 5 nel gruppo placebo. L’articolo pubblicato ha ridefinito i risultati post-hoc per produrre significatività. Nel 2015, una rianalisi RIAT (Restoring Invisible and Abandoned Trials) utilizzando il rapporto di studio clinico originale ha concluso: la paroxetina era neither safe nor effective for adolescents.

Il puzzle del prescrittore: 2003

Sei uno psichiatra infantile. Lo studio 329 – l’unico studio di grandi dimensioni – afferma che la paroxetina funziona negli adolescenti. Ma la FDA non lo ha approvato per gli adolescenti. Un genitore ti chiede di prescriverlo. Cosa fai?

PERCORSO A: fidati della pubblicazione

A peer-reviewed JAACAP paper says it works. Prescribe off-label.

↓

Millions of prescriptions worldwide. Suicidal events in adolescents.

OUTCOME: FDA issues black box warning for SSRIs in youth (2004)

PATH B: Check the Trial Registry

Cerca in ClinicalTrials.gov gli endpoint originali. Notare che i risultati pubblicati non corrispondono al protocollo registrato.

↓

Bandiera rossa: rilevamento cambio risultato. Ritiri il farmaco. Il paziente è più sicuro.

OUTCOME: Publication bias identified before harm

THE REVELATION

I pregiudizi nella pubblicazione non dipendono solo dalla mancanza di studi. Si tratta della mancanza di verità negli studi pubblicati. Il cambio di risultati, il ghostwriting e il reporting selettivo possono trasformare una sperimentazione fallita in uno strumento di marketing. Confrontare sempre i risultati pubblicati con i protocolli del registro degli studi.

Module 9 Quiz

1. Quale percentuale di dati sugli studi sulla reboxetina è stata nascosta dalla letteratura pubblicata?

A. 25%

B. 50%

C. 74%

D. 90%

2. Why can trim-and-fill underestimate the correction needed?

A. It assumes effects are normally distributed

B. Imputa solo studi per raggiungere la simmetria, che potrebbe non riflettere completamente la realtà

C. Richiede almeno 20 studi

D. Funziona solo con studi molto ampi

3. What is the best prospective defense against publication bias?

A. Funnel plots in all meta-analyses

B. Egger's test before pooling

C. Prospective trial registration

D. More medical journals

Ciò che non è possibile vedere

may be more important than what you can.

L'assenza di prove non è prova di assenza.

Certainty must be earned, not assumed.

Modulo 10: La certezza

Certainty must be earned, not assumed.

Early Surfactant: 2012

Quando evolvono prove di alta qualità.

Modulo 10: La certezza

🎯 Learning Objectives

Applicare il quadro GRADE completo per valutare la certezza di prove
Evaluate all five downgrade factors (RoB, inconsistency, indirectness, imprecision, publication bias)
Identify when to upgrade for large effect, dose-response, or confounding
Construct Summary of Findings tables with absolute effect estimates
Applicare il principio: "La certezza deve essere guadagnata, non data per scontata"

The Year: 1990s

"A revolution in neonatal care..."

La sindrome da distress respiratorio (RDS) è stata la principale causa di morte nei neonati prematuri. Lo sviluppo della surfactantesogena, la sostanza che impedisce il collasso degli alveoli, è stato uno dei grandi progressi nella medicina neonatale.

La domanda è diventata: quando dovremmo somministrare il tensioattivo?

Prophylactically (to all high-risk infants) or selectively (only after RDS develops)?

La revisione Cochrane originale (2003)

Multiple RCTs conducted before the era of routine CPAP

Outcome	Prophylactic vs Selective	Certainty
Neonatal mortality	RR 0.73 (favors prophylactic)	High
BPD or death	RR 0.84 (favors prophylactic)	High

Recommendation: Give surfactant prophylactically

Guidelines worldwide adopted this approach

Ma il mondo dell'assistenza neonatale stava cambiando...

A new technology emerged: Continuous Positive Airway Pressure (CPAP)

Non-invasive support that could help preterm lungs without intubation.

Le vecchie prove sarebbero ancora valide?

L'aggiornamento Cochrane del 2012

New trials conducted in the CPAP era

Outcome	Old Trials	New Trials
BPD or death	RR 0.84 (favors prophylactic)	RR 1.12 (favors selective)
Necessità di ventilazione	Diminuire con la profilassi	Alta con la profilassi!

Complete Reversal

In the CPAP era, prophylactic surfactant causes more harm

🔍

Investigation: Why Did Evidence Evolve?

Sei un neonatologo. Un collega chiede: "Come possono gli studi randomizzati contraddirsi a vicenda?"

Le prove originali erano sbagliate?

1

Indirectness Changed

Old trials: No CPAP available. New trials: CPAP standard of care.

2

Il comparatore migliorato

Selective surfactant + CPAP is better than prophylactic intubation.

3

Context Matters

Le prove di un'epoca potrebbero non essere applicabili a un altro.

This is why GRADE assesses Indirectness!

High-quality evidence can become inapplicable when context changes.

Il framework GRADE

Grading of Recommendations, Assessment, Development and Evaluations

GRADE risponde alla domanda: Quanto siamo sicuri di questa stima?

⊕⊕⊕⊕ HIGH: Very confident. True effect is close to the estimate.

⊕⊕⊕◯ MODERATE: Moderately confident. True effect likely close, but may differ substantially.

⊕⊕◯◯ LOW: Limited confidence. True effect may differ substantially.

⊕◯◯◯ VERY LOW: Very little confidence. True effect likely substantially different.

GRADE: Factors That Downgrade Certainty

Le prove RCT iniziano da ALTO. Può essere declassato per:

1

Risk of Bias

Flawed randomization, lack of blinding, incomplete follow-up, selective reporting

2

Inconsistency

Unexplained heterogeneity across studies (large I², non-overlapping CIs)

3

Indirectness

Differenze nella popolazione, nell'intervento, nel comparatore o nei risultati della domanda

4

Imprecision

Wide confidence intervals, small sample size, few events

GRADO: il quinto fattore

5

Publication Bias

Asymmetric funnel plot, missing registered trials, sponsor influence

Each factor can downgrade by one or two levels

High → Moderate → Low → Very Low

Example: Una meta-analisi di RCT (inizia ALTO) con un alto rischio di bias (↓1) e grave indirettezza (↓1) sarebbe essere valutato LOW.

📊

Interactive: Apply GRADE to Surfactant

Valutiamo la certezza dell'evidenza per il tensioattivo profilattico utilizzando vecchi e nuovi studi.

OLD TRIALS (Pre-CPAP)

Starting: HIGH (RCTs)

Risk of Bias: Low (−0)

Inconsistency: None (−0)

Indirectness: Serious (−1)

Different standard of care today

Final: ⊕⊕⊕◯ MODERATE

NEW TRIALS (CPAP Era)

Starting: HIGH (RCTs)

Risk of Bias: Low (−0)

Inconsistency: None (−0)

Indirectness: None (−0)

Matches current practice

Final: ⊕⊕⊕⊕ HIGH

GRADE: Factors That Upgrade Certainty

L'evidenza osservativa inizia da BASSO. Può essere aggiornato per:

+1

Large Magnitude of Effect

RR >2 o <0,5 senza confondimenti plausibili

+1

Dose-Response Gradient

Higher exposure = larger effect in a consistent pattern

+1

Residual Confounding

All plausible confounders would reduce the effect (strengthens causal inference)

Communicating Certainty

GRADE requires transparent language about confidence:

HIGH: "Prophylactic surfactant reduces mortality..."

MODERATE: "Prophylactic surfactant probably reduces mortality..."

LOW: "Prophylactic surfactant may reduce mortality..."

VERY LOW: "We are uncertain whether prophylactic surfactant reduces mortality..."

Questo linguaggio garantisce che i medici comprendano la forza delle prove.

STORIA: Il paradosso dell'ossigeno nel bambino prematuro

Can too much of a lifesaver become a killer?

REAL DATA

1940s-50s: High oxygen concentrations saved premature babies from respiratory failure. Then came an epidemic of blindness—retrolental fibroplasia (now called ROP). Doctors reduced oxygen dramatically. Blindness dropped. But then: increased deaths and brain damage dall'ipossia. Il livello ottimale di ossigeno richiesto decades of trials to find. Recent SUPPORT/BOOST II trials finally defined the therapeutic window: SpO2 91-95%.

Il dilemma del neonatologo: 1955

Sei un neonatologo. I bambini prematuri che assumono ossigeno elevato diventeranno ciechi. Cosa fai?

PATH A: Dramatic Reduction

Drastically reduce oxygen to prevent blindness

↓

Blindness rates drop. But some babies die or suffer brain damage from hypoxia.

OUTCOME: Trading one harm for another

PERCORSO B: Studio sistematico

Titolare attentamente l'ossigeno, studiare la relazione dose-risposta

↓

Takes decades but eventually identifies the optimal range.

OUTCOME: Optimize both survival and vision

1940s: High O2 saves lives

1950s: Blindness epidemic

Anni '60 -'70: Morti per bassi livelli di O2

2010s: SUPPORT/BOOST define optimal range

THE REVELATION

Ogni intervento ha una finestra terapeutica. Trovarlo richiede misurazioni, non supposizioni. Il pendolo ha oscillato per 60 anni prima che le prove definissero l'equilibrio.

Module 10 Quiz

1. Perché la raccomandazione sui tensioattivi è stata invertita tra il 2003 e il 2012?

A. Gli studi originali erano fraudolenti

B. CPAP changed the comparator (indirectness)

C. Not enough patients in original trials

D. Il risultato è stato misurato in modo diverso

2. Quale dei seguenti NON è un fattore di downgrade GRADE?

A. Risk of bias

B. Imprecision

C. Publication bias

D. Large magnitude of effect

3. Quale linguaggio dovrebbe essere utilizzato per le prove con certezza BASSA?

A. "L'intervento riduce..."

B. "L'intervento probabilmente riduce..."

C. "L'intervento può ridurre..."

D. "Non siamo sicuri se..."

Un numero non basta.

Devi comunicare quanto sei sicuro.

Certainty must be earned, not assumed.

I metodi proteggono i pazienti dalla nostra fiducia.

Modulo 11: The Living Recensione

I metodi proteggono i pazienti dalla nostra fiducia.

COVID-19 Hydroxychloroquine: 2020

Quando l'urgenza incontra l'evidenza.

Modulo 11: The Living Recensione

🎯 Learning Objectives

Applicare l'analisi sequenziale delle prove per determinare quando l'evidenza è sufficiente
Progettare e mantenere una revisione sistematica vivente
Establish update triggers and futility/harm boundaries
Manage multiplicity and alpha-spending in sequential analyses
Explain how rapid evidence synthesis evolved during COVID-19

March 2020: A World in Crisis

"Il virus si diffonde più velocemente del nostro comprensione..."

COVID-19 stava uccidendo migliaia di persone. Le unità di terapia intensiva sono traboccate. Non c’era nessun vaccino, nessuna cura. Poi un barlume di speranza: hydroxychloroquine (HCQ)—an old malaria drug—showed antiviral activity in lab studies.

March 20

Studio Gautret (Francia)

36 pts

Non-randomized

Viral

Clearance improved

La corsa all'adozione

A poche settimane dallo studio Gautret:

!

March 28: FDA issues Emergency Use Authorization for HCQ

!

April 4: India bans HCQ export (hoarding fears)

!

Global: Shortages affect lupus and rheumatoid arthritis patients

Millions received HCQ based on a 36-patient observational study

What could go wrong?

🔍

Inchiesta: The Gautret Studio

Sei un esperto EBM incaricato di valutare lo studio francese HCQ. Esamina il progetto...

Issue	Impact
Non-randomized	Selection bias—who got HCQ?
6 patients excluded	3 went to ICU, 1 died, 1 withdrew, 1 had nausea
Surrogate outcome	Viral load, not clinical outcomes
Controllo da diversi ospedali	Different care, different testing
No blinding	Expectation bias in lab testing

Questo studio otterrebbe un rischio ALTO di bias su RoB 2.0

GRADE certainty: VERY LOW. Yet it changed global policy.

Why Observational COVID Studies Misled

1

Immortal Time Bias

Patients must survive long enough to receive treatment. Survivors are compared to non-survivors.

2

Confounding by Indication

Sicker patients may get different treatments. Healthier patients received HCQ early.

3

Healthy User Effect

Patients who seek treatment tend to be healthier overall.

4

Outcome Reporting

Gli studi con risultati positivi sono stati pubblicati più velocemente.

Giugno 2020: il rapporto sugli studi randomizzati

Large, rigorous trials completed at remarkable speed

Trial	N	Result
RECOVERY (UK)	4,716	No benefit on mortality (RR 1.09)
WHO SOLIDARITY	954	No benefit (RR 1.19)
ORCHID (US)	479	Interrotto per futilità

HCQ provided no benefit—and may have caused harm

June 15, 2020: FDA revokes Emergency Use Authorization

📊

Cronologia: prove osservative vs. RCT

March-May 2020

Observational: ~20 studies

Suggest benefit

Pooled OR ~0.65

June-July 2020

RCTs: RECOVERY, SOLIDARITY

Show no benefit/harm

Pooled RR ~1.10

Da "promettente" a "inefficace" in 3 mesi

Questo è il motivo per cui abbiamo bisogno della randomizzazione e di revisioni viventi per tenere traccia dell'evoluzione delle prove.

Living Systematic Reviews

Un nuovo approccio per una rapida prove in evoluzione:

1

Continuous Surveillance

Cerca nella letteratura settimanalmente o anche quotidianamente nuove prove

2

Cumulative Meta-Analysis

Update pooled estimates as each new trial reports

3

Trial Sequential Analysis (TSA)

Determine when sufficient information has accumulated to conclude

4

Transparent Versioning

Track every change, maintain full audit trail

Trial Sequential Analysis (TSA)

When have we learned enough?

La TSA applica limiti di interruzione alla meta-analisi, in modo simile all'analisi provvisoria in un singolo studio. Rappresenta required information size (RIS) needed to detect or exclude a clinically meaningful effect.

RIS

Required sample size

α-spending

Controls type I error

Boundaries

Benefit / Harm / Futility

Per HCQ in COVID, la TSA ha dimostrato che il limite di inutilità è stato superato entro giugno 2020.

Lezioni dalla HCQ Saga

1. Observational studies can mislead spectacularly quando il pregiudizio è prevalente. Anche molti studi che puntano nella stessa direzione possono essere sbagliati.

2. RCTs can be conducted quickly when the will exists. RECOVERY enrolled 5,000+ patients in weeks.

3. Le revisioni viventi sono essenziali for evolving topics. Fixed-point-in-time reviews become obsolete instantly.

4. Political pressure doesn't change biology. Metodi rigorosi proteggono i pazienti anche quando sono sotto pressione.

STORIA: La rivoluzione LEAP dell'allergia alle arachidi

E se la prevenzione fosse la causa?

REAL DATA

For decades, pediatric guidelines recommended: avoid peanuts in infancy to prevent allergy. Meanwhile, peanut allergy rates tripled dal 1997 al 2008. Quindi è venuto LEAP (2015): 640 high-risk infants randomized to early peanut introduction vs. avoidance. Result: Early introduction reduced peanut allergy by 81% (1,9% contro 13,7%). La strategia di prevenzione stava causando l'epidemia.

The Allergist's Crossroads: 2010

Sei un allergologo pediatrico. Le allergie alle arachidi sono in aumento nonostante le linee guida per evitarle. Metti in discussione il dogma?

PATH A: Follow Guidelines

Continue recommending peanut avoidance in high-risk infants

↓

Guidelines are "evidence-based." Safe to follow consensus.

OUTCOME: Peanut allergies continue to rise

PERCORSO B: Metti in discussione il dogma

Design a trial to test if early introduction might be protective

↓

LEAP trial reveals the truth. Guidelines reverse worldwide.

OUTCOME: Prevent an epidemic

2000: AAP recommends avoidance

2008: Allergy rates triple

2015: LEAP inverte le prove

2017: Guidelines flip to early introduction

THE REVELATION

"Prima di tutto, non nuocere" richiede prove. Le supposizioni, anche quelle ben intenzionate, possono causare danni su larga scala. Il sistema immunitario aveva bisogno dell'esposizione per sviluppare tolleranza, mentre l'evitamento creava sensibilizzazione.

Module 11 Quiz

1. Qual è stato il difetto principale nello studio Gautret sull'idrossiclorochina?

A. Too few patients

B. No blinding

C. Excluding patients who deteriorated

D. Too short follow-up

2. What does Trial Sequential Analysis help determine?

A. Which studies have high risk of bias

B. When enough evidence has accumulated

C. Il grado di eterogeneità

D. Which treatment is best

3. Perché gli studi osservazionali sul COVID hanno mostrato benefici dell'HCQ mentre gli RCT no?

A. RCTs enrolled sicker patients

B. RCTs used different outcomes

C. Bias negli studi osservazionali

D. Gli studi osservazionali avevano dati migliori

Speed cannot replace rigor.

But rigor can be fast.

Living reviews balance both.

Non tutti i segnali sono verità.

Modulo 12: Metodi avanzati

Non tutti i segnali sono verità.

Advanced Methods

Beyond pairwise meta-analysis.

Modulo 12: Metodi avanzati

🎯 Learning Objectives

Interpret network meta-analysis geometry and SUCRA rankings
Apply bivariate models for diagnostic test accuracy meta-analysis
Conduct dose-response meta-analysis with flexible splines
Understand when individual patient data (IPD) meta-analysis is needed
Riconoscere i presupposti e i limiti di ciascuno metodo avanzato

Quando Pairwise non è sufficiente

"A volte la domanda è più complessa di A contro B..."

I metodi che hai imparato costituiscono la base. Ma la realtà clinica spesso richiede di più: Which of 10 antidepressants is best? What's the optimal dose of statin? Does this test accurately diagnose early cancer?

Questo modulo introduce quattro metodi avanzati, ciascuno dei quali risponde a diverse domande complesse.

Network Meta-Analysis (NMA)

When you have many treatments but few head-to-head trials

NMA combines direct evidence (A vs B) with indirect evidence (A vs C, B vs C → inferred A vs B) to compare multiple treatments simultaneously.

SUCRA

Ranking probabilities, not effect size

Consistency

Direct = Indirect?

Networks

Visualize evidence

🔍

NMA Example: Antidepressants

The landmark Cipriani 2018 NMA compared 21 antidepressants using 522 trials.

The Challenge

21 drugs, but not every pair tested head-to-head

Many vs. placebo, few vs. each other

The Solution

NMA combina prove dirette e indirette attraverso la rete

Classifica tutti i 21 metodi per efficacia e accettabilità

Risultato: alcuni farmaci si sono classificati più in alto in termini di efficacia, altri in termini di accettabilità

Nessun singolo farmaco è universalmente "migliore"; interpretare le classifiche con intervalli credibili, transitività e compromessi clinici.

NMA: Critical Assumptions

1

Transitivity

Effect modifiers should be similarly distributed across comparisons; otherwise indirect comparisons may be biased

2

Consistency

Le prove dirette e indirette concordano (testabili)

3

Connected Network

All treatments linked through at least one common comparator

When assumptions fail, NMA can mislead

Valutare sempre la transitività e testare incoerenza.

Dose-Response Meta-Analysis

Trovare la dose ottimale

Uses the Greenland-Longnecker method con spline cubiche ristrette per modellare relazioni non lineari tra dose ed effetto.

1

Non-linear patterns

J-shaped (alcohol & mortality), U-shaped (vitamin D), threshold (aspirin)

2

Clinical relevance

Trova la dose con il miglior rapporto beneficio-danno, non solo "più è meglio"

Dati individuali del paziente (IPD)

Il gold standard per il sottogruppo analisi

Instead of published summary data, obtain dati grezzi a livello di paziente dagli sperimentatori. Consente analisi precise dei sottogruppi, modellizzazione del tempo all'evento e definizioni standardizzate.

One-Stage

Single hierarchical model (not mega-trial)

Two-Stage

Analyze, then pool

80%+ target

Obiettivo di disponibilità dei dati

L'Early Breast Cancer Trialists' Collaborative Group è stato il pioniere dell'IPD MA negli anni '80.

Diagnostic Test Accuracy (DTA)

Quando l'"intervento" è un test

DTA meta-analysis synthesizes sensitivity (tasso di veri positivi) e specificity (true negative rate)—two correlated outcomes requiring bivariate models.

1

Bivariate/HSROC Model

conta la correlazione tra sensibilità e specificità

2

SROC Curve

curva ROC riepilogativa con confidenza al 95% e regioni di previsione

3

QUADAS-2

Quality Assessment of Diagnostic Accuracy Studies

Scegliere il giusto Metodo

Question	Method
Does A beat B?	Pairwise MA
Which of many treatments is best?	Network MA (NMA)
Qual è la dose ottimale?	Dose-Response MA
Who benefits most? (subgroups)	IPD MA
Quanto è accurato questo test?	DTA MA
Come si evolve l'effetto nel tempo?	Survival/Time-to-Event MA

Il metodo deve corrispondere alla domanda. Non forzare mai una domanda nel metodo sbagliato.

STORIA: The Steroids in Sepsis Saga

Three large trials. Three different answers. What do you believe?

REAL DATA

CORTICUS (2008): 499 patients. Hydrocortisone in septic shock. No mortality benefit. ADRENAL (2018): 3,658 patients. Hydrocortisone. No mortality benefit. APROCCHSS (2018): 1,241 patients. Hydrocortisone + fludrocortisone. Mortality reduced (43% vs 49.1%, p=0.03). Same class of intervention. Different protocols. Different results.

La sfida dello scrittore di linee guida

Stai scrivendo linee guida sulla sepsi. Tre studi principali non sono d'accordo. Come mi consigli?

PATH A: Simple Average

Pool all three trials. Overall effect uncertain. Conclude "evidence unclear."

↓

Guidelines say steroids are optional. No strong recommendation.

OUTCOME: Clinicians left without clear guidance

PATH B: Investigate Heterogeneity

Analyze why APROCCHSS differed (fludrocortisone, longer duration, different population)

↓

Identificare che il protocollo efficace differisce da quelli inefficaci.

OUTCOME: Recommend the specific effective protocol

THE REVELATION

Le prove contrastanti non sono fallimenti. Sono mappe di dove il trattamento funziona e dove no. Le differenze tra gli studi (dose, durata, co-interventi, popolazione) sono la chiave di comprensione.

Module 12 Quiz

1. Qual è il vantaggio principale della meta-analisi di rete rispetto a quella a coppie?

A. Non richiede l'estrazione dei dati

B. It compares treatments not directly tested against each other

C. Elimina la necessità di valutare il rischio di bias

D. It produces better forest plots

2. Why does DTA meta-analysis require bivariate models?

A. To handle more than two studies

B. Per correggere i bias di pubblicazione

C. Sensibilità e specificità sono correlato

D. To generate forest plots

3. What does the "consistency" assumption in NMA require?

A. All studies must be high quality

B. Le prove dirette e indirette devono concordare

C. Sample sizes must be similar

D. No missing studies

Methodologist

L'ecosistema del corso

Questo corso copre l'intero flusso di lavoro di revisione sistematica. Per approfondimenti, esplora i corsi complementari:

DTA Course
Bivariate/HSROC, SROC curves, QUADAS-2

Risk of Bias Mastery
RoB 2, ROBINS-I/E, domain-level assessment

GRADE Certainty
Full SoF tables, GRADE-CERQual

IPD Meta-Analysis
One-stage/two-stage, mixed-effects models

Publication Bias Detective
Copas, PET-PEESE, p-curve, selection models

Umbrella Reviews
AMSTAR 2, ROBIS, overlap correction

Prognostic Reviews
CHARMS, PROBAST, c-statistic pooling

Living Reviews + Rapid Reviews
TSA, update triggers, abbreviated methods

Module 12 Complete

"Il metodo deve corrispondere alla domanda. I metodi avanzati rispondono a domande avanzate, ma i fondamenti non cambiano mai."

Hai padroneggiato il flusso di lavoro principale. I dieci moduli successivi esplorano la frontiera: inferenza bayesiana, meta-analisi di rete, dati dei singoli pazienti, modelli dose-risposta, robustezza e fragilità, equità, sintesi assistita dall'intelligenza artificiale, evidenza qualitativa, metodi multivariati e riproducibilità.

Non tutti i segnali sono verità.

Modulo 13: Il bayesiano Turn

Non tutti i segnali sono verità.

Modulo 13: Il bayesiano Turn

🎯 Learning Objectives

Spiega la differenza tra inferenza frequentista e bayesiana
Interpret prior distributions, likelihoods, and posterior distributions
Distinguish credible intervals from confidence intervals
Understand when Bayesian meta-analysis offers advantages
Recognize how prior choice affects conclusions

Apertura della storia: STAMPEDE

In 2005, a trial began

that would never truly end.

Lo studio STAMPEDE per il cancro alla prostata ha utilizzato un design della piattaforma multi-braccio e multi-stadio (MAMS). Le armi potevano essere aggiunte o tolte man mano che le prove si accumulavano. Sebbene le sue statistiche fossero frequentiste, la filosofia adattiva incarnava lo spirito bayesiano: aggiornare le decisioni man mano che i dati si accumulano.

La visione del mondo frequentista

In frequentist statistics, probability means long-run frequency. Un IC al 95% NON significa "probabilità del 95% che il vero effetto sia all'interno". Vuol dire: se ripetessimo lo studio all'infinito, il 95% degli intervalli conterrebbe la verità.

p-value

P(data | H₀), non P(H₀ | data)

95% CI

Proprietà di copertura, non convinzione

Fixed

Il parametro vero è fisso

La visione bayesiana del mondo

In Bayesian statistics, probability represents degree of belief. We start with a prior (cosa crediamo prima dei dati), aggiorna con likelihood (cosa ci dicono i dati) e ottieni a posterior (updated belief).

1

Prior × Likelihood = Posterior

Teorema di Bayes: P(θ|data) ∝ P(data|θ) × P(θ)

2

Credible Intervals

Un intervallo credibile al 95% è interpretabile probabilisticamente, condizionato al modello specificato e a priori.

Researcher

Choosing Priors

1

Non-informative (Vague)

Normale(0, 10000) o uniforme. Lasciamo che i dati dominino. Imita i risultati frequentisti.

2

Weakly Informative

Normal(0, 1) for log-OR. Regularizes extreme estimates while remaining flexible.

3

Informative

Based on previous evidence. Powerful but controversial. Must be pre-specified.

4

Half-Cauchy for τ

Recommended for heterogeneity. Half-Cauchy(0, 0.5) allows large τ but concentrates near zero.

Researcher

MCMC Sampling

Most Bayesian models cannot be solved analytically. We use Markov Chain Monte Carlo (MCMC) per estrarre campioni dalla parte posteriore. Strumenti: JAGS, Stan, brms (R), PyMC (Python).

Chains

Multiple independent chains (typically 4)

R̂

Convergence: R̂ < 1.01 (strict; older texts use < 1.1)

ESS

Bulk-ESS > 400 per le medie; tail-ESS > 400 per gli elementi della configurazione

Methodologist

Bayesian Model Averaging

Instead of choosing between fixed-effect and random-effects models, Bayesian model averaging (BMA) pondera ciascun modello in base alla sua probabilità a posteriori. Ciò spiega l'incertezza del modello nella stima finale.

BF

Bayes Factors

BF₁₀ > 10 = forte evidenza per H₁. BF₁₀ < 1/10 = prova forte per H₀.

Segnaposto strumento interattivo

Interactive: Posterior Visualizer

Regola l'intensità precedente per vedere come influisce sul posteriore. Guarda come più dati superano quelli precedenti.

Prior Strength: Vague

Prior Mean (log-OR): 0.00

La storia di STAMPEDE

STAMPEDE è stato lanciato nel 2005 con 5 bracci di ricerca che confrontavano i trattamenti per il cancro alla prostata avanzato. Nel 2016 aveva aggiunto abiraterone e mostrato una riduzione del 37% della mortalità (HR 0,63, IC 95% 0,52–0,76).

Il design della piattaforma incarna il pensiero adattivo bayesiano: analisi provvisorie guidano la selezione del braccio, nuovi bracci possono entrare quando emergono trattamenti e i bracci futili abbandonano presto, salvando i pazienti da inefficaci terapie.

STAMPEDE ha arruolato oltre 10.000 pazienti in oltre 100 centri e ha cambiato radicalmente la cura del cancro alla prostata. La mentalità bayesiana consente alle prove di accumularsi e informare le decisioni in tempo reale.

Decision Tree: When to Go Bayesian?

Frequentist vs Bayesian Meta-Analysis

Scegli il bayesiano quando: (1) disponi di informazioni precedenti autentiche, (2) hai bisogno di affermazioni probabilistiche ("effetto di probabilità dell'80% > 0"), (3) pochi studi rendono inaffidabili le proprietà frequentiste o (4) vuoi fare la media del modello.

Bayesian with weakly informative prior

A common practical default. Regularizes extreme estimates without forcing strong prior conclusions.

Bayesiano con informazioni informative prior

Solo quando le prove precedenti sono forti e pre-specificate. Deve fare un'analisi di sensibilità.

Stay frequentist

Simpler, well-understood. Preferred when k is large and no prior information.

Remember Module 1?

CAST Through a Bayesian Lens

Se un'analisi bayesiana del CAST avesse utilizzato un precedente informativo proveniente dalla scienza di base (gli antiaritmici sopprimono i PVC), il posteriore si sarebbe comunque spostato fortemente verso il danno. Con dati sufficienti, anche un precedente forte cede alla probabilità. La lezione: i metodi bayesiani non proteggono dai valori a priori errati, ma presuppongono transparent.

Module 13 Quiz

Q1. What does a 95% Bayesian credible interval mean?

A. 95% of repeated experiments would produce intervals containing the true value

B. C'è una probabilità del 95% che il vero parametro si trovi all'interno di questo intervallo

C. The interval has a 95% chance of being correct

D. Il 95% dei dati futuri rientrerà in questo intervallo

Q2. Qual è il valore a priori consigliato per l'eterogeneità tra studi (τ)?

A. Uniform(0, 100)

B. Normal(0, 1)

C. Half-Cauchy(0, 0.5)

D. Fixed at 0.5

Module 13 Complete

"La svolta bayesiana non riguarda la matematica. Riguarda l'onestà: rendere visibili le nostre ipotesi."

Non tutti i segnali sono verità.

Modulo 14: La Rete

I metodi proteggono i pazienti dalla nostra fiducia.

Modulo 14: La Rete

🎯 Learning Objectives

Explain why pairwise comparisons are insufficient when many treatments exist
Interpret network geometry (nodes, edges, thickness)
Comprendere la transitività, la coerenza e il ruolo delle prove indirette
Interpret SUCRA rankings and league tables
Recognize when NMA assumptions are violated

A clinician faces a patient

con la depressione. Quale farmaco?

Ci sono 21 antidepressivi comunemente prescritti. La maggior parte degli studi comparativi ne confronta solo 2 o 3. Cipriani et al. (2018, Lancet) hanno collegato 522 studi e 116.477 pazienti in un'unica rete.

La logica della meta-analisi della rete

1

Direct Evidence

Trials directly comparing A vs B give the most reliable estimate.

2

Indirect Evidence

Se esistono A vs C e B vs C, possiamo dedurre A vs B. Questo è il "transitivo" presupposto.

3

Mixed Evidence

NMA combines both, weighted by precision, to rank all treatments simultaneously.

Interactive: Network Graph

Ogni nodo è un trattamento. Lo spessore del bordo rappresenta il numero di studi che confrontano questi due trattamenti.

Researcher

Transitivity & Consistency

Transitivity: la stima indiretta (tramite comparatore comune) dovrebbe approssimare la stima diretta. Ciò richiede che i modificatori degli effetti siano distribuiti in modo simile tra i confronti.

Consistency: Test statistico che confronta prove dirette e indirette. I test globali (interazione disegno per trattamento) e locali (divisione dei nodi) aiutano a identificare i cicli di incoerenza.

Researcher

SUCRA & P-scores

SUCRA

Surface Under Cumulative Ranking. Valori più alti indicano una migliore probabilità di posizionamento, non una superiorità garantita.

P-score

Analogo frequentista alla probabilità di classificazione riassunti. Interpretare con dimensioni degli effetti e incertezza.

Caution: Ranking is seductive but misleading when differences between treatments are small or uncertain. Always report credible/confidence intervals alongside ranks.

Methodologist

Component NMA

When interventions are complex (e.g., behavioral + pharmacological), component NMA decomposes multi-component treatments to estimate the individual contribution of each component. Uses additive models: effect(A+B) = effect(A) + effect(B) + interaction.

La rete Cipriani

L'analisi Lancet del 2018 ha rilevato che tutti i 21 antidepressivi erano più efficaci del placebo. Amitriptilina, mirtazapina e venlafaxina si sono classificate ai primi posti in termini di efficacia. Agomelatina, fluoxetina ed escitalopram si sono classificati al primo posto in termini di accettabilità (minor numero di abbandoni).

Nessun singolo farmaco ha "vinto" su tutti i risultati. La rete ha rivelato compromessi invisibili all'analisi a coppie.

Decision Tree: Is NMA Appropriate?

NMA Feasibility Check

Hai 15 studi randomizzati che confrontano 6 diverse statine. Alcune coppie hanno prove dirette, altre no.

Check transitivity, then fit NMA

Verificare che le popolazioni di pazienti e i disegni degli studi siano sufficientemente simili nei confronti.

Ignorare le prove indirette

Perde potere statistico e lascia lacune nella base delle prove.

Pool all into one pairwise comparison

Viola la struttura del prove. Le statine sono farmaci diversi.

Module 14 Quiz

Q1. Quale presupposto deve essere valido affinché le prove indirette siano valide nell'NMA?

A. Transitivity — effect modifiers are balanced across comparisons

B. Homogeneity — I² must be below 25%

C. All studies must have similar sample sizes

D. Tutti gli studi devono essere in doppio cieco

Module 14 Complete

"La rete vede ciò che i confronti a coppie non possono: l'intero panorama della scelta del trattamento."

Non tutti i segnali sono verità.

Modulo 15: L'individuo

What was hidden in plain sight?

Modulo 15: L'individuo

🎯 Learning Objectives

Explain why aggregate data can mask treatment–covariate interactions
Distinguish one-stage from two-stage IPD models
Recognize ecological bias in aggregate meta-analysis
Understand the practical challenges of IPD collection
Interpret treatment–covariate interaction plots

For decades, breast cancer trials

riepiloghi pubblicati. Non pazienti.

L'Early Breast Cancer Trialists' Collaborative Group (EBCTCG) ha raccolto dati individuali di oltre 100.000 donne in centinaia di studi. Le loro meta-analisi IPD hanno mostrato che i benefici del tamoxifene dipendono fortemente dallo stato dei recettori degli estrogeni, qualcosa di invisibile nei dati aggregati.

Cosa nascondevano i riepiloghi

Ogni studio pubblicato sul tamoxifene ha riportato un risultato complessivo. In centinaia di studi, il tamoxifene sembra offrire un beneficio modesto. Ma il “modesto beneficio” era una media che nascondeva una profonda verità.

La divisione nascosta del sottogruppo

RR 0.59

ER-positive subgroup: 41% reduction in recurrence

RR 0.97

ER-negative subgroup: essentially no benefit at all

L'effetto complessivo complessivo – mescolando pazienti responsivi e non responsivi – era una finzione statistica. Una media "modesta" che sovrastima il beneficio per un gruppo e implica un beneficio laddove non esisteva per l'altro.

Dati aggregati rispetto a quelli del singolo paziente

AD

Aggregate: published effect + CI only

IPD

Individual: raw patient-level records

IPD consente: (1) definizioni coerenti di risultati, (2) analisi di sottogruppi in base alle caratteristiche del paziente, (3) modellazione del tempo all'evento, (4) controllo di bias ecologici. È il gold standard for exploring treatment effect modification.

Researcher

One-Stage vs Two-Stage IPD

1

Two-Stage

Analyze each study separately, then combine estimates (like standard MA). Simple but loses information.

2

One-Stage

Adatta un singolo modello a effetti misti a tutti i dati del paziente contemporaneamente. Più potente per interazioni ed eventi rari.

Key: Entrambi dovrebbero tenere conto del clustering di studio. Non raggruppare mai gli IPD come se fossero parte di un mega-esperimento: ciò introduce confusione (paradosso di Simpson).

Methodologist

Ecological Bias

A meta-regression using study-level mean age might show older patients benefit more. But this could be ecological bias: l'associazione a livello di studio non riflette la verità a livello di paziente. Solo l'IPD può separare within-study from between-study effects.

Quando il tutto sta nelle sue parti

Il paradosso di Simpson: una tendenza che appare nei dati aggregati si inverte quando i dati vengono raggruppati in base a una variabile confondente.

Il paradosso nella pratica

A mega-trial analysis found Treatment X beneficial overall. But all'interno ogni studio, è stato dannoso. Come? Le differenze nel rischio di base tra gli studi hanno creato un'illusione: è capitato che le popolazioni più malate ricevessero più trattamenti, gonfiando il beneficio aggregato.

Cates (2002, BMJ) hanno dimostrato che il raggruppamento tra studi senza tenere conto del clustering può invertire la direzione apparente dell'effetto.

Questo è il motivo per cui i modelli IPD a una fase includono lo studio come variabile di clustering, per evitare che confusione tra studi si mascheri come trattamento. effetto.

L'eredità EBCTCG

Le meta-analisi IPD dell'EBCTCG definiscono il trattamento del cancro al seno da 40 anni. La loro analisi del 2005 del tamoxifene rispetto a nessun trattamento ha mostrato un chiaro beneficio nei tumori ER-positivi (RR 0,59) ma nessun beneficio nei tumori ER-negativi (RR 0,97).

Senza IPD, l'effetto aggregato complessivo sarebbe stato raggruppato in entrambi i gruppi, diluendo il beneficio e negando potenzialmente ai pazienti ER-positivi l'entità del loro guadagno.

Decision Tree: When Is IPD Worth Pursuing?

Do you suspect treatment–covariate interactions?

Yes →

È possibile ottenere l'IPD da >80% delle sperimentazioni?

Yes → One-stage IPD meta-analysis with interaction terms

No → Due fasi: richiesta dell'IPD disponibile + aggregato per il resto

No →

Is ecological bias a concern?

Yes → IPD preferred even without interactions

No → Aggregate data meta-analysis may suffice

EBCTCG ha raccolto dati da centinaia di sperimentazioni in 40 anni. La maggior parte delle meta-analisi IPD comprendono 5-20 studi. La decisione dipende dalla domanda, non dall'ambizione.

Methodologist

Lo schema si ripete

Ricordi il Modulo 3? La TOS è apparsa benefica negli studi osservazionali ma dannosa negli studi randomizzati. Si è verificato lo stesso mascheramento aggregato: il beneficio complessivo nascondeva il danno del sottogruppo.

L'analisi IPD della Women's Health Initiative ha successivamente dimostrato che timing mattered: le donne che hanno iniziato la TOS entro 10 anni dalla menopausa hanno avuto esiti diversi rispetto a quelle che hanno iniziato più tardi. L'“ipotesi temporale” era invisibile nei riepiloghi aggregati pubblicati.

La lezione ricorre: i dati aggregati possono oscurare le interazioni critiche tra trattamento e covariata. Che si tratti dello stato ER nel cancro al seno o dei tempi nella terapia ormonale sostitutiva, i dati a livello individuale rivelano ciò che i riepiloghi nascondono.

Module 15 Quiz

Q1. Qual è il vantaggio principale dell'IPD rispetto alla meta-analisi dei dati aggregati?

A. Include sempre più studi

B. È più economico e più veloce

C. It can explore treatment–covariate interactions without ecological bias

D. Elimina la necessità di modelli a effetti casuali

Module 15 Complete

"Dietro ogni stima aggregata ci sono individui le cui storie l'aggregato non può raccontare."

L'eterogeneità è un messaggio, non un rumore.

Modulo 16: Il Dose

L'eterogeneità è un messaggio, non un rumore.

Modulo 16: Il Dose

🎯 Learning Objectives

Explain why simple pairwise comparisons miss dose–response relationships
Distinguish linear, quadratic, and spline dose–response models
Interpret restricted cubic splines with knots
Identify threshold effects and J/U-shaped curves
Understand model comparison with AIC/BIC

Per decenni, il bere moderato

è sembrato proteggere il cuore.

La "curva a J" ha mostrato che i non bevitori avevano una mortalità cardiovascolare più elevata rispetto ai bevitori moderati. Ma Stockwell et al. (2016) hanno dimostrato che la curva J era un artefatto della classificazione errata degli ex bevitori (che avevano smesso a causa di malattia) come "astemi".

A Scientific Consensus Built on Sand

Entro il 2010, oltre 100 studi osservazionali avevano confermato la curva J. Lo insegnavano i testi di medicina. Lo hanno citato i cardiologi. I lobbisti dell'industria del vino hanno finanziato conferenze sull'argomento.

100+

Studi osservazionali che confermano la curva a J

15–25%

Lower cardiovascular mortality in moderate drinkers vs abstainers

Le prove sembravano schiaccianti. Ma cosa succederebbe se il gruppo di confronto, gli "astemi", fosse contaminato?

I Malati Quitter

A Hidden Confounder

The Problem

People who stop drinking often do so because they are already ill: malattie del fegato, interazioni farmacologiche, diagnosi di cancro. Questi "ex bevitori" sono stati classificati come "astemi" nella maggior parte degli studi.

The Effect: The reference group (abstainers) appeared less healthy—non perché l'astinenza fosse dannosa, ma perché persone malate vi avevano aderito.

When Stockwell et al. (2016, J Stud Alcohol Drugs) removed former drinkers and applied appropriate study-quality corrections: la curva J è scomparsa. L'effetto protettivo era un fantasma.

Dose–Response Meta-Analysis

Standard meta-analysis asks: "Does treatment X work?" Dose–response meta-analysis asks: "At what dose il trattamento X funziona meglio?" Modella la relazione tra livello di dose ed esito in più studi.

Linear

Simplest: log(RR) = β × dose

Spline

Flexible: piecewise polynomials with knots

Fractional

Polynomial: dose^p1 + dose^p2

Researcher

Restricted Cubic Splines

RCS place knots a punti di dose pre-specificati e adatta polinomi uniformi tra di loro. Tipicamente 3-5 nodi ai quantili della distribuzione della dose. Lineare oltre i nodi limite. I test per la non linearità confrontano il modello spline con un modello più semplice modello lineare.

AIC

Model Comparison

AIC/BIC confronta l'adattamento lineare con quello spline. Inferiore = migliore. Testa anche la deviazione dalla linearità (valore p per i termini spline).

Interactive: Dose–Response Builder

Confronta gli adattamenti lineare con quelli quadratici con quelli spline. Osserva come cambia la forma del modello con presupposti diversi.

La curva J dell'alcol è stata smascherata.

La rianalisi di Stockwell del 2016 ha rilevato che quando gli ex bevitori venivano correttamente esclusi dal gruppo di riferimento degli "astemi", l'effetto protettivo del bere moderato scompariva. La curva J è stata guidata dal bias di chi smette di fumare.

La meta-analisi dose-risposta ha rivelato la verità: la forma della curva dipende in modo critico da come si definisce la "dose zero". La categoria di riferimento sbagliata ha creato un beneficio fantasma.

When Curves Shape Policy

The phantom J-curve influenced alcohol guidelines worldwide:

UK

NHS Guidance (until 2016)

"Bere moderatamente può proteggere il cuore" è apparso nelle linee guida ufficiali. Dopo la correzione di Stockwell, il Regno Unito ha rivisto i limiti a 14 unità/settimana per all bevitori (in precedenza 21 per gli uomini). Nessuna quantità è stata dichiarata “sicura”.

US

Dietary Guidelines Advisory Committee

Studi sulla curva J sono stati citati nel 2015. Il comitato del 2020 ha raccomandato di abbassare i limiti a 1 drink al giorno per gli uomini, riconoscendo la distorsione del gruppo di riferimento.

AU

Australian Guidelines

Safe drinking limits were delayed by industry-funded J-curve research promoting “cardioprotective” moderate intake.

Decision Tree: Is Dose-Response Analysis Appropriate?

Hai ≥3 livelli di esposizione (non solo esposto vs non esposto)?

Yes →

La relazione è plausibilmente non lineare?

Yes → Restricted cubic splines (3–5 knots). Compare AIC with linear model.

No → Linear dose-response meta-regression may suffice

No →

Standard pairwise meta-analysis (no dose-response possible with only two levels)

Warning: Controlla sempre: la tua categoria di riferimento è pulita? La lezione della curva J: un gruppo di riferimento contaminato crea una non linearità fantasma.

Module 16 Quiz

Q1. What makes restricted cubic splines useful in dose–response meta-analysis?

A. They always produce a straight line

B. They flexibly capture non-linear dose–response curves

C. Riducono il numero di studi necessari

D. They simplify the model to fewer parameters

Module 16 Complete

"La dose fa il veleno. E la forma della curva rivela se il veleno è reale."

L'assenza di prove non è prova di assenza.

Modulo 17: La Fragilità

L'assenza di prove non è prova di assenza.

Modulo 17: La Fragilità

🎯 Learning Objectives

Calcola e interpreta l'indice di fragilità
Utilizza i grafici GOSH per identificare studi e sottoinsiemi influenti effetti
Interpret contour-enhanced funnel plots
Applicare modelli di selezione Copas e PET-PEESE per i bias di pubblicazione
Understand how sensitivity analyses strengthen meta-analytic conclusions

Governments stockpiled billions

basati su prove che non potevano vedere.

Dopo l'H1N1, i governi hanno speso miliardi in scorte di oseltamivir (Tamiflu). Il team Cochrane (Jefferson et al. 2014) ha lottato per anni per accedere a dati non pubblicati. Quando alla fine lo fecero, le prove per prevenire le complicazioni svanirono.

L'indice di fragilità

L'indice di fragilità chiede: "How many patients would need to change outcome to flip a statistically significant result to non-significant?" Aggiunge in modo iterativo eventi (converte i non-eventi in eventi) nel gruppo con meno eventi fino a quando p > 0.05.

FI = 1

Extremely fragile. One patient flip changes conclusion.

FI > 8

Reasonably robust. Less sensitive to individual outcomes.

Interactive: Fragility Calculator

Enter a 2×2 table to calculate the fragility index. Watch events shift until significance flips.

Events

Total N

Treatment

Control

Researcher

GOSH Plots

Panoramica grafica dell'eterogeneità degli studi (GOSH) adatta i modelli di meta-analisi a tutti i possibili sottoinsiemi di studi. Ogni punto traccia l'effetto aggregato rispetto a I² per un sottoinsieme. I cluster suggeriscono sottogruppi distinti; le nuvole anomale suggeriscono uno studio che guida l'eterogeneità.

Per k studi, ci sono 2^k−1 subsets. For k > 15, random sampling is used.

Researcher

Contour-Enhanced Funnel Plots

Standard funnel plots show effect size vs standard error. Contour-enhanced versioni che aggiungono regioni ombreggiate per p < 0,01, p < 0,05 e p < 0,10. Se gli studi mancanti rientrano in regioni non significative, è probabile che vi siano errori di pubblicazione. Se ricadono in regioni significative, altre cause (ad esempio, la qualità dello studio) possono spiegare l'asimmetria.

Methodologist

Copas Selection & PET-PEESE

1

Copas Selection Model

Modella la probabilità che uno studio venga pubblicato in funzione della sua SE e della dimensione dell'effetto. Stima congiuntamente l'effetto reale e il meccanismo di selezione.

2

PET-PEESE

Precision-Effect Test (PET): regress effects on SE. If intercept = 0, no true effect. PEESE uses SE² for better performance when a true effect exists.

La saga dell'oseltamivir

La meta-analisi originale finanziata da Roche (Kaiser 2003) ha mostrato che l'oseltamivir ha ridotto le complicanze influenzali del 67%. Ma 8 studi su 10 non erano mai stati pubblicati. Dopo che Cochrane ha ottenuto i rapporti sugli studi clinici, il beneficio per le complicanze è sceso a un 11% non significativo.

La fragilità non era solo statistica: era informativa. Nella base delle prove in sé mancava la maggior parte dei dati.

Albero decisionale: interpretazione dei risultati di fragilità

Hai calcolato l'indice di fragilità. Cosa significa il numero?

FI ≤ 3

Highly fragile. Una manciata di eventi diversi potrebbero invertire la conclusione. Interpretare con estrema cautela.

FI 4–8

Moderately fragile. Sensivo alle piccole perturbazioni. Ci sono studi non pubblicati che potrebbero cambiare questa situazione?

FI > 8

Relatively robust. But remember: fragility is only one dimension. Publication bias can undermine even robust results.

Walsh et al. (2014, J Clin Epidemiol) hanno scoperto che in 399 studi randomizzati pubblicati nelle principali riviste, l'indice mediano di fragilità era appena 8. Oltre il 25% aveva FI ≤ 3. Gli studi fondamentali che influenzano la pratica clinica erano spesso appesi a un filo statistico.

Methodologist

Beyond the Index: Structural Fragility

La saga dell'oseltamivir ha rivelato three types of fragility—e l'indice di fragilità cattura solo prima.

1

Statistical Fragility (FI)

Quanti eventi invertono il valore p? Questo è ciò che misura l’indice di fragilità. Quantifica la sensibilità ai risultati dei singoli pazienti.

2

Informational Fragility

Quanta prova è nascosta? Otto dei dieci studi condotti da Roche sull'oseltamivir non erano stati pubblicati. La base delle prove era strutturalmente incompleta.

3

Analytical Fragility

Quanti gradi di libertà del ricercatore potrebbero cambiare la conclusione? Differenti definizioni di risultato, popolazioni di analisi o metodi statistici.

Richiamo al Modulo 10 (Paroxetina): La nuova analisi con diverse definizioni di risultato ha invertito completamente la conclusione. Questa era fragilità analitica: l’IF non è mai stato calcolato perché l’endpoint stesso era contestato. Una valutazione completa della robustezza esamina tutte e tre le dimensioni.

Module 17 Quiz

Q1. Uno studio ha 200 pazienti per braccio, 12 eventi in trattamento, 25 in controllo (p=0,03). L'indice di fragilità è 3. Cosa significa?

A. La dimensione dell'effetto è esattamente 3

B. Changing just 3 patient outcomes would flip the result to non-significant

C. Il risultato è molto solido con 3 studi di conferma

D. Per lo studio sono necessari almeno 3 pazienti

Module 17 Complete

"Il numero che sopravvive a ogni tentativo di romperlo è il numero di cui fidarsi."

Non tutti i segnali sono verità.

Modulo 18: L'equità

Certainty must be earned, not assumed.

Modulo 18: L'equità

🎯 Learning Objectives

Identify how trial exclusion criteria create evidence gaps
Applicare il quadro PROGRESS-Plus per valutare l'equità in prove
Use PRISMA-Equity reporting guidelines
Understand transportability: when trial findings fail in practice
Design equity-sensitive search and synthesis strategies

SPRINT proved tight blood pressure control

saves lives. But whose lives?

Lo studio SPRINT, punto di riferimento, ha escluso i pazienti con diabete, pregresso ictus e insufficienza cardiaca. Oltre il 75% dei pazienti ipertesi statunitensi non si sarebbe qualificato. L'evidenza era forte ma l'applicabilità era ristretta.

Diapositiva A: La maggioranza mancante

Lo studio che ha escluso la maggior parte dei pazienti

SPRINT ha arruolato 9.361 pazienti e ha dimostrato che il controllo intensivo della pressione sanguigna (target <120 mmHg) ha ridotto gli eventi cardiovascolari di 25% (HR 0,75, IC 95% 0,64–0,89). Ma i criteri di inclusione raccontavano una storia diversa.

Chi è stato escluso:

Diabetes — 35% degli adulti statunitensi con ipertensione
Prior stroke — 8% della popolazione ipertesa
Symptomatic heart failure — 6% of hypertensive adults
Expected survival <3 years — i più fragili pazienti
Nursing home residents — excluded entirely
GFR <20 mL/min — advanced kidney disease

Risultato: oltre il 75% degli adulti statunitensi con ipertensione NON si sarebbe qualificato. Le prove erano forti. Ma per chi?

Diapositiva B: La geografia delle prove

Da dove provengono le prove

78%

of cardiovascular mega-trial participants came from high-income countries (2000–2020).

6%

from sub-Saharan Africa — where cardiovascular disease is rising fastest.

Studi sulla polipillola: 4 su 5 sono stati condotti in popolazioni con BMI medio <25. Il BMI medio degli Stati Uniti è 30. Il metabolismo dei farmaci, i modelli di comorbilità, l'accesso all'assistenza sanitaria e la variazione genetica differiscono tra le popolazioni. Efficacy in one population does not guarantee effectiveness in another.

Riferimento: studi multinazionali e il divario PROGRESS-Plus

PROGRESS-Plus Framework

P

Place of residence

R

Race / ethnicity

O

Occupation

G

Gender / sex

R

Religion

E

Education

S

SES (socioeconomic)

S

Social capital

Plus: Age, disability, sexual orientation, other vulnerable groups.

Researcher

PRISMA-Equity & Transportability

PRISMA-Equity estende PRISMA per richiedere la rendicontazione di come l'equità è stata affrontata nella revisione: caratteristiche della popolazione, analisi dei sottogruppi in base allo svantaggio e valutazione dell'applicabilità ai soggetti svantaggiati popolazioni.

Transportability: l'efficacia della sperimentazione non equivale all'efficacia nel mondo reale. Esistono metodi per riponderare i dati della sperimentazione in modo che corrispondano alla distribuzione della popolazione target.

Diapositiva C: La questione della trasportabilità

Researcher

From Trial to Real World: Transportability

Transportability = I risultati della popolazione sperimentale X possono essere applicati alla popolazione target Y? Questa non è una questione filosofica: ha metodi formali.

1

Inverse Probability of Participation Weighting (IPPW)

Re-weights trial participants so they resemble the target population on key covariates.

2

Generalizability Index

Quantifica quanto il campione dello studio è simile alla popolazione target in termini di caratteristiche osservate.

Stuart et al. (2015, Stat Med): Quando i risultati SPRINT sono stati riponderati per corrispondere alla popolazione ipertesa degli Stati Uniti, il beneficio stimato è stato attenuato: HR 0,82 (rispetto a 0,75 nello studio). Il trattamento funziona ancora. Ma l'entità cambia quando cambia la popolazione.

SPRINT e la Missing Majority

SPRINT è stato uno studio ben progettato su 9.361 pazienti. Il suo risultato (HR 0,75 per il controllo intensivo della pressione arteriosa rispetto a quello standard) ha cambiato le linee guida in tutto il mondo. Ma analisi successive hanno mostrato che il beneficio era più forte nel sottogruppo più simile alla popolazione dello studio, e incerto per i gruppi esclusi.

L'equità nella sintesi delle prove significa chiedersi non solo "Funziona?" ma "Per chi funziona?"

Albero decisionale: valutazione dell'equità per la tua revisione

ROOT: Le prove della tua revisione provengono da popolazioni simili al tuo target?

YES → Good. But check: Are subgroups (age, sex, ethnicity, SES) reported separately?

Yes: Use subgroup effects for population-specific recommendations
No: Flag as limitation — equity gap in reporting

NO → Does PROGRESS-Plus analysis reveal differential effects?

Yes: Population-specific recommendations needed. Consider transportability re-weighting.
No: Cautious generalization with explicit equity statement in discussion

Diapositiva E: Richiamo al Modulo 3

Methodologist

Callback: The HRT Lesson Revisited

Ricordi il Modulo 3? La storia della terapia ormonale sostitutiva ha dimostrato che healthy-user bias ha fatto sembrare benefico un trattamento dannoso. SPRINT potrebbe avere il problema opposto: l'effetto “volontario sano” può far apparire un trattamento efficace more effective than it would be in the real world.

Ogni meta-analisi dovrebbe chiedersi: chi è stato incluso? Chi è stato escluso? E questo ha importanza?

Module 18 Quiz

Q1. What does the PROGRESS-Plus framework help reviewers assess?

A. Statistical heterogeneity

B. Equity and applicability across disadvantaged populations

C. Validità interna degli studi inclusi

D. Certezza complessiva delle prove

Module 18 Complete

"Le prove che escludono i vulnerabili non possono pretendere di servirli."

Non tutti i segnali sono verità.

Modulo 19: Il Macchina

Il numero senza provenienza non è un numero.

Modulo 19: Il Macchina

🎯 Learning Objectives

Describe how AI/ML is used in systematic review screening
Explain active learning and human-in-the-loop workflows
Assess automation validation: recall, workload savings, and risk
Riconoscere i limiti e i pregiudizi dello screening algoritmico
Applicare strutture per l'uso responsabile dell'IA in evidenza sintesi

When COVID-19 hit,

papers arrived faster than humans could read.

Entro il 2021 esistevano oltre 300.000 documenti sul COVID. Cochrane ha utilizzato classificatori ad apprendimento automatico per classificare gli studi per le loro revisioni rapide, riducendo il carico di lavoro di screening fino al 70% mantenendo al tempo stesso un ricordo superiore al 95%.

The Flood

By April 2020, 4,000 COVID preprints appeared every week.

PubMed indexed 500 new COVID articles per day.

Cochrane's screening queue hit 10,000 unreviewed titles.

🔍 La matematica dell'impossibilità

A pair of reviewers screens ~200 titles per day.

At 500 new articles/day, they fell further behind with every hour.

La revisione vivente stava morendo prima di poter vivere.

La prima Tentativi

L'idea non era nuova. Cohen et al. (2006, JAMIA) hanno dimostrato per primi che l'apprendimento automatico potrebbe ridurre il carico di lavoro di screening del 50%, con una perdita di ricordo inferiore al 5%.

📅

2006: Cohen et al. — SVM classifiers for drug class reviews. Proof of concept.

📅

2016: RobotReviewer (Marshall et al., JMLR) — ML for risk of bias assessment. Inter-rater reliability comparable to human reviewers.

📅

2021: ASReview (van de Schoot et al., Nature Machine Intelligence) — active learning that simulated 95% workload reduction.

Ma la simulazione non è la realtà. Il COVID sarebbe il primo vero test su larga scala.

AI in Systematic Reviews

1

Screening Prioritization

Active learning ranks citations by relevance. Reviewers screen the most likely relevant first.

2

Assistente per l'estrazione dei dati

La PNL estrae elementi, esiti e risultati PICO. Richiede sempre la verifica umana.

3

Risk of Bias Assessment

ML classifiers predict RoB domains. Experimental—human judgment remains gold standard.

Researcher

Validating Automation

Recall

>95% required. Missing 1 study can change conclusions.

WSS@95%

Work Saved over Sampling at 95% recall.

Stopping

When to stop screening? Consecutive irrelevant threshold.

La tensione fondamentale: L'automazione fa risparmiare tempo ma introduce una nuova fonte di errore. Riporta sempre lo strumento, la versione, i dati di addestramento e i criteri di arresto.

La crisi di convalida

🔍 Il paradosso della convalida

Per sapere se la macchina ha mancato uno studio rilevante, you need a human to screen everything.

But if humans screen everything, perché utilizzare il macchina?

The solution: prospective holdout validation.

Random 10% sample screened by both human and machine
Confronta: la macchina non ha notato ciò che l'uomo ha trovato?
If recall drops below 95%, retrain and expand human screening

Fidati, ma verifica. La macchina si guadagna il suo ruolo, non lo eredita.

Cochrane's COVID Response

Cochrane ha creato il registro degli studi sul COVID-19 utilizzando classificatori di apprendimento automatico addestrati su milioni di record. Il sistema ha raggiunto una sensibilità del 99% riducendo allo stesso tempo lo screening manuale da settimane a giorni.

Ma la macchina era uno strumento, non un sostituto. Ogni studio incluso è stato comunque verificato da revisori umani. La lezione: l'intelligenza artificiale migliora il revisore, non lo sostituisce.

Lo studio che quasi non è stato trovato

Nel giugno 2020, lo studio RECOVERY ha pubblicato i suoi risultati sul desametasone:the first treatment proven to reduce COVID mortality (28-day mortality: 22.9% vs 25.7%, RR 0.83).

La prestampa è apparsa su medRxiv con un titolo non standard. Scenari come questo si sono verificati ripetutamente durante la pandemia: i classificatori ML, addestrati sulla terminologia esistente, hanno classificato in basso i frame non familiari.

In diverse revisioni viventi, i revisori umani che hanno scansionato i titoli contrassegnati hanno riconosciuto i nomi dei farmaci chiave e hanno intensificato gli studi a cui i classificatori avevano depriorizzato.

Senza quegli esseri umani, i risultati dei trattamenti di riferimento avrebbero potuto aspettare settimane per entrare nei viventi. revisione.

La macchina legge più velocemente. L'umano legge più in profondità. Nessuno dei due è sufficiente da solo.

Decision Tree: When Should You Use AI?

La tua recensione esaminerà più di 5.000 titoli?

Yes → Consider AI-assisted screening

Active learning prioritization. Dual-screen random 10% holdout. Stop when 3 consecutive batches yield 0 relevant studies.

Report: classifier type, training data, recall on holdout, stopping rule.

No → Manual screening is feasible

For <5,000 titles, dual human screening remains gold standard. AI adds complexity without proportionate benefit.

È una revisione dinamica o rapida?

If yes → AI is especially valuable. Continuous classifier retraining on new evidence. But: Non lasciare mai che sia la macchina a prendere la decisione finale sull'inclusione.

Lo schema si ripete

Methodologist

Lo schema si ripete

Ricordi il Modulo 6? Poldermans ha fabbricato i dati DECREASE che hanno guidato le linee guida perioperatorie sui beta-bloccanti per un decennio.

AI can now detect statistical anomalies automatically:

GRIM test: Le medie riportate sono coerenti con le dimensioni intere del campione?
SPRITE: Le statistiche riassuntive riportate possono essere ricostruite da dati individuali plausibili?
Statcheck: Do reported p-values match the test statistics?

Questi strumenti hanno rilevato anomalie in hundreds of published papers—faster than any human auditor.

Ma la macchina lampeggia. I giudici umani. La decisione di ritrattare rimane profondamente umana.

Module 19 Quiz

Q1. Qual è il ricordo minimo accettabile per lo screening assistito dall'intelligenza artificiale nelle revisioni sistematiche?

A. 80%

B. 90%

C. >95%

D. 100%

Module 19 Complete

"La macchina legge più velocemente. L'essere umano legge più a fondo. Insieme, leggono la verità."

Non tutti i segnali sono verità.

Modulo 20: La Qualitativo

I metodi proteggono i pazienti dalla nostra fiducia.

Modulo 20: La Qualitativo

🎯 Learning Objectives

Explain why some questions require qualitative evidence synthesis
Describe meta-ethnography (Noblit & Hare) and thematic synthesis
Apply the CERQual framework to assess confidence in qualitative findings
Understand mixed-methods synthesis approaches
Recognize when qualitative evidence changes practice

L'OMS ha posto una domanda

nessun RCT poteva risposta.

Perché le donne in tutto il mondo sperimentano mancanza di rispetto e abusi durante il parto? Bohren et al. (2015) hanno sintetizzato 65 studi qualitativi provenienti da 34 paesi in un quadro di sette ambiti di maltrattamento.

Diapositiva A: Una domanda oltre la randomizzazione

Una domanda oltre la randomizzazione

Nel 2014, l'OMS ha convocato un panel per affrontare una crisi globale: le donne venivano fisicamente maltrattate, umiliate verbalmente e a cui sono state negate le cure durante il parto. Questo non è stato un evento raro: i rapporti provenivano da 34 countries.

They needed to understand WHY. What drives disrespect and abuse in maternity care?

Nessun RCT ha potuto rispondere a questa domanda. Non è possibile randomizzare le donne tra cure violente e rispettose. Non puoi accecare gli assistenti al parto. Non è possibile misurare la “dignità” su una scala Likert. Le prove dovevano essere qualitative.

Meta-Ethnography

Developed by Noblit & Hare (1988), meta-ethnography translates concetti attraverso gli studi piuttosto che aggregazione di numeri. Produce nuovi quadri interpretativi (costrutti del terzo ordine) da dati del primo ordine (citazioni dei partecipanti) e del secondo ordine (interpretazioni dell'autore).

Reciprocal

Gli studi si confermano a vicenda

Refutational

Gli studi si contraddicono a vicenda

Line of
argument

Gli studi costruiscono un nuovo teoria

What Bohren Found: A Taxonomy of Mistreatment

1. Physical abuse

Hitting, pinching, slapping during labor

2. Sexual abuse

Inappropriate touching, non-consensual procedures

3. Verbal abuse

Shouting, threats, judgmental comments

4. Stigma & discrimination

Based on HIV status, ethnicity, age, poverty

5. Professional standards failure

Neglect, lack of informed consent

6. Poor rapport

Poor communication, dismissiveness

7. Health system conditions

Overcrowding, understaffing, lack of supplies

65 studi. 34 paesi. Gli stessi modelli ripetuti attraverso lingue, culture e sistemi. Questo non era un aneddoto. Questa è stata un'evidenza sintetizzata.

Researcher

CERQual: fiducia nelle prove qualitative

CERQual assesses confidence in qualitative review findings across four components:

1

Methodological Limitations

Qualità degli studi che contribuiscono.

2

Coherence

Quanto bene i dati supportano i risultati.

3

Adequacy

Ricchezza dei dati (non solo il numero di studi).

4

Relevance

Applicabilità al contesto delle domande di revisione.

Diapositiva C: Dalle prove all'azione

When Qualitative Evidence Changes Practice

Bohren's synthesis informed the WHO's 2018 Recommendations on Intrapartum Care for a Positive Childbirth Experience. Specific changes grounded in qualitative evidence:

Rec. 15

Companionship during labor

Rec. 1

Respectful maternity care

Rec. 3

Effective communication

Rec. 12

Emotional support

Queste raccomandazioni, basate su prove qualitative, ora guidano l'assistenza alla maternità in 194 stati membri dell'OMS. Nessun appezzamento di foresta avrebbe potuto produrli. Nessuna statistica I² avrebbe potuto rivelarli.

Bohren's Framework of Mistreatment

La sintesi qualitativa del 2015 ha identificato sette ambiti: abuso fisico, abuso sessuale, abuso verbale, stigma e discriminazione, mancato rispetto degli standard professionali, scarso rapporto e condizioni del sistema sanitario. Questo quadro ha informato le Raccomandazioni dell'OMS sull'assistenza intrapartum (2018).

Nessun valore p potrebbe catturare l'esperienza di essere schiaffeggiati durante il travaglio. La sintesi qualitativa ha dato voce a ciò che i numeri non potevano.

Decision Tree: When Is Qualitative Synthesis Appropriate?

ROOT: La tua domanda di ricerca riguarda esperienze, percezioni, barriere o facilitatori?

YES → La tua domanda è sul COME o PERCHÉ, non solo sul SE?

Yes: Qualitative evidence synthesis (meta-ethnography, thematic synthesis, or framework synthesis)
No: Considera metodi misti: quantitativo per l'effetto + qualitativo per meccanismo

NO → La tua domanda è sull'efficacia/efficacia?

Yes: Quantitative meta-analysis
But: Completare con la revisione qualitativa degli ostacoli all'implementazione (valutati CERQual)

Key insight: Le revisioni sistematiche più efficaci rispondono ENTRAMBI: Funziona? (quantitativo) E Perché funziona o fallisce? (qualitativo)

Module 20 Quiz

Q1. What distinguishes meta-ethnography from quantitative meta-analysis?

A. Include solo 3-5 studi

B. It translates concepts across studies rather than pooling numbers

C. It does not require a systematic search

D. It is less rigorous than quantitative synthesis

Module 20 Complete

"Non tutto ciò che conta può essere contato. Non tutto ciò che è stato contato conta."

L'eterogeneità è un messaggio, non un rumore.

Modulo 21: Il Multivariata

L'eterogeneità è un messaggio, non un rumore.

Modulo 21: Il Multivariata

🎯 Learning Objectives

Riconoscere quando i risultati all'interno di uno studio sono correlati
Explain multivariate random-effects models
Apply robust variance estimation (RVE) for dependent effect sizes
Comprendere i modelli a tre livelli per annidati dati
Choose between multivariate approaches based on data structure

Cardiovascular trials report

mortalità, IM, ictus e altro.

Questi risultati sono correlati all'interno dei pazienti. Un paziente che muore non può avere un endpoint IM. La meta-analisi standard tratta ogni risultato in modo indipendente, ignorando la dipendenza e potenzialmente il doppio conteggio delle prove.

Diapositiva A: La bugia di convenienza

Il presupposto che nessuno mette in discussione

Apri qualsiasi libro di testo di meta-analisi standard. I modelli presuppongono che ciascun studio contribuisca one independent effect size. But reality is different.

Un singolo studio cardiovascolare riporta mortalità, infarto miocardico, ictus e rivascolarizzazione. Un singolo studio di psicoterapia riporta depressione, ansia e qualità della vita a 3, 6 e 12 mesi.

30 trials

× 4 outcomes

= 120

effect sizes

Most analysts either: (a) treat all 120 as independent (inflating precision by a factor of √4), or (b) scegli un risultato e scarta il resto. Entrambi gli approcci sono sbagliati.

Il problema della dipendenza

In standard pairwise meta-analysis, each study contributes one effect size. But many studies report multiple outcomes, subgroups, timepoints, or arms—creating dependent dimensioni degli effetti. Ignorare questo aumenta la precisione e distorce l'inferenza.

RVE

Robust Variance Estimation. Sandwich estimator handles unknown correlation.

3-Level

Study → Outcome nesting modeled explicitly.

Researcher

Robust Variance Estimation

RVE (Hedges, Tipton & Johnson, 2010) uses a sandwich-type stimatore che fornisce errori standard validi indipendentemente dalla vera correlazione tra gli effetti dipendenti. Non è necessario conoscere o stimare la correlazione all'interno dello studio. Ideale per ≥20 studi.

Small-sample correction: Tipton e Pustejovsky (2015) hanno sviluppato correzioni per piccoli campioni (CR2) per RVE, utilizzando i gradi di libertà di Satterthwaite quando il numero di cluster è piccolo.

Diapositiva B: La verità matematica

Researcher

What Dependence Does to Your Confidence Intervals

Se 4 i risultati dello stesso studio hanno una correlazione intra-studio ρ = 0,5:

Treating as independent

CI width = X

Contabilizzazione della dipendenza

CI width = 1.58X

Il tuo intervallo di confidenza dovrebbe essere 58% wider. Ogni meta-analisi che ha ignorato questo ha pubblicato risultati falsamente precisi.

RVE (Hedges, Tipton & Johnson, 2010): Uses a “sandwich” variance estimator that produces correct standard errors without needing to know the exact within-study correlation.

Researcher

Three-Level Models: Making Structure Explicit

1

Level 1: Sampling Variance

Measurement error within each effect size estimate.

2

Level 2: Within-Study Variance

I risultati e i tempi variano all'interno di un singolo studio.

3

Level 3: Between-Study Variance

Gli studi differiscono tra loro per popolazioni, contesti e metodi.

Example: In una meta-analisi della psicoterapia per la depressione (k=50 studi, 180 effetti dimensioni), 35% della varianza era all'interno dello studio (esiti diversi) e 65% era tra gli studi (terapie diverse, popolazioni). Questa scomposizione rivela quanta eterogeneità sia within vs between studies.

Methodologist

Three-Level Models: Formal Framework

Quando gli effetti sono nidificati (ad esempio, risultati multipli all'interno di studi o studi all'interno di gruppi di ricerca), un three-level model suddivide la varianza in: (1) varianza campionaria (livello 1), (2) varianza intra-studio (livello 2) e (3) varianza tra studi (livello 3). Ciò mantiene un'inferenza corretta mentre prende in prestito la forza tra i livelli.

La sfida cardiovascolare

Una meta-analisi delle statine potrebbe includere 30 studi, ciascuno dei quali riporta mortalità, infarto miocardico, ictus e rivascolarizzazione. Si tratta di 120 dimensioni di effetti da 30 cluster. Trattarli come 120 stime indipendenti aumenta la precisione di un fattore correlato alla correlazione all'interno dello studio.

RVE or multivariate models handle this correctly—producing wider, honest confidence intervals.

Decision Tree: Which Approach for Dependent Effect Sizes?

ROOT: La tua meta-analisi ha più effetti per studio?

YES → Conosci (o puoi stimare) le correlazioni all'interno dello studio?

Yes: Multivariate random-effects model (most efficient)
No: RVE with small-sample correction (robust to unknown correlations)

NO → Standard univariate random-effects model

Sub-question: I tuoi effetti multipli derivano da risultati diversi, punti temporali o sottogruppi?

Different outcomes → Three-level model or RVE with clustering
Different timepoints → Network of timepoints with temporal correlation
Different subgroups → Consider if subgroups are meaningful or should be averaged

Module 21 Quiz

Q1. What problem does Robust Variance Estimation (RVE) solve?

A. Publication bias

B. Dipendenza tra più dimensioni degli effetti dello stesso studio

C. Between-study heterogeneity

D. Small-study effects

Module 21 Complete

"Quando i risultati sono intrecciati, fingere che siano indipendenti è una bugia di convenienza."

Il numero senza provenienza non è un numero.

Modulo 22: Il Dimostrazione

Il numero senza provenienza non è un numero.

Modulo 22: Il Dimostrazione

🎯 Learning Objectives

Understand how computational errors propagate through policy
Definire la riproducibilità e distinguere dalla replicabilità
Applicare l'hashing delle prove e il trasporto di prove numeri
Use reproducibility checklists for meta-analysis
Riconoscono il ruolo della pre-registrazione e dei dati aperti

A graduate student opened a spreadsheet

e hanno scoperto che l'era dell'austerità è stata costruita su un errore.

Nel 2010, Reinhart e Rogoff sostenevano che i paesi con un rapporto debito/PIL >90% avevano una crescita negativa. Ciò ha influenzato le politiche di austerità in tutta Europa. Nel 2013, Thomas Herndon ha riscontrato un errore in Excel che escludeva 5 paesi dalla media. Il risultato corretto: crescita positiva modesta, non collasso.

Reproducibility vs Replicability

Reproducible

Same data + same code = same result

Replicable

Nuovi dati + stessi metodi = risultato coerente

Reproducibility is the minimum standard. Se altri non riescono a riprodurre la tua stima aggregata dai dati riportati, l'analisi non può essere verificata. Le meta-analisi dovrebbero condividere: dati estratti, script di analisi, versioni software e seed casuali.

Researcher

Proof-Carrying Numbers

Every number in a meta-analysis should carry its provenance: da dove provengono, come sono stati trasformati e quale codice lo hanno prodotto. Evidence hashing creates a cryptographic fingerprint of inputs so any change (accidental or deliberate) is detectable.

SHA

Input Hash

Hash SHA-256 dei dati estratti. Se una cella cambia, l'hash cambia. Catena di provenienza: dati → codice → risultato → hash.

Interactive: Reproducibility Checklist

Seleziona ogni elemento per valutare la riproducibilità di una meta-analisi. Qual è il punteggio della tua recensione?

L'errore di Excel che ha cambiato le economie

"La crescita in tempi di debito" di Reinhart-Rogoff è stato citato nelle testimonianze del Congresso, nei rapporti della Commissione Europea e nelle note politiche del FMI. L'errore di Excel (le righe 30–34 sono state escluse da una formula MEDIA) significava che mancavano cinque paesi: Australia, Austria, Belgio, Canada e Danimarca.

La media corretta è passata da −0,1% a +2,2%. Le politiche di austerità hanno colpito milioni di persone. La riproducibilità non è perfezionismo accademico: è una salvaguardia contro la catastrofe.

Remember Module 5?

DECREASE Through the Lens of Reproducibility

Gli studi DECREASE di Don Poldermans sono stati ritirati per dati fabbricati. Se fossero esistiti numeri di prova - input con hash, catene di provenienza, calcoli verificati - la fabbricazione sarebbe stata rilevabile before le prove sono entrate nelle meta-analisi e hanno modificato le linee guida chirurgiche.

Module 22 Quiz

Q1. Qual è stato l'errore di Reinhart-Rogoff?

A. They used too small a sample

B. An Excel formula excluded 5 countries, reversing the conclusion

C. They studied the wrong time period

D. They used the wrong statistical test

Module 22 Complete

"Il numero senza provenienza non è un numero. L'analisi senza la riproducibilità non è una prova."

Certainty must be earned, not assumed.

Modulo 23: Il tuo primo Meta-Sprint

Certainty must be earned, not assumed.

Modulo 23: Il tuo primo Meta-Sprint

🎯 Learning Objectives

Comprendere il flusso di lavoro di revisione sistematica di 40 giorni
Map the Seven Principles to real practice phases
Recognize Definition-of-Done (DoD) gates as quality checkpoints
Appreciate why structure prevents the failures you've studied
Graduate ready to conduct (not just understand) meta-analysis

Il Viaggio Completa

Hai imparato le storie.

Ora devi percorrere il percorso.

Ogni inversione di prova che hai studiato è avvenuta perché i team knew i metodi ma non follow them systematically.

Il META-SPRINT Framework

Un flusso di lavoro strutturato di 40 giorni con 5 fasi. Ogni gate è un punto di controllo della definizione di completamento (DoD) che ti impedisce di andare avanti finché la qualità non è garantita.

40

Days to Completion

5

DoD Phase Gates

Day 34

Hard Freeze

Why 40 days? Abbastanza lungo per il rigore, abbastanza breve per evitare lo spostamento dell'ambito. I segnali cardiaci del rosiglitazone sono stati sepolti per anni perché non c'era una scadenza che imponesse la trasparenza.

I cinque cancelli

I cinque cancelli di fase

A

DoD-A: Protocol Lock (Days 1-3)

PICOS defined, timepoint rules set, model choices pre-specified. No moving target.

B

DoD-B: Search Lock (Days 6-10)

All databases searched, grey literature checked, PRESS validated. No hidden studies.

C

DoD-C: Extraction Lock (Days 10-28)

Dual extraction, provenance linked, RoB assessed. No fabricated numbers.

The Five Phase Gates (continued)

D

DoD-D: blocco dell'analisi (giorni 21-33)

Forest plots generated, sensitivity analyses run, heterogeneity explored. No cherry-picking.

E

DoD-E: Submission Lock (Days 33-40)

GRADE certainty rated, clinical summary written, manuscript finalized. No overconfidence.

Day 34 Freeze: Non è possibile aggiungere nuovi studi dopo il giorno 34. Ciò impedisce lo "scorrimento dell'ambito armato" che ha afflitto le meta-analisi della chirurgia della colonna vertebrale BMP, dove l'industria continuava a "trovare" studi favorevoli.

I sette principi in pratica

Every principle you learned maps to a specific phase gate:

DoD-A "Non tutti i segnali sono verità" — Specificare in anticipo ciò che conta come prove

DoD-B "What was hidden in plain sight?" — Search comprehensively

DoD-C "Il numero senza provenienza non è un numero" — Collega ogni punto dati

DoD-D "L'eterogeneità è un messaggio, non rumore" — Investigate, don't ignore

DoD-E "Certainty must be earned, not assumed" — GRADE everything

Il principio della squadra rossa

La tua stessa squadra cerca di infrangere il tuo lavoro.

Ogni giorno, due membri del team a rotazione trascorrono 12 minuti controllando la qualità dei dati come avversari. Questo è il modo in cui la frode di Boldt è stata scoperta: non da un esame amichevole, ma da un controllo scettico che ha rilevato tassi di reclutamento impossibili.

CondGO: When Things Go Wrong

What happens when you discover a critical problem mid-sprint?

CondGO = Conditional Go

A bounded rescue protocol. You have exactly 72 hours per risolvere il problema utilizzando solo le azioni consentite. Se non riesci a risolverlo, devi interrompere la revisione.

📖 La lezione di Avandia: GSK ha rilevato segnali cardiovascolari nel 2000 ma non aveva una scadenza forzata. Hanno "guardato e aspettato" per 7 anni. Decine di migliaia sono rimaste ferite. CondGO esiste perché "prima o poi ce ne occuperemo" uccide le persone.

Hai iniziato questo corso con delle storie.

Lo finisci pronto per la pratica.

Il flusso di lavoro META-SPRINT prende tutto ciò che hai imparato e lo struttura in un sistema di 40 giorni che previene i fallimenti che hai studiato.

Quando sei pronto per condurre una vera revisione sistematica, apri l'applicazione META-SPRINT. Le storie che hai imparato qui ti guideranno, apparendo come promemoria ad ogni passo.

STORIA: La collaborazione CTT: quando i metodi fanno risparmiare milioni

What does it look like when every principle is followed?

REAL DATA

La collaborazione CTT (Cholesterol Treatment Trialists) è il gold standard della meta-analisi. Hanno ottenuto dati individuali dei pazienti da oltre 170.000 partecipanti across 26 statin trials. Pre-specified protocol. IPD from all major trials. Standardized outcomes. Result: statins reduce major vascular events by 21% per mmol/L LDL reduction (RR 0.79, 95% CI 0.77-0.81), regardless of baseline risk. This finding, replicated across 5 meta-analisi in 15 anni, has prevented an estimated millions of heart attacks and strokes worldwide.

I sette principi applicati

La storia del CTT mostra cosa succede quando viene seguito ogni principio di questo corso. Considera l'alternativa:

PATH A: Senza i principi

No protocol. Published data only. No RoB. No heterogeneity investigation. No GRADE.

↓

Conflicting small trials. Statin controversy persists. Millions untreated.

OUTCOME: Preventable cardiovascular deaths continue

PERCORSO B: Il metodo CTT

Protocollo pre-registrato. IPD da tutti gli studi. Risultati standardizzati. Metodi trasparenti. GRADO Alta certezza.

↓

Risposta definitiva. Cambiano le linee guida globali. Statine prescritte a coloro che ne beneficiano.

OUTCOME: Millions of lives saved by rigorous evidence synthesis

THE REVELATION

Ogni principio in questo corso esiste perché la sua assenza ha causato danni. La collaborazione CTT dimostra che quando i metodi sono rigorosi, quando i dati hanno una provenienza, quando si valutano i pregiudizi e si ottiene la certezza, la meta-analisi diventa lo strumento più potente in medicina. Ora porti questi principi. Usali.

Capstone Quiz

1. Qual è lo scopo del "hard freeze" del giorno 34 in META-SPRINT?

A. Concedere il tempo per la revisione tra pari

B. Per evitare che gli studi aggiunti successivamente manipolino i risultati

C. To speed up publication

D. Per coordinarti con le scadenze del diario

2. The CondGO protocol gives teams how long to fix critical problems?

A. 24 hours

B. 48 hours

C. 72 hours

D. 1 week

3. Red-team adversarial QA caught Joachim Boldt's fraud by noticing:

A. Impossible patient recruitment rates

B. p-hacking in statistical tests

C. Inconsistent effect sizes

D. Whistleblower testimony

Le storie che hai imparato non sono storia.

Sono avvertimenti che proteggono il tuo lavoro futuro.

Quando conduci la tua prima meta-analisi,
remember CAST before you trust a signal,
remember Poldermans before you skip provenance,
ricorda la Reboxetina prima di ignorare il funnel.

Ora sei pronto. Vai con la struttura. Vai con umiltà. Segui i sette principi.

Non tutti i segnali sono verità.

Modulo 24: Esame finale

Certainty must be earned, not assumed.

Final Examination

Final Exam: Part 1 of 2

Metti alla prova la tua padronanza dei principi della meta-analisi. Ogni domanda affronta un concetto fondamentale del corso.

Q1. Un ricercatore vuole studiare "gli effetti dell'esercizio fisico sulla salute". Qual è il problema PRINCIPALE con questa domanda di ricerca?

A. It lacks randomization

B. Sample size is too small

C. It is not answerable—lacks specific PICO elements

D. It lacks ethical approval

Q2. Un grafico a imbuto mostra un'asimmetria pronunciata con studi mancanti nella regione in basso a sinistra. Cosa suggerisce questo?

A. Large studies have more precise estimates

B. Piccoli studi negativi sono probabilmente non pubblicati

C. The true effect is stronger than estimated

D. Random sampling error

Q3. Una meta-analisi riporta I² = 85% e τ² = 0,42. Qual è l'interpretazione PIÙ appropriata?

A. There is an 85% chance of a true effect

B. The effect size is very large

C. Substantial between-study variance exists; investigate sources

D. I risultati sono clinicamente importanti

Q4. In GRADE, qual è la certezza iniziale per un insieme di evidenze provenienti da studi randomizzati e controllati?

A. High

B. Moderate

C. Low

D. Very low

Q5. In RoB 2.0, which domain assesses whether outcome assessors knew the treatment allocation?

A. D1: Randomization process

B. D2: Deviazioni dagli interventi previsti

C. D3: Risultato mancante dati

D. D4: Misurazione dell'esito

Final Exam: Part 2 of 2

Q6. Lo studio CAST ha dimostrato che i farmaci antiaritmici hanno aumentato la mortalità nonostante la soppressione delle aritmie. Questo è un esempio di:

A. Random sampling error

B. Surrogate outcome failure

C. Confounding by indication

D. Reverse causation

Q7. When should a random-effects model be preferred over a fixed-effect model?

A. When sample sizes are large

B. Quando i risultati sono binari

C. When between-study heterogeneity is expected

D. When publication bias is suspected

Q8. According to ICEMAN criteria, which makes a subgroup analysis MORE credible?

A. Hypothesis specified a priori

B. Large number of subgroups tested

C. No biological rationale

D. Inconsistent effects across trials within subgroup

Q9. What assumption must be checked in network meta-analysis to ensure valid indirect comparisons?

A. All studies have equal sample sizes

B. Tutti gli studi misurano lo stesso risultato

C. Transitivity (consistency of effect modifiers)

D. Double-blinding in all trials

Q10. Nella Trial Sequential Analysis (TSA), cosa indica il superamento del limite di futilità?

A. Le cause del trattamento danno

B. È improbabile che ulteriori studi mostrino un effetto significativo

C. Le prove sono conclusive a favore

D. La meta-analisi è sottodimensionata

Part 1 Complete — continue to Part 2 (Advanced Modules)

Parte 2: Domande del modulo avanzato (Q11-Q25)

Final Exam: Part 2 of 2 (Advanced)

Questions 11–25 cover Modules 13–22 (Bayesian, NMA, IPD, Dose-Response, Fragility, Equity, AI, Qualitative, Multivariate, Reproducibility).

Q11. Nella meta-analisi bayesiana, cosa succede quando si utilizza un vago precedente in molti studi?

A. Il posteriore corrisponde strettamente al risultato frequentista

B. Il precedente domina il posteriore

C. The credible interval becomes infinitely wide

D. Il modello non riesce a convergere

Q12. Nell'NMA antidepressivo di Cipriani, perché nessun farmaco è stato dichiarato "vincitore"?

A. Troppi pochi studi

B. Different drugs ranked best on different outcomes

C. Non erano disponibili prove indirette

D. SUCRA non poteva essere calcolato

Q13. Perché non dovresti mai raggruppare l'IPD come da una mega-prova?

A. IPD always has fewer studies than aggregate

B. Ignora il clustering degli studi e introduce confusione

C. Non può gestire i dati relativi al tempo trascorso all'evento

D. Binary outcomes cannot be pooled

Q14. What caused the alcohol "J-curve" to disappear in Stockwell's reanalysis?

A. Sono stati aggiunti nuovi studi che non hanno mostrato beneficio

B. Gli ex bevitori sono stati correttamente rimossi dal gruppo di riferimento degli astemi

C. La dimensione del campione è stata aumentata

D. Migliore aggiustamento per i confondenti

Q15. Nella saga dell'oseltamivir, cosa ha scoperto Cochrane accedendo a rapporti di studi clinici non pubblicati?

A. Il farmaco si è rivelato completamente inefficace

B. L'effetto è stato maggiore di quanto si pensasse inizialmente

C. Il beneficio in termini di complicanze è in gran parte scomparso

D. Side effects were more common than reported

Q16. Quale percentuale di pazienti ipertesi statunitensi NON si sarebbe qualificata per lo studio SPRINT?

A. About 25%

B. About 50%

C. Over 75%

D. Nearly 100%

Q17. Why is AI considered an "augmenter" rather than a "replacer" in systematic reviews?

A. AI is slower than human reviewers

B. AI has perfect recall

C. AI screens fast but cannot make human-level contextual judgments

D. AI is too expensive for most reviews

Q18. What does the "adequacy" component of CERQual assess?

A. Il numero di studi solo

B. La ricchezza e la quantità di dati a supporto dei risultati

C. Coerenza dei risultati tra gli studi

D. Generalizability to other populations

Q19. A meta-analysis includes 30 statin trials, each reporting 4 correlated outcomes (120 effect sizes). Which approach is correct?

A. Treat all 120 as independent effect sizes

B. Use RVE with small-sample correction

C. Pick only one outcome per study

D. Media dei 4 risultati all'interno di ciascuno studio

Q20. Nell'errore Reinhart-Rogoff, qual era il tasso di crescita medio corretto per il debito elevato paesi?

A. −0.1% (same as claimed)

B. +2.2%

C. 0%

D. +5%

Passing Score: 15/20 across both parts

Rivedi eventuali domande perse tornando al modulo pertinente. Ogni domanda mette alla prova un concetto fondamentale.

Non tutti i segnali sono verità.

I metodi proteggono i pazienti dalla nostra fiducia.

Congratulations

Hai completato Inversione delle prove: un corso di meta-analisi.

Possa la tua sintesi essere guidata dalla verità, la tua condivisione dalla saggezza,
e le tue conclusioni dall'umiltà.

I Sette Principi:

"Non tutti i segnali sono verità."

"I metodi proteggono i pazienti dalla nostra fiducia."

"What was hidden in plain sight?"

"Il numero senza provenienza non è un numero."

"L'eterogeneità è un messaggio, non un rumore."

"L'assenza di prove non è prova di assenza."

"Certainty must be earned, not assumed."

"Guidaci sulla retta via..."

Your Progress

I Sette Principi

Badges Earned

Learning Streak

Modulo 0: L'apertura

🎯 Learning Objectives

What is Meta-Analysis?

Perché raggruppare gli studi?

Increase Statistical Power

Improve Precision

Resolve Disagreement

Explore Heterogeneity

Quando NON raggruppare

La gerarchia delle prove

I Sette Principi

Module 0 Quiz

1. Perché a volte NON dovresti raggruppare gli studi in una meta-analisi?

2. Dove si collocano le revisioni sistematiche degli RCT nella gerarchia delle evidenze?

Modulo 1: La domanda

🎯 Learning Objectives

The Observation

The Response

La logica che ha convinto tutti

CAST: The Cardiac Arrhythmia Suppression Trial

I risultati: aprile 1989

Il costo umano

La logica rivisitata

What Went Wrong: The Surrogate Trap

Il quadro PICO

Esercizio di indagine: le prove prima del CAST

Before: Observational Logic

After: CAST RCT (1989)

Le lezioni per la sintesi delle prove

La plausibilità biologica non è una prova

Surrogate endpoints can mislead

Gli studi randomizzati forniscono la prova causale più forte

Il consenso non è una prova

REAL DATA

Module 1 Quiz

1. Qual è stato l'errore fondamentale nella logica antiaritmica?

2. In PICO, cosa significa la "O" e perché è importante?

Modulo 2: Il protocollo

🎯 Learning Objectives

The Nurses' Health Study

I pregiudizi nascosti

WHI: The Women's Health Initiative

I risultati: luglio 2002

REAL DATA

PROSPERO Registration

Registrati prima di effettuare la ricerca

Blocca le tue decisioni

Document Amendments

Prevent Duplication

Module 2 Quiz

1. Perché il Nurses' Health Study ha dimostrato di beneficiare della terapia ormonale sostitutiva rispetto al WHI?

2. What is the primary purpose of PROSPERO registration?

Modulo 3: La ricerca

🎯 Learning Objectives

Le prove pubblicate (pre-2007)

Nissen's Discovery: May 2007

Risultati della meta-analisi

The FDA Advisory Committee: July 2007

The Aftermath

What a Comprehensive Search Requires

La checklist PRESS

Traduzione della domanda di ricerca

Operatori booleani e di prossimità

Subject Headings

Text Words

PRESS Checklist (continued)

Spelling, Syntax, Line Numbers

Limiti e filtri

Database Translation

REAL DATA

Module 3 Quiz

1. Quale tipo di fonte di evidenza ha rivelato il segnale cardiovascolare del rosiglitazone?

2. What does PRESS stand for?

Modulo 4: Lo screening

🎯 Learning Objectives

The Rise of Vioxx