Reversión de evidencia: un curso de metaanálisis

No todas las señales son verdad.

Módulo 0: La apertura

🎯 Learning Objectives

Definir el metanálisis y explicar su papel en la síntesis de evidencia
Identificar cuándo NO se deben realizar los estudios agrupado
Describe la jerarquía de evidencia y dónde se ubican las revisiones sistemáticas
Recognize that meta-analysis can mislead when done poorly
Recuerda los siete principios que sustentan este curso

Este curso existe porque

la medicina estaba equivocada.

Ni una sola vez. No es raro. Repetidamente. De maneras que mataron a los pacientes que confiaban en que la evidencia era sólida.

What is Meta-Analysis?

Un método estadístico para combinar resultados de múltiples estudios independientes que abordan la misma pregunta.

1976

Term coined by Gene Glass

~50,000

Published per year

#1

Evidence hierarchy*

*When well conducted. Quality of conduct matters more than study design alone — as GRADE recognizes.

¿Por qué combinar estudios?

1

Increase Statistical Power

Individual studies may be too small to detect effects.

2

Improve Precision

Narrower confidence intervals around effect estimates.

3

Resolve Disagreement

Cuando los estudios entran en conflicto, la combinación puede aclarar la señal.

4

Explore Heterogeneity

Identify why effects differ across populations or settings.

But meta-analysis can also

MISLEAD

When done poorly, it amplifies bias rather than truth.

Cuándo NO combinar

1

Los estudios miden cosas fundamentalmente diferentes (manzanas y naranjas)

2

Extreme heterogeneity that cannot be explained

3

One study dominates all others (megastudy problem)

4

Los estudios tienen un alto riesgo de sesgo que no se puede ajustar

La agrupación es un privilegio, no un derecho.

The decision to combine must be defended.

La jerarquía de la evidencia

Systematic Reviews & Meta-Analyses of RCTs

Randomized Controlled Trials

Cohort Studies

Case-Control Studies

Case Series / Expert Opinion

La posición en la jerarquía depende de la calidad de la metodología, no del tipo de estudio solo.

Este curso enseña a través de

evidence reversals.

Cada módulo comienza con una historia de cómo la medicina se equivocó. Luego aprendemos el método que habría evitado el daño.

Los Siete Principios

Estas frases volverán a lo largo de su viaje:

1. "No todas las señales son verdad."

2. "Los métodos protegen a los pacientes de nuestra confianza."

3. "What was hidden in plain sight?"

4. "El número sin procedencia no es un número."

5. "La heterogeneidad es un mensaje, no ruido."

6. "La ausencia de evidencia no es evidencia de ausencia."

7. "Certainty must be earned, not assumed."

Module 0 Quiz

1. ¿Por qué a veces NO debería agrupar estudios en un metanálisis?

A. Pooling is always better than single studies

B. When heterogeneity is extreme or studies measure different things

C. Pooling is always appropriate for RCTs

D. Statistical methods handle any situation

2. ¿Dónde se ubican las revisiones sistemáticas de ECA en la jerarquía de evidencia?

A. At the top

B. Same level as individual RCTs

C. A continuación, estudios de cohortes

D. Same as expert opinion

Comience el viaje.

Módulo 1: La pregunta

No todas las señales son verdad.

Esta no es una historia sobre errores.

Es una historia sobre certeza.

Módulo 1: La pregunta

🎯 Learning Objectives

Formule una pregunta PICO enfocada para una revisión sistemática
Distinguish surrogate outcomes from patient-important outcomes
Explain why biological plausibility alone is insufficient evidence
Describa el ensayo CAST y sus implicaciones para la investigación basada en evidencia. medicina
Aplica el principio: "No toda señal brillante es una guía"

~9,000

excess deaths per year

From a treatment everyone believed worked.

Esta es la historia de cómo creímos y de cómo nos equivocamos.

The Observation

Patients with frequent PVCs after MI had 2-5x higher mortality.

400,000+

MI survivors/year

~40%

con importantes PVC

160,000

at elevated risk

A massive clinical need. A clear target.

The Response

Antiarrhythmic drugs were developed, FDA approved,
and prescribed to ~200,000 patients per year.

No aparece ningún villano en esto historia.

Todos actuaron basándose en la mejor evidencia disponible.

La lógica que convenció a todos

PREMISE 1

PVCs after MI predict sudden cardiac death

↓

PREMISE 2

Antiarrhythmic drugs suppress PVCs

↓

PREMISE 3

Suppressing PVCs should prevent sudden death

↓

CONCLUSION

Antiarrhythmics save lives in post-MI patients

La cadena era lógica. La conclusión parecía inevitable.

CAST: The Cardiac Arrhythmia Suppression Trial

Finally, someone asked: "Does suppressing PVCs actually save lives?"

Design

Randomized, double-blind, placebo-controlled

Population

Post-MI patients with asymptomatic PVCs

Intervention

Encainide, flecainide, or moricizine vs placebo

Run-in

Only patients with ≥80% PVC suppression randomized

Primary endpoint

Death or cardiac arrest with resuscitation

Sample size

1,498 patients (encainide/flecainide arms)

Los resultados: abril de 1989

La Junta de Monitoreo de Seguridad de Datos detiene el ensayo antes de tiempo.

Outcome	Drug (n=755)	Placebo (n=743)
Arrhythmic deaths	33	9
All cardiac deaths	43	16
Total deaths	56	22
Death rate	7.4%	3.0%

Relative Risk of Death: 2.5

95% CI: 1.6 - 4.5 | p < 0.001

Los medicamentos que suprimieron perfectamente las arritmias aumentaron la mortalidad en un 150%.

El ser humano Costo

Before CAST, ~200,000 Americans per year received these drugs.

~9,000

excess deaths per year - possibly more

Vietnam War: ~6,000 US deaths/year • These drugs: ~9,000+ deaths/year

For every number, a name we will never know.

Look again.

La lógica: revisada

PREMISE 1

PVCs after MI predict sudden cardiac death

↓

PREMISE 2

Antiarrhythmic drugs suppress PVCs

← THE LEAP

↓

PREMISE 3

Suppressing PVCs should prevent sudden death

↓

CONCLUSION

Antiarrhythmics save lives in post-MI patients

La suposición de que suprimir el marcador arreglaría el resultado nunca se probó.

What Went Wrong: The Surrogate Trap

1

Las CVP eran un marcador de tejido dañado, no una causa de muerte

2

The drugs had proarrhythmic effects - triggering deadlier rhythms

3

El sustituto mejoró mientras que el resultado empeoró: un sustituto disociado

El sustituto no mintió. Le hicimos la pregunta equivocada.

El marco PICO

Every answerable clinical question has four components:

P - POPULATION

¿Quiénes son los pacientes? ¿Cuáles son sus características?

I - INTERVENTION

What treatment or exposure is being evaluated?

C - COMPARATOR

What is the alternative? Placebo? Standard care?

O - OUTCOME

What matters to patients? Hard endpoints vs surrogates.

CAST PICO

Post-MI patients with PVCs | Antiarrhythmics | Placebo | Mortality

🔍

Ejercicio de investigación: la evidencia antes del CAST

Usted es cardiólogo en 1988. Un paciente ha sobrevivido a un infarto de miocardio pero tiene CVP frecuentes. La literatura observacional es clara...

Study	Pacientes con CVP	Mortality Risk
Lown (1977)	High-grade PVCs	2.4x higher
Bigger (1984)	>10 PVCs/hour	3.1x higher
Mukharji (1984)	Complex PVCs	4.8x higher

La señal es clara. El mecanismo es plausible. ¿Le recetaría antiarrítmicos?

Before: Observational Logic

PVCs → Higher mortality

Drugs suppress PVCs

∴ Drugs should reduce mortality

After: CAST RCT (1989)

Death rate on drug: 7.4%

Death rate on placebo: 3.0%

RR = 2.5 (150% increase in deaths)

La madre sustituta mejoró. Los pacientes murieron. Por eso preguntamos: "¿Cuál es el resultado que importa?"

Las lecciones para la síntesis de evidencia

1

La plausibilidad biológica no es prueba

A logical mechanism doesn't guarantee the expected effect.

2

Surrogate endpoints can mislead

Improving a biomarker doesn't prove improvement in outcomes.

3

Los ensayos aleatorios proporcionan la evidencia causal más sólida

Los datos de observación por sí solos rara vez establecen causalidad de las intervenciones debido a factores de confusión.

4

El consenso no es evidencia

200.000 recetas, la aprobación de la FDA y las pautas estaban equivocadas.

This is why we do meta-analysis: to see past apparent truths.

HISTORIA: La tragedia del sustituto DES-II

¿Qué pasa si la pregunta que usted ¿Preguntar determina quién vive y quién muere?

REAL DATA

En 1989, los cardiólogos sabían que La supresión de PVC se podía lograr con encainida y flecainida. El criterio de valoración sustituto parecía perfecto: los fármacos suprimieron las CVP en 80%+. But CAST randomized 1,498 patients al fármaco activo frente al placebo. El ensayo se detuvo antes de tiempo: 56 deaths in the drug group vs 22 in placebo. Mortality increased 2.5-fold. An estimated ~9,000 excess American deaths per year eran atribuibles a estos medicamentos.

La elección del cardiólogo: 1987

Su paciente después de un infarto de miocardio tiene CVP frecuentes. Tienes medicamentos que los suprimen por completo. ¿Qué haces?

RUTA A: Tratar al sustituto

Prescribe encainide — PVCs vanish, the ECG looks clean

↓

El biomarcador mejora. Te sientes seguro. El paciente muere.

OUTCOME: An estimated 50,000+ excess deaths across the US during years of use

PATH B: Demand a Mortality Trial

Insistir: "Muéstrame que mejora la supervivencia, no sólo el ECG"

↓

El ensayo revela daño. Se retiran las drogas. Se salvan vidas.

RESULTADO: La pregunta PICO correcta previene una catástrofe

THE REVELATION

La pregunta nunca fue "¿Podemos suprimir las CVP?" Era "¿La supresión del PVC salva vidas?" Un criterio de valoración sustituto respondió la pregunta equivocada. El PICO correcto habría exigido la mortalidad como resultado desde el principio.

What appears certain may be wrong.

What everyone believes may be false.

Existen métodos para que los pacientes no paguen por nuestra confianza.

Por eso estás aquí.

Module 1 Quiz

1. ¿Cuál fue el error fundamental en la lógica antiarrítmica?

A. Los ensayos no fueron aleatorios

B. Treating a surrogate (PVCs) was assumed to improve outcomes

C. El tamaño de la muestra era demasiado pequeño

D. La aprobación de la FDA fue apresurada

2. En PICO, ¿qué significa la "O" y por qué es importante?

A. Observation - what researchers see

B. Objetivo: el objetivo de la investigación

C. Outcome - what matters to patients

D. Organización: estructura del estudio

No todas las señales son verdad.

Los métodos protegen a los pacientes de nuestra confianza.

What was hidden in plain sight?

Esta es una historia sobre

observational evidence.

Módulo 2: El Protocolo

🎯 Learning Objectives

Explain why protocol pre-registration prevents bias
Identify key elements of a PROSPERO registration
Distinguish healthy user bias from true treatment effects
Describe why observational studies overestimated HRT benefits
Aplicar el principio: "Los métodos protegen a los pacientes de nuestra confianza". confianza"

30+

observational studies

All showing hormone replacement therapy protected postmenopausal women from heart disease.

La evidencia parecía abrumadora. La conclusión parecía segura.

El estudio de salud de las enfermeras

122,000 nurses followed for decades. HRT users had 40-50% lower cardiovascular mortality.

RR 0.56

Cardiovascular mortality

122,000

Women followed

20+ years

Follow-up

Landmark study. Impeccable methodology. Wrong conclusion.

El sesgo oculto

1

Healthy User Bias: Women who chose HRT were healthier, wealthier, better educated

2

Compliance Bias: Women who took HRT consistently also took better care of themselves

3

Prescriber Bias: Doctors gave HRT to healthier women with fewer risk factors

El tratamiento no las protegía. Ya estaban protegidos.

WHI: The Women's Health Initiative

The largest randomized trial of HRT ever conducted.

Design

Randomized, double-blind, placebo-controlled

Population

Postmenopausal women aged 50-79

Intervention

Estrogen + Progestin vs Placebo

Sample size

16,608 women

Primary endpoint

Coronary heart disease

Planned duration

8.5 years

Los resultados: julio de 2002

Trial stopped early after 5.2 years. Harm exceeded benefits.

Outcome	Hazard Ratio	Direction
Coronary heart disease	1.29	HARM
Stroke	1.41	HARM
Breast cancer	1.26	HARM
Pulmonary embolism	2.13	HARM

Complete Reversal

30 años de evidencia observacional revocados

The Lesson

PRE-SPECIFY

A protocol written before the search begins prevents fishing, prevents bias, prevents hindsight distortion.

HISTORIA: La hipótesis del momento hormonal

¿Qué pasa si el tratamiento funciona, pero sólo para ¿algunos?

REAL DATA

WHI showed HRT increased cardiovascular events overall. But later analyses revealed a critical pattern: women who started HRT within 10 years of menopause had REDUCED cardiovascular risk. Women starting 20+ years after menopause had INCREASED risk. The overall null/harm result hid a timing effect.

El dilema del analista

Usted está analizando subgrupos de WHI. El resultado general muestra daño. ¿Profundizas más?

PATH A: Report Overall Only

Conclude HRT is harmful for all postmenopausal women

↓

Simple message. Guidelines recommend against HRT universally.

OUTCOME: Deny potential benefit to younger menopausal women

PATH B: Pre-Specify Timing Subgroups

Analyze by years since menopause (biologically plausible)

↓

Descubre la "ventana de tiempo" para un inicio seguro de HRT.

OUTCOME: Enable personalized recommendations

THE REVELATION

El análisis de subgrupos es peligroso al pescar. Es esencial cuando la biología predice la modificación del efecto. La hipótesis del momento era biológicamente plausible y debería haber sido especificada previamente.

PROSPERO Registration

1

Regístrese antes de buscar

PROSPERO: International prospective register of systematic reviews

2

Bloquee sus decisiones

PICO, search strategy, outcomes, analysis plan - all pre-specified

3

Document Amendments

Se permiten cambios, pero deben ser transparentes y justificados

4

Prevent Duplication

Compruebe si su reseña ya existe antes comenzando

Module 2 Quiz

1. ¿Por qué el Estudio de salud de las enfermeras mostró un beneficio de la TRH que WHI no mostró?

A. Nurses' Health had too few patients

B. Healthy user bias in observational studies

C. Nurses' Health had shorter follow-up

D. Different hormone formulations were used

2. What is the primary purpose of PROSPERO registration?

A. To register clinical trials

B. Para acelerar la finalización de la revisión

C. Para preespecificar los métodos y evitar sesgos

D. Para obtener financiación para las revisiones

La preespecificación no es burocracia.

It is protection.

Against our own tendency to find what we expect.

Los métodos protegen a los pacientes de nuestra confianza.

What was hidden in plain sight?

Módulo 3: La Búsqueda

What was hidden in plain sight?

Esta es una historia sobre

what they didn't publish.

Módulo 3: La Búsqueda

🎯 Learning Objectives

Develop a comprehensive search strategy using PRESS guidelines
Search multiple databases including grey literature sources
Identify trial registries and regulatory databases (ClinicalTrials.gov, FDA)
Explain how the rosiglitazone case exposed hidden cardiovascular harms
Aplicar el principio: "¿Qué estaba oculto a plena vista?"

$3.2B

annual sales at peak

Avandia (rosiglitazona) fue uno de los los medicamentos para la diabetes más vendidos en el mundo.

Los ensayos publicados parecían tranquilizadores. Los inéditos contaban una historia diferente.

La evidencia publicada (antes de 2007)

Published trials showed rosiglitazone effectively lowered HbA1c. Cardiovascular outcomes were rarely reported.

1999

FDA approval

6M+

Patients treated

~0.7%

HbA1c reduction

La madre sustituta se veía bien. Pero ¿qué pasa con los eventos cardiovasculares reales?

Nissen's Discovery: May 2007

Dr. Steven Nissen obtuvo datos de ensayos no publicados del propio sitio web de GSK.

Un acuerdo legal exigió a GSK que publicara los resultados de los ensayos clínicos en línea. Nissen y Wolski analizaron 42 ensayos, muchos de ellos nunca publicados en revistas.

Los datos eran técnicamente públicos.

No one had systematically searched for it.

Los resultados del metanálisis

Outcome	Odds Ratio	95% CI
Myocardial Infarction	1.43	1.03 - 1.98
CV Death	1.64	0.98 - 2.74

43% Increased Risk of Heart Attack

p = 0,03 para infarto de miocardio

Published in NEJM. The FDA called an emergency advisory committee meeting.

The FDA Advisory Committee: July 2007

22-1

Voted: CV risk exists

20-3

Continúa mercado con advertencias

El comité estaba dividido. Algunos querían que se retirara. Algunos calificaron el metanálisis como defectuoso.

Pero la señal no podía pasar desapercibida.

The Aftermath

1

Black box warning added for heart failure risk (2007)

2

Severe restrictions on prescribing in the US (2010)

3

Withdrawn completamente del mercado europeo (2010)

4

FDA now requires cardiovascular outcome trials for all diabetes drugs

What a Comprehensive Search Requires

PUBLISHED

PubMed, Embase, CENTRAL, Web of Science

GREY LITERATURE

Conference abstracts, dissertations, regulatory docs

TRIAL REGISTRIES

ClinicalTrials.gov, WHO ICTRP, EU CTR

REGULATORY

FDA, EMA, Health Canada submissions

COMPANY DATA

GSK, Pfizer, Roche clinical trial registries

HAND SEARCH

Reference lists, contact authors, experts

La lista de verificación de PRENSA

Peer Review of Electronic Search Strategies

1

Traducción de la pregunta de investigación

¿La búsqueda refleja el PICO? elementos?

2

Operadores booleanos y de proximidad

¿Y, O, NO se usan correctamente?

3

Subject Headings

¿Los términos MeSH/Emtree son apropiados y están desglosados?

4

Text Words

Synonyms, spelling variants, truncation?

PRESS Checklist (continued)

5

Spelling, Syntax, Line Numbers

¿Hay errores que podrían causar la recuperación? ¿Fallos?

6

Límites y filtros

¿Son apropiados los límites de fecha, idioma y diseño del estudio?

Peer-reviewed searches substantially improve retrieval of key studies.

PRESS guideline: McGowan et al., 2016

Database Translation

Se debe adaptar la misma búsqueda para cada base de datos:

PubMed

"diabetes mellitus, type 2"[MeSH] OR "type 2 diabetes"[tiab]

Embase

'non insulin dependent diabetes mellitus'/exp OR 'type 2 diabetes':ti,ab

Subject headings, field tags, and operators differ between databases.

HISTORIA: La transparencia de Tamiflu Campaña

¿Qué sucede cuando buscas y no encuentras nada?

REAL DATA

Governments stockpiled $9 billion de oseltamivir (Tamiflu) para la gripe pandémica. La Colaboración Cochrane intentó revisar la evidencia. De 77 clinical trials, full reports existed for only 20. Roche se negó a compartir datos de 5 years. Cuando el BMJ y Cochrane finalmente obtuvieron over 160,000 pages of clinical study reports, they found: Tamiflu reduced symptoms by less than 1 day, with no evidence it prevented hospitalizations or complications.

El dilema del revisor: 2009

Usted está actualizando una revisión Cochrane de Tamiflu. Los ensayos publicados parecen positivos. Pero 57 ensayos no tienen informes completos accesibles. ¿Qué haces?

PATH A: Analyze What's Published

Use the 20 available trials. Conclude Tamiflu is effective.

↓

Su revisión respalda el almacenamiento continuo. Se gastaron 9 mil millones de dólares en evidencia débil.

OUTCOME: Billions wasted, true efficacy unknown

RUTA B: Demanda de datos completos

Refuse to publish until all trial data is accessible

↓

5-year campaign. 160,000+ pages finally obtained. Truth emerges.

OUTCOME: Evidence policy changed; EMA now publishes all trial reports

THE REVELATION

Una búsqueda es tan buena como lo que se puede encontrar. Cuando la literatura gris se esconde detrás de los muros corporativos, incluso la búsqueda más completa en PubMed perderá la verdad. La saga del Tamiflu cambió la política global: la EMA ahora publica informes de estudios clínicos para todos los medicamentos.

If Nissen had searched only PubMed,

the signal would have remained hidden.

Comprehensive search is survival.

What was hidden in plain sight?

Module 3 Quiz

1. ¿Qué tipo de fuente de evidencia reveló la señal cardiovascular de rosiglitazona?

A. Published journal articles

B. Cochrane Library

C. Company clinical trial registry

D. FDA approval documents

2. What does PRESS stand for?

A. Revisión de la publicación de los estándares de búsqueda de evidencia

B. Peer Review of Electronic Search Strategies

C. Protocolo para informar estudios de síntesis de evidencia

D. Primary Research Evidence Search System

What was hidden in plain sight?

Módulo 4: La detección

El número sin procedencia no es un número.

Esta es una historia sobre

what they chose to report.

Módulo 4: La detección

🎯 Learning Objectives

Apply PRISMA flow diagram to document study selection
Implement dual-reviewer screening with conflict resolution
Identificar el informe selectivo de resultados y la manipulación de datos
Calculate inter-rater reliability (Cohen's kappa)
Aplicar el principio: "El número sin procedencia no es un número"

88,000

heart attacks attributed to Vioxx

A blockbuster drug. A hidden signal. A preventable catastrophe.

Entre En 1999 y 2004, millones de personas tomaron este analgésico. Algunos nunca regresaron a casa.

El auge de Vioxx

El rofecoxib (Vioxx) era un AINE selectivo para la COX-2. Comercializado como más seguro para el estómago que los analgésicos tradicionales.

1999

FDA approval

$2.5B

Peak annual sales

80M+

Patients prescribed

El ensayo VIGOR (2000)

Vioxx Gastrointestinal Outcomes Research

Design

Randomized, double-blind

Comparison

Vioxx vs Naproxen

Population

Rheumatoid arthritis

Sample

8,076 patients

Primary Outcome

GI events

Published

NEJM, November 2000

What VIGOR Published

GI Outcome	Vioxx	Naproxen
Confirmed GI events	2.1 per 100 pt-yrs	4.5 per 100 pt-yrs
Reduction	54% fewer GI events

El titular: ¡Vioxx es más seguro para el estómago!

Esto es lo que les dijeron a los médicos. Esto es lo que creían los pacientes.

What VIGOR Buried

CV Outcome	Vioxx	Naproxen
Myocardial Infarction	20 events	4 events
Relative Risk	5x higher in Vioxx group

5-fold Increase in Heart Attacks

Mentioned only briefly, attributed to naproxen being "cardioprotective"

El informe selectivo

1

Manipulación del límite de datos: 3 additional heart attacks occurred after the cutoff used in publication

2

Spin: La señal CV se explicó como que el naproxeno es cardioprotector (sin evidencia)

3

Outcome switching: Los eventos CV fueron preespecificados pero no enfatizados

4

Internal knowledge: Los correos electrónicos de Merck muestran que conocían la señal

El ensayo APPROVe (2004)

Un ensayo para la prevención de pólipos colorrectales; se detuvo temprano por motivos de seguridad.

RR 1.92

CV events vs placebo

Sept 2004

Vioxx withdrawn

Four years after VIGOR showed a 5x risk. Four years too late.

HISTORIA: El árbol de decisiones de Vioxx

¿Ha considerado lo que sucede cuando ¿Una señal se esconde en el ruido?

REAL DATA

Vioxx (rofecoxib) fue aprobado en 1999. By 2004, estimates suggest 88,000-140,000 excess heart attacks and 30,000-40,000 deaths. Merck's own VIGOR trial showed 5x cardiovascular risk in 2000—but it was dismissed as a "naproxen cardioprotective effect."

La bifurcación del camino

Usted es revisor de la FDA en 2001. Los datos de VIGOR muestran un riesgo de ataque cardíaco cinco veces mayor con Vioxx que con Vioxx. naproxeno.

RUTA A: Acepte la explicación

Believe Merck's hypothesis: naproxen is cardioprotective

↓

No additional safety studies required. Drug stays on market at full speed.

RESULTADO: Más de 40,000 muertes en 4 años

RUTA B: Exija evidencia

Require a dedicated CV safety trial before continued marketing

↓

Delay or restrict marketing until cardiovascular safety is established.

OUTCOME: Signal detected early, lives saved

THE REVELATION

La señal estaba allí en 2000. La explicación incorrecta se retrasó acción por 4 años. Una hipótesis alternativa, aceptada sin evidencia, costó decenas de miles de vidas.

El diagrama de flujo PRISMA

Every step of screening must be documented and transparent.

Identification

Records from databases + other sources

↓

Screening

Title/abstract review (duplicates removed)

↓

Eligibility

Full-text assessment (with exclusion reasons)

↓

Included

Studies in synthesis

Dual Screening: Why Two Reviewers?

1

Reduces Selection Bias

One reviewer might unconsciously favor certain studies

2

Catches Errors

La fatiga, las malas interpretaciones y los errores son inevitables

3

Forces Explicit Criteria

Disagreements reveal ambiguity in inclusion rules

Typical agreement: κ = 0.6-0.8

Disagreements resolved by discussion or third reviewer

Calibración: la fase piloto

Before screening thousands of records, reviewers should calibrate on a sample of 50-100 records.

1

Screen the same set independently

2

Compare decisions and discuss disagreements

3

Refine inclusion criteria until κ > 0.7

4

Documente el proceso de calibración y cualquier regla cambios

PRISMA 2020 Updates

New in 2020

Separate reporting of database vs register searches

New in 2020

Se deben informar las herramientas de automatización

New in 2020

Citation searching documented separately

New in 2020

Reasons for exclusion at full-text mandatory

PRISMA 2020 revisó sustancialmente la lista de verificación con informes ampliados sobre métodos de síntesis, evaluación de certeza y registro de protocolos.

If Vioxx's cardiovascular data had been screened by independent reviewers,

if all pre-specified outcomes had been required to be reported,

88,000 heart attacks might have been prevented.

El número sin procedencia no es un número.

Module 4 Quiz

1. En el ensayo VIGOR, ¿cuál fue el riesgo relativo de IM en el grupo de Vioxx en comparación con naproxeno?

A. 1.5x higher

B. 2x higher

C. 5x higher

D. 10x higher

2. Why is dual screening (two independent reviewers) important?

A. It makes screening faster

B. It reduces selection bias and catches errors

C. Reduce el número de estudios para revisar

D. It allows reviewers to skip full-text review

El número sin procedencia no es un número.

Módulo 5: La extracción

El número sin procedencia no es un número.

Esta es una historia sobre

números que nunca existieron.

Módulo 5: La extracción

🎯 Learning Objectives

Diseñar un formulario de extracción de datos estandarizado con campos de procedencia
Calculate effect sizes from various reported statistics (OR, RR, HR, SMD)
Implement dual-extraction with discrepancy resolution
Identificar señales de alerta para la fabricación de datos y mala conducta
Explain how the DECREASE fraud affected clinical guidelines

~10,000

possible excess deaths in Europe

A partir de pautas basadas en ensayos clínicos fabricados datos.

Los ensayos DECREASE influyeron en la atención perioperatoria en todo el mundo. Los datos fueron inventados.

Don Poldermans: A Star Researcher

Professor at Erasmus Medical Center, Rotterdam. Author of over 500 papers. Lead author of ESC guidelines on perioperative cardiac care.

500+

Publications

DECREASE

Trial series I-VI

ESC

Guideline chair

Una fuente aparentemente impecable. Hasta que alguien miró los datos.

Los ensayos de DECREASE: La reclamación

Trial	Finding	Impact
DECREASE-I (1999)	90% reduction in cardiac death	Changed guidelines
DECREASE-IV (2009)	Beta-blockers safe in low-risk	Expanded recommendations

Effect sizes were implausibly large.

90% reduction? Almost nothing in medicine works that well.

The Investigation: 2011

1

Erasmus MC investigated after whistleblower complaints

2

Datos de pacientes fabricados: Patients who didn't exist or weren't enrolled

3

No informed consent: Many "participants" never consented

4

Poldermans dismissed: From Erasmus MC in 2011

La cascada de daños

Cuando se eliminó DECREASE de metanálisis...

Benefit → Harm

Direction reversed

27% ↑

Stroke risk increase

El ensayo POISE (2008) había demostrado daños. Se descartó porque entraba en conflicto con DECREASE.

¿Por qué no se detectó esto?

1

Trust in authority: Poldermans fue el autor de la guía que revisó su propia evidencia

2

No data verification: Nadie pidió datos de pacientes individuales

3

Publication prestige: Published in top journals, assumed valid

4

Implausible effects accepted: 90% reductions should raise suspicion

Data Extraction: Defense Against Fraud

1

Dual Extraction

Two extractors independently - catches transcription errors and forces scrutiny

2

Record Provenance

Table, page, paragraph - every number traceable to source

3

Verify Against Registry

Resultados de ClinicalTrials.gov vs. publicación: las discrepancias son señales de alerta

4

Request IPD

Individual patient data reveals what aggregate summaries hide

Effect Size Calculation

Durante la extracción, calcula los tamaños del efecto a partir de los datos reportados:

BINARY OUTCOMES

Odds Ratio, Risk Ratio, Risk Difference from 2x2 tables

CONTINUOUS OUTCOMES

Diferencia de medias, diferencia de medias estandarizada de medias y DEs

Extraiga siempre de la fuente más confiable.

Prefer: ITT results > per-protocol > subgroups

Red Flags During Extraction

!

Implausible effect sizes: 80-90% reductions should prompt scrutiny

!

Baseline imbalances: Grupos que coinciden "demasiado perfectamente"

!

Round numbers: "Exactly 50" or "exactly 100" patients per arm

!

Registry discrepancies: Los N publicados difieren de los N registrados

Researcher

Effect Size Conversions

Los resultados del informe de los estudios arrojan métricas diferentes. Para agruparlos, a menudo se necesitan conversiones:

From	To	Formula
SMD (d)	log-OR	log-OR = d × π / √3
log-OR	SMD (d)	d = log-OR × √3 / π
Correlation (r)	Fisher z	z = 0.5 × ln((1+r)/(1−r))
OR	RR	RR = OR / (1 − P₀ + P₀ × OR)
OR	NNT	NNT = 1 / (P₀ − OR×P₀ / (1−P₀+OR×P₀))

P₀ = riesgo inicial en el grupo de control. Estas fórmulas asumen condiciones aproximadas; véase Borenstein et al. (Cap. 7) para derivaciones exactas.

Researcher

Datos de tiempo hasta el evento (supervivencia)

Many trials report time-to-event outcomes using hazard ratios (HR). Pooling HRs in meta-analysis requires special handling:

1

El método log(HR) + SE

Extraiga log(HR) y su SE de la prueba. Si no se informa, obtenga SE del IC: SE = (ln(superior) − ln(inferior)) / (2 × 1,96). Combinar utilizando métodos estándar de varianza inversa.

2

Cuando no se informa la FC

Existen métodos para reconstruir la DPI a partir de las curvas de Kaplan-Meier (Guyot et al. 2012) o estimar la FC a partir de valores p y recuentos de eventos (Parmar et al. 1998). Siempre prefiera la FC ajustada informada directamente cuando esté disponible.

HR < 1 favors treatment; HR > 1 favors control. Do not convert HRs to ORs or RRs—they measure fundamentally different quantities.

HISTORIA: El escándalo del coloide Boldt

¿Qué pasaría si los datos que extrae nunca fueran reales?

REAL DATA

Joachim Boldt fue el investigador más prolífico en el manejo de fluidos anestésicos. Más de 180 de sus publicaciones fueron retractadas —uno de los casos de retractación más grandes en la historia médica. Sus datos inventados mostraron que el hidroxietilalmidón (HES) era seguro. Los metanálisis que incluyeron sus estudios concluyeron que el HES era inofensivo. Cuando se eliminaron los estudios de Boldt, el efecto combinado se revirtió: HES increased kidney injury by 59% (RR 1.59, 95% CI 1.26-2.00) and mortality by ~9% (RR 1.09). An estimated thousands of patients received a harmful fluid based on fabricated evidence.

La vigilancia del extractor: 2010

Está extrayendo datos para un metanálisis de reanimación con líquidos. Los estudios de Boldt dominan la literatura (más de 90 artículos). Un denunciante ha expresado su preocupación. ¿Qué haces?

PATH A: Extract as Published

Trust peer-reviewed publications. Extract Boldt's data like any other.

↓

Your meta-analysis shows HES is safe. Guidelines recommend it.

OUTCOME: Thousands receive a nephrotoxic fluid

PATH B: Verify Provenance

Verificar aprobaciones éticas, solicitar datos de origen, realizar análisis de sensibilidad excluyendo estudios sospechosos

↓

Discover missing ethics approvals. Flag studies. Re-analyze without them.

OUTCOME: True signal emerges — HES causes harm

THE REVELATION

La procedencia no es burocracia. Es la diferencia entre evidencia y ficción. Cada número extraído debe provenir de un estudio ético aprobado, con datos verificables del paciente. Sin procedencia, el número sin dueño puede convertirse en un arma.

Cada número en su metanálisis

must trace back to a verifiable source.

El número sin procedencia no es un número.

Fraudulent data can kill as surely as fraudulent drugs.

Module 5 Quiz

1. ¿Qué sucedió cuando los datos del ensayo DECREASE se eliminaron de los metanálisis de betabloqueantes?

A. The benefit became even larger

B. No change in conclusions

C. The direction reversed to show potential harm

D. Los resultados no fueron concluyentes

2. Why should dual extraction be standard practice?

A. It catches transcription errors and forces scrutiny

B. It makes extraction faster

C. Ayuda a encontrar más estudios

D. It reduces the amount of work needed

El número sin procedencia no es un número.

Módulo 6: El sesgo

Los métodos protegen a los pacientes de nuestra confianza.

Esta es una historia sobre

el sesgo que no podemos ver.

Módulo 6: El sesgo

🎯 Learning Objectives

Apply Risk of Bias 2.0 (RoB 2) to randomized trials
Aplicar ROBINS-I a estudios no aleatorios
Assess all five RoB 2 domains (randomization, deviations, missing data, measurement, selection)
Distinguish confounding by indication from true treatment effects
Explain how BART revealed hidden harms of aprotinin

20+

años en el mercado

La aprotinina fue el estándar de oro para reducir la cirugía sangrando.

Entonces alguien realizó un ECA. La verdad era diferente.

The Hidden Bias: Confounding by Indication

1

Sicker patients got aprotinin: Surgeons used it in complex, high-risk cases

2

Survivors bias: Dead patients can't report complications

3

Publication bias: No se publicaron estudios negativos

Los estudios observacionales no pudieron separar el efecto del medicamento del riesgo inicial del paciente.

BART: La Verdad Aleatoria

Blood Conservation Using Antifibrinolytics in a Randomized Trial

Outcome	Aprotinin	Alternatives
30-day mortality	6.0%	3.9%
Relative Risk	1.53 (53% increased death)

Trial Stopped Early for Harm

Retirado del mercado en noviembre 2007

🔍

Investigación: Evaluar el sesgo

Estás revisando los estudios observacionales. Aplique el pensamiento de riesgo de sesgo:

Question	Observational	BART (RCT)
Random allocation?	❌ Surgeon choice	✓ Yes
Baseline comparable?	❌ Sicker got drug	✓ Balanced
Blinding?	❌ Open label	✓ Double-blind

Confounding by indication: Los cirujanos administraron aprotinina a los pacientes más enfermos. Los estudios observacionales atribuyeron la supervivencia al fármaco cuando medían el sesgo de supervivencia.

Risk of Bias 2.0: The Five Domains

D1

Randomization Process

D2

Desviaciones de las intervenciones previstas

D3

Datos de resultados faltantes

D4

Medición del resultado

D5

Selección del resultado informado

ROBINS-I: para estudios no aleatorios

Cuando los ECA no estén disponibles, use ROBINS-I (Riesgo de sesgo en estudios no aleatorios de Intervenciones)

1

Confounding

Baseline differences between groups

2

Selection of Participants

Exclusions related to intervention

3

Classification of Interventions

Misclassification of exposure status

4

Desviaciones de las intervenciones previstas

Co-interventions, contamination

5

Missing Data

Differential loss to follow-up

6

Measurement of Outcomes

Ascertainment bias

7

Selection of Reported Result

Selective reporting

Ratings: Low / Moderate / Serious / Critical / No information

HISTORIA: El ensayo BART de aprotinina

¿Qué sucede cuando 64 estudios coinciden, y todos están equivocados?

REAL DATA

La aprotinina se usó en cirugía cardíaca para reducir el sangrado durante 20 years. 64 small randomized trials sugirió que era segura y eficaz. Los metanálisis confirmaron el beneficio. Luego el BART trial (2008) randomized 2,331 patients: aprotinin vs. tranexamic acid vs. aminocaproic acid. Result: aprotinin increased mortality by 53% (RR 1,53, IC 95% 1,06-2,22). El ensayo fue detenido antes de tiempo por daños. Bayer retiró la aprotinina del mercado en unos meses.

La evidencia del cirujano: 2006

Usted es un cirujano cardíaco que elige un antifibrinolítico. 64 ensayos pequeños favorecen la aprotinina, pero ninguno tuvo el poder estadístico suficiente para detectar la mortalidad. Se está inscribiendo un gran RCT (BART). ¿Espera?

RUTA A: Confíe en el metanálisis

64 trials can't all be wrong. Continue prescribing aprotinin.

↓

Los ensayos pequeños midieron el sangrado, no la muerte. Ninguno tenía poder adecuado para la mortalidad. El metanálisis agrupó resultados sustitutos sin suficiente poder estadístico.

OUTCOME: Excess deaths in cardiac surgery patients

PATH B: Assess Risk of Bias First

Califique los 64 ensayos con RoB. Observe que son pequeños, utilizan resultados sustitutos y tienen un alto desgaste. Espere a que el ECA tenga la potencia adecuada.

↓

BART reveals the truth. Switch to safer alternatives.

OUTCOME: Lives saved by demanding adequately powered evidence

THE REVELATION

La cantidad de evidencia no es igual a la calidad. Sesenta y cuatro ensayos con poder estadístico insuficiente que miden resultados incorrectos no superan a un ensayo con poder estadístico adecuado que mide la mortalidad. La evaluación del riesgo de sesgo no es una formalidad: es un escudo entre los pacientes y las conclusiones engañosas de evidencia pequeña basada en sustitutos.

Sixty-four small trials measured bleeding, not death.

One adequately powered trial revealed 53% increased mortality.

La cantidad de evidencia no puede sustituir la calidad y el poder.

Module 6 Quiz

1. Why did 64 small trials miss aprotinin's harm?

A. Underpowered for mortality; used surrogate outcomes

B. Confounding by indication

C. Outcome measured incorrectly

D. Follow-up too short

Los métodos protegen a los pacientes de nuestra confianza.

Módulo 7: La Síntesis

La heterogeneidad es un mensaje, no ruido.

La controversia del magnesio: 1991-1995

When pooling leads us astray.

Módulo 7: La Síntesis

🎯 Learning Objectives

Calculate pooled effect sizes using fixed-effect and random-effects models
Choose between DerSimonian-Laird and HKSJ estimators appropriately
Interpret forest plots including weights, confidence intervals, and diamonds
Explain why small-study effects can mislead meta-analyses
Aplica el principio: "La heterogeneidad es un mensaje, no ruido"

The Year: 1991

"Estás en la encrucijada de la esperanza y la evidencia..."

Heart disease kills more people worldwide than any other cause. In 1991, a new hope emerges: Could something as simple and cheap as intravenous magnesium save lives after myocardial infarction?

El fundamento biológico era sólido:

Magnesium stabilizes cardiac membranes, prevents arrhythmias, and vasodilates coronary arteries.

LIMIT-2: El ensayo histórico

Leicester Intravenous Magnesium Intervention Trial, 1992

2,316

Patients enrolled

24%

Mortality reduction

p = 0.04

Statistically significant

A cheap, safe intervention that could save 250,000 lives per year globally.

La comunidad médica estaba electrificado.

The Meta-Analysis: 1993

Researchers pooled seven randomized trials of IV magnesium in MI:

Trial	Year	N	Odds Ratio
Morton 1984	1984	40	0.10
Rasmussen 1986	1986	273	0.35
Smith 1986	1986	400	0.48
Abraham 1987	1987	94	0.87
Shechter 1990	1990	103	0.27
Ceremuzynski 1989	1989	48	0.22
LIMIT-2	1992	2,316	0.74

🔍

Investigation Exercise: The Meta-Analyst's Dilemma

Usted es revisor Cochrane en 1993. Se le pidió que sintetice la evidencia sobre el magnesio para el IM. Los datos de siete ensayos se encuentran ante usted.

¿Ve el patrón en este diagrama de bosque?

Pooled OR = 0.44 (95% CI: 0.27–0.71)

55% mortality reduction! Publish in the Lancet?

Pero espere... ¿nota algo sobre el tamaño de los ensayos?

La advertencia Señales

What should have given us pause?

1

Small sample sizes: Six of seven trials had <500 patients

2

Extreme effects: OR of 0.10 (90% reduction) is implausible for any drug

3

All positive: ¿Dónde estaban los ensayos negativos? El problema del cajón de archivos...

4

Funnel asymmetry: Small trials showed much larger effects than larger ones

🔍

La prueba del gráfico de embudo

Antes de agrupar, debemos verificar el sesgo de publicación. Examinemos el gráfico de embudo.

El año: 1995 — Informes de ISIS-4

"Y luego vino la verdad..."

The Fourth International Study of Infarct Survival (ISIS-4) enrolled 58,050 patients across 1,086 hospitals in 31 countries.

58,050

Patients

2,216

Deaths in Mg group

2,103

Deaths in placebo

OR = 1.06 (95% CI: 1.00–1.12)

No benefit. If anything, a trend toward harm.

📊

Antes y después: la imagen completa

Mira lo que sucede cuando agregamos la mega-prueba a nuestra parcela forestal...

BEFORE ISIS-4

7 small trials (N = 3,274)

OR = 0.44

Strong benefit signal

AFTER ISIS-4

8 trials (N = 61,324)

OR = 1.02

No effect

Why Did Small Trials Mislead?

1

Publication Bias

Small negative trials were never published—they sat in file drawers

2

Small-Study Effects

Smaller trials tend to show larger effects due to methodological weaknesses

3

Random High Bias

Por casualidad, algunos ensayos pequeños alcanzaron resultados extremos, y se publican

4

Random-Effects Amplification

Random-effects models give more weight to small trials, amplifying bias

Fixed vs. Random Effects

Which model should you choose?

FIXED EFFECT MODEL

Assumes one true effect. Weights studies by inverse variance (precision). Large trials dominate.

Magnesium result: OR = 0.96 (p = 0.52)

RANDOM EFFECTS MODEL

Assumes distribution of effects. Gives more weight to small trials. Wider confidence intervals.

Magnesium result: OR = 0.59 (p = 0.01)

⚠️ ¡La elección del modelo determinó la conclusión!

Los efectos aleatorios no corrigen el sesgo; con efectos de estudios pequeños, puede cambiar el peso hacia ensayos más pequeños y cambiar las conclusiones.

Las lecciones del magnesio

1. Verifique el sesgo de publicación antes de confiar en una estimación agrupada. Los gráficos en embudo y la prueba de Egger son sus herramientas.

2. Be wary of small-study effects. If only small trials show benefit, wait for a large, well-conducted trial.

3. Model choice matters. Los efectos aleatorios pueden amplificar la evidencia sesgada. Considere ambos modelos y comprenda las implicaciones.

4. One large trial can overturn many small ones. Esta es la razón por la que los megaensayos como ISIS-4 son tan valiosos.

Researcher

Diseños de estudios especiales en metanálisis

No todos los ECA utilizan diseños estándar de grupos paralelos. Dos alternativas comunes requieren un manejo especial al agrupar resultados:

1

Cluster-Randomized Trials

Aleatorizar grupos (hospitales, escuelas), no individuos. El design effect = 1 + (m−1) × ICC reduce el tamaño efectivo de la muestra. Divida N por el efecto de diseño antes de agrupar, o utilice el SE ajustado de la prueba. Ignorar la agrupación produce IC artificialmente estrechos.

2

Crossover Trials

Cada paciente recibe ambos tratamientos. El diseño emparejado reduce la varianza, pero necesita within-patient correlation (o el análisis emparejado SE) para agrupar correctamente. Usar el SE de grupos paralelos es conservador; utilizar N incorrectos recuentos dobles de pacientes.

Consulte el Manual Cochrane v6.4, Capítulo 23 para obtener fórmulas detalladas y ejemplos resueltos.

HISTORIA: La reversión temprana del surfactante

¿Qué pasa si la forma en que se combinan los estudios determina si un tratamiento parece salvar vidas o ¿inútil?

REAL DATA

El surfactante temprano para bebés prematuros fue respaldado por 6 small trials showing reduced mortality (RR 0.84). A fixed-effect meta-analysis confirmed benefit (p=0.04). But a random-effects model showed no significance (p=0.12) — the confidence interval crossed 1.0. Later, SUPPORT (2010) and VON (2012), two large pragmatic trials with ~2,000 neonates combined, found no benefit de surfactante temprano versus tardío. La práctica clínica había cambiado basándose en ensayos pequeños y en el modelo equivocado.

El modelo elegido por el neonatólogo: 2005

Está actualizando una revisión Cochrane sobre surfactante temprano. Seis ensayos pequeños muestran beneficios con un modelo de efectos fijos. El modelo de efectos aleatorios no es significativo. ¿Cuál informa?

PATH A: Report Fixed-Effect Only

Fixed-effect is significant. Report the positive result. Change practice.

↓

NICUs adopt early surfactant. Later trials show no benefit. Practice reverses.

OUTCOME: Years of unnecessary intubation of premature infants

PATH B: Report Both Models

Mostrar resultados de FE y RE. Señale que la importancia depende de la elección del modelo. Solicite ensayos grandes.

↓

Honest uncertainty. Large trials prioritized. True answer emerges faster.

OUTCOME: Premature babies spared unnecessary intervention

THE REVELATION

Cuando una conclusión cambia dependiendo de si utiliza efectos fijos o efectos aleatorios, la conclusión es frágil. Denuncia ambos. Reconocer la incertidumbre. Y recuerde: un resultado frágil de ensayos pequeños no es un mandato para cambiar la práctica.

Module 7 Quiz

1. ¿Por qué el metanálisis del magnesio mostró un beneficio que ISIS-4 no encontró?

A. La metodología de ISIS-4 era defectuosa

B. Calculation error in meta-analysis

C. Publication bias in small trials

D. LIMIT-2 no tenía suficiente potencia

2. What warning sign should have alerted reviewers to potential bias?

A. Asymmetric funnel plot (small trials showing larger effects)

B. Low heterogeneity (I² = 0%)

C. Strong biological plausibility

D. Too few trials to analyze

3. When publication bias is suspected, which model may amplify the bias?

A. Fixed effect model

B. Random effects model

C. Bayesian model

D. Network meta-analysis

Small trials can show false signals.

Large trials anchor the truth.

La heterogeneidad es un mensaje, no ruido.

Módulo 8: La heterogeneidad

La heterogeneidad es un mensaje, no ruido.

ACCORD: 2008

Cuando el promedio oculta la verdad.

Módulo 8: La heterogeneidad

🎯 Learning Objectives

Calcula e interpreta I², τ² y los intervalos de predicción
Apply ICEMAN criteria to assess subgroup credibility
Distinguish between clinical, methodological, and statistical heterogeneity
Conduct and interpret leave-one-out sensitivity analyses
Explain how ACCORD revealed differential effects across subgroups

The Year: 2008

"Estás a punto de presenciar una de las terminaciones de juicio más impactantes de la historia..."

Para Durante décadas, la comunidad diabética tuvo un principio rector: lower blood sugar is better. Los históricos DCCT (1993) y UKPDS (1998) demostraron que el control intensivo de la glucosa reducía las complicaciones microvasculares: ceguera, insuficiencia renal, daño a los nervios.

La extrapolación lógica:

If controlling glucose prevents complications, shouldn't intensive control prevent cardiovascular disease too?

ACCORD: Action to Control Cardiovascular Risk in Diabetes

The definitive test of intensive glucose control

10,251

Type 2 diabetics

HbA1c <6%

Intensive target

HbA1c 7-7.9%

Standard target

Todos los pacientes tenían diabetes tipo 2 con alto riesgo cardiovascular, ya sea enfermedad cardiovascular establecida o múltiples factores de riesgo. El ensayo fue diseñado para 5,6 años.

February 6, 2008

La Junta de Monitoreo de Seguridad de Datos convoca una reunión de emergencia.

After 3.5 years, they make an unprecedented decision:

DETENGA EL ENSAYO.

Los impactantes resultados

Outcome	Intensive	Standard	HR (95% CI)
Primary CV endpoint	352 events	371 events	0.90 (0.78–1.04)
All-cause mortality	257 deaths	203 deaths	1.22 (1.01–1.46)
Severe hypoglycemia	10.5%	3.5%	3.0× higher

22% increase in mortality

54 excess deaths in the intensive arm

🔍

Investigation Exercise: The Clinician's Dilemma

Usted es un endocrinólogo con 500 pacientes diabéticos. Se publican los resultados de ACCORD. ¿Qué les dice a sus pacientes que se han esforzado por alcanzar una HbA1c <6%?

¿El control intensivo es perjudicial para todos? ¿O sólo para algunos?

Análisis de subgrupos revelado:

Subgroup	Intensive HR	Interpretation
No prior CVD	1.00 (0.76–1.32)	No effect
Prior CVD	1.45 (1.15–1.84)	Significant harm
Baseline HbA1c <8%	1.02 (0.75–1.40)	No effect
Baseline HbA1c ≥8%	1.29 (1.03–1.60)	Harm

The average effect masked critical heterogeneity!

Para pacientes con ECV establecida o control basal deficiente, la terapia intensiva fue perjudicial.

Comprensión de la heterogeneidad: I² y más allá

Cuando los estudios (o subgrupos) lo muestran diferentes efectos, debemos cuantificar esta variación.

I² = 0–25%: Baja heterogeneidad. Los efectos son consistentes en todos los estudios.

I² = 25–50%: Moderate. Look for sources of variation.

I² = 50–75%: Substantial. Consider whether pooling is appropriate.

I² = 75–100%: Considerable. A single pooled estimate may mislead.

Pero I² por sí solo no le dice qué hacer: indica que necesita investigar más.

Tau² (τ²): la varianza entre estudios

Mientras que I² le indica la proporción de varianza debido a la heterogeneidad, τ² le dice la magnitud.

I² (percentage)

"¿Qué fracción de la varianza total se debe a diferencias verdaderas entre los estudios?"

Scale: 0% to 100%

τ² (absolute)

"¿Cuánto varían los efectos verdaderos entre los estudios?"

Same scale as the effect measure

Use τ² to calculate prediction intervals

Un intervalo de predicción muestra el rango de efectos que se esperaría en un nuevo estudio, a menudo mucho más amplio que la confianza. intervalo.

📊

The Prediction Interval: What ACCORD Really Tells Us

Consider a meta-analysis of intensive glucose control across multiple trials...

Confidence Interval

HR 1.10 (0.95–1.27)

"Nuestra mejor estimación del efecto promedio"

Prediction Interval

HR 1.10 (0.70–1.73)

"The range of effects in a new setting"

¡El intervalo de predicción abarca tanto el beneficio como el daño!

In some settings, intensive control might help. In others, it could kill.

When Is a Subgroup Effect Credible?

Subgroup Credibility Criteria (adapted from ICEMAN, Schandelmaier 2020 & Sun 2012)

1

¿Se preespecificó el análisis de subgrupos?

Los subgrupos post hoc son propensos a recibir datos dragado

2

Is there a plausible biological rationale?

El mecanismo debe ser claro e independiente de los datos

3

Is the effect consistent across related outcomes?

Si aparece un daño para la mortalidad, ¿existe un daño similar para el infarto de miocardio y el accidente cerebrovascular?

4

Is there independent replication?

¿Se ha confirmado el efecto de subgrupo en otros estudios?

ICEMAN Applied to ACCORD

Criterion	Assessment	Score
Pre-specified?	Sí, antes la ECV estaba en el protocolo	✓
Biological rationale?	Yes—hypoglycemia more dangerous with CVD	✓
Consistent outcomes?	Yes—CV mortality and all-cause mortality aligned	✓
Independent replication?	Partially—ADVANCE, VADT showed similar patterns	~

ICEMAN Rating: High Credibility

The differential harm in high-risk patients appears genuine.

Las implicaciones clínicas

Para pacientes sin ECV: Moderate glucose control (HbA1c ~7%) remains the goal. Intensive control may reduce microvascular complications.

Para pacientes con ECV establecida: Avoid intensive targets. Hypoglycemia is dangerous for damaged hearts.

Para pacientes de edad avanzada: Relaxed targets. Quality of life matters. Tight control causes falls, confusion, and excess mortality.

"One size fits all" treatment is not patient-centered medicine.

Meta-Regression: Explaining Heterogeneity

When heterogeneity is high, meta-regression can identify study-level covariates that explain variation.

THE QUESTION

¿El tamaño del efecto varía sistemáticamente con el estudio? ¿Características?

Covariates

Year, dose, duration, baseline risk, study quality

Output

Regression coefficient (slope), R², residual heterogeneity

Caution

La metarregresión requiere ≥10 estudios por covariable. Con pocos estudios, es sólo exploratorio. Falacia ecológica: las asociaciones a nivel de estudio pueden no aplicarse a individuos.

Example: In ACCORD, meta-regression might test if treatment effect varies by baseline HbA1c, showing harm concentrated in patients with very high levels.

HISTORIA: La revolución de la presión arterial de SPRINT

What number saves lives? Who decides?

REAL DATA

Durante décadas, el objetivo fue: tratar la presión arterial para <140 mmHg systolic. Then came SPRINT (2015): 9,361 high-risk patients randomized to intensive (<120) vs standard (<140) targets. Intensive treatment reduced CV events by 25% and death by 27%. Trial stopped early for benefit. Guidelines changed worldwide.

Before SPRINT: The Guidelines Committee

Usted está estableciendo pautas de presión arterial en 2014. El objetivo ha sido <140 durante años. ¿Debería esperar a obtener mejores pruebas?

PATH A: Maintain Status Quo

Keep <140 target (established practice, minimal controversy)

↓

Guidelines unchanged. Physicians continue treating to <140.

OUTCOME: Miss opportunity to prevent deaths

PATH B: Fund the Definitive Trial

Esperar los resultados de SPRINT antes de actualizar los objetivos

↓

SPRINT demonstrates benefit. Update target to <120 for high-risk patients.

OUTCOME: Estimated 100,000+ lives saved globally

JNC 7 (2003): <140

Years of uncertainty

SPRINT (2015): <120 para alto riesgo

THE REVELATION

El "estándar de atención" no está arreglado. Cambia cuando los ensayos cuestionan los supuestos. Durante una década, es posible que los pacientes no hayan recibido tratamiento suficiente porque nadie analizó la pregunta obvia.

Module 8 Quiz

1. ¿Por qué se detuvo el ensayo ACCORD antes de tiempo?

A. Intensive control showed clear cardiovascular benefit

B. Intensive control increased mortality

C. La inscripción fue demasiado lenta

D. Budget ran out

2. What does a prediction interval tell us that a confidence interval doesn't?

A. The true effect is more precisely estimated

B. El tamaño de la muestra es adecuado

C. El rango de efectos que esperaríamos en un nuevo estudio

D. La fórmula matemática utilizado

3. According to ICEMAN, which factor is MOST important for subgroup credibility?

A. Especificación previa de la hipótesis del subgrupo

B. Large sample size in the subgroup

C. Statistically significant p-value

D. Multiple outcomes showing same direction

Cuando los estudios no están de acuerdo,

escuche el desacuerdo.

La heterogeneidad es un mensaje, no ruido.

La ausencia de evidencia no es evidencia de ausencia.

Módulo 9: Los Estudios Ocultos

La ausencia de evidencia no es evidencia de ausencia.

Reboxetine: 2010

El 74% que nunca vio la luz.

Módulo 9: Los Estudios Ocultos

🎯 Learning Objectives

Interpret funnel plots for asymmetry detection
Aplica la prueba de Egger y otras pruebas estadísticas para detectar sesgo de publicación
Implementar el método de recortar y completar para ajustar el sesgo
Critically appraise the limitations of publication bias tests
Aplicar el principio: "La ausencia de evidencia no es evidencia de ausencia"

The Year: 1997

"A new hope for depression patients who cannot tolerate SSRIs..."

La reboxetina (Edronax) era un antidepresivo novedoso: un inhibidor selectivo de la recaptación de norepinefrina (NRI). A diferencia de los ISRS, se dirigió a un sistema de neurotransmisores diferente. Para los pacientes que fracasaron o no pudieron tolerar la fluoxetina o la sertralina, ofreció un nuevo mecanismo.

1997

EU approval

50+

Countries approved

Millions

Prescriptions written

La evidencia publicada

What doctors could find in medical journals:

Comparison	Published Trials	Published Result
Reboxetine vs Placebo	3 trials (n=507)	Significantly better (SMD = 0.56)
Reboxetine vs SSRIs	4 trials (n=628)	Equivalent or better

La literatura publicada contó una historia clara:

Reboxetine works. Patients benefit. Prescribe with confidence.

Pero ¿qué pasa con los ensayos que no pudo ver?

In 2010, German researchers at IQWiG made a request to the European Medicines Agency...

They demanded access to all ensayo datos: publicados y no publicados.

What they found changed everything.

El panorama completo

Eyding et al., BMJ 2010

Comparison	Published Only	ALL DATA
Reboxetine vs Placebo	SMD 0.56 (benefit)	SMD 0.10 (no benefit)
Patients in analysis	507 (14%)	2,731 (100%)
Reboxetine vs SSRIs	Equivalent	Inferior (RR 1,23 para daños)
Patients in analysis	628 (26%)	2,411 (100%)

El 74% de los datos de los pacientes nunca se publicaron

Los ensayos ocultos no mostraron ningún beneficio y más daño

🔍

Investigation Exercise: The File Drawer

Usted es un revisor sistemático en 2008. Busca en PubMed, Embase y la Biblioteca Cochrane todos los ensayos de reboxetina. Encontrará 7 ensayos publicados que muestran beneficios.

¿Puede confiar en esta evidencia?

⚠️ ¡El embudo es drásticamente asimétrico!

Todos los estudios publicados se agrupan en un lado. ¿Dónde están los ensayos nulos y negativos?

El kit de herramientas de sesgo de publicación

1

Funnel Plot

Plot effect size vs. standard error. A symmetric funnel suggests no bias; asymmetry raises alarms.

2

Egger's Regression Test

Regress effect/SE on 1/SE. A non-zero intercept (P < 0.10) suggests small-study effects. Note: inflated false-positive rate with binary outcomes; use Peters' test instead.

3

Peters' Test

For binary outcomes, regresses log OR on inverse of total sample size. Less prone to false positives.

4

Trim-and-Fill

Imputa los estudios "faltantes" para hacer que el embudo sea simétrico y luego recalcula el efecto combinado.

📊

Interactivo: Análisis de recorte y llenado

Déjanos aplique recortar y llenar a los datos de reboxetina y vea cuál sería la estimación ajustada...

Published Only

7 trials

SMD = 0.56

Significant benefit

Trim-and-Fill

7 + 5 imputed = 12 trials

SMD = 0.23

Reduced, still nominally significant

But even trim-and-fill underestimated the problem!

El efecto real con todos los datos fue SMD = 0,10 (esencialmente nulo).
Trim-and-fill is conservative—it doesn't fully correct for selective publication.

The Best Defense: Trial Registries

Los métodos de detección de sesgo de publicación son imperfectos. La verdadera solución es prospective registration.

ClinicalTrials.gov

US registry (2000)

WHO ICTRP

Global portal

PROSPERO

Review registration

Al buscar pruebas, siempre verifique los registros. Compare el número de registered pruebas con el número published. La brecha es su señal de advertencia.

Since 2005, ICMJE requires trial registration as a condition of publication.

La campaña AllTrials

"All trials registered. All results reported."

El escándalo de la reboxetina, junto con casos similares en otros medicamentos, catalizó un movimiento global:

✓

2013: Política de datos clínicos de la EMA

European Medicines Agency commits to publishing clinical study reports

✓

2016: FDA Amendments Act enforcement

Mandatory results reporting on ClinicalTrials.gov within 12 months

✓

AllTrials Coalition

Over 90,000 supporters, 700+ organizations demanding transparency

La reboxetina Consecuencias

!

Germany's IQWiG recommended against reboxetine for depression

!

El NICE del Reino Unido lo rebajó a "no recomendado"

!

La FDA había rechazado la reboxetina en 2001 (tenían acceso a datos no publicados)

Durante más de una década, los pacientes recibieron un medicamento no mejor que placebo.

Porque solo se publicaron los ensayos positivos.

HISTORIA: El engaño del estudio de paroxetina 329

¿Qué pasa si la conclusión publicada es lo opuesto a los datos reales?

REAL DATA

Estudio de GlaxoSmithKline 329 paroxetina probada en adolescent depression. El artículo publicado (2001) concluyó que la paroxetina era "generally well tolerated and effective." Los datos reales: paroxetina failed on all 8 pre-specified outcomes. When re-analyzed (RIAT 2015), suicidal/self-harm events: 23 en el grupo de paroxetina frente a 5 en el grupo de placebo. El artículo publicado redefinió los resultados post hoc para darles importancia. En 2015, un nuevo análisis de RIAT (Restoring Invisible and Abandoned Trials) utilizando el informe del estudio clínico original concluyó: la paroxetina era neither safe nor effective for adolescents.

El rompecabezas del prescriptor: 2003

Eres psiquiatra infantil. El estudio 329, el único ensayo de gran tamaño, dice que la paroxetina funciona en los adolescentes. Pero la FDA no lo ha aprobado para adolescentes. Un padre te pide que lo recetes. ¿Qué haces?

RUTA A: Confíe en la publicación

A peer-reviewed JAACAP paper says it works. Prescribe off-label.

↓

Millions of prescriptions worldwide. Suicidal events in adolescents.

OUTCOME: FDA issues black box warning for SSRIs in youth (2004)

PATH B: Check the Trial Registry

Buscar en ClinicalTrials.gov los criterios de valoración originales. Observe que los resultados publicados no coinciden con el protocolo registrado.

↓

Señal roja: se detectó cambio de resultado. Retienes la droga. El paciente está más seguro.

OUTCOME: Publication bias identified before harm

THE REVELATION

El sesgo de publicación no se trata solo de omitir estudios. Se trata de perder la verdad en los estudios publicados. El cambio de resultados, la redacción fantasma y los informes selectivos pueden convertir un ensayo fallido en una herramienta de marketing. Compare siempre los resultados publicados con los protocolos de registro de ensayos.

Module 9 Quiz

1. ¿Qué porcentaje de los datos del ensayo de reboxetina se ocultaron de la literatura publicada?

A. 25%

B. 50%

C. 74%

D. 90%

2. Why can trim-and-fill underestimate the correction needed?

A. It assumes effects are normally distributed

B. Solo imputa estudios para lograr simetría, lo que puede no reflejar completamente la realidad

C. Requiere al menos 20 estudios

D. Solo funciona con estudios muy grandes

3. What is the best prospective defense against publication bias?

A. Funnel plots in all meta-analyses

B. Egger's test before pooling

C. Prospective trial registration

D. More medical journals

Lo que no puedes consulte

may be more important than what you can.

La ausencia de evidencia no es evidencia de ausencia.

Certainty must be earned, not assumed.

Módulo 10: La certeza

Certainty must be earned, not assumed.

Early Surfactant: 2012

Cuando evoluciona la evidencia de alta calidad.

Módulo 10: La certeza

🎯 Learning Objectives

Aplicar el marco GRADE completo para evaluar la certeza de evidencia
Evaluate all five downgrade factors (RoB, inconsistency, indirectness, imprecision, publication bias)
Identify when to upgrade for large effect, dose-response, or confounding
Construct Summary of Findings tables with absolute effect estimates
Aplicar el principio: "La certeza debe ganarse, no asumirse"

The Year: 1990s

"A revolution in neonatal care..."

El síndrome de dificultad respiratoria (SDR) fue la principal causa de muerte en bebés prematuros. El desarrollo de exógeno surfactant—la sustancia que evita que los alvéolos colapsen—fue uno de los grandes avances en la medicina neonatal.

La pregunta fue: ¿Cuándo debemos administrar surfactante?

Prophylactically (to all high-risk infants) or selectively (only after RDS develops)?

La revisión Cochrane original (2003)

Multiple RCTs conducted before the era of routine CPAP

Outcome	Prophylactic vs Selective	Certainty
Neonatal mortality	RR 0.73 (favors prophylactic)	High
BPD or death	RR 0.84 (favors prophylactic)	High

Recommendation: Give surfactant prophylactically

Guidelines worldwide adopted this approach

Pero el mundo de la atención neonatal estaba cambiando...

A new technology emerged: Continuous Positive Airway Pressure (CPAP)

Non-invasive support that could help preterm lungs without intubation.

¿Seguiría siendo válida la evidencia anterior?

La actualización Cochrane de 2012

New trials conducted in the CPAP era

Outcome	Old Trials	New Trials
BPD or death	RR 0.84 (favors prophylactic)	RR 1.12 (favors selective)
Necesidad de ventilación	Baja con profiláctico	¡Más alta con profiláctico!

Complete Reversal

In the CPAP era, prophylactic surfactant causes more harm

🔍

Investigation: Why Did Evidence Evolve?

Usted es neonatólogo. Un colega pregunta: "¿Cómo pueden los ensayos aleatorios contradecirse entre sí?"

¿Estaba equivocada la evidencia original?

1

Indirectness Changed

Old trials: No CPAP available. New trials: CPAP standard of care.

2

El comparador mejoró

Selective surfactant + CPAP is better than prophylactic intubation.

3

Context Matters

La evidencia de una época puede no aplicarse a otro.

This is why GRADE assesses Indirectness!

High-quality evidence can become inapplicable when context changes.

El marco GRADE

Grading of Recommendations, Assessment, Development and Evaluations

GRADE responde a la pregunta: ¿Qué confianza tenemos en esta estimación?

⊕⊕⊕⊕ HIGH: Very confident. True effect is close to the estimate.

⊕⊕⊕◯ MODERATE: Moderately confident. True effect likely close, but may differ substantially.

⊕⊕◯◯ LOW: Limited confidence. True effect may differ substantially.

⊕◯◯◯ VERY LOW: Very little confidence. True effect likely substantially different.

GRADE: Factors That Downgrade Certainty

La evidencia de ECA comienza en ALTO. Se puede degradar por:

1

Risk of Bias

Flawed randomization, lack of blinding, incomplete follow-up, selective reporting

2

Inconsistency

Unexplained heterogeneity across studies (large I², non-overlapping CIs)

3

Indirectness

Diferencias en población, intervención, comparador o resultados de la pregunta

4

Imprecision

Wide confidence intervals, small sample size, few events

GRADE: El quinto factor

5

Publication Bias

Asymmetric funnel plot, missing registered trials, sponsor influence

Each factor can downgrade by one or two levels

High → Moderate → Low → Very Low

Example: Un metanálisis de ECA (comienza ALTO) con alto riesgo de sesgo (↓1) y falta de direccionalidad grave (↓1) sería clasificado LOW.

📊

Interactive: Apply GRADE to Surfactant

Califiquemos la certeza de la evidencia para el surfactante profiláctico usando ensayos antiguos versus nuevos.

OLD TRIALS (Pre-CPAP)

Starting: HIGH (RCTs)

Risk of Bias: Low (−0)

Inconsistency: None (−0)

Indirectness: Serious (−1)

Different standard of care today

Final: ⊕⊕⊕◯ MODERATE

NEW TRIALS (CPAP Era)

Starting: HIGH (RCTs)

Risk of Bias: Low (−0)

Inconsistency: None (−0)

Indirectness: None (−0)

Matches current practice

Final: ⊕⊕⊕⊕ HIGH

GRADE: Factors That Upgrade Certainty

La evidencia observacional comienza en BAJA. Se puede actualizar para:

+1

Large Magnitude of Effect

RR >2 o <0,5 sin posibles factores de confusión

+1

Dose-Response Gradient

Higher exposure = larger effect in a consistent pattern

+1

Residual Confounding

All plausible confounders would reduce the effect (strengthens causal inference)

Communicating Certainty

GRADE requires transparent language about confidence:

HIGH: "Prophylactic surfactant reduces mortality..."

MODERATE: "Prophylactic surfactant probably reduces mortality..."

LOW: "Prophylactic surfactant may reduce mortality..."

VERY LOW: "We are uncertain whether prophylactic surfactant reduces mortality..."

Este lenguaje garantiza que los médicos comprendan la solidez de la evidencia.

HISTORIA: La paradoja del oxígeno en bebés prematuros

Can too much of a lifesaver become a killer?

REAL DATA

1940s-50s: High oxygen concentrations saved premature babies from respiratory failure. Then came an epidemic of blindness—retrolental fibroplasia (now called ROP). Doctors reduced oxygen dramatically. Blindness dropped. But then: increased deaths and brain damage de la hipoxia. El nivel óptimo de oxígeno requerido decades of trials to find. Recent SUPPORT/BOOST II trials finally defined the therapeutic window: SpO2 91-95%.

El dilema del neonatólogo: 1955

Usted es neonatólogo. Los bebés prematuros que reciben mucho oxígeno se quedan ciegos. ¿Qué haces?

PATH A: Dramatic Reduction

Drastically reduce oxygen to prevent blindness

↓

Blindness rates drop. But some babies die or suffer brain damage from hypoxia.

OUTCOME: Trading one harm for another

RUTA B: Estudio sistemático

Titular cuidadosamente el oxígeno, estudiar la relación dosis-respuesta

↓

Takes decades but eventually identifies the optimal range.

OUTCOME: Optimize both survival and vision

1940s: High O2 saves lives

1950s: Blindness epidemic

Décadas de 1960 a 1970: Muertes por niveles bajos de O2

2010s: SUPPORT/BOOST define optimal range

THE REVELATION

Cada intervención tiene una ventana terapéutica. Encontrarlo requiere mediciones, no suposiciones. El péndulo osciló durante 60 años antes de que la evidencia definiera el equilibrio.

Module 10 Quiz

1. ¿Por qué se revirtió la recomendación del surfactante entre 2003 y 2012?

A. Los ensayos originales fueron fraudulentos

B. CPAP changed the comparator (indirectness)

C. Not enough patients in original trials

D. El resultado se midió de manera diferente

2. ¿Cuál de los siguientes NO es un factor de degradación de GRADE?

A. Risk of bias

B. Imprecision

C. Publication bias

D. Large magnitude of effect

3. ¿Qué lenguaje se debe utilizar para evidencia de certeza BAJA?

A. "La intervención reduce..."

B. "La intervención probablemente reduce..."

C. "La intervención puede reducir..."

D. "No estamos seguros de si..."

Un número no es suficiente.

Debes comunicar qué tan seguro estás.

Certainty must be earned, not assumed.

Los métodos protegen a los pacientes de nuestra confianza.

Módulo 11: The Living Review

Los métodos protegen a los pacientes de nuestra confianza.

COVID-19 Hydroxychloroquine: 2020

Cuando se cumple la urgencia evidencia.

Módulo 11: The Living Review

🎯 Learning Objectives

Aplicar análisis secuencial de prueba para determinar cuándo la evidencia es suficiente
Diseñar y mantener una revisión sistemática viva
Establish update triggers and futility/harm boundaries
Manage multiplicity and alpha-spending in sequential analyses
Explain how rapid evidence synthesis evolved during COVID-19

March 2020: A World in Crisis

"El virus se propaga más rápido de lo que entendemos..."

El COVID-19 estaba matando a miles de personas. Las UCI se desbordaron. No había vacuna ni tratamiento. Luego, un rayo de esperanza: hydroxychloroquine (HCQ)—an old malaria drug—showed antiviral activity in lab studies.

March 20

Estudio Gautret (Francia)

36 pts

Non-randomized

Viral

Clearance improved

La prisa por adoptar

A pocas semanas del estudio Gautret:

!

March 28: FDA issues Emergency Use Authorization for HCQ

!

April 4: India bans HCQ export (hoarding fears)

!

Global: Shortages affect lupus and rheumatoid arthritis patients

Millions received HCQ based on a 36-patient observational study

What could go wrong?

🔍

Investigación: El Gautret Estudio

Usted es un experto en EBM al que se le ha pedido que evalúe el estudio francés HCQ. Examinar el diseño...

Issue	Impact
Non-randomized	Selection bias—who got HCQ?
6 patients excluded	3 went to ICU, 1 died, 1 withdrew, 1 had nausea
Surrogate outcome	Viral load, not clinical outcomes
Control de diferentes hospitales	Different care, different testing
No blinding	Expectation bias in lab testing

Este estudio tendría un ALTO riesgo de sesgo en RoB 2.0

GRADE certainty: VERY LOW. Yet it changed global policy.

Why Observational COVID Studies Misled

1

Immortal Time Bias

Patients must survive long enough to receive treatment. Survivors are compared to non-survivors.

2

Confounding by Indication

Sicker patients may get different treatments. Healthier patients received HCQ early.

3

Healthy User Effect

Patients who seek treatment tend to be healthier overall.

4

Outcome Reporting

Los estudios con resultados positivos se publicaron más rápido.

Junio de 2020: el informe de ECA

Large, rigorous trials completed at remarkable speed

Trial	N	Result
RECOVERY (UK)	4,716	No benefit on mortality (RR 1.09)
WHO SOLIDARITY	954	No benefit (RR 1.19)
ORCHID (US)	479	Detenido por inutilidad

HCQ provided no benefit—and may have caused harm

June 15, 2020: FDA revokes Emergency Use Authorization

📊

Cronología: evidencia observacional versus evidencia RCT

March-May 2020

Observational: ~20 studies

Suggest benefit

Pooled OR ~0.65

June-July 2020

RCTs: RECOVERY, SOLIDARITY

Show no benefit/harm

Pooled RR ~1.10

De "prometedor" a "ineficaz" en 3 meses

Es por eso que necesitamos aleatorización y revisiones vivas para rastrear la evolución de la evidencia.

Living Systematic Reviews

Un nuevo enfoque para acelerar rápidamente evidencia en evolución:

1

Continuous Surveillance

Busque en la literatura semanalmente o incluso diariamente para obtener nueva evidencia

2

Cumulative Meta-Analysis

Update pooled estimates as each new trial reports

3

Análisis secuencial de ensayos (TSA)

Determine when sufficient information has accumulated to conclude

4

Transparent Versioning

Track every change, maintain full audit trail

Análisis secuencial de ensayos (TSA)

When have we learned enough?

TSA aplica límites de detención al metanálisis, similar al análisis intermedio en un solo ensayo. Esto explica el required information size (RIS) needed to detect or exclude a clinically meaningful effect.

RIS

Required sample size

α-spending

Controls type I error

Boundaries

Benefit / Harm / Futility

Para HCQ en COVID, la TSA mostró que el límite de inutilidad se cruzó en junio de 2020.

Lecciones de la saga HCQ

1. Observational studies can mislead spectacularly cuando prevalece el sesgo. Incluso muchos estudios que apuntan en la misma dirección pueden estar equivocados.

2. RCTs can be conducted quickly when the will exists. RECOVERY enrolled 5,000+ patients in weeks.

3. Las revisiones vivas son esenciales for evolving topics. Fixed-point-in-time reviews become obsolete instantly.

4. Political pressure doesn't change biology. Los métodos rigurosos protegen a los pacientes incluso cuando están bajo presión.

HISTORIA: La revolución de la alergia al maní de LEAP

¿Qué pasa si la prevención ES la causa?

REAL DATA

For decades, pediatric guidelines recommended: avoid peanuts in infancy to prevent allergy. Meanwhile, peanut allergy rates tripled de 1997 a 2008. Luego llegó LEAP (2015): 640 high-risk infants randomized to early peanut introduction vs. avoidance. Result: Early introduction reduced peanut allergy by 81% (1,9% frente a 13,7%). La estrategia de prevención estaba causando la epidemia.

La encrucijada del alergista: 2010

Usted es alergólogo pediátrico. Las alergias al maní están aumentando a pesar de las pautas para evitarlo. ¿Cuestionas el dogma?

PATH A: Follow Guidelines

Continue recommending peanut avoidance in high-risk infants

↓

Guidelines are "evidence-based." Safe to follow consensus.

OUTCOME: Peanut allergies continue to rise

RUTA B: Cuestiona el dogma

Design a trial to test if early introduction might be protective

↓

LEAP trial reveals the truth. Guidelines reverse worldwide.

OUTCOME: Prevent an epidemic

2000: AAP recommends avoidance

2008: Allergy rates triple

2015: LEAP invierte la evidencia

2017: Guidelines flip to early introduction

THE REVELATION

"Primero, no hacer daño" requiere evidencia. Las suposiciones, incluso las bien intencionadas, pueden causar daños a gran escala. El sistema inmunológico necesitaba exposición para desarrollar tolerancia; la evitación creaba sensibilización.

Module 11 Quiz

1. ¿Cuál fue el principal defecto en el estudio de hidroxicloroquina de Gautret?

A. Too few patients

B. No blinding

C. Excluding patients who deteriorated

D. Too short follow-up

2. What does Trial Sequential Analysis help determine?

A. Which studies have high risk of bias

B. When enough evidence has accumulated

C. El grado de heterogeneidad

D. Which treatment is best

3. ¿Por qué los estudios observacionales de COVID mostraron un beneficio de HCQ mientras que los ECA no?

A. RCTs enrolled sicker patients

B. RCTs used different outcomes

C. Sesgo en los estudios observacionales

D. Los estudios observacionales tuvieron mejores datos

Speed cannot replace rigor.

But rigor can be fast.

Living reviews balance both.

No todas las señales son verdad.

Módulo 12: Métodos avanzados

No todas las señales son verdad.

Advanced Methods

Beyond pairwise meta-analysis.

Módulo 12: Métodos avanzados

🎯 Learning Objectives

Interpret network meta-analysis geometry and SUCRA rankings
Apply bivariate models for diagnostic test accuracy meta-analysis
Conduct dose-response meta-analysis with flexible splines
Understand when individual patient data (IPD) meta-analysis is needed
Reconocer las suposiciones y limitaciones de cada avanzado método

Cuando el emparejamiento no es suficiente

"A veces la pregunta es más compleja que A versus B..."

Los métodos que has aprendido forman la base. Pero la realidad clínica a menudo exige más: Which of 10 antidepressants is best? What's the optimal dose of statin? Does this test accurately diagnose early cancer?

Este módulo presenta cuatro métodos avanzados, cada uno de los cuales responde a diferentes preguntas complejas.

Network Meta-Analysis (NMA)

When you have many treatments but few head-to-head trials

NMA combines direct evidence (A vs B) with indirect evidence (A vs C, B vs C → inferred A vs B) to compare multiple treatments simultaneously.

SUCRA

Ranking probabilities, not effect size

Consistency

Direct = Indirect?

Networks

Visualize evidence

🔍

NMA Example: Antidepressants

The landmark Cipriani 2018 NMA compared 21 antidepressants using 522 trials.

The Challenge

21 drugs, but not every pair tested head-to-head

Many vs. placebo, few vs. each other

The Solution

NMA combina evidencia directa e indirecta en todo el red

Clasifica los 21 según su eficacia y aceptabilidad

Resultado: algunos medicamentos obtuvieron mejores calificaciones en cuanto a eficacia, otros en cuanto a aceptabilidad

Ningún medicamento es universalmente "mejor"; interprete clasificaciones con intervalos creíbles, transitividad y compensaciones clínicas.

NMA: Critical Assumptions

1

Transitivity

Effect modifiers should be similarly distributed across comparisons; otherwise indirect comparisons may be biased

2

Consistency

La evidencia directa e indirecta concuerda (comprobable)

3

Connected Network

All treatments linked through at least one common comparator

When assumptions fail, NMA can mislead

Siempre evalúe la transitividad y pruebe inconsistencia.

Dose-Response Meta-Analysis

Encontrar la dosis óptima

Uses the Greenland-Longnecker method con splines cúbicas restringidas para modelar relaciones no lineales entre dosis y efecto.

1

Non-linear patterns

J-shaped (alcohol & mortality), U-shaped (vitamin D), threshold (aspirin)

2

Clinical relevance

Encuentre la dosis con el mejor equilibrio beneficio-daño, no solo "más es mejor"

Datos de pacientes individuales (IPD)

El estándar de oro para el análisis de subgrupos

Instead of published summary data, obtain sin procesar datos a nivel de paciente de los investigadores. Permite análisis precisos de subgrupos, modelado de tiempo hasta el evento y definiciones estandarizadas.

One-Stage

Single hierarchical model (not mega-trial)

Two-Stage

Analyze, then pool

80%+ target

Objetivo de disponibilidad de datos

El Grupo Colaborativo de Ensayistas Tempranos de Cáncer de Mama fue pionero en IPD MA en la década de 1980.

Diagnostic Test Accuracy (DTA)

Cuando la "intervención" es una prueba

DTA meta-analysis synthesizes sensitivity (tasa de verdaderos positivos) y specificity (true negative rate)—two correlated outcomes requiring bivariate models.

1

Bivariate/HSROC Model

Cuenta la correlación entre sensibilidad y especificidad

2

SROC Curve

Curva ROC resumida con 95 % de confianza y regiones de predicción

3

QUADAS-2

Quality Assessment of Diagnostic Accuracy Studies

Elección de la correcta Método

Question	Method
Does A beat B?	Pairwise MA
Which of many treatments is best?	Network MA (NMA)
¿Cuál es la dosis óptima?	Dose-Response MA
Who benefits most? (subgroups)	IPD MA
¿Qué precisión tiene esta prueba?	DTA MA
¿Cómo evoluciona el efecto con el tiempo?	Survival/Time-to-Event MA

El método debe coincidir con la pregunta. Nunca fuerces una pregunta con el método equivocado.

HISTORIA: La saga de los esteroides en la sepsis

Three large trials. Three different answers. What do you believe?

REAL DATA

CORTICUS (2008): 499 patients. Hydrocortisone in septic shock. No mortality benefit. ADRENAL (2018): 3,658 patients. Hydrocortisone. No mortality benefit. APROCCHSS (2018): 1,241 patients. Hydrocortisone + fludrocortisone. Mortality reduced (43% vs 49.1%, p=0.03). Same class of intervention. Different protocols. Different results.

El desafío del escritor de pautas

Estás escribiendo pautas sobre la sepsis. Tres ensayos importantes no están de acuerdo. ¿Cómo lo recomiendas?

PATH A: Simple Average

Pool all three trials. Overall effect uncertain. Conclude "evidence unclear."

↓

Guidelines say steroids are optional. No strong recommendation.

OUTCOME: Clinicians left without clear guidance

PATH B: Investigate Heterogeneity

Analyze why APROCCHSS differed (fludrocortisone, longer duration, different population)

↓

Identificar que el protocolo efectivo difiere de los ineficaces.

OUTCOME: Recommend the specific effective protocol

THE REVELATION

Las pruebas conflictivas no son fracasos. Son mapas de dónde funciona el tratamiento y dónde no. Las diferencias entre los ensayos (dosis, duración, cointervenciones, población) son la clave para la comprensión.

Module 12 Quiz

1. ¿Cuál es la ventaja clave del metaanálisis de red sobre el método por pares?

A. No requiere extracción de datos

B. It compares treatments not directly tested against each other

C. Elimina la necesidad de una evaluación del riesgo de sesgo

D. It produces better forest plots

2. Why does DTA meta-analysis require bivariate models?

A. To handle more than two studies

B. Para ajustar el sesgo de publicación

C. La sensibilidad y la especificidad son correlacionado

D. To generate forest plots

3. What does the "consistency" assumption in NMA require?

A. All studies must be high quality

B. La evidencia directa e indirecta debe coincidir

C. Sample sizes must be similar

D. No missing studies

Methodologist

El ecosistema del curso

Este curso cubre el flujo de trabajo de revisión sistemática completo. Para profundizar más, explore los cursos complementarios:

DTA Course
Bivariate/HSROC, SROC curves, QUADAS-2

Risk of Bias Mastery
RoB 2, ROBINS-I/E, domain-level assessment

GRADE Certainty
Full SoF tables, GRADE-CERQual

IPD Meta-Analysis
One-stage/two-stage, mixed-effects models

Publication Bias Detective
Copas, PET-PEESE, p-curve, selection models

Umbrella Reviews
AMSTAR 2, ROBIS, overlap correction

Prognostic Reviews
CHARMS, PROBAST, c-statistic pooling

Living Reviews + Rapid Reviews
TSA, update triggers, abbreviated methods

Module 12 Complete

"El método debe coincidir con la pregunta. Los métodos avanzados responden a preguntas avanzadas, pero los fundamentos nunca cambian".

Ha dominado el flujo de trabajo principal. Los siguientes diez módulos exploran la frontera: inferencia bayesiana, metanálisis en red, datos de pacientes individuales, modelado de dosis-respuesta, robustez y fragilidad, equidad, síntesis asistida por IA, evidencia cualitativa, métodos multivariados y reproducibilidad.

No todas las señales son verdad.

Módulo 13: El bayesiano Giro

No todas las señales son verdad.

Módulo 13: El bayesiano Giro

🎯 Learning Objectives

Explica la diferencia entre inferencia frecuentista y bayesiana
Interpret prior distributions, likelihoods, and posterior distributions
Distinguish credible intervals from confidence intervals
Understand when Bayesian meta-analysis offers advantages
Recognize how prior choice affects conclusions

Introducción de la historia: STAMPEDE

In 2005, a trial began

that would never truly end.

El ensayo STAMPEDE para el cáncer de próstata utilizó un diseño de plataforma de múltiples brazos y múltiples etapas (MAMS). Se podrían agregar o eliminar armas a medida que se acumularan pruebas. Aunque sus estadísticas eran frecuentistas, la filosofía adaptativa encarnaba el espíritu bayesiano: actualizar las decisiones a medida que se acumulan los datos.

La cosmovisión frecuentista

In frequentist statistics, probability means long-run frequency. Un IC del 95% NO significa "95% de probabilidad de que el verdadero efecto esté en el interior". Significa: si repitiéramos el estudio infinitamente, el 95% de los intervalos contendrían la verdad.

p-value

P(datos | H₀), no P(H₀ | datos)

95% CI

Propiedad de cobertura, no creencia

Fixed

El verdadero parámetro es fijo

La cosmovisión bayesiana

In Bayesian statistics, probability represents degree of belief. We start with a prior (lo que creemos antes que los datos), actualice con likelihood (lo que nos dicen los datos) y obtenga a posterior (updated belief).

1

Prior × Likelihood = Posterior

Teorema de Bayes: P(θ|datos) ∝ P(datos|θ) × P(θ)

2

Credible Intervals

Un intervalo de credibilidad del 95% es probabilísticamente interpretable, condicional al modelo especificado y anterior.

Researcher

Choosing Priors

1

Non-informative (Vague)

Normal(0, 10000) o uniforme. Dejemos que los datos dominen. Imita resultados frecuentistas.

2

Weakly Informative

Normal(0, 1) for log-OR. Regularizes extreme estimates while remaining flexible.

3

Informative

Based on previous evidence. Powerful but controversial. Must be pre-specified.

4

Half-Cauchy for τ

Recommended for heterogeneity. Half-Cauchy(0, 0.5) allows large τ but concentrates near zero.

Researcher

MCMC Sampling

Most Bayesian models cannot be solved analytically. We use Markov Chain Monte Carlo (MCMC) para extraer muestras de la parte posterior. Herramientas: JAGS, Stan, brms (R), PyMC (Python).

Chains

Multiple independent chains (typically 4)

R̂

Convergence: R̂ < 1.01 (strict; older texts use < 1.1)

ESS

Bulk-ESS > 400 para medios; tail-ESS > 400 para CI

Methodologist

Bayesian Model Averaging

Instead of choosing between fixed-effect and random-effects models, Bayesian model averaging (BMA) pondera cada modelo según su probabilidad posterior. Esto tiene en cuenta la incertidumbre del modelo en la estimación final.

BF

Bayes Factors

BF₁₀ > 10 = evidencia sólida de H₁. BF₁₀ < 1/10 = evidencia sólida de H₀.

Marcador de posición de herramienta interactiva

Interactive: Posterior Visualizer

Ajuste la fuerza anterior para ver cómo afecta la parte posterior. Observe cómo más datos abruman a los anteriores.

Prior Strength: Vague

Prior Mean (log-OR): 0.00

La historia de STAMPEDE

STAMPEDE se lanzó en 2005 con 5 ramas de investigación que comparan tratamientos para el cáncer de próstata avanzado. Para 2016, había agregado abiraterona y había mostrado una reducción del 37 % en la muerte (HR 0,63; IC del 95 %: 0,52–0,76).

El diseño de la plataforma incorpora el pensamiento adaptativo bayesiano: los análisis provisionales guían la selección de brazos, pueden ingresar nuevos brazos a medida que surgen tratamientos y los brazos inútiles caen temprano, salvando a los pacientes de tratamientos ineficaces. terapias.

STAMPEDE inscribió a más de 10,000 pacientes en más de 100 centros y cambió fundamentalmente la atención del cáncer de próstata. La mentalidad bayesiana permite que la evidencia se acumule e informe las decisiones en tiempo real.

Decision Tree: When to Go Bayesian?

Frequentist vs Bayesian Meta-Analysis

Elija bayesiano cuando: (1) tenga información previa genuina, (2) necesite afirmaciones probabilísticas ("efecto de probabilidad del 80 % > 0"), (3) pocos estudios hagan que las propiedades frecuentistas no sean confiables o (4) desee hacer un promedio del modelo.

Bayesian with weakly informative prior

A common practical default. Regularizes extreme estimates without forcing strong prior conclusions.

Bayesiano con previo informativo

Solo cuando la evidencia previa sea sólida y preespecificada. Debe hacer un análisis de sensibilidad.

Stay frequentist

Simpler, well-understood. Preferred when k is large and no prior information.

Remember Module 1?

CAST Through a Bayesian Lens

Si un análisis bayesiano de CAST hubiera utilizado un previo informativo de la ciencia básica (los antiarrítmicos suprimen las CVP), el posterior todavía se habría inclinado fuertemente hacia el daño. Con suficientes datos, incluso un historial sólido cede ante la probabilidad. La lección: los métodos bayesianos no protegen contra malos antecedentes, pero hacen suposiciones transparent.

Module 13 Quiz

Q1. What does a 95% Bayesian credible interval mean?

A. 95% of repeated experiments would produce intervals containing the true value

B. Hay un 95% de probabilidad de que el verdadero parámetro se encuentre dentro de este intervalo

C. The interval has a 95% chance of being correct

D. El 95% de los datos futuros caerán en este rango

Q2. ¿Cuál es el valor previo recomendado para la heterogeneidad entre estudios? (τ)?

A. Uniform(0, 100)

B. Normal(0, 1)

C. Half-Cauchy(0, 0.5)

D. Fixed at 0.5

Module 13 Complete

"El giro bayesiano no se trata de matemáticas. Se trata de honestidad: hacer visibles nuestras suposiciones."

No todas las señales son verdad.

Módulo 14: El Red

Los métodos protegen a los pacientes de nuestra confianza.

Módulo 14: El Red

🎯 Learning Objectives

Explain why pairwise comparisons are insufficient when many treatments exist
Interpret network geometry (nodes, edges, thickness)
Comprender la transitividad, la coherencia y el papel de la evidencia indirecta
Interpret SUCRA rankings and league tables
Recognize when NMA assumptions are violated

A clinician faces a patient

con la depresión. ¿Qué medicamento?

Hay 21 antidepresivos comúnmente recetados. La mayoría de los ensayos comparativos comparan sólo 2 o 3. Cipriani et al. (2018, Lancet) conectaron 522 ensayos y 116,477 pacientes en una sola red.

La lógica del metanálisis en red

1

Direct Evidence

Trials directly comparing A vs B give the most reliable estimate.

2

Indirect Evidence

Si existen A vs C y B vs C, podemos inferir A vs B. Este es el "transitivo" suposición.

3

Mixed Evidence

NMA combines both, weighted by precision, to rank all treatments simultaneously.

Interactive: Network Graph

Cada nodo es un tratamiento. El espesor del borde representa el número de estudios que comparan esos dos tratamientos.

Researcher

Transitivity & Consistency

Transitivity: La estimación indirecta (a través de un comparador común) debe aproximarse a la estimación directa. Esto requiere que los modificadores del efecto se distribuyan de manera similar en las comparaciones.

Consistency: Prueba estadística que compara evidencia directa e indirecta. Las pruebas globales (interacción diseño por tratamiento) y locales (división de nodos) ayudan a identificar bucles de inconsistencia.

Researcher

SUCRA & P-scores

SUCRA

Superficie bajo clasificación acumulada. Los valores más altos indican una mejor probabilidad de clasificación, no una superioridad garantizada.

P-score

Análogo frecuentista a los resúmenes de clasificación de probabilidad. Interpretar con tamaños de efecto e incertidumbre.

Caution: Ranking is seductive but misleading when differences between treatments are small or uncertain. Always report credible/confidence intervals alongside ranks.

Methodologist

Component NMA

When interventions are complex (e.g., behavioral + pharmacological), component NMA decomposes multi-component treatments to estimate the individual contribution of each component. Uses additive models: effect(A+B) = effect(A) + effect(B) + interaction.

La Red Cipriani

El análisis de Lancet de 2018 encontró que los 21 antidepresivos eran más efectivos que el placebo. La amitriptilina, la mirtazapina y la venlafaxina obtuvieron los puntajes más altos en eficacia. La agomelatina, la fluoxetina y el escitalopram ocuparon el puesto más alto en cuanto a aceptabilidad (menor número de abandonos).

Ningún fármaco "ganó" en todos los resultados. La red reveló compensaciones invisibles al análisis por pares.

Decision Tree: Is NMA Appropriate?

NMA Feasibility Check

Tiene 15 ECA que comparan 6 estatinas diferentes. Algunos pares tienen evidencia directa, otros no.

Check transitivity, then fit NMA

Verifique que las poblaciones de pacientes y los diseños de los estudios sean suficientemente similares en todas las comparaciones.

Ignore la evidencia indirecta

Pierde poder estadístico y deja vacíos en la base de evidencia.

Pool all into one pairwise comparison

Viola la estructura del evidencia. Las estatinas son medicamentos diferentes.

Module 14 Quiz

Q1. ¿Qué suposición debe cumplirse para que la evidencia indirecta sea válida en NMA?

A. Transitivity — effect modifiers are balanced across comparisons

B. Homogeneity — I² must be below 25%

C. All studies must have similar sample sizes

D. Todos los estudios deben ser doble ciego

Module 14 Complete

"La red ve lo que las comparaciones por pares no pueden: todo el panorama de elección de tratamiento".

No todas las señales son verdad.

Módulo 15: El individuo

What was hidden in plain sight?

Módulo 15: El individuo

🎯 Learning Objectives

Explain why aggregate data can mask treatment–covariate interactions
Distinguish one-stage from two-stage IPD models
Recognize ecological bias in aggregate meta-analysis
Understand the practical challenges of IPD collection
Interpret treatment–covariate interaction plots

For decades, breast cancer trials

resúmenes publicados. No pacientes.

El Grupo Colaborativo de Ensayistas Tempranos de Cáncer de Mama (EBCTCG) recopiló registros individuales de más de 100,000 mujeres en cientos de ensayos. Sus metanálisis de IPD mostraron que los beneficios del tamoxifeno dependen en gran medida del estado del receptor de estrógeno, algo invisible en los datos agregados.

Lo que ocultaban los resúmenes

Cada ensayo publicado de tamoxifeno informó un resultado general. Según cientos de estudios, el tamoxifeno pareció ofrecer un beneficio modesto. Pero el “beneficio modesto” era un promedio que ocultaba una verdad profunda.

La división del subgrupo oculto

RR 0.59

ER-positive subgroup: 41% reduction in recurrence

RR 0.97

ER-negative subgroup: essentially no benefit at all

El efecto conjunto general (mezcla de pacientes que responden y no responden) fue una ficción estadística. Un promedio “modesto” que sobreestimó el beneficio para un grupo e implicó un beneficio donde no existía ninguno para el otro.

Datos agregados versus individuales de pacientes

AD

Aggregate: published effect + CI only

IPD

Individual: raw patient-level records

IPD permite: (1) definiciones consistentes de resultados, (2) análisis de subgrupos por características del paciente, (3) modelado de tiempo hasta el evento, (4) verificación de sesgos ecológicos. Es gold standard for exploring treatment effect modification.

Researcher

One-Stage vs Two-Stage IPD

1

Two-Stage

Analyze each study separately, then combine estimates (like standard MA). Simple but loses information.

2

One-Stage

Ajustar un único modelo de efectos mixtos a todos los datos del paciente simultáneamente. Más potente para interacciones y eventos raros.

Key: Ambos deberían tener en cuenta la agrupación de estudios. Nunca agrupe los IPD como si fueran de un megaensayo; esto introduce confusión (paradoja de Simpson).

Methodologist

Ecological Bias

A meta-regression using study-level mean age might show older patients benefit more. But this could be ecological bias: la asociación a nivel de estudio no refleja la verdad a nivel de paciente. Sólo IPD puede separar within-study from between-study effects.

Cuando el todo miente en sus partes

La paradoja de Simpson: una tendencia que aparece en los datos agregados se revierte cuando los datos se agrupan por una variable de confusión.

La paradoja en la práctica

A mega-trial analysis found Treatment X beneficial overall. But dentro cada estudio, fue perjudicial. ¿Cómo? Las diferencias en el riesgo inicial entre los estudios crearon una ilusión: las poblaciones más enfermas recibieron más tratamiento, lo que infló el beneficio agregado.

Cates (2002, BMJ) demostró que la combinación de estudios sin tener en cuenta la agrupación puede revertir la dirección aparente del efecto.

Esta es la razón por la que los modelos de una etapa de IPD incluyen el estudio como una variable de agrupación, para evitar que la confusión entre estudios se haga pasar por tratamiento. efecto.

El legado de EBCTCG

Los metanálisis IPD del EBCTCG han definido el tratamiento del cáncer de mama durante 40 años. Su análisis de 2005 de tamoxifeno versus ningún tratamiento mostró un beneficio claro en los tumores ER positivos (RR 0,59), pero ningún beneficio en los tumores ER negativos (RR 0,97).

Sin la DPI, el efecto agregado general se habría agrupado en ambos grupos, diluyendo el beneficio y potencialmente negando a los pacientes ER positivos la magnitud de su ganancia.

Decision Tree: When Is IPD Worth Pursuing?

Do you suspect treatment–covariate interactions?

Yes →

¿Puede obtener IPD de >80% de los ensayos?

Yes → One-stage IPD meta-analysis with interaction terms

No → Dos etapas: solicitar IPD disponible + agregado para el resto

No →

Is ecological bias a concern?

Yes → IPD preferred even without interactions

No → Aggregate data meta-analysis may suffice

EBCTCG recopiló datos de cientos de ensayos durante 40 años. La mayoría de los metanálisis de DPI incluyen entre 5 y 20 ensayos. La decisión depende de la pregunta, no de la ambición.

Methodologist

El patrón se repite

¿Recuerdas el Módulo 3? La TRH pareció beneficiosa en estudios observacionales pero perjudicial en ECA. Se produjo el mismo enmascaramiento agregado: el beneficio general ocultó el daño del subgrupo.

El análisis IPD de la Women's Health Initiative mostró posteriormente que timing mattered—las mujeres que comenzaron la TRH dentro de los 10 años posteriores a la menopausia tuvieron resultados diferentes que aquellas que comenzaron más tarde. La “hipótesis del momento” era invisible en los resúmenes agregados publicados.

La lección se repite: los datos agregados pueden oscurecer las interacciones críticas entre el tratamiento y las covariables. Ya sea el estado de ER en el cáncer de mama o el momento de la TRH, los datos a nivel individual revelan lo que ocultan los resúmenes.

Module 15 Quiz

Q1. ¿Cuál es la principal ventaja del IPD sobre el metanálisis de datos agregados?

A. Siempre incluye más estudios

B. Es más barato y más rápido

C. It can explore treatment–covariate interactions without ecological bias

D. Elimina la necesidad de modelos de efectos aleatorios

Module 15 Complete

"Detrás de cada estimación agrupada hay individuos cuyas historias el agregado no puede contar."

La heterogeneidad es un mensaje, no ruido.

Módulo 16: El Dosis

La heterogeneidad es un mensaje, no ruido.

Módulo 16: El Dosis

🎯 Learning Objectives

Explain why simple pairwise comparisons miss dose–response relationships
Distinguish linear, quadratic, and spline dose–response models
Interpret restricted cubic splines with knots
Identify threshold effects and J/U-shaped curves
Understand model comparison with AIC/BIC

Durante décadas, el consumo moderado de alcohol

pareció proteger el corazón.

La "curva en forma de J" mostró que los no bebedores tenían una mayor mortalidad cardiovascular que los bebedores moderados. Pero Stockwell et al. (2016) demostraron que la curva J era un artefacto de clasificar erróneamente a ex bebedores (que dejaron de beber debido a una enfermedad) como "abstemios".

A Scientific Consensus Built on Sand

Para 2010, más de 100 estudios observacionales habían confirmado la curva J. Los libros de texto de medicina lo enseñaban. Los cardiólogos lo citaron. Los lobbystas de la industria del vino financiaron conferencias sobre este tema.

100+

Estudios observacionales que confirman la curva J

15–25%

Lower cardiovascular mortality in moderate drinkers vs abstainers

La evidencia parecía abrumadora. Pero, ¿qué pasaría si el grupo de comparación, los “abstemios”, estuviera contaminado?

El enfermo que abandona

A Hidden Confounder

The Problem

People who stop drinking often do so because they are already ill—enfermedad hepática, interacciones entre medicamentos, diagnóstico de cáncer. Estos “ex bebedores” fueron clasificados como “abstemios” en la mayoría de los estudios.

The Effect: The reference group (abstainers) appeared less healthy—no porque la abstinencia fuera dañina, sino porque personas enfermas se habían sumado a ella.

When Stockwell et al. (2016, J Stud Alcohol Drugs) removed former drinkers and applied appropriate study-quality corrections: la curva J desapareció. El efecto protector era un fantasma.

Dose–Response Meta-Analysis

Standard meta-analysis asks: "Does treatment X work?" Dose–response meta-analysis asks: "At what dose ¿el tratamiento X funciona mejor?" Modela la relación entre el nivel de dosis y el resultado en múltiples estudios.

Linear

Simplest: log(RR) = β × dose

Spline

Flexible: piecewise polynomials with knots

Fractional

Polynomial: dose^p1 + dose^p2

Researcher

Restricted Cubic Splines

RCS place knots en puntos de dosis preespecificados y ajusta polinomios suaves entre ellos. Normalmente, de 3 a 5 nudos en los cuantiles de la distribución de dosis. Lineal más allá de los nudos límite. Las pruebas de no linealidad comparan el modelo spline con un modelo lineal más simple.

AIC

Model Comparison

AIC/BIC compara el ajuste lineal versus el spline. Inferior = mejor. También prueba la desviación de la linealidad (valor p para términos spline).

Interactive: Dose–Response Builder

Compara los ajustes lineal, cuadrático y spline. Observa cómo cambia la forma del modelo con diferentes suposiciones.

La curva J del alcohol desacreditada.

El nuevo análisis de Stockwell de 2016 encontró que cuando los exbebedores eran correctamente excluidos del grupo de referencia "abstemio", el efecto protector del consumo moderado de alcohol desaparecía. La curva J fue impulsada por el sesgo de los que abandonan por enfermedad.

El metanálisis de dosis-respuesta reveló la verdad: la forma de la curva depende fundamentalmente de cómo se define "dosis cero". La categoría de referencia incorrecta creó un beneficio fantasma.

When Curves Shape Policy

The phantom J-curve influenced alcohol guidelines worldwide:

UK

NHS Guidance (until 2016)

“Beber con moderación puede proteger el corazón” apareció en la guía oficial. Después de la corrección de Stockwell, el Reino Unido revisó los límites a 14 unidades/semana para all bebedores (anteriormente 21 para los hombres). Ninguna cantidad fue declarada “segura”.

US

Dietary Guidelines Advisory Committee

Se citaron estudios de curva J hasta 2015. El comité de 2020 recomendó reducir los límites a 1 bebida/día para los hombres, reconociendo el sesgo del grupo de referencia.

AU

Australian Guidelines

Safe drinking limits were delayed by industry-funded J-curve research promoting “cardioprotective” moderate intake.

Decision Tree: Is Dose-Response Analysis Appropriate?

¿Tiene ≥3 niveles de exposición (no solo expuesto vs. ¿no expuesto)?

Yes →

¿Es plausible que la relación no sea lineal?

Yes → Restricted cubic splines (3–5 knots). Compare AIC with linear model.

No → Linear dose-response meta-regression may suffice

No →

Standard pairwise meta-analysis (no dose-response possible with only two levels)

Warning: Comprueba siempre: ¿está limpia tu categoría de referencia? La lección de la curva J: un grupo de referencia contaminado crea una no linealidad fantasma.

Module 16 Quiz

Q1. What makes restricted cubic splines useful in dose–response meta-analysis?

A. They always produce a straight line

B. They flexibly capture non-linear dose–response curves

C. Reducen el número de estudios necesarios

D. They simplify the model to fewer parameters

Module 16 Complete

"La dosis crea el veneno. Y la forma de la curva revela si el veneno es real."

La ausencia de evidencia no es evidencia de ausencia.

Módulo 17: El Fragilidad

La ausencia de evidencia no es evidencia de ausencia.

Módulo 17: El Fragilidad

🎯 Learning Objectives

Calcule e interprete el índice de fragilidad
Utilice gráficos GOSH para identificar estudios y subconjuntos influyentes efectos
Interpret contour-enhanced funnel plots
Aplicar modelos de selección Copas y PET-PEESE para el sesgo de publicación
Understand how sensitivity analyses strengthen meta-analytic conclusions

Governments stockpiled billions

basado en evidencia que no pudieron ver.

Después del H1N1, los gobiernos gastaron miles de millones en reservas de oseltamivir (Tamiflu). El equipo Cochrane (Jefferson et al. 2014) luchó durante años para acceder a datos inéditos. Cuando finalmente lo hicieron, la evidencia para prevenir complicaciones se evaporó.

El índice de fragilidad

El índice de fragilidad pregunta: "How many patients would need to change outcome to flip a statistically significant result to non-significant?" Agrega eventos de forma iterativa (convierte no eventos en eventos) en el grupo con menos eventos hasta p > 0.05.

FI = 1

Extremely fragile. One patient flip changes conclusion.

FI > 8

Reasonably robust. Less sensitive to individual outcomes.

Interactive: Fragility Calculator

Enter a 2×2 table to calculate the fragility index. Watch events shift until significance flips.

Events

Total N

Treatment

Control

Researcher

GOSH Plots

Resumen gráfico de la heterogeneidad del estudio (GOSH) ajusta los modelos de metanálisis a todos los subconjuntos posibles de estudios. Cada punto traza el efecto combinado frente a I² para un subconjunto. Los grupos sugieren subgrupos distintos; las nubes atípicas sugieren un estudio que impulsa la heterogeneidad.

Para k estudios, hay 2^k−1 subsets. For k > 15, random sampling is used.

Researcher

Contour-Enhanced Funnel Plots

Standard funnel plots show effect size vs standard error. Contour-enhanced versiones que agregan regiones sombreadas para p < 0,01, p < 0,05 y p < 0,10. Si los estudios faltantes corresponden a regiones no significativas, es probable que se produzca un sesgo de publicación. Si se encuentran en regiones significativas, otras causas (por ejemplo, la calidad del estudio) pueden explicar la asimetría.

Methodologist

Copas Selection & PET-PEESE

1

Copas Selection Model

Modela la probabilidad de que un estudio se publique en función de su SE y el tamaño del efecto. Estima conjuntamente el efecto real y el mecanismo de selección.

2

PET-PEESE

Precision-Effect Test (PET): regress effects on SE. If intercept = 0, no true effect. PEESE uses SE² for better performance when a true effect exists.

La saga del oseltamivir

El metanálisis original financiado por Roche (Kaiser 2003) mostró que el oseltamivir redujo las complicaciones de la influenza en un 67%. Pero 8 de 10 ensayos nunca se habían publicado. Después de que Cochrane obtuvo los informes de los estudios clínicos, el beneficio por complicaciones cayó a un 11% no significativo.

La fragilidad no fue solo estadística: fue informativa. A la base de evidencia en sí le faltaban la mayoría de los datos.

Árbol de decisiones: Interpretación de sus resultados de fragilidad

Usted calculó el índice de fragilidad. ¿Qué significa el número?

FI ≤ 3

Highly fragile. Un puñado de eventos diferentes revertirían la conclusión. Interprete con extrema precaución.

FI 4–8

Moderately fragile. Sensible a pequeñas perturbaciones. ¿Hay ensayos no publicados que podrían cambiar esto?

FI > 8

Relatively robust. But remember: fragility is only one dimension. Publication bias can undermine even robust results.

Walsh et al. (2014, J Clin Epidemiol) encontraron que en 399 ECA publicados en las principales revistas, el índice de fragilidad medio era solo 8. Más del 25% tenía FI ≤ 3. Los ensayos históricos que influyeron en la práctica clínica a menudo pendían de un hilo estadístico.

Methodologist

Beyond the Index: Structural Fragility

La saga del oseltamivir al descubierto three types of fragility—Y el Índice de Fragilidad captura sólo el primero.

1

Statistical Fragility (FI)

¿Cuántos eventos invierten el valor p? Esto es lo que mide el Índice de Fragilidad. Cuantifica la sensibilidad a los resultados de cada paciente.

2

Informational Fragility

¿Qué parte de la evidencia está oculta? Ocho de diez ensayos de Roche oseltamivir no estaban publicados. La base de evidencia era estructuralmente incompleta.

3

Analytical Fragility

¿Cuántos grados de libertad del investigador podrían cambiar la conclusión? Diferentes definiciones de resultados, poblaciones de análisis o métodos estadísticos.

Devolución de llamada al Módulo 10 (Paroxetina): Un nuevo análisis con diferentes definiciones de resultados revirtió la conclusión por completo. Eso fue fragilidad analítica: el IF nunca se calculó porque el punto final en sí estaba en disputa. Una evaluación de solidez completa examina las tres dimensiones.

Module 17 Quiz

Q1. Un ensayo tiene 200 pacientes por brazo, 12 eventos en tratamiento, 25 en control (p=0,03). El índice de fragilidad es 3. ¿Qué significa esto?

A. El tamaño del efecto es exactamente 3

B. Changing just 3 patient outcomes would flip the result to non-significant

C. El resultado es muy sólido con 3 estudios confirmatorios.

D. Se necesitan al menos 3 pacientes para el estudio.

Module 17 Complete

"El número que sobrevive a cada intento de romperlo es el número en el que vale la pena confiar".

No todas las señales son verdad.

Módulo 18: La Equidad

Certainty must be earned, not assumed.

Módulo 18: La Equidad

🎯 Learning Objectives

Identify how trial exclusion criteria create evidence gaps
Aplicar el marco PROGRESS-Plus para evaluar la equidad en la evidencia
Use PRISMA-Equity reporting guidelines
Understand transportability: when trial findings fail in practice
Design equity-sensitive search and synthesis strategies

SPRINT proved tight blood pressure control

saves lives. But whose lives?

El histórico ensayo SPRINT excluyó a pacientes con diabetes, accidente cerebrovascular previo e insuficiencia cardíaca. Más del 75% de los pacientes hipertensos estadounidenses no habrían calificado. La evidencia era sólida pero la aplicabilidad era limitada.

Diapositiva A: La mayoría que falta

El ensayo que excluyó a la mayoría de sus pacientes

SPRINT inscribió a 9.361 pacientes y demostró que el control intensivo de la presión arterial (objetivo <120 mmHg) redujo los eventos cardiovasculares en un 25% (HR 0,75, IC 95% 0,64–0,89). Pero los criterios de inclusión contaron una historia diferente.

Quién fue excluido:

Diabetes — 35% de los adultos estadounidenses con hipertensión
Prior stroke — 8% de la población hipertensa
Symptomatic heart failure — 6% of hypertensive adults
Expected survival <3 years — los pacientes más frágiles
Nursing home residents — excluded entirely
GFR <20 mL/min — advanced kidney disease

Resultado: Más del 75% de los adultos estadounidenses con hipertensión NO habrían calificado. La evidencia era contundente. ¿Pero para quién?

Diapositiva B: La geografía de la evidencia

De dónde viene la evidencia

78%

of cardiovascular mega-trial participants came from high-income countries (2000–2020).

6%

from sub-Saharan Africa — where cardiovascular disease is rising fastest.

Ensayos de Polypill: 4 de 5 se realizaron en poblaciones con un IMC medio <25. El IMC medio en Estados Unidos es 30. El metabolismo de los fármacos, los patrones de comorbilidad, el acceso a la atención médica y la variación genética difieren entre las poblaciones. Efficacy in one population does not guarantee effectiveness in another.

Referencia: Ensayos multinacionales y la brecha de PROGRESS-Plus

PROGRESS-Plus Framework

P

Place of residence

R

Race / ethnicity

O

Occupation

G

Gender / sex

R

Religion

E

Education

S

SES (socioeconomic)

S

Social capital

Plus: Age, disability, sexual orientation, other vulnerable groups.

Researcher

PRISMA-Equity & Transportability

PRISMA-Equity amplía PRISMA para exigir informes sobre cómo se abordó la equidad en la revisión: características de la población, análisis de subgrupos por desventaja y evaluación de la aplicabilidad a poblaciones desatendidas.

Transportability: La eficacia del ensayo no es igual a la eficacia en el mundo real. Existen métodos para volver a ponderar los datos de los ensayos para que coincidan con la distribución de la población objetivo.

Diapositiva C: La cuestión de la transportabilidad

Researcher

From Trial to Real World: Transportability

Transportability = ¿Se pueden aplicar los resultados de la población de prueba X a la población objetivo Y? Ésta no es una cuestión filosófica: tiene métodos formales.

1

Inverse Probability of Participation Weighting (IPPW)

Re-weights trial participants so they resemble the target population on key covariates.

2

Generalizability Index

Cuantifica qué tan similar es la muestra del ensayo a la población objetivo en cuanto a las características observadas.

Stuart et al. (2015, Stat Med): Cuando los resultados del SPRINT se volvieron a ponderar para que coincidieran con la población hipertensa de EE. UU., el beneficio estimado se atenuó: HR 0,82 (frente a 0,75 en el ensayo). El tratamiento todavía funciona. Pero la magnitud cambia cuando cambia la población.

SPRINT y la mayoría perdida

SPRINT fue un ensayo bien diseñado de 9,361 pacientes. Su hallazgo (HR 0,75 para el control intensivo de la PA frente al estándar) cambió las directrices en todo el mundo. Pero los análisis posteriores mostraron que el beneficio fue mayor en el subgrupo más parecido a la población del ensayo, e incierto para los grupos excluidos.

La equidad en la síntesis de evidencia significa preguntar no solo "¿Funciona?" pero "¿Para quién funciona?"

Árbol de decisiones: Evaluación de equidad para su revisión

ROOT: ¿La evidencia de su revisión proviene de poblaciones similares a su objetivo?

YES → Good. But check: Are subgroups (age, sex, ethnicity, SES) reported separately?

Yes: Use subgroup effects for population-specific recommendations
No: Flag as limitation — equity gap in reporting

NO → Does PROGRESS-Plus analysis reveal differential effects?

Yes: Population-specific recommendations needed. Consider transportability re-weighting.
No: Cautious generalization with explicit equity statement in discussion

Diapositiva E: Devolución de llamada al Módulo 3

Methodologist

Callback: The HRT Lesson Revisited

¿Recuerda el Módulo 3? La historia de la TRH demostró que healthy-user bias hacía que un tratamiento perjudicial pareciera beneficioso. SPRINT puede tener el problema opuesto: el efecto de “voluntario sano” puede hacer que parezca un tratamiento eficaz more effective than it would be in the real world.

Cada metanálisis debería preguntarse: ¿Quién estuvo incluido? ¿Quién fue excluido? ¿Y eso importa?

Module 18 Quiz

Q1. What does the PROGRESS-Plus framework help reviewers assess?

A. Statistical heterogeneity

B. Equity and applicability across disadvantaged populations

C. Validez interna de los estudios incluidos

D. Certidez general de la evidencia

Module 18 Complete

"La evidencia que excluye a los vulnerables no puede pretender servirles".

No todas las señales son verdad.

Módulo 19: El Máquina

El número sin procedencia no es un número.

Módulo 19: El Máquina

🎯 Learning Objectives

Describe how AI/ML is used in systematic review screening
Explain active learning and human-in-the-loop workflows
Assess automation validation: recall, workload savings, and risk
Reconocer las limitaciones y sesgos del cribado algorítmico
Aplicar marcos para el uso responsable de la IA en la evidencia síntesis

When COVID-19 hit,

papers arrived faster than humans could read.

Para 2021, existían más de 300.000 artículos COVID. Cochrane utilizó clasificadores de aprendizaje automático para clasificar los estudios para sus revisiones rápidas, lo que redujo la carga de trabajo de detección hasta en un 70 % y mantuvo >95 % de recuperación.

The Flood

By April 2020, 4,000 COVID preprints appeared every week.

PubMed indexed 500 new COVID articles per day.

Cochrane's screening queue hit 10,000 unreviewed titles.

🔍 Las matemáticas de la imposibilidad

A pair of reviewers screens ~200 titles per day.

At 500 new articles/day, they fell further behind with every hour.

La revisión viva estaba muriendo antes de poder vivir.

La primera Intentos

La idea no era nueva. Cohen y cols. (2006, JAMIA) demostraron por primera vez que el aprendizaje automático podía reducir la carga de trabajo de detección en un 50 %, con menos del 5 % de pérdida en la recuperación.

📅

2006: Cohen et al. — SVM classifiers for drug class reviews. Proof of concept.

📅

2016: RobotReviewer (Marshall et al., JMLR) — ML for risk of bias assessment. Inter-rater reliability comparable to human reviewers.

📅

2021: ASReview (van de Schoot et al., Nature Machine Intelligence) — active learning that simulated 95% workload reduction.

Pero la simulación no es la realidad. COVID sería la primera prueba real a escala.

AI in Systematic Reviews

1

Screening Prioritization

Active learning ranks citations by relevance. Reviewers screen the most likely relevant first.

2

Asistencia de extracción de datos

La PNL extrae elementos, resultados y resultados de PICO. Siempre requiere verificación humana.

3

Risk of Bias Assessment

ML classifiers predict RoB domains. Experimental—human judgment remains gold standard.

Researcher

Validating Automation

Recall

>95% required. Missing 1 study can change conclusions.

WSS@95%

Work Saved over Sampling at 95% recall.

Stopping

When to stop screening? Consecutive irrelevant threshold.

La tensión fundamental: La automatización ahorra tiempo pero introduce una nueva fuente de error. Informe siempre la herramienta, la versión, los datos de entrenamiento y los criterios de parada.

La crisis de validación

🔍 La paradoja de la validación

Para saber si la máquina omitió un estudio relevante, you need a human to screen everything.

But if humans screen everything, ¿Por qué usar el ¿máquina?

The solution: prospective holdout validation.

Random 10% sample screened by both human and machine
Comparar: ¿la máquina se perdió lo que encontró el humano?
If recall drops below 95%, retrain and expand human screening

Confía, pero verifica. La máquina se gana su función, no la hereda.

Cochrane's COVID Response

Cochrane creó el Registro de estudios de COVID-19 utilizando clasificadores de aprendizaje automático entrenados en millones de registros. El sistema logró una sensibilidad del 99 % y redujo la detección manual de semanas a días.

Pero la máquina era una herramienta, no un reemplazo. Todos los estudios incluidos fueron verificados por revisores humanos. La lección: la IA aumenta al revisor, no lo reemplaza.

El estudio que casi no se encuentra

En junio de 2020, el ensayo RECOVERY publicó sus resultados de dexametasona.the first treatment proven to reduce COVID mortality (28-day mortality: 22.9% vs 25.7%, RR 0.83).

La preimpresión apareció en medRxiv con un título no estándar. Escenarios como este ocurrieron repetidamente durante la pandemia: los clasificadores de ML, capacitados en la terminología existente, clasificaron los marcos desconocidos en un nivel bajo.

En varias revisiones de seres vivos, los revisores humanos que escanearon los títulos marcados reconocieron nombres de medicamentos clave y escalaron estudios que los clasificadores habían despriorizado.

Sin esos humanos, los hallazgos de tratamientos históricos podrían haber esperado semanas para llegar a los vivos. revisión.

La máquina lee más rápido. El humano lee más profundamente. Ninguno de los dos es suficiente por sí solo.

Decision Tree: When Should You Use AI?

¿Su revisión examinará más de 5,000 títulos?

Yes → Consider AI-assisted screening

Active learning prioritization. Dual-screen random 10% holdout. Stop when 3 consecutive batches yield 0 relevant studies.

Report: classifier type, training data, recall on holdout, stopping rule.

No → Manual screening is feasible

For <5,000 titles, dual human screening remains gold standard. AI adds complexity without proportionate benefit.

¿Es esta una revisión viva o rápida?

If yes → AI is especially valuable. Continuous classifier retraining on new evidence. But: nunca deje que la máquina tome la decisión final de inclusión.

El patrón se repite

Methodologist

El patrón se repite

¿Recuerda el Módulo 6? Poldermans fabricó datos DECREASE que guiaron las pautas perioperatorias sobre betabloqueantes durante una década.

AI can now detect statistical anomalies automatically:

GRIM test: ¿Las medias reportadas son consistentes con tamaños de muestra enteros?
SPRITE: ¿Se pueden reconstruir las estadísticas resumidas reportadas a partir de datos individuales plausibles?
Statcheck: Do reported p-values match the test statistics?

Estas herramientas encontraron anomalías en hundreds of published papers—faster than any human auditor.

Pero la máquina falla. Los jueces humanos. La decisión de retractarse sigue siendo profundamente humana.

Module 19 Quiz

Q1. ¿Cuál es el retiro mínimo aceptable para la detección asistida por IA en revisiones sistemáticas?

A. 80%

B. 90%

C. >95%

D. 100%

Module 19 Complete

"La máquina lee más rápido. El ser humano lee más profundamente. Juntos, leen la verdad".

No todas las señales son verdad.

Módulo 20: El Cualitativo

Los métodos protegen a los pacientes de nuestra confianza.

Módulo 20: El Cualitativo

🎯 Learning Objectives

Explain why some questions require qualitative evidence synthesis
Describe meta-ethnography (Noblit & Hare) and thematic synthesis
Apply the CERQual framework to assess confidence in qualitative findings
Understand mixed-methods synthesis approaches
Recognize when qualitative evidence changes practice

La OMS hizo una pregunta

ningún ECA pudo respuesta.

¿Por qué las mujeres en todo el mundo sufren falta de respeto y abuso durante el parto? Bohren et al. (2015) sintetizaron 65 estudios cualitativos de 34 países en un marco de siete dominios de maltrato.

Diapositiva A: Una pregunta más allá de la aleatorización

Una pregunta más allá de la aleatorización

En 2014, la OMS convocó a un panel para abordar una crisis global: las mujeres estaban siendo físicamente abusadas, humilladas verbalmente y negadas atención durante el parto. Este no fue un evento raro: los informes vinieron de 34 countries.

They needed to understand WHY. What drives disrespect and abuse in maternity care?

Ningún ECA pudo responder esto. No se puede asignar aleatoriamente a las mujeres a una atención abusiva o respetuosa. No se puede cegar a las parteras. No se puede medir la “dignidad” en una escala Likert. La evidencia tenía que ser cualitativa.

Meta-Ethnography

Developed by Noblit & Hare (1988), meta-ethnography translates conceptos entre estudios en lugar de agregar números. Produce nuevos marcos interpretativos (construcciones de tercer orden) a partir de datos de primer orden (citas de los participantes) y de segundo orden (interpretaciones del autor).

Reciprocal

Los estudios se confirman entre sí

Refutational

Los estudios se contradicen entre sí

Line of
argument

Los estudios construyen un nuevo teoría

What Bohren Found: A Taxonomy of Mistreatment

1. Physical abuse

Hitting, pinching, slapping during labor

2. Sexual abuse

Inappropriate touching, non-consensual procedures

3. Verbal abuse

Shouting, threats, judgmental comments

4. Stigma & discrimination

Based on HIV status, ethnicity, age, poverty

5. Professional standards failure

Neglect, lack of informed consent

6. Poor rapport

Poor communication, dismissiveness

7. Health system conditions

Overcrowding, understaffing, lack of supplies

65 estudios. 34 países. Los mismos patrones se repitieron en todos los idiomas, culturas y sistemas. Esto no fue una anécdota. Esta fue evidencia sintetizada.

Researcher

CERQual: Confianza en la evidencia cualitativa

CERQual assesses confidence in qualitative review findings across four components:

1

Methodological Limitations

Calidad de los estudios que contribuyen.

2

Coherence

Qué tan bien los datos respaldan el hallazgo.

3

Adequacy

Riqueza de los datos (no solo el número de estudios).

4

Relevance

Aplicabilidad al contexto de la pregunta de revisión.

Diapositiva C: De la evidencia a la acción

When Qualitative Evidence Changes Practice

Bohren's synthesis informed the WHO's 2018 Recommendations on Intrapartum Care for a Positive Childbirth Experience. Specific changes grounded in qualitative evidence:

Rec. 15

Companionship during labor

Rec. 1

Respectful maternity care

Rec. 3

Effective communication

Rec. 12

Emotional support

Estas recomendaciones, basadas en evidencia cualitativa, ahora guían la atención de maternidad en 194 estados miembros de la OMS. Ninguna parcela forestal podría haberlos producido. Ninguna estadística I² podría haberlos revelado.

Bohren's Framework of Mistreatment

La síntesis cualitativa de 2015 identificó siete dominios: abuso físico, abuso sexual, abuso verbal, estigma y discriminación, incumplimiento de los estándares profesionales, mala relación y condiciones del sistema de salud. Este marco informó las Recomendaciones de la OMS sobre atención durante el parto (2018).

Ningún valor p podría capturar la experiencia de recibir una bofetada durante el parto. La síntesis cualitativa dio voz a lo que los números no pudieron.

Decision Tree: When Is Qualitative Synthesis Appropriate?

ROOT: ¿Su pregunta de investigación es sobre experiencias, percepciones, barreras o facilitadores?

YES → ¿Su pregunta es sobre el CÓMO o el PORQUÉ, no solo sobre el SI?

Yes: Qualitative evidence synthesis (meta-ethnography, thematic synthesis, or framework synthesis)
No: Considere métodos mixtos: cuantitativo para el efecto + cualitativo para mecanismo

NO →¿Su pregunta es sobre efectividad/eficacia?

Yes: Quantitative meta-analysis
But: Complemente con una revisión cualitativa de las barreras de implementación (evaluadas por CERQual)

Key insight: Las revisiones sistemáticas más sólidas responden AMBAS: ¿Funciona? (cuantitativo) Y ¿Por qué funciona o falla? (cualitativo)

Module 20 Quiz

Q1. What distinguishes meta-ethnography from quantitative meta-analysis?

A. Solo incluye de 3 a 5 estudios

B. It translates concepts across studies rather than pooling numbers

C. It does not require a systematic search

D. It is less rigorous than quantitative synthesis

Module 20 Complete

"No todo lo que cuenta se puede contar. No todo lo que cuenta cuenta."

La heterogeneidad es un mensaje, no ruido.

Módulo 21: El Multivariado

La heterogeneidad es un mensaje, no ruido.

Módulo 21: El Multivariado

🎯 Learning Objectives

Reconocer cuándo los resultados dentro de un estudio están correlacionados
Explain multivariate random-effects models
Apply robust variance estimation (RVE) for dependent effect sizes
Comprender modelos de tres niveles para anidados datos
Choose between multivariate approaches based on data structure

Cardiovascular trials report

mortalidad, infarto de miocardio, accidente cerebrovascular y más.

Estos resultados están correlacionados dentro de los pacientes. Un paciente que muere no puede tener un criterio de valoración de IM. El metanálisis estándar trata cada resultado de forma independiente, ignorando la dependencia y la posible doble contabilización de la evidencia.

Diapositiva A: La mentira de la conveniencia

La suposición que nadie cuestiona

Abra cualquier libro de texto de metanálisis estándar. Los modelos suponen que cada estudio contribuye one independent effect size. But reality is different.

Un único ensayo cardiovascular informa mortalidad, infarto de miocardio, accidente cerebrovascular y revascularización. Un solo estudio de psicoterapia informa depresión, ansiedad y calidad de vida a los 3, 6 y 12 meses.

30 trials

× 4 outcomes

= 120

effect sizes

Most analysts either: (a) treat all 120 as independent (inflating precision by a factor of √4), or (b) elija un resultado y descarte el resto. Ambos enfoques son incorrectos.

El problema de la dependencia

In standard pairwise meta-analysis, each study contributes one effect size. But many studies report multiple outcomes, subgroups, timepoints, or arms—creating dependent tamaños del efecto. Ignorar esto infla la precisión y distorsiona la inferencia.

RVE

Robust Variance Estimation. Sandwich estimator handles unknown correlation.

3-Level

Study → Outcome nesting modeled explicitly.

Researcher

Robust Variance Estimation

RVE (Hedges, Tipton & Johnson, 2010) uses a sandwich-type estimador que proporciona errores estándar válidos independientemente de la verdadera correlación entre los efectos dependientes. No es necesario conocer ni estimar la correlación dentro del estudio. Lo mejor para ≥20 estudios.

Small-sample correction: Tipton y Pustejovsky (2015) desarrollaron correcciones de muestras pequeñas (CR2) para RVE, utilizando grados de libertad de Satterthwaite cuando el número de conglomerados es pequeño.

Diapositiva B: La verdad matemática

Researcher

What Dependence Does to Your Confidence Intervals

Si 4 resultados de el mismo estudio tiene una correlación dentro del estudio ρ = 0,5:

Treating as independent

CI width = X

Contabilización de la dependencia

CI width = 1.58X

Su intervalo de confianza debe ser 58% wider. Cada metanálisis que ignoró esto publicó resultados falsamente precisos.

RVE (Hedges, Tipton & Johnson, 2010): Uses a “sandwich” variance estimator that produces correct standard errors without needing to know the exact within-study correlation.

Researcher

Three-Level Models: Making Structure Explicit

1

Level 1: Sampling Variance

Measurement error within each effect size estimate.

2

Level 2: Within-Study Variance

Los resultados y los momentos varían dentro de un solo estudio.

3

Level 3: Between-Study Variance

Los estudios difieren entre sí en poblaciones, entornos y métodos.

Example: En un metanálisis de psicoterapia para la depresión (k=50 estudios, 180 efectos) tamaños), 35% de la varianza fue dentro del estudio (diferentes resultados) y 65% fue entre estudios (diferentes terapias, poblaciones). Esta descomposición revela cuánta heterogeneidad hay within vs between studies.

Methodologist

Three-Level Models: Formal Framework

Cuando los efectos están anidados (por ejemplo, resultados múltiples dentro de estudios o estudios dentro de grupos de investigación), una three-level model divide la varianza en: (1) varianza muestral (nivel 1), (2) varianza dentro del estudio (nivel 2) y (3) varianza entre estudios (nivel 3). Esto mantiene la inferencia correcta al tiempo que toma prestada fuerza en todos los niveles.

El desafío cardiovascular

Un metanálisis de estatinas podría incluir 30 ensayos, cada uno de los cuales informaría sobre mortalidad, infarto de miocardio, accidente cerebrovascular y revascularización. Es decir, 120 tamaños de efectos de 30 grupos. Tratarlos como 120 estimaciones independientes infla la precisión por un factor relacionado con la correlación dentro del estudio.

RVE or multivariate models handle this correctly—producing wider, honest confidence intervals.

Decision Tree: Which Approach for Dependent Effect Sizes?

ROOT: ¿Su metanálisis tiene múltiples efectos por estudio?

YES → ¿Conoce (o puede estimar) las correlaciones dentro del estudio?

Yes: Multivariate random-effects model (most efficient)
No: RVE with small-sample correction (robust to unknown correlations)

NO → Standard univariate random-effects model

Sub-question: ¿Sus múltiples efectos provienen de diferentes resultados? ¿puntos de tiempo o subgrupos?

Different outcomes → Three-level model or RVE with clustering
Different timepoints → Network of timepoints with temporal correlation
Different subgroups → Consider if subgroups are meaningful or should be averaged

Module 21 Quiz

Q1. What problem does Robust Variance Estimation (RVE) solve?

A. Publication bias

B. Dependencia entre múltiples tamaños de efectos del mismo estudio

C. Between-study heterogeneity

D. Small-study effects

Module 21 Complete

"Cuando los resultados están entrelazados, pretender que son independientes es una mentira de conveniencia".

El número sin procedencia no es un número.

Módulo 22: El Prueba

El número sin procedencia no es un número.

Módulo 22: El Prueba

🎯 Learning Objectives

Understand how computational errors propagate through policy
Definir reproducibilidad y distinguir de replicabilidad
Aplicar hash de evidencia y transporte de pruebas números
Use reproducibility checklists for meta-analysis
Reconoce el papel del prerregistro y los datos abiertos

A graduate student opened a spreadsheet

y descubrió que la era de la austeridad se construyó sobre un error.

En 2010, Reinhart y Rogoff afirmaron que los países con una relación deuda-PIB >90% tenían un crecimiento negativo. Esto influyó en las políticas de austeridad en toda Europa. En 2013, Thomas Herndon encontró un error de Excel que excluía a 5 países del promedio. El resultado corregido: crecimiento positivo modesto, no colapso.

Reproducibility vs Replicability

Reproducible

Same data + same code = same result

Replicable

Nuevos datos + mismos métodos = resultado consistente

Reproducibility is the minimum standard. Si otros no pueden reproducir su estimación agrupada a partir de los datos informados, el análisis no podrá verificarse. Los metanálisis deben compartir: datos extraídos, scripts de análisis, versiones de software y semillas aleatorias.

Researcher

Proof-Carrying Numbers

Every number in a meta-analysis should carry its provenance: de dónde vino, cómo se transformó y qué código lo produjo. Evidence hashing creates a cryptographic fingerprint of inputs so any change (accidental or deliberate) is detectable.

SHA

Input Hash

Hash SHA-256 de datos extraídos. Si una celda cambia, el hash cambia. Cadena de procedencia: datos → código → resultado → hash.

Interactive: Reproducibility Checklist

Marque cada elemento para evaluar la reproducibilidad de un metanálisis. ¿Cómo califica su revisión?

El error de Excel que cambió las economías

El "Crecimiento en tiempos de deuda" de Reinhart-Rogoff fue citado en testimonios ante el Congreso, informes de la Comisión Europea y resúmenes de políticas del FMI. El error de Excel (las filas 30 a 34 se excluyeron de una fórmula PROMEDIO) significó que cinco países (Australia, Austria, Bélgica, Canadá y Dinamarca) simplemente faltaban.

El promedio corregido pasó de −0,1% a +2,2%. Las políticas de austeridad afectaron a millones. La reproducibilidad no es perfeccionismo académico: es una salvaguardia contra la catástrofe.

Remember Module 5?

DECREASE Through the Lens of Reproducibility

Los ensayos DECREASE de Don Poldermans fueron retractados por datos fabricados. Si hubieran existido números que portaban pruebas (entradas codificadas, cadenas de procedencia, cálculos verificados), la fabricación habría sido detectable before la evidencia ingresó a los metanálisis y cambió las pautas quirúrgicas.

Module 22 Quiz

Q1. ¿Cuál fue el error de Reinhart-Rogoff?

A. They used too small a sample

B. An Excel formula excluded 5 countries, reversing the conclusion

C. They studied the wrong time period

D. They used the wrong statistical test

Module 22 Complete

"El número sin procedencia no es un número. El análisis sin reproducibilidad no es evidencia."

Certainty must be earned, not assumed.

Módulo 23: Su primer Meta-Sprint

Certainty must be earned, not assumed.

Módulo 23: Su primer Meta-Sprint

🎯 Learning Objectives

Comprenda el flujo de trabajo de revisión sistemática de 40 días
Map the Seven Principles to real practice phases
Recognize Definition-of-Done (DoD) gates as quality checkpoints
Appreciate why structure prevents the failures you've studied
Graduate ready to conduct (not just understand) meta-analysis

El viaje Completa

Has aprendido las historias.

Ahora debes recorrer el camino.

Cada reversión de evidencia que estudiaste ocurrió porque los equipos knew los métodos pero no lo hizo follow them systematically.

El marco META-SPRINT

Un flujo de trabajo estructurado de 40 días con 5 puertas de fase. Cada puerta es un punto de control de Definición de Hecho (DoD) que le impide avanzar hasta que se garantice la calidad.

40

Days to Completion

5

DoD Phase Gates

Day 34

Hard Freeze

Why 40 days? Suficientemente largo para el rigor, lo suficientemente corto para evitar cambios en el alcance. Las señales cardíacas de rosiglitazona estuvieron enterradas durante años porque no había una fecha límite que obligara a la transparencia.

Las cinco puertas

Las cinco puertas de fase

A

DoD-A: Protocol Lock (Days 1-3)

PICOS defined, timepoint rules set, model choices pre-specified. No moving target.

B

DoD-B: Search Lock (Days 6-10)

All databases searched, grey literature checked, PRESS validated. No hidden studies.

C

DoD-C: Extraction Lock (Days 10-28)

Dual extraction, provenance linked, RoB assessed. No fabricated numbers.

The Five Phase Gates (continued)

D

DoD-D: Bloqueo de análisis (días 21-33)

Forest plots generated, sensitivity analyses run, heterogeneity explored. No cherry-picking.

E

DoD-E: Submission Lock (Days 33-40)

GRADE certainty rated, clinical summary written, manuscript finalized. No overconfidence.

Day 34 Freeze: No se pueden agregar nuevos estudios después del día 34. Esto evita el "desplazamiento del alcance armado" que plagaba los metanálisis de cirugía de columna BMP, donde la industria seguía "encontrando" estudios favorables.

Los siete principios en la práctica

Every principle you learned maps to a specific phase gate:

DoD-A "No todas las señales son verdad" — Especifique previamente lo que cuenta como evidencia

DoD-B "What was hidden in plain sight?" — Search comprehensively

DoD-C "El número sin procedencia no es un número" — Vincula cada punto de datos

DoD-D "La heterogeneidad es un mensaje, no ruido" — Investigate, don't ignore

DoD-E "Certainty must be earned, not assumed" — GRADE everything

El principio del equipo rojo

Tu propio equipo intenta interrumpe tu trabajo.

Todos los días, dos miembros rotativos del equipo dedican 12 minutos a verificar la calidad de los datos como adversarios. Así es como se detectó el fraude de Boldt: no mediante una revisión amigable, sino mediante una verificación escéptica que detectó tasas de reclutamiento imposibles.

CondGO: When Things Go Wrong

What happens when you discover a critical problem mid-sprint?

CondGO = Conditional Go

A bounded rescue protocol. You have exactly 72 hours para solucionar el problema usando solo acciones permitidas. Si no puede solucionarlo, debe detener la revisión.

📖 La lección de Avandia: GSK vio señales cardiovasculares en 2000, pero no tenía una fecha límite forzada. Ellos "observaron y esperaron" durante 7 años. Decenas de miles resultaron perjudicados. CondGO existe porque "eventualmente nos ocuparemos de ello" mata a la gente.

Comenzaste este curso con historias.

Lo terminas listo para practicar.

El flujo de trabajo META-SPRINT toma todo lo que has aprendido y lo estructura en un sistema de 40 días que previene las fallas que has estudiado.

Cuando esté listo para realizar una revisión sistemática real, abra la aplicación META-SPRINT. Las historias que ha aprendido aquí lo guiarán y aparecerán como recordatorios en cada paso.

HISTORIA: La colaboración CTT: cuando los métodos ahorran millones

What does it look like when every principle is followed?

REAL DATA

La colaboración de los investigadores del tratamiento del colesterol (CTT) es el estándar de oro del metanálisis. Obtuvieron datos de pacientes individuales de más de 170.000 participantes across 26 statin trials. Pre-specified protocol. IPD from all major trials. Standardized outcomes. Result: statins reduce major vascular events by 21% per mmol/L LDL reduction (RR 0.79, 95% CI 0.77-0.81), regardless of baseline risk. This finding, replicated across 5 metanálisis durante 15 años, has prevented an estimated millions of heart attacks and strokes worldwide.

Los siete principios aplicados

La historia de CTT muestra lo que sucede cuando cada principio de este curso se aplica seguido. Considere la alternativa:

RUTA A: Sin los principios

No protocol. Published data only. No RoB. No heterogeneity investigation. No GRADE.

↓

Conflicting small trials. Statin controversy persists. Millions untreated.

OUTCOME: Preventable cardiovascular deaths continue

RUTA B: La forma CTT

Protocolo prerregistrado. DPI de todos los ensayos. Resultados estandarizados. Métodos transparentes. GRADO Certeza alta.

↓

Respuesta definitiva. Las pautas globales cambian. Estatinas recetadas a quienes se benefician.

OUTCOME: Millions of lives saved by rigorous evidence synthesis

THE REVELATION

Cada principio de este curso existe porque su ausencia causó daño. La Colaboración CTT demuestra que cuando los métodos son rigurosos, cuando los datos tienen procedencia, cuando se evalúa el sesgo y se gana la certeza, el metanálisis se convierte en la herramienta más poderosa en medicina. Ahora llevas estos principios. Úsalos.

Capstone Quiz

1. ¿Cuál es el propósito del "congelamiento total" del día 34 en META-SPRINT?

A. Para dar tiempo a la revisión por pares

B. Para evitar que los estudios agregados tarde manipulen los resultados

C. To speed up publication

D. Para coordinar con las fechas límite de la revista

2. The CondGO protocol gives teams how long to fix critical problems?

A. 24 hours

B. 48 hours

C. 72 hours

D. 1 week

3. Red-team adversarial QA caught Joachim Boldt's fraud by noticing:

A. Impossible patient recruitment rates

B. p-hacking in statistical tests

C. Inconsistent effect sizes

D. Whistleblower testimony

Las historias que has aprendido no son historia.

Son advertencias que protegen su trabajo futuro.

Cuando realice su primer metanálisis,
remember CAST before you trust a signal,
remember Poldermans before you skip provenance,
recuerde Reboxetine antes de ignorar el embudo.

Ahora está listo. Vaya con la estructura. Vaya con humildad. Vaya con los siete principios.

No todas las señales son verdad.

Módulo 24: Examen final

Certainty must be earned, not assumed.

Final Examination

Final Exam: Part 1 of 2

Pon a prueba su dominio de los principios del metanálisis. Cada pregunta aborda un concepto central del curso.

Q1. Un investigador quiere estudiar "los efectos del ejercicio en la salud". ¿Cuál es el problema PRIMARIO con esta pregunta de investigación?

A. It lacks randomization

B. Sample size is too small

C. It is not answerable—lacks specific PICO elements

D. It lacks ethical approval

Q2. Un gráfico en embudo muestra una asimetría pronunciada con estudios faltantes en la región inferior izquierda. ¿Qué sugiere esto?

A. Large studies have more precise estimates

B. Es probable que los pequeños estudios negativos no estén publicados

C. The true effect is stronger than estimated

D. Random sampling error

Q3. Un metanálisis informa I² = 85 % y τ² = 0,42. ¿Cuál es la interpretación MÁS apropiada?

A. There is an 85% chance of a true effect

B. The effect size is very large

C. Substantial between-study variance exists; investigate sources

D. Los resultados son clínicamente importantes

Q4. En GRADE, ¿cuál es la certeza inicial para un conjunto de evidencia de ensayos controlados aleatorios?

A. High

B. Moderate

C. Low

D. Very low

Q5. In RoB 2.0, which domain assesses whether outcome assessors knew the treatment allocation?

A. D1: Randomization process

B. D2: Desviaciones de las intervenciones previstas

C. D3: Resultado faltante datos

D. D4: Medición del resultado

Final Exam: Part 2 of 2

Q6. El ensayo CAST demostró que los fármacos antiarrítmicos aumentaron la mortalidad a pesar de suprimir las arritmias. Este es un ejemplo de:

A. Random sampling error

B. Surrogate outcome failure

C. Confounding by indication

D. Reverse causation

Q7. When should a random-effects model be preferred over a fixed-effect model?

A. When sample sizes are large

B. Cuando los resultados son binarios

C. When between-study heterogeneity is expected

D. When publication bias is suspected

Q8. According to ICEMAN criteria, which makes a subgroup analysis MORE credible?

A. Hypothesis specified a priori

B. Large number of subgroups tested

C. No biological rationale

D. Inconsistent effects across trials within subgroup

Q9. What assumption must be checked in network meta-analysis to ensure valid indirect comparisons?

A. All studies have equal sample sizes

B. Todos los estudios miden el mismo resultado

C. Transitivity (consistency of effect modifiers)

D. Double-blinding in all trials

Q10. En el análisis secuencial de ensayos (TSA), ¿qué indica cruzar el límite de inutilidad?

A. Las causas del tratamiento daño

B. Es poco probable que más estudios muestren un efecto significativo

C. La evidencia es concluyente para el beneficio

D. El metanálisis no tiene suficiente poder estadístico

Part 1 Complete — continue to Part 2 (Advanced Modules)

Parte 2: Preguntas del módulo avanzado (Q11-Q25)

Final Exam: Part 2 of 2 (Advanced)

Questions 11–25 cover Modules 13–22 (Bayesian, NMA, IPD, Dose-Response, Fragility, Equity, AI, Qualitative, Multivariate, Reproducibility).

Q11. En el metanálisis bayesiano, ¿qué sucede cuando se utiliza un previo vago en muchos estudios?

A. El posterior coincide estrechamente con el resultado frecuentista

B. El anterior domina el posterior

C. The credible interval becomes infinitely wide

D. El modelo no logra converger

Q12. En el antidepresivo NMA de Cipriani, ¿por qué ningún medicamento fue declarado "ganador"?

A. Muy pocos estudios

B. Different drugs ranked best on different outcomes

C. No había evidencia indirecta disponible

D. SUCRA no pudo ser calculado

Q13. ¿Por qué nunca se deben agrupar los IPD como si fueran de un mega-ensayo?

A. IPD always has fewer studies than aggregate

B. Ignora la agrupación de estudios e introduce confusión

C. No puede manejar datos de tiempo hasta el evento

D. Binary outcomes cannot be pooled

Q14. What caused the alcohol "J-curve" to disappear in Stockwell's reanalysis?

A. Se agregaron nuevos estudios que no mostraron beneficio

B. Los ex bebedores fueron eliminados correctamente del grupo de referencia de abstemios

C. Se aumentó el tamaño de la muestra

D. Mejor ajuste para los factores de confusión

Q15. En la saga del oseltamivir, ¿qué descubrió Cochrane al acceder a informes de estudios clínicos no publicados?

A. El medicamento fue completamente ineficaz

B. El efecto fue mayor de lo que se pensaba originalmente

C. El beneficio por complicaciones desapareció en gran medida

D. Side effects were more common than reported

Q16. ¿Qué porcentaje de pacientes hipertensos de EE. UU. NO habrían calificado para el ensayo SPRINT?

A. About 25%

B. About 50%

C. Over 75%

D. Nearly 100%

Q17. Why is AI considered an "augmenter" rather than a "replacer" in systematic reviews?

A. AI is slower than human reviewers

B. AI has perfect recall

C. AI screens fast but cannot make human-level contextual judgments

D. AI is too expensive for most reviews

Q18. What does the "adequacy" component of CERQual assess?

A. El número de estudios solo

B. La riqueza y cantidad de datos que respaldan el hallazgo

C. Coherencia de los hallazgos entre los estudios

D. Generalizability to other populations

Q19. A meta-analysis includes 30 statin trials, each reporting 4 correlated outcomes (120 effect sizes). Which approach is correct?

A. Treat all 120 as independent effect sizes

B. Use RVE with small-sample correction

C. Pick only one outcome per study

D. Promedio de los 4 resultados dentro de cada estudio

Q20. En el error de Reinhart-Rogoff, ¿cuál fue la tasa de crecimiento promedio corregida para personas con deuda alta? ¿Países?

A. −0.1% (same as claimed)

B. +2.2%

C. 0%

D. +5%

Passing Score: 15/20 across both parts

Revise las preguntas perdidas regresando al módulo correspondiente. Cada pregunta pone a prueba un concepto central.

No todas las señales son verdad.

Los métodos protegen a los pacientes de nuestra confianza.

Congratulations

Has completado Evidence Reversal: Un curso de metaanálisis.

Que tu síntesis sea guiada por la verdad, tu combinación por la sabiduría,
y tus conclusiones por la humildad.

Los siete Principios:

"No todas las señales son verdad."

"Los métodos protegen a los pacientes de nuestra confianza."

"What was hidden in plain sight?"

"El número sin procedencia no es un número."

"La heterogeneidad es un mensaje, no ruido."

"La ausencia de evidencia no es evidencia de ausencia."

"Certainty must be earned, not assumed."

"Guíanos al camino recto..."

Your Progress

Los Siete Principios

Badges Earned

Learning Streak

Módulo 0: La apertura

🎯 Learning Objectives

What is Meta-Analysis?

¿Por qué combinar estudios?

Increase Statistical Power

Improve Precision

Resolve Disagreement

Explore Heterogeneity

Cuándo NO combinar

La jerarquía de la evidencia

Los Siete Principios

Module 0 Quiz

1. ¿Por qué a veces NO debería agrupar estudios en un metanálisis?

2. ¿Dónde se ubican las revisiones sistemáticas de ECA en la jerarquía de evidencia?

Módulo 1: La pregunta

🎯 Learning Objectives

The Observation

The Response

La lógica que convenció a todos

CAST: The Cardiac Arrhythmia Suppression Trial

Los resultados: abril de 1989

El ser humano Costo

La lógica: revisada

What Went Wrong: The Surrogate Trap

El marco PICO

Ejercicio de investigación: la evidencia antes del CAST

Before: Observational Logic

After: CAST RCT (1989)

Las lecciones para la síntesis de evidencia

La plausibilidad biológica no es prueba

Surrogate endpoints can mislead

Los ensayos aleatorios proporcionan la evidencia causal más sólida

El consenso no es evidencia

REAL DATA

Module 1 Quiz

1. ¿Cuál fue el error fundamental en la lógica antiarrítmica?

2. En PICO, ¿qué significa la "O" y por qué es importante?

Módulo 2: El Protocolo

🎯 Learning Objectives

El estudio de salud de las enfermeras

El sesgo oculto

WHI: The Women's Health Initiative

Los resultados: julio de 2002

REAL DATA

PROSPERO Registration

Regístrese antes de buscar

Bloquee sus decisiones

Document Amendments

Prevent Duplication

Module 2 Quiz

1. ¿Por qué el Estudio de salud de las enfermeras mostró un beneficio de la TRH que WHI no mostró?

2. What is the primary purpose of PROSPERO registration?

Módulo 3: La Búsqueda

🎯 Learning Objectives

La evidencia publicada (antes de 2007)

Nissen's Discovery: May 2007

Los resultados del metanálisis

The FDA Advisory Committee: July 2007

The Aftermath

What a Comprehensive Search Requires

La lista de verificación de PRENSA

Traducción de la pregunta de investigación

Operadores booleanos y de proximidad

Subject Headings

Text Words

PRESS Checklist (continued)

Spelling, Syntax, Line Numbers

Límites y filtros

Database Translation

REAL DATA

Module 3 Quiz

1. ¿Qué tipo de fuente de evidencia reveló la señal cardiovascular de rosiglitazona?

2. What does PRESS stand for?

Módulo 4: La detección

🎯 Learning Objectives

El auge de Vioxx