Módulo 0: La apertura

No todas las señales son verdad.

🎯 Learning Objectives

  • Definir el metanálisis y explicar su papel en la síntesis de evidencia
  • Identificar cuándo NO se deben realizar los estudios agrupado
  • Describe la jerarquía de evidencia y dónde se ubican las revisiones sistemáticas
  • Recognize that meta-analysis can mislead when done poorly
  • Recuerda los siete principios que sustentan este curso

Este curso existe porque

la medicina estaba equivocada.

Ni una sola vez. No es raro. Repetidamente. De maneras que mataron a los pacientes que confiaban en que la evidencia era sólida.

Un método estadístico para combinar resultados de múltiples estudios independientes que abordan la misma pregunta.

1976
Term coined by Gene Glass
~50,000
Published per year
#1
Evidence hierarchy*

*When well conducted. Quality of conduct matters more than study design alone — as GRADE recognizes.

1

Increase Statistical Power

Individual studies may be too small to detect effects.

2

Improve Precision

Narrower confidence intervals around effect estimates.

3

Resolve Disagreement

Cuando los estudios entran en conflicto, la combinación puede aclarar la señal.

4

Explore Heterogeneity

Identify why effects differ across populations or settings.

But meta-analysis can also

MISLEAD

When done poorly, it amplifies bias rather than truth.

1

Los estudios miden cosas fundamentalmente diferentes (manzanas y naranjas)

2

Extreme heterogeneity that cannot be explained

3

One study dominates all others (megastudy problem)

4

Los estudios tienen un alto riesgo de sesgo que no se puede ajustar

La agrupación es un privilegio, no un derecho.

The decision to combine must be defended.

Systematic Reviews & Meta-Analyses of RCTs

Randomized Controlled Trials

Cohort Studies

Case-Control Studies

Case Series / Expert Opinion

La posición en la jerarquía depende de la calidad de la metodología, no del tipo de estudio solo.

Este curso enseña a través de

evidence reversals.

Cada módulo comienza con una historia de cómo la medicina se equivocó. Luego aprendemos el método que habría evitado el daño.

Estas frases volverán a lo largo de su viaje:

1. "No todas las señales son verdad."

2. "Los métodos protegen a los pacientes de nuestra confianza."

3. "What was hidden in plain sight?"

4. "El número sin procedencia no es un número."

5. "La heterogeneidad es un mensaje, no ruido."

6. "La ausencia de evidencia no es evidencia de ausencia."

7. "Certainty must be earned, not assumed."

1. ¿Por qué a veces NO debería agrupar estudios en un metanálisis?

A. Pooling is always better than single studies
B. When heterogeneity is extreme or studies measure different things
C. Pooling is always appropriate for RCTs
D. Statistical methods handle any situation

2. ¿Dónde se ubican las revisiones sistemáticas de ECA en la jerarquía de evidencia?

A. At the top
B. Same level as individual RCTs
C. A continuación, estudios de cohortes
D. Same as expert opinion

Comience el viaje.

Módulo 1: La pregunta

Módulo 1: La pregunta (CAST)

No todas las señales son verdad.

Esta no es una historia sobre errores.

Es una historia sobre certeza.

🎯 Learning Objectives

  • Formule una pregunta PICO enfocada para una revisión sistemática
  • Distinguish surrogate outcomes from patient-important outcomes
  • Explain why biological plausibility alone is insufficient evidence
  • Describa el ensayo CAST y sus implicaciones para la investigación basada en evidencia. medicina
  • Aplica el principio: "No toda señal brillante es una guía"

excess deaths per year

From a treatment everyone believed worked.

Esta es la historia de cómo creímos y de cómo nos equivocamos.

Patients with frequent PVCs after MI had 2-5x higher mortality.

400,000+
MI survivors/year
~40%
con importantes PVC
160,000
at elevated risk

A massive clinical need. A clear target.

Antiarrhythmic drugs were developed, FDA approved,
and prescribed to ~200,000 patients per year.

No aparece ningún villano en esto historia.

Todos actuaron basándose en la mejor evidencia disponible.

PREMISE 1

PVCs after MI predict sudden cardiac death

PREMISE 2

Antiarrhythmic drugs suppress PVCs

PREMISE 3

Suppressing PVCs should prevent sudden death

La cadena era lógica. La conclusión parecía inevitable.

Finally, someone asked: "Does suppressing PVCs actually save lives?"

Design
Randomized, double-blind, placebo-controlled
Population
Post-MI patients with asymptomatic PVCs
Intervention
Encainide, flecainide, or moricizine vs placebo
Run-in
Only patients with ≥80% PVC suppression randomized
Primary endpoint
Death or cardiac arrest with resuscitation
Sample size
1,498 patients (encainide/flecainide arms)

La Junta de Monitoreo de Seguridad de Datos detiene el ensayo antes de tiempo.

Outcome Drug (n=755) Placebo (n=743)
Arrhythmic deaths 33 9
All cardiac deaths 43 16
Total deaths 56 22
Death rate 7.4% 3.0%
Relative Risk of Death: 2.5
95% CI: 1.6 - 4.5 | p < 0.001

Los medicamentos que suprimieron perfectamente las arritmias aumentaron la mortalidad en un 150%.

El ser humano Costo

Before CAST, ~200,000 Americans per year received these drugs.

~9,000

excess deaths per year - possibly more

Vietnam War: ~6,000 US deaths/year • These drugs: ~9,000+ deaths/year

For every number, a name we will never know.

Look again.

PREMISE 1

PVCs after MI predict sudden cardiac death

PREMISE 2

Antiarrhythmic drugs suppress PVCs

← THE LEAP
PREMISE 3

Suppressing PVCs should prevent sudden death

La suposición de que suprimir el marcador arreglaría el resultado nunca se probó.

1

Las CVP eran un marcador de tejido dañado, no una causa de muerte

2

The drugs had proarrhythmic effects - triggering deadlier rhythms

3

El sustituto mejoró mientras que el resultado empeoró: un sustituto disociado

El sustituto no mintió. Le hicimos la pregunta equivocada.

Every answerable clinical question has four components:

P - POPULATION
¿Quiénes son los pacientes? ¿Cuáles son sus características?
I - INTERVENTION
What treatment or exposure is being evaluated?
C - COMPARATOR
What is the alternative? Placebo? Standard care?
O - OUTCOME
What matters to patients? Hard endpoints vs surrogates.
CAST PICO
Post-MI patients with PVCs | Antiarrhythmics | Placebo | Mortality
🔍

Ejercicio de investigación: la evidencia antes del CAST

Usted es cardiólogo en 1988. Un paciente ha sobrevivido a un infarto de miocardio pero tiene CVP frecuentes. La literatura observacional es clara...

StudyPacientes con CVPMortality Risk
Lown (1977)High-grade PVCs2.4x higher
Bigger (1984)>10 PVCs/hour3.1x higher
Mukharji (1984)Complex PVCs4.8x higher

La señal es clara. El mecanismo es plausible. ¿Le recetaría antiarrítmicos?

Before: Observational Logic

PVCs → Higher mortality

Drugs suppress PVCs

∴ Drugs should reduce mortality

After: CAST RCT (1989)

Death rate on drug: 7.4%

Death rate on placebo: 3.0%

RR = 2.5 (150% increase in deaths)

La madre sustituta mejoró. Los pacientes murieron. Por eso preguntamos: "¿Cuál es el resultado que importa?"

1

La plausibilidad biológica no es prueba

A logical mechanism doesn't guarantee the expected effect.

2

Surrogate endpoints can mislead

Improving a biomarker doesn't prove improvement in outcomes.

3

Los ensayos aleatorios proporcionan la evidencia causal más sólida

Los datos de observación por sí solos rara vez establecen causalidad de las intervenciones debido a factores de confusión.

4

El consenso no es evidencia

200.000 recetas, la aprobación de la FDA y las pautas estaban equivocadas.

This is why we do meta-analysis: to see past apparent truths.

HISTORIA: La tragedia del sustituto DES-II

¿Qué pasa si la pregunta que usted ¿Preguntar determina quién vive y quién muere?

REAL DATA

En 1989, los cardiólogos sabían que La supresión de PVC se podía lograr con encainida y flecainida. El criterio de valoración sustituto parecía perfecto: los fármacos suprimieron las CVP en 80%+. But CAST randomized 1,498 patients al fármaco activo frente al placebo. El ensayo se detuvo antes de tiempo: 56 deaths in the drug group vs 22 in placebo. Mortality increased 2.5-fold. An estimated ~9,000 excess American deaths per year eran atribuibles a estos medicamentos.

La elección del cardiólogo: 1987
Su paciente después de un infarto de miocardio tiene CVP frecuentes. Tienes medicamentos que los suprimen por completo. ¿Qué haces?
RUTA A: Tratar al sustituto
Prescribe encainide — PVCs vanish, the ECG looks clean
El biomarcador mejora. Te sientes seguro. El paciente muere.
OUTCOME: An estimated 50,000+ excess deaths across the US during years of use
PATH B: Demand a Mortality Trial
Insistir: "Muéstrame que mejora la supervivencia, no sólo el ECG"
El ensayo revela daño. Se retiran las drogas. Se salvan vidas.
RESULTADO: La pregunta PICO correcta previene una catástrofe
THE REVELATION
La pregunta nunca fue "¿Podemos suprimir las CVP?" Era "¿La supresión del PVC salva vidas?" Un criterio de valoración sustituto respondió la pregunta equivocada. El PICO correcto habría exigido la mortalidad como resultado desde el principio.

What appears certain may be wrong.

What everyone believes may be false.

Existen métodos para que los pacientes no paguen por nuestra confianza.

Por eso estás aquí.

1. ¿Cuál fue el error fundamental en la lógica antiarrítmica?

A. Los ensayos no fueron aleatorios
B. Treating a surrogate (PVCs) was assumed to improve outcomes
C. El tamaño de la muestra era demasiado pequeño
D. La aprobación de la FDA fue apresurada

2. En PICO, ¿qué significa la "O" y por qué es importante?

A. Observation - what researchers see
B. Objetivo: el objetivo de la investigación
C. Outcome - what matters to patients
D. Organización: estructura del estudio

No todas las señales son verdad.

Los métodos protegen a los pacientes de nuestra confianza.

Módulo 2: El Protocolo (HRT)

What was hidden in plain sight?

Esta es una historia sobre

observational evidence.

🎯 Learning Objectives

  • Explain why protocol pre-registration prevents bias
  • Identify key elements of a PROSPERO registration
  • Distinguish healthy user bias from true treatment effects
  • Describe why observational studies overestimated HRT benefits
  • Aplicar el principio: "Los métodos protegen a los pacientes de nuestra confianza". confianza"

observational studies

All showing hormone replacement therapy protected postmenopausal women from heart disease.

La evidencia parecía abrumadora. La conclusión parecía segura.

122,000 nurses followed for decades. HRT users had 40-50% lower cardiovascular mortality.

RR 0.56
Cardiovascular mortality
122,000
Women followed
20+ years
Follow-up

Landmark study. Impeccable methodology. Wrong conclusion.

1

Healthy User Bias: Women who chose HRT were healthier, wealthier, better educated

2

Compliance Bias: Women who took HRT consistently also took better care of themselves

3

Prescriber Bias: Doctors gave HRT to healthier women with fewer risk factors

El tratamiento no las protegía. Ya estaban protegidos.

The largest randomized trial of HRT ever conducted.

Design
Randomized, double-blind, placebo-controlled
Population
Postmenopausal women aged 50-79
Intervention
Estrogen + Progestin vs Placebo
Sample size
16,608 women
Primary endpoint
Coronary heart disease
Planned duration
8.5 years

Trial stopped early after 5.2 years. Harm exceeded benefits.

Outcome Hazard Ratio Direction
Coronary heart disease 1.29 HARM
Stroke 1.41 HARM
Breast cancer 1.26 HARM
Pulmonary embolism 2.13 HARM
Complete Reversal
30 años de evidencia observacional revocados

The Lesson

PRE-SPECIFY

A protocol written before the search begins prevents fishing, prevents bias, prevents hindsight distortion.

HISTORIA: La hipótesis del momento hormonal

¿Qué pasa si el tratamiento funciona, pero sólo para ¿algunos?

REAL DATA

WHI showed HRT increased cardiovascular events overall. But later analyses revealed a critical pattern: women who started HRT within 10 years of menopause had REDUCED cardiovascular risk. Women starting 20+ years after menopause had INCREASED risk. The overall null/harm result hid a timing effect.

El dilema del analista
Usted está analizando subgrupos de WHI. El resultado general muestra daño. ¿Profundizas más?
PATH A: Report Overall Only
Conclude HRT is harmful for all postmenopausal women
Simple message. Guidelines recommend against HRT universally.
OUTCOME: Deny potential benefit to younger menopausal women
PATH B: Pre-Specify Timing Subgroups
Analyze by years since menopause (biologically plausible)
Descubre la "ventana de tiempo" para un inicio seguro de HRT.
OUTCOME: Enable personalized recommendations
THE REVELATION
El análisis de subgrupos es peligroso al pescar. Es esencial cuando la biología predice la modificación del efecto. La hipótesis del momento era biológicamente plausible y debería haber sido especificada previamente.
1

Regístrese antes de buscar

PROSPERO: International prospective register of systematic reviews

2

Bloquee sus decisiones

PICO, search strategy, outcomes, analysis plan - all pre-specified

3

Document Amendments

Se permiten cambios, pero deben ser transparentes y justificados

4

Prevent Duplication

Compruebe si su reseña ya existe antes comenzando

1. ¿Por qué el Estudio de salud de las enfermeras mostró un beneficio de la TRH que WHI no mostró?

A. Nurses' Health had too few patients
B. Healthy user bias in observational studies
C. Nurses' Health had shorter follow-up
D. Different hormone formulations were used

2. What is the primary purpose of PROSPERO registration?

A. To register clinical trials
B. Para acelerar la finalización de la revisión
C. Para preespecificar los métodos y evitar sesgos
D. Para obtener financiación para las revisiones

La preespecificación no es burocracia.

It is protection.

Against our own tendency to find what we expect.

Los métodos protegen a los pacientes de nuestra confianza.

What was hidden in plain sight?

Módulo 3: La Búsqueda

Módulo 3: La Búsqueda (Rosiglitazona)

What was hidden in plain sight?

Esta es una historia sobre

what they didn't publish.

🎯 Learning Objectives

  • Develop a comprehensive search strategy using PRESS guidelines
  • Search multiple databases including grey literature sources
  • Identify trial registries and regulatory databases (ClinicalTrials.gov, FDA)
  • Explain how the rosiglitazone case exposed hidden cardiovascular harms
  • Aplicar el principio: "¿Qué estaba oculto a plena vista?"

annual sales at peak

Avandia (rosiglitazona) fue uno de los los medicamentos para la diabetes más vendidos en el mundo.

Los ensayos publicados parecían tranquilizadores. Los inéditos contaban una historia diferente.

Published trials showed rosiglitazone effectively lowered HbA1c. Cardiovascular outcomes were rarely reported.

1999
FDA approval
6M+
Patients treated
~0.7%
HbA1c reduction

La madre sustituta se veía bien. Pero ¿qué pasa con los eventos cardiovasculares reales?

Dr. Steven Nissen obtuvo datos de ensayos no publicados del propio sitio web de GSK.

Un acuerdo legal exigió a GSK que publicara los resultados de los ensayos clínicos en línea. Nissen y Wolski analizaron 42 ensayos, muchos de ellos nunca publicados en revistas.

Los datos eran técnicamente públicos.

No one had systematically searched for it.

Outcome Odds Ratio 95% CI
Myocardial Infarction 1.43 1.03 - 1.98
CV Death 1.64 0.98 - 2.74
43% Increased Risk of Heart Attack
p = 0,03 para infarto de miocardio

Published in NEJM. The FDA called an emergency advisory committee meeting.

The FDA Advisory Committee: July 2007

22-1
Voted: CV risk exists
20-3
Continúa mercado con advertencias

El comité estaba dividido. Algunos querían que se retirara. Algunos calificaron el metanálisis como defectuoso.

Pero la señal no podía pasar desapercibida.

1

Black box warning added for heart failure risk (2007)

2

Severe restrictions on prescribing in the US (2010)

3

Withdrawn completamente del mercado europeo (2010)

4

FDA now requires cardiovascular outcome trials for all diabetes drugs

PUBLISHED
PubMed, Embase, CENTRAL, Web of Science
GREY LITERATURE
Conference abstracts, dissertations, regulatory docs
TRIAL REGISTRIES
ClinicalTrials.gov, WHO ICTRP, EU CTR
REGULATORY
FDA, EMA, Health Canada submissions
COMPANY DATA
GSK, Pfizer, Roche clinical trial registries
HAND SEARCH
Reference lists, contact authors, experts

Peer Review of Electronic Search Strategies

1

Traducción de la pregunta de investigación

¿La búsqueda refleja el PICO? elementos?

2

Operadores booleanos y de proximidad

¿Y, O, NO se usan correctamente?

3

Subject Headings

¿Los términos MeSH/Emtree son apropiados y están desglosados?

4

Text Words

Synonyms, spelling variants, truncation?

5

Spelling, Syntax, Line Numbers

¿Hay errores que podrían causar la recuperación? ¿Fallos?

6

Límites y filtros

¿Son apropiados los límites de fecha, idioma y diseño del estudio?

Peer-reviewed searches substantially improve retrieval of key studies.

PRESS guideline: McGowan et al., 2016

Se debe adaptar la misma búsqueda para cada base de datos:

PubMed

"diabetes mellitus, type 2"[MeSH] OR "type 2 diabetes"[tiab]

Embase

'non insulin dependent diabetes mellitus'/exp OR 'type 2 diabetes':ti,ab

Subject headings, field tags, and operators differ between databases.

HISTORIA: La transparencia de Tamiflu Campaña

¿Qué sucede cuando buscas y no encuentras nada?

REAL DATA

Governments stockpiled $9 billion de oseltamivir (Tamiflu) para la gripe pandémica. La Colaboración Cochrane intentó revisar la evidencia. De 77 clinical trials, full reports existed for only 20. Roche se negó a compartir datos de 5 years. Cuando el BMJ y Cochrane finalmente obtuvieron over 160,000 pages of clinical study reports, they found: Tamiflu reduced symptoms by less than 1 day, with no evidence it prevented hospitalizations or complications.

El dilema del revisor: 2009
Usted está actualizando una revisión Cochrane de Tamiflu. Los ensayos publicados parecen positivos. Pero 57 ensayos no tienen informes completos accesibles. ¿Qué haces?
PATH A: Analyze What's Published
Use the 20 available trials. Conclude Tamiflu is effective.
Su revisión respalda el almacenamiento continuo. Se gastaron 9 mil millones de dólares en evidencia débil.
OUTCOME: Billions wasted, true efficacy unknown
RUTA B: Demanda de datos completos
Refuse to publish until all trial data is accessible
5-year campaign. 160,000+ pages finally obtained. Truth emerges.
OUTCOME: Evidence policy changed; EMA now publishes all trial reports
THE REVELATION
Una búsqueda es tan buena como lo que se puede encontrar. Cuando la literatura gris se esconde detrás de los muros corporativos, incluso la búsqueda más completa en PubMed perderá la verdad. La saga del Tamiflu cambió la política global: la EMA ahora publica informes de estudios clínicos para todos los medicamentos.

If Nissen had searched only PubMed,

the signal would have remained hidden.

Comprehensive search is survival.

What was hidden in plain sight?

1. ¿Qué tipo de fuente de evidencia reveló la señal cardiovascular de rosiglitazona?

A. Published journal articles
B. Cochrane Library
C. Company clinical trial registry
D. FDA approval documents

2. What does PRESS stand for?

A. Revisión de la publicación de los estándares de búsqueda de evidencia
B. Peer Review of Electronic Search Strategies
C. Protocolo para informar estudios de síntesis de evidencia
D. Primary Research Evidence Search System

What was hidden in plain sight?

Módulo 4: La detección

Módulo 4: El Detección (Vioxx)

El número sin procedencia no es un número.

Esta es una historia sobre

what they chose to report.

🎯 Learning Objectives

  • Apply PRISMA flow diagram to document study selection
  • Implement dual-reviewer screening with conflict resolution
  • Identificar el informe selectivo de resultados y la manipulación de datos
  • Calculate inter-rater reliability (Cohen's kappa)
  • Aplicar el principio: "El número sin procedencia no es un número"

heart attacks attributed to Vioxx

A blockbuster drug. A hidden signal. A preventable catastrophe.

Entre En 1999 y 2004, millones de personas tomaron este analgésico. Algunos nunca regresaron a casa.

El rofecoxib (Vioxx) era un AINE selectivo para la COX-2. Comercializado como más seguro para el estómago que los analgésicos tradicionales.

1999
FDA approval
$2.5B
Peak annual sales
80M+
Patients prescribed

Vioxx Gastrointestinal Outcomes Research

Design
Randomized, double-blind
Comparison
Vioxx vs Naproxen
Population
Rheumatoid arthritis
Sample
8,076 patients
Primary Outcome
GI events
Published
NEJM, November 2000
GI Outcome Vioxx Naproxen
Confirmed GI events 2.1 per 100 pt-yrs 4.5 per 100 pt-yrs
Reduction 54% fewer GI events

Esto es lo que les dijeron a los médicos. Esto es lo que creían los pacientes.

CV Outcome Vioxx Naproxen
Myocardial Infarction 20 events 4 events
Relative Risk 5x higher in Vioxx group
5-fold Increase in Heart Attacks
Mentioned only briefly, attributed to naproxen being "cardioprotective"
1

Manipulación del límite de datos: 3 additional heart attacks occurred after the cutoff used in publication

2

Spin: La señal CV se explicó como que el naproxeno es cardioprotector (sin evidencia)

3

Outcome switching: Los eventos CV fueron preespecificados pero no enfatizados

4

Internal knowledge: Los correos electrónicos de Merck muestran que conocían la señal

El ensayo APPROVe (2004)

Un ensayo para la prevención de pólipos colorrectales; se detuvo temprano por motivos de seguridad.

RR 1.92
CV events vs placebo
Sept 2004
Vioxx withdrawn

Four years after VIGOR showed a 5x risk. Four years too late.

HISTORIA: El árbol de decisiones de Vioxx

¿Ha considerado lo que sucede cuando ¿Una señal se esconde en el ruido?

REAL DATA

Vioxx (rofecoxib) fue aprobado en 1999. By 2004, estimates suggest 88,000-140,000 excess heart attacks and 30,000-40,000 deaths. Merck's own VIGOR trial showed 5x cardiovascular risk in 2000—but it was dismissed as a "naproxen cardioprotective effect."

La bifurcación del camino
Usted es revisor de la FDA en 2001. Los datos de VIGOR muestran un riesgo de ataque cardíaco cinco veces mayor con Vioxx que con Vioxx. naproxeno.
RUTA A: Acepte la explicación
Believe Merck's hypothesis: naproxen is cardioprotective
No additional safety studies required. Drug stays on market at full speed.
RESULTADO: Más de 40,000 muertes en 4 años
RUTA B: Exija evidencia
Require a dedicated CV safety trial before continued marketing
Delay or restrict marketing until cardiovascular safety is established.
OUTCOME: Signal detected early, lives saved
THE REVELATION
La señal estaba allí en 2000. La explicación incorrecta se retrasó acción por 4 años. Una hipótesis alternativa, aceptada sin evidencia, costó decenas de miles de vidas.

Every step of screening must be documented and transparent.

Identification
Records from databases + other sources
Screening
Title/abstract review (duplicates removed)
Eligibility
Full-text assessment (with exclusion reasons)
Included
Studies in synthesis
1

Reduces Selection Bias

One reviewer might unconsciously favor certain studies

2

Catches Errors

La fatiga, las malas interpretaciones y los errores son inevitables

3

Forces Explicit Criteria

Disagreements reveal ambiguity in inclusion rules

Typical agreement: κ = 0.6-0.8

Disagreements resolved by discussion or third reviewer

Before screening thousands of records, reviewers should calibrate on a sample of 50-100 records.

1

Screen the same set independently

2

Compare decisions and discuss disagreements

3

Refine inclusion criteria until κ > 0.7

4

Documente el proceso de calibración y cualquier regla cambios

New in 2020
Separate reporting of database vs register searches
New in 2020
Se deben informar las herramientas de automatización
New in 2020
Citation searching documented separately
New in 2020
Reasons for exclusion at full-text mandatory

PRISMA 2020 revisó sustancialmente la lista de verificación con informes ampliados sobre métodos de síntesis, evaluación de certeza y registro de protocolos.

If Vioxx's cardiovascular data had been screened by independent reviewers,

if all pre-specified outcomes had been required to be reported,

88,000 heart attacks might have been prevented.

El número sin procedencia no es un número.

1. En el ensayo VIGOR, ¿cuál fue el riesgo relativo de IM en el grupo de Vioxx en comparación con naproxeno?

A. 1.5x higher
B. 2x higher
C. 5x higher
D. 10x higher

2. Why is dual screening (two independent reviewers) important?

A. It makes screening faster
B. It reduces selection bias and catches errors
C. Reduce el número de estudios para revisar
D. It allows reviewers to skip full-text review

El número sin procedencia no es un número.

Módulo 5: La extracción

Módulo 5: La extracción (DECRECIÓN)

El número sin procedencia no es un número.

Esta es una historia sobre

números que nunca existieron.

🎯 Learning Objectives

  • Diseñar un formulario de extracción de datos estandarizado con campos de procedencia
  • Calculate effect sizes from various reported statistics (OR, RR, HR, SMD)
  • Implement dual-extraction with discrepancy resolution
  • Identificar señales de alerta para la fabricación de datos y mala conducta
  • Explain how the DECREASE fraud affected clinical guidelines

possible excess deaths in Europe

A partir de pautas basadas en ensayos clínicos fabricados datos.

Los ensayos DECREASE influyeron en la atención perioperatoria en todo el mundo. Los datos fueron inventados.

Professor at Erasmus Medical Center, Rotterdam. Author of over 500 papers. Lead author of ESC guidelines on perioperative cardiac care.

500+
Publications
DECREASE
Trial series I-VI
ESC
Guideline chair

Una fuente aparentemente impecable. Hasta que alguien miró los datos.

Trial Finding Impact
DECREASE-I (1999) 90% reduction in cardiac death Changed guidelines
DECREASE-IV (2009) Beta-blockers safe in low-risk Expanded recommendations

Effect sizes were implausibly large.

90% reduction? Almost nothing in medicine works that well.

1

Erasmus MC investigated after whistleblower complaints

2

Datos de pacientes fabricados: Patients who didn't exist or weren't enrolled

3

No informed consent: Many "participants" never consented

4

Poldermans dismissed: From Erasmus MC in 2011

La cascada de daños

Cuando se eliminó DECREASE de metanálisis...

Benefit → Harm
Direction reversed
27% ↑
Stroke risk increase

El ensayo POISE (2008) había demostrado daños. Se descartó porque entraba en conflicto con DECREASE.

1

Trust in authority: Poldermans fue el autor de la guía que revisó su propia evidencia

2

No data verification: Nadie pidió datos de pacientes individuales

3

Publication prestige: Published in top journals, assumed valid

4

Implausible effects accepted: 90% reductions should raise suspicion

1

Dual Extraction

Two extractors independently - catches transcription errors and forces scrutiny

2

Record Provenance

Table, page, paragraph - every number traceable to source

3

Verify Against Registry

Resultados de ClinicalTrials.gov vs. publicación: las discrepancias son señales de alerta

4

Request IPD

Individual patient data reveals what aggregate summaries hide

Durante la extracción, calcula los tamaños del efecto a partir de los datos reportados:

BINARY OUTCOMES

Odds Ratio, Risk Ratio, Risk Difference from 2x2 tables

CONTINUOUS OUTCOMES

Diferencia de medias, diferencia de medias estandarizada de medias y DEs

Extraiga siempre de la fuente más confiable.

Prefer: ITT results > per-protocol > subgroups

!

Implausible effect sizes: 80-90% reductions should prompt scrutiny

!

Baseline imbalances: Grupos que coinciden "demasiado perfectamente"

!

Round numbers: "Exactly 50" or "exactly 100" patients per arm

!

Registry discrepancies: Los N publicados difieren de los N registrados

Researcher

Los resultados del informe de los estudios arrojan métricas diferentes. Para agruparlos, a menudo se necesitan conversiones:

FromToFormula
SMD (d)log-ORlog-OR = d × π / √3
log-ORSMD (d)d = log-OR × √3 / π
Correlation (r)Fisher zz = 0.5 × ln((1+r)/(1−r))
ORRRRR = OR / (1 − P₀ + P₀ × OR)
ORNNTNNT = 1 / (P₀ − OR×P₀ / (1−P₀+OR×P₀))

P₀ = riesgo inicial en el grupo de control. Estas fórmulas asumen condiciones aproximadas; véase Borenstein et al. (Cap. 7) para derivaciones exactas.

Researcher

Many trials report time-to-event outcomes using hazard ratios (HR). Pooling HRs in meta-analysis requires special handling:

1

El método log(HR) + SE

Extraiga log(HR) y su SE de la prueba. Si no se informa, obtenga SE del IC: SE = (ln(superior) − ln(inferior)) / (2 × 1,96). Combinar utilizando métodos estándar de varianza inversa.

2

Cuando no se informa la FC

Existen métodos para reconstruir la DPI a partir de las curvas de Kaplan-Meier (Guyot et al. 2012) o estimar la FC a partir de valores p y recuentos de eventos (Parmar et al. 1998). Siempre prefiera la FC ajustada informada directamente cuando esté disponible.

HR < 1 favors treatment; HR > 1 favors control. Do not convert HRs to ORs or RRs—they measure fundamentally different quantities.

HISTORIA: El escándalo del coloide Boldt

¿Qué pasaría si los datos que extrae nunca fueran reales?

REAL DATA

Joachim Boldt fue el investigador más prolífico en el manejo de fluidos anestésicos. Más de 180 de sus publicaciones fueron retractadas —uno de los casos de retractación más grandes en la historia médica. Sus datos inventados mostraron que el hidroxietilalmidón (HES) era seguro. Los metanálisis que incluyeron sus estudios concluyeron que el HES era inofensivo. Cuando se eliminaron los estudios de Boldt, el efecto combinado se revirtió: HES increased kidney injury by 59% (RR 1.59, 95% CI 1.26-2.00) and mortality by ~9% (RR 1.09). An estimated thousands of patients received a harmful fluid based on fabricated evidence.

La vigilancia del extractor: 2010
Está extrayendo datos para un metanálisis de reanimación con líquidos. Los estudios de Boldt dominan la literatura (más de 90 artículos). Un denunciante ha expresado su preocupación. ¿Qué haces?
PATH A: Extract as Published
Trust peer-reviewed publications. Extract Boldt's data like any other.
Your meta-analysis shows HES is safe. Guidelines recommend it.
OUTCOME: Thousands receive a nephrotoxic fluid
PATH B: Verify Provenance
Verificar aprobaciones éticas, solicitar datos de origen, realizar análisis de sensibilidad excluyendo estudios sospechosos
Discover missing ethics approvals. Flag studies. Re-analyze without them.
OUTCOME: True signal emerges — HES causes harm
THE REVELATION
La procedencia no es burocracia. Es la diferencia entre evidencia y ficción. Cada número extraído debe provenir de un estudio ético aprobado, con datos verificables del paciente. Sin procedencia, el número sin dueño puede convertirse en un arma.

Cada número en su metanálisis

must trace back to a verifiable source.

El número sin procedencia no es un número.

Fraudulent data can kill as surely as fraudulent drugs.

1. ¿Qué sucedió cuando los datos del ensayo DECREASE se eliminaron de los metanálisis de betabloqueantes?

A. The benefit became even larger
B. No change in conclusions
C. The direction reversed to show potential harm
D. Los resultados no fueron concluyentes

2. Why should dual extraction be standard practice?

A. It catches transcription errors and forces scrutiny
B. It makes extraction faster
C. Ayuda a encontrar más estudios
D. It reduces the amount of work needed

El número sin procedencia no es un número.

Módulo 6: El sesgo

Módulo 6: El sesgo (Aprotinina/BART)

Los métodos protegen a los pacientes de nuestra confianza.

Esta es una historia sobre

el sesgo que no podemos ver.

🎯 Learning Objectives

  • Apply Risk of Bias 2.0 (RoB 2) to randomized trials
  • Aplicar ROBINS-I a estudios no aleatorios
  • Assess all five RoB 2 domains (randomization, deviations, missing data, measurement, selection)
  • Distinguish confounding by indication from true treatment effects
  • Explain how BART revealed hidden harms of aprotinin

años en el mercado

La aprotinina fue el estándar de oro para reducir la cirugía sangrando.

Entonces alguien realizó un ECA. La verdad era diferente.

1

Sicker patients got aprotinin: Surgeons used it in complex, high-risk cases

2

Survivors bias: Dead patients can't report complications

3

Publication bias: No se publicaron estudios negativos

Los estudios observacionales no pudieron separar el efecto del medicamento del riesgo inicial del paciente.

Blood Conservation Using Antifibrinolytics in a Randomized Trial

OutcomeAprotininAlternatives
30-day mortality6.0%3.9%
Relative Risk1.53 (53% increased death)
Trial Stopped Early for Harm
Retirado del mercado en noviembre 2007
🔍

Investigación: Evaluar el sesgo

Estás revisando los estudios observacionales. Aplique el pensamiento de riesgo de sesgo:

QuestionObservationalBART (RCT)
Random allocation?❌ Surgeon choice✓ Yes
Baseline comparable?❌ Sicker got drug✓ Balanced
Blinding?❌ Open label✓ Double-blind

Confounding by indication: Los cirujanos administraron aprotinina a los pacientes más enfermos. Los estudios observacionales atribuyeron la supervivencia al fármaco cuando medían el sesgo de supervivencia.

D1

Randomization Process

D2

Desviaciones de las intervenciones previstas

D3

Datos de resultados faltantes

D4

Medición del resultado

D5

Selección del resultado informado

Cuando los ECA no estén disponibles, use ROBINS-I (Riesgo de sesgo en estudios no aleatorios de Intervenciones)

1

Confounding

Baseline differences between groups

2

Selection of Participants

Exclusions related to intervention

3

Classification of Interventions

Misclassification of exposure status

4

Desviaciones de las intervenciones previstas

Co-interventions, contamination

5

Missing Data

Differential loss to follow-up

6

Measurement of Outcomes

Ascertainment bias

7

Selection of Reported Result

Selective reporting

Ratings: Low / Moderate / Serious / Critical / No information

HISTORIA: El ensayo BART de aprotinina

¿Qué sucede cuando 64 estudios coinciden, y todos están equivocados?

REAL DATA

La aprotinina se usó en cirugía cardíaca para reducir el sangrado durante 20 years. 64 small randomized trials sugirió que era segura y eficaz. Los metanálisis confirmaron el beneficio. Luego el BART trial (2008) randomized 2,331 patients: aprotinin vs. tranexamic acid vs. aminocaproic acid. Result: aprotinin increased mortality by 53% (RR 1,53, IC 95% 1,06-2,22). El ensayo fue detenido antes de tiempo por daños. Bayer retiró la aprotinina del mercado en unos meses.

La evidencia del cirujano: 2006
Usted es un cirujano cardíaco que elige un antifibrinolítico. 64 ensayos pequeños favorecen la aprotinina, pero ninguno tuvo el poder estadístico suficiente para detectar la mortalidad. Se está inscribiendo un gran RCT (BART). ¿Espera?
RUTA A: Confíe en el metanálisis
64 trials can't all be wrong. Continue prescribing aprotinin.
Los ensayos pequeños midieron el sangrado, no la muerte. Ninguno tenía poder adecuado para la mortalidad. El metanálisis agrupó resultados sustitutos sin suficiente poder estadístico.
OUTCOME: Excess deaths in cardiac surgery patients
PATH B: Assess Risk of Bias First
Califique los 64 ensayos con RoB. Observe que son pequeños, utilizan resultados sustitutos y tienen un alto desgaste. Espere a que el ECA tenga la potencia adecuada.
BART reveals the truth. Switch to safer alternatives.
OUTCOME: Lives saved by demanding adequately powered evidence
THE REVELATION
La cantidad de evidencia no es igual a la calidad. Sesenta y cuatro ensayos con poder estadístico insuficiente que miden resultados incorrectos no superan a un ensayo con poder estadístico adecuado que mide la mortalidad. La evaluación del riesgo de sesgo no es una formalidad: es un escudo entre los pacientes y las conclusiones engañosas de evidencia pequeña basada en sustitutos.

Sixty-four small trials measured bleeding, not death.

One adequately powered trial revealed 53% increased mortality.

La cantidad de evidencia no puede sustituir la calidad y el poder.

1. Why did 64 small trials miss aprotinin's harm?

A. Underpowered for mortality; used surrogate outcomes
B. Confounding by indication
C. Outcome measured incorrectly
D. Follow-up too short

Los métodos protegen a los pacientes de nuestra confianza.

Módulo 7: La Síntesis

Módulo 7: La Síntesis (Magnesio/ISIS-4)

La heterogeneidad es un mensaje, no ruido.

La controversia del magnesio: 1991-1995

When pooling leads us astray.

🎯 Learning Objectives

  • Calculate pooled effect sizes using fixed-effect and random-effects models
  • Choose between DerSimonian-Laird and HKSJ estimators appropriately
  • Interpret forest plots including weights, confidence intervals, and diamonds
  • Explain why small-study effects can mislead meta-analyses
  • Aplica el principio: "La heterogeneidad es un mensaje, no ruido"

"Estás en la encrucijada de la esperanza y la evidencia..."

Heart disease kills more people worldwide than any other cause. In 1991, a new hope emerges: Could something as simple and cheap as intravenous magnesium save lives after myocardial infarction?

El fundamento biológico era sólido:

Magnesium stabilizes cardiac membranes, prevents arrhythmias, and vasodilates coronary arteries.

Leicester Intravenous Magnesium Intervention Trial, 1992

2,316
Patients enrolled
24%
Mortality reduction
p = 0.04
Statistically significant

A cheap, safe intervention that could save 250,000 lives per year globally.

La comunidad médica estaba electrificado.

Researchers pooled seven randomized trials of IV magnesium in MI:

Trial Year N Odds Ratio
Morton 19841984400.10
Rasmussen 198619862730.35
Smith 198619864000.48
Abraham 19871987940.87
Shechter 199019901030.27
Ceremuzynski 19891989480.22
LIMIT-219922,3160.74
🔍

Investigation Exercise: The Meta-Analyst's Dilemma

Usted es revisor Cochrane en 1993. Se le pidió que sintetice la evidencia sobre el magnesio para el IM. Los datos de siete ensayos se encuentran ante usted.

¿Ve el patrón en este diagrama de bosque?

Pooled OR = 0.44 (95% CI: 0.27–0.71)
55% mortality reduction! Publish in the Lancet?

Pero espere... ¿nota algo sobre el tamaño de los ensayos?

What should have given us pause?

1

Small sample sizes: Six of seven trials had <500 patients

2

Extreme effects: OR of 0.10 (90% reduction) is implausible for any drug

3

All positive: ¿Dónde estaban los ensayos negativos? El problema del cajón de archivos...

4

Funnel asymmetry: Small trials showed much larger effects than larger ones

🔍

La prueba del gráfico de embudo

Antes de agrupar, debemos verificar el sesgo de publicación. Examinemos el gráfico de embudo.

"Y luego vino la verdad..."

The Fourth International Study of Infarct Survival (ISIS-4) enrolled 58,050 patients across 1,086 hospitals in 31 countries.

58,050
Patients
2,216
Deaths in Mg group
2,103
Deaths in placebo
OR = 1.06 (95% CI: 1.00–1.12)
No benefit. If anything, a trend toward harm.
📊

Antes y después: la imagen completa

Mira lo que sucede cuando agregamos la mega-prueba a nuestra parcela forestal...

BEFORE ISIS-4

7 small trials (N = 3,274)

OR = 0.44

Strong benefit signal

AFTER ISIS-4

8 trials (N = 61,324)

OR = 1.02

No effect

1

Publication Bias

Small negative trials were never published—they sat in file drawers

2

Small-Study Effects

Smaller trials tend to show larger effects due to methodological weaknesses

3

Random High Bias

Por casualidad, algunos ensayos pequeños alcanzaron resultados extremos, y se publican

4

Random-Effects Amplification

Random-effects models give more weight to small trials, amplifying bias

Which model should you choose?

FIXED EFFECT MODEL

Assumes one true effect. Weights studies by inverse variance (precision). Large trials dominate.

Magnesium result: OR = 0.96 (p = 0.52)

RANDOM EFFECTS MODEL

Assumes distribution of effects. Gives more weight to small trials. Wider confidence intervals.

Magnesium result: OR = 0.59 (p = 0.01)

⚠️ ¡La elección del modelo determinó la conclusión!

Los efectos aleatorios no corrigen el sesgo; con efectos de estudios pequeños, puede cambiar el peso hacia ensayos más pequeños y cambiar las conclusiones.

1. Verifique el sesgo de publicación antes de confiar en una estimación agrupada. Los gráficos en embudo y la prueba de Egger son sus herramientas.

2. Be wary of small-study effects. If only small trials show benefit, wait for a large, well-conducted trial.

3. Model choice matters. Los efectos aleatorios pueden amplificar la evidencia sesgada. Considere ambos modelos y comprenda las implicaciones.

4. One large trial can overturn many small ones. Esta es la razón por la que los megaensayos como ISIS-4 son tan valiosos.

Researcher

No todos los ECA utilizan diseños estándar de grupos paralelos. Dos alternativas comunes requieren un manejo especial al agrupar resultados:

1

Cluster-Randomized Trials

Aleatorizar grupos (hospitales, escuelas), no individuos. El design effect = 1 + (m−1) × ICC reduce el tamaño efectivo de la muestra. Divida N por el efecto de diseño antes de agrupar, o utilice el SE ajustado de la prueba. Ignorar la agrupación produce IC artificialmente estrechos.

2

Crossover Trials

Cada paciente recibe ambos tratamientos. El diseño emparejado reduce la varianza, pero necesita within-patient correlation (o el análisis emparejado SE) para agrupar correctamente. Usar el SE de grupos paralelos es conservador; utilizar N incorrectos recuentos dobles de pacientes.

Consulte el Manual Cochrane v6.4, Capítulo 23 para obtener fórmulas detalladas y ejemplos resueltos.

HISTORIA: La reversión temprana del surfactante

¿Qué pasa si la forma en que se combinan los estudios determina si un tratamiento parece salvar vidas o ¿inútil?

REAL DATA

El surfactante temprano para bebés prematuros fue respaldado por 6 small trials showing reduced mortality (RR 0.84). A fixed-effect meta-analysis confirmed benefit (p=0.04). But a random-effects model showed no significance (p=0.12) — the confidence interval crossed 1.0. Later, SUPPORT (2010) and VON (2012), two large pragmatic trials with ~2,000 neonates combined, found no benefit de surfactante temprano versus tardío. La práctica clínica había cambiado basándose en ensayos pequeños y en el modelo equivocado.

El modelo elegido por el neonatólogo: 2005
Está actualizando una revisión Cochrane sobre surfactante temprano. Seis ensayos pequeños muestran beneficios con un modelo de efectos fijos. El modelo de efectos aleatorios no es significativo. ¿Cuál informa?
PATH A: Report Fixed-Effect Only
Fixed-effect is significant. Report the positive result. Change practice.
NICUs adopt early surfactant. Later trials show no benefit. Practice reverses.
OUTCOME: Years of unnecessary intubation of premature infants
PATH B: Report Both Models
Mostrar resultados de FE y RE. Señale que la importancia depende de la elección del modelo. Solicite ensayos grandes.
Honest uncertainty. Large trials prioritized. True answer emerges faster.
OUTCOME: Premature babies spared unnecessary intervention
THE REVELATION
Cuando una conclusión cambia dependiendo de si utiliza efectos fijos o efectos aleatorios, la conclusión es frágil. Denuncia ambos. Reconocer la incertidumbre. Y recuerde: un resultado frágil de ensayos pequeños no es un mandato para cambiar la práctica.

1. ¿Por qué el metanálisis del magnesio mostró un beneficio que ISIS-4 no encontró?

A. La metodología de ISIS-4 era defectuosa
B. Calculation error in meta-analysis
C. Publication bias in small trials
D. LIMIT-2 no tenía suficiente potencia

2. What warning sign should have alerted reviewers to potential bias?

A. Asymmetric funnel plot (small trials showing larger effects)
B. Low heterogeneity (I² = 0%)
C. Strong biological plausibility
D. Too few trials to analyze

3. When publication bias is suspected, which model may amplify the bias?

A. Fixed effect model
B. Random effects model
C. Bayesian model
D. Network meta-analysis

Small trials can show false signals.

Large trials anchor the truth.

La heterogeneidad es un mensaje, no ruido.

La heterogeneidad es un mensaje, no ruido.

Módulo 8: La heterogeneidad

Módulo 8: La Heterogeneidad (ACCORD)

La heterogeneidad es un mensaje, no ruido.

ACCORD: 2008

Cuando el promedio oculta la verdad.

🎯 Learning Objectives

  • Calcula e interpreta I², τ² y los intervalos de predicción
  • Apply ICEMAN criteria to assess subgroup credibility
  • Distinguish between clinical, methodological, and statistical heterogeneity
  • Conduct and interpret leave-one-out sensitivity analyses
  • Explain how ACCORD revealed differential effects across subgroups

"Estás a punto de presenciar una de las terminaciones de juicio más impactantes de la historia..."

Para Durante décadas, la comunidad diabética tuvo un principio rector: lower blood sugar is better. Los históricos DCCT (1993) y UKPDS (1998) demostraron que el control intensivo de la glucosa reducía las complicaciones microvasculares: ceguera, insuficiencia renal, daño a los nervios.

La extrapolación lógica:

If controlling glucose prevents complications, shouldn't intensive control prevent cardiovascular disease too?

The definitive test of intensive glucose control

10,251
Type 2 diabetics
HbA1c <6%
Intensive target
HbA1c 7-7.9%
Standard target

Todos los pacientes tenían diabetes tipo 2 con alto riesgo cardiovascular, ya sea enfermedad cardiovascular establecida o múltiples factores de riesgo. El ensayo fue diseñado para 5,6 años.

February 6, 2008

La Junta de Monitoreo de Seguridad de Datos convoca una reunión de emergencia.

After 3.5 years, they make an unprecedented decision:

DETENGA EL ENSAYO.

Outcome Intensive Standard HR (95% CI)
Primary CV endpoint 352 events 371 events 0.90 (0.78–1.04)
All-cause mortality 257 deaths 203 deaths 1.22 (1.01–1.46)
Severe hypoglycemia 10.5% 3.5% 3.0× higher
22% increase in mortality
54 excess deaths in the intensive arm
🔍

Investigation Exercise: The Clinician's Dilemma

Usted es un endocrinólogo con 500 pacientes diabéticos. Se publican los resultados de ACCORD. ¿Qué les dice a sus pacientes que se han esforzado por alcanzar una HbA1c <6%?

¿El control intensivo es perjudicial para todos? ¿O sólo para algunos?

Análisis de subgrupos revelado:

SubgroupIntensive HRInterpretation
No prior CVD1.00 (0.76–1.32)No effect
Prior CVD1.45 (1.15–1.84)Significant harm
Baseline HbA1c <8%1.02 (0.75–1.40)No effect
Baseline HbA1c ≥8%1.29 (1.03–1.60)Harm

The average effect masked critical heterogeneity!

Para pacientes con ECV establecida o control basal deficiente, la terapia intensiva fue perjudicial.

Cuando los estudios (o subgrupos) lo muestran diferentes efectos, debemos cuantificar esta variación.

I² = 0–25%: Baja heterogeneidad. Los efectos son consistentes en todos los estudios.

I² = 25–50%: Moderate. Look for sources of variation.

I² = 50–75%: Substantial. Consider whether pooling is appropriate.

I² = 75–100%: Considerable. A single pooled estimate may mislead.

Pero I² por sí solo no le dice qué hacer: indica que necesita investigar más.

Mientras que I² le indica la proporción de varianza debido a la heterogeneidad, τ² le dice la magnitud.

I² (percentage)

"¿Qué fracción de la varianza total se debe a diferencias verdaderas entre los estudios?"

Scale: 0% to 100%

τ² (absolute)

"¿Cuánto varían los efectos verdaderos entre los estudios?"

Same scale as the effect measure

Use τ² to calculate prediction intervals

Un intervalo de predicción muestra el rango de efectos que se esperaría en un nuevo estudio, a menudo mucho más amplio que la confianza. intervalo.

📊

The Prediction Interval: What ACCORD Really Tells Us

Consider a meta-analysis of intensive glucose control across multiple trials...

Confidence Interval

HR 1.10 (0.95–1.27)

"Nuestra mejor estimación del efecto promedio"

Prediction Interval

HR 1.10 (0.70–1.73)

"The range of effects in a new setting"

¡El intervalo de predicción abarca tanto el beneficio como el daño!

In some settings, intensive control might help. In others, it could kill.

Subgroup Credibility Criteria (adapted from ICEMAN, Schandelmaier 2020 & Sun 2012)

1

¿Se preespecificó el análisis de subgrupos?

Los subgrupos post hoc son propensos a recibir datos dragado

2

Is there a plausible biological rationale?

El mecanismo debe ser claro e independiente de los datos

3

Is the effect consistent across related outcomes?

Si aparece un daño para la mortalidad, ¿existe un daño similar para el infarto de miocardio y el accidente cerebrovascular?

4

Is there independent replication?

¿Se ha confirmado el efecto de subgrupo en otros estudios?

CriterionAssessmentScore
Pre-specified? Sí, antes la ECV estaba en el protocolo
Biological rationale? Yes—hypoglycemia more dangerous with CVD
Consistent outcomes? Yes—CV mortality and all-cause mortality aligned
Independent replication? Partially—ADVANCE, VADT showed similar patterns ~

ICEMAN Rating: High Credibility

The differential harm in high-risk patients appears genuine.

Para pacientes sin ECV: Moderate glucose control (HbA1c ~7%) remains the goal. Intensive control may reduce microvascular complications.

Para pacientes con ECV establecida: Avoid intensive targets. Hypoglycemia is dangerous for damaged hearts.

Para pacientes de edad avanzada: Relaxed targets. Quality of life matters. Tight control causes falls, confusion, and excess mortality.

"One size fits all" treatment is not patient-centered medicine.

When heterogeneity is high, meta-regression can identify study-level covariates that explain variation.

THE QUESTION

¿El tamaño del efecto varía sistemáticamente con el estudio? ¿Características?

Covariates
Year, dose, duration, baseline risk, study quality
Output
Regression coefficient (slope), R², residual heterogeneity

Caution

La metarregresión requiere ≥10 estudios por covariable. Con pocos estudios, es sólo exploratorio. Falacia ecológica: las asociaciones a nivel de estudio pueden no aplicarse a individuos.

Example: In ACCORD, meta-regression might test if treatment effect varies by baseline HbA1c, showing harm concentrated in patients with very high levels.

HISTORIA: La revolución de la presión arterial de SPRINT

What number saves lives? Who decides?

REAL DATA

Durante décadas, el objetivo fue: tratar la presión arterial para <140 mmHg systolic. Then came SPRINT (2015): 9,361 high-risk patients randomized to intensive (<120) vs standard (<140) targets. Intensive treatment reduced CV events by 25% and death by 27%. Trial stopped early for benefit. Guidelines changed worldwide.

Before SPRINT: The Guidelines Committee
Usted está estableciendo pautas de presión arterial en 2014. El objetivo ha sido <140 durante años. ¿Debería esperar a obtener mejores pruebas?
PATH A: Maintain Status Quo
Keep <140 target (established practice, minimal controversy)
Guidelines unchanged. Physicians continue treating to <140.
OUTCOME: Miss opportunity to prevent deaths
PATH B: Fund the Definitive Trial
Esperar los resultados de SPRINT antes de actualizar los objetivos
SPRINT demonstrates benefit. Update target to <120 for high-risk patients.
OUTCOME: Estimated 100,000+ lives saved globally
JNC 7 (2003): <140
Years of uncertainty
SPRINT (2015): <120 para alto riesgo
THE REVELATION
El "estándar de atención" no está arreglado. Cambia cuando los ensayos cuestionan los supuestos. Durante una década, es posible que los pacientes no hayan recibido tratamiento suficiente porque nadie analizó la pregunta obvia.

1. ¿Por qué se detuvo el ensayo ACCORD antes de tiempo?

A. Intensive control showed clear cardiovascular benefit
B. Intensive control increased mortality
C. La inscripción fue demasiado lenta
D. Budget ran out

2. What does a prediction interval tell us that a confidence interval doesn't?

A. The true effect is more precisely estimated
B. El tamaño de la muestra es adecuado
C. El rango de efectos que esperaríamos en un nuevo estudio
D. La fórmula matemática utilizado

3. According to ICEMAN, which factor is MOST important for subgroup credibility?

A. Especificación previa de la hipótesis del subgrupo
B. Large sample size in the subgroup
C. Statistically significant p-value
D. Multiple outcomes showing same direction

Cuando los estudios no están de acuerdo,

escuche el desacuerdo.

La heterogeneidad es un mensaje, no ruido.

La ausencia de evidencia no es evidencia de ausencia.

Módulo 9: Los Estudios Ocultos

Módulo 9: Los Estudios Ocultos (Reboxetine)

La ausencia de evidencia no es evidencia de ausencia.

Reboxetine: 2010

El 74% que nunca vio la luz.

🎯 Learning Objectives

  • Interpret funnel plots for asymmetry detection
  • Aplica la prueba de Egger y otras pruebas estadísticas para detectar sesgo de publicación
  • Implementar el método de recortar y completar para ajustar el sesgo
  • Critically appraise the limitations of publication bias tests
  • Aplicar el principio: "La ausencia de evidencia no es evidencia de ausencia"

"A new hope for depression patients who cannot tolerate SSRIs..."

La reboxetina (Edronax) era un antidepresivo novedoso: un inhibidor selectivo de la recaptación de norepinefrina (NRI). A diferencia de los ISRS, se dirigió a un sistema de neurotransmisores diferente. Para los pacientes que fracasaron o no pudieron tolerar la fluoxetina o la sertralina, ofreció un nuevo mecanismo.

1997
EU approval
50+
Countries approved
Millions
Prescriptions written

What doctors could find in medical journals:

ComparisonPublished TrialsPublished Result
Reboxetine vs Placebo 3 trials (n=507) Significantly better (SMD = 0.56)
Reboxetine vs SSRIs 4 trials (n=628) Equivalent or better

La literatura publicada contó una historia clara:

Reboxetine works. Patients benefit. Prescribe with confidence.

Pero ¿qué pasa con los ensayos que no pudo ver?

In 2010, German researchers at IQWiG made a request to the European Medicines Agency...

They demanded access to all ensayo datos: publicados y no publicados.

What they found changed everything.

Eyding et al., BMJ 2010

ComparisonPublished OnlyALL DATA
Reboxetine vs Placebo SMD 0.56 (benefit) SMD 0.10 (no benefit)
Patients in analysis 507 (14%) 2,731 (100%)
Reboxetine vs SSRIs Equivalent Inferior (RR 1,23 para daños)
Patients in analysis 628 (26%) 2,411 (100%)
El 74% de los datos de los pacientes nunca se publicaron
Los ensayos ocultos no mostraron ningún beneficio y más daño
🔍

Investigation Exercise: The File Drawer

Usted es un revisor sistemático en 2008. Busca en PubMed, Embase y la Biblioteca Cochrane todos los ensayos de reboxetina. Encontrará 7 ensayos publicados que muestran beneficios.

¿Puede confiar en esta evidencia?

⚠️ ¡El embudo es drásticamente asimétrico!

Todos los estudios publicados se agrupan en un lado. ¿Dónde están los ensayos nulos y negativos?

1

Funnel Plot

Plot effect size vs. standard error. A symmetric funnel suggests no bias; asymmetry raises alarms.

2

Egger's Regression Test

Regress effect/SE on 1/SE. A non-zero intercept (P < 0.10) suggests small-study effects. Note: inflated false-positive rate with binary outcomes; use Peters' test instead.

3

Peters' Test

For binary outcomes, regresses log OR on inverse of total sample size. Less prone to false positives.

4

Trim-and-Fill

Imputa los estudios "faltantes" para hacer que el embudo sea simétrico y luego recalcula el efecto combinado.

📊

Interactivo: Análisis de recorte y llenado

Déjanos aplique recortar y llenar a los datos de reboxetina y vea cuál sería la estimación ajustada...

Published Only

7 trials

SMD = 0.56

Significant benefit

Trim-and-Fill

7 + 5 imputed = 12 trials

SMD = 0.23

Reduced, still nominally significant

But even trim-and-fill underestimated the problem!

El efecto real con todos los datos fue SMD = 0,10 (esencialmente nulo).
Trim-and-fill is conservative—it doesn't fully correct for selective publication.

Los métodos de detección de sesgo de publicación son imperfectos. La verdadera solución es prospective registration.

ClinicalTrials.gov
US registry (2000)
WHO ICTRP
Global portal
PROSPERO
Review registration

Al buscar pruebas, siempre verifique los registros. Compare el número de registered pruebas con el número published. La brecha es su señal de advertencia.

Since 2005, ICMJE requires trial registration as a condition of publication.

"All trials registered. All results reported."

El escándalo de la reboxetina, junto con casos similares en otros medicamentos, catalizó un movimiento global:

2013: Política de datos clínicos de la EMA

European Medicines Agency commits to publishing clinical study reports

2016: FDA Amendments Act enforcement

Mandatory results reporting on ClinicalTrials.gov within 12 months

AllTrials Coalition

Over 90,000 supporters, 700+ organizations demanding transparency

!

Germany's IQWiG recommended against reboxetine for depression

!

El NICE del Reino Unido lo rebajó a "no recomendado"

!

La FDA había rechazado la reboxetina en 2001 (tenían acceso a datos no publicados)

Durante más de una década, los pacientes recibieron un medicamento no mejor que placebo.

Porque solo se publicaron los ensayos positivos.

HISTORIA: El engaño del estudio de paroxetina 329

¿Qué pasa si la conclusión publicada es lo opuesto a los datos reales?

REAL DATA

Estudio de GlaxoSmithKline 329 paroxetina probada en adolescent depression. El artículo publicado (2001) concluyó que la paroxetina era "generally well tolerated and effective." Los datos reales: paroxetina failed on all 8 pre-specified outcomes. When re-analyzed (RIAT 2015), suicidal/self-harm events: 23 en el grupo de paroxetina frente a 5 en el grupo de placebo. El artículo publicado redefinió los resultados post hoc para darles importancia. En 2015, un nuevo análisis de RIAT (Restoring Invisible and Abandoned Trials) utilizando el informe del estudio clínico original concluyó: la paroxetina era neither safe nor effective for adolescents.

El rompecabezas del prescriptor: 2003
Eres psiquiatra infantil. El estudio 329, el único ensayo de gran tamaño, dice que la paroxetina funciona en los adolescentes. Pero la FDA no lo ha aprobado para adolescentes. Un padre te pide que lo recetes. ¿Qué haces?
RUTA A: Confíe en la publicación
A peer-reviewed JAACAP paper says it works. Prescribe off-label.
Millions of prescriptions worldwide. Suicidal events in adolescents.
OUTCOME: FDA issues black box warning for SSRIs in youth (2004)
PATH B: Check the Trial Registry
Buscar en ClinicalTrials.gov los criterios de valoración originales. Observe que los resultados publicados no coinciden con el protocolo registrado.
Señal roja: se detectó cambio de resultado. Retienes la droga. El paciente está más seguro.
OUTCOME: Publication bias identified before harm
THE REVELATION
El sesgo de publicación no se trata solo de omitir estudios. Se trata de perder la verdad en los estudios publicados. El cambio de resultados, la redacción fantasma y los informes selectivos pueden convertir un ensayo fallido en una herramienta de marketing. Compare siempre los resultados publicados con los protocolos de registro de ensayos.

1. ¿Qué porcentaje de los datos del ensayo de reboxetina se ocultaron de la literatura publicada?

A. 25%
B. 50%
C. 74%
D. 90%

2. Why can trim-and-fill underestimate the correction needed?

A. It assumes effects are normally distributed
B. Solo imputa estudios para lograr simetría, lo que puede no reflejar completamente la realidad
C. Requiere al menos 20 estudios
D. Solo funciona con estudios muy grandes

3. What is the best prospective defense against publication bias?

A. Funnel plots in all meta-analyses
B. Egger's test before pooling
C. Prospective trial registration
D. More medical journals

Lo que no puedes consulte

may be more important than what you can.

La ausencia de evidencia no es evidencia de ausencia.

Certainty must be earned, not assumed.

Módulo 10: La certeza

Módulo 10: La certeza (surfactante temprano)

Certainty must be earned, not assumed.

Early Surfactant: 2012

Cuando evoluciona la evidencia de alta calidad.

🎯 Learning Objectives

  • Aplicar el marco GRADE completo para evaluar la certeza de evidencia
  • Evaluate all five downgrade factors (RoB, inconsistency, indirectness, imprecision, publication bias)
  • Identify when to upgrade for large effect, dose-response, or confounding
  • Construct Summary of Findings tables with absolute effect estimates
  • Aplicar el principio: "La certeza debe ganarse, no asumirse"

"A revolution in neonatal care..."

El síndrome de dificultad respiratoria (SDR) fue la principal causa de muerte en bebés prematuros. El desarrollo de exógeno surfactant—la sustancia que evita que los alvéolos colapsen—fue uno de los grandes avances en la medicina neonatal.

La pregunta fue: ¿Cuándo debemos administrar surfactante?

Prophylactically (to all high-risk infants) or selectively (only after RDS develops)?

Multiple RCTs conducted before the era of routine CPAP

OutcomeProphylactic vs SelectiveCertainty
Neonatal mortality RR 0.73 (favors prophylactic) High
BPD or death RR 0.84 (favors prophylactic) High
Recommendation: Give surfactant prophylactically
Guidelines worldwide adopted this approach

Pero el mundo de la atención neonatal estaba cambiando...

A new technology emerged: Continuous Positive Airway Pressure (CPAP)

Non-invasive support that could help preterm lungs without intubation.

¿Seguiría siendo válida la evidencia anterior?

New trials conducted in the CPAP era

OutcomeOld TrialsNew Trials
BPD or death RR 0.84 (favors prophylactic) RR 1.12 (favors selective)
Necesidad de ventilación Baja con profiláctico ¡Más alta con profiláctico!
Complete Reversal
In the CPAP era, prophylactic surfactant causes more harm
🔍

Investigation: Why Did Evidence Evolve?

Usted es neonatólogo. Un colega pregunta: "¿Cómo pueden los ensayos aleatorios contradecirse entre sí?"

¿Estaba equivocada la evidencia original?

1

Indirectness Changed

Old trials: No CPAP available. New trials: CPAP standard of care.

2

El comparador mejoró

Selective surfactant + CPAP is better than prophylactic intubation.

3

Context Matters

La evidencia de una época puede no aplicarse a otro.

This is why GRADE assesses Indirectness!

High-quality evidence can become inapplicable when context changes.

Grading of Recommendations, Assessment, Development and Evaluations

GRADE responde a la pregunta: ¿Qué confianza tenemos en esta estimación?

⊕⊕⊕⊕ HIGH: Very confident. True effect is close to the estimate.

⊕⊕⊕◯ MODERATE: Moderately confident. True effect likely close, but may differ substantially.

⊕⊕◯◯ LOW: Limited confidence. True effect may differ substantially.

⊕◯◯◯ VERY LOW: Very little confidence. True effect likely substantially different.

La evidencia de ECA comienza en ALTO. Se puede degradar por:

1

Risk of Bias

Flawed randomization, lack of blinding, incomplete follow-up, selective reporting

2

Inconsistency

Unexplained heterogeneity across studies (large I², non-overlapping CIs)

3

Indirectness

Diferencias en población, intervención, comparador o resultados de la pregunta

4

Imprecision

Wide confidence intervals, small sample size, few events

5

Publication Bias

Asymmetric funnel plot, missing registered trials, sponsor influence

Each factor can downgrade by one or two levels

High → Moderate → Low → Very Low

Example: Un metanálisis de ECA (comienza ALTO) con alto riesgo de sesgo (↓1) y falta de direccionalidad grave (↓1) sería clasificado LOW.

📊

Interactive: Apply GRADE to Surfactant

Califiquemos la certeza de la evidencia para el surfactante profiláctico usando ensayos antiguos versus nuevos.

OLD TRIALS (Pre-CPAP)

Starting: HIGH (RCTs)

Risk of Bias: Low (−0)

Inconsistency: None (−0)

Indirectness: Serious (−1)

Different standard of care today

Final: ⊕⊕⊕◯ MODERATE

NEW TRIALS (CPAP Era)

Starting: HIGH (RCTs)

Risk of Bias: Low (−0)

Inconsistency: None (−0)

Indirectness: None (−0)

Matches current practice

Final: ⊕⊕⊕⊕ HIGH

La evidencia observacional comienza en BAJA. Se puede actualizar para:

+1

Large Magnitude of Effect

RR >2 o <0,5 sin posibles factores de confusión

+1

Dose-Response Gradient

Higher exposure = larger effect in a consistent pattern

+1

Residual Confounding

All plausible confounders would reduce the effect (strengthens causal inference)

GRADE requires transparent language about confidence:

HIGH: "Prophylactic surfactant reduces mortality..."

MODERATE: "Prophylactic surfactant probably reduces mortality..."

LOW: "Prophylactic surfactant may reduce mortality..."

VERY LOW: "We are uncertain whether prophylactic surfactant reduces mortality..."

Este lenguaje garantiza que los médicos comprendan la solidez de la evidencia.

HISTORIA: La paradoja del oxígeno en bebés prematuros

Can too much of a lifesaver become a killer?

REAL DATA

1940s-50s: High oxygen concentrations saved premature babies from respiratory failure. Then came an epidemic of blindness—retrolental fibroplasia (now called ROP). Doctors reduced oxygen dramatically. Blindness dropped. But then: increased deaths and brain damage de la hipoxia. El nivel óptimo de oxígeno requerido decades of trials to find. Recent SUPPORT/BOOST II trials finally defined the therapeutic window: SpO2 91-95%.

El dilema del neonatólogo: 1955
Usted es neonatólogo. Los bebés prematuros que reciben mucho oxígeno se quedan ciegos. ¿Qué haces?
PATH A: Dramatic Reduction
Drastically reduce oxygen to prevent blindness
Blindness rates drop. But some babies die or suffer brain damage from hypoxia.
OUTCOME: Trading one harm for another
RUTA B: Estudio sistemático
Titular cuidadosamente el oxígeno, estudiar la relación dosis-respuesta
Takes decades but eventually identifies the optimal range.
OUTCOME: Optimize both survival and vision
1940s: High O2 saves lives
1950s: Blindness epidemic
Décadas de 1960 a 1970: Muertes por niveles bajos de O2
2010s: SUPPORT/BOOST define optimal range
THE REVELATION
Cada intervención tiene una ventana terapéutica. Encontrarlo requiere mediciones, no suposiciones. El péndulo osciló durante 60 años antes de que la evidencia definiera el equilibrio.

1. ¿Por qué se revirtió la recomendación del surfactante entre 2003 y 2012?

A. Los ensayos originales fueron fraudulentos
B. CPAP changed the comparator (indirectness)
C. Not enough patients in original trials
D. El resultado se midió de manera diferente

2. ¿Cuál de los siguientes NO es un factor de degradación de GRADE?

A. Risk of bias
B. Imprecision
C. Publication bias
D. Large magnitude of effect

3. ¿Qué lenguaje se debe utilizar para evidencia de certeza BAJA?

A. "La intervención reduce..."
B. "La intervención probablemente reduce..."
C. "La intervención puede reducir..."
D. "No estamos seguros de si..."

Un número no es suficiente.

Debes comunicar qué tan seguro estás.

Certainty must be earned, not assumed.

Los métodos protegen a los pacientes de nuestra confianza.

Módulo 11: The Living Review

Módulo 11: The Living Review (COVID-19)

Los métodos protegen a los pacientes de nuestra confianza.

COVID-19 Hydroxychloroquine: 2020

Cuando se cumple la urgencia evidencia.

🎯 Learning Objectives

  • Aplicar análisis secuencial de prueba para determinar cuándo la evidencia es suficiente
  • Diseñar y mantener una revisión sistemática viva
  • Establish update triggers and futility/harm boundaries
  • Manage multiplicity and alpha-spending in sequential analyses
  • Explain how rapid evidence synthesis evolved during COVID-19

"El virus se propaga más rápido de lo que entendemos..."

El COVID-19 estaba matando a miles de personas. Las UCI se desbordaron. No había vacuna ni tratamiento. Luego, un rayo de esperanza: hydroxychloroquine (HCQ)—an old malaria drug—showed antiviral activity in lab studies.

March 20
Estudio Gautret (Francia)
36 pts
Non-randomized
Viral
Clearance improved

A pocas semanas del estudio Gautret:

!

March 28: FDA issues Emergency Use Authorization for HCQ

!

April 4: India bans HCQ export (hoarding fears)

!

Global: Shortages affect lupus and rheumatoid arthritis patients

Millions received HCQ based on a 36-patient observational study

What could go wrong?

🔍

Investigación: El Gautret Estudio

Usted es un experto en EBM al que se le ha pedido que evalúe el estudio francés HCQ. Examinar el diseño...

IssueImpact
Non-randomizedSelection bias—who got HCQ?
6 patients excluded3 went to ICU, 1 died, 1 withdrew, 1 had nausea
Surrogate outcomeViral load, not clinical outcomes
Control de diferentes hospitalesDifferent care, different testing
No blindingExpectation bias in lab testing

Este estudio tendría un ALTO riesgo de sesgo en RoB 2.0

GRADE certainty: VERY LOW. Yet it changed global policy.

1

Immortal Time Bias

Patients must survive long enough to receive treatment. Survivors are compared to non-survivors.

2

Confounding by Indication

Sicker patients may get different treatments. Healthier patients received HCQ early.

3

Healthy User Effect

Patients who seek treatment tend to be healthier overall.

4

Outcome Reporting

Los estudios con resultados positivos se publicaron más rápido.

Large, rigorous trials completed at remarkable speed

TrialNResult
RECOVERY (UK) 4,716 No benefit on mortality (RR 1.09)
WHO SOLIDARITY 954 No benefit (RR 1.19)
ORCHID (US) 479 Detenido por inutilidad
HCQ provided no benefit—and may have caused harm
June 15, 2020: FDA revokes Emergency Use Authorization
📊

Cronología: evidencia observacional versus evidencia RCT

March-May 2020

Observational: ~20 studies

Suggest benefit

Pooled OR ~0.65

June-July 2020

RCTs: RECOVERY, SOLIDARITY

Show no benefit/harm

Pooled RR ~1.10

De "prometedor" a "ineficaz" en 3 meses

Es por eso que necesitamos aleatorización y revisiones vivas para rastrear la evolución de la evidencia.

Un nuevo enfoque para acelerar rápidamente evidencia en evolución:

1

Continuous Surveillance

Busque en la literatura semanalmente o incluso diariamente para obtener nueva evidencia

2

Cumulative Meta-Analysis

Update pooled estimates as each new trial reports

3

Análisis secuencial de ensayos (TSA)

Determine when sufficient information has accumulated to conclude

4

Transparent Versioning

Track every change, maintain full audit trail

When have we learned enough?

TSA aplica límites de detención al metanálisis, similar al análisis intermedio en un solo ensayo. Esto explica el required information size (RIS) needed to detect or exclude a clinically meaningful effect.

RIS
Required sample size
α-spending
Controls type I error
Boundaries
Benefit / Harm / Futility

Para HCQ en COVID, la TSA mostró que el límite de inutilidad se cruzó en junio de 2020.

1. Observational studies can mislead spectacularly cuando prevalece el sesgo. Incluso muchos estudios que apuntan en la misma dirección pueden estar equivocados.

2. RCTs can be conducted quickly when the will exists. RECOVERY enrolled 5,000+ patients in weeks.

3. Las revisiones vivas son esenciales for evolving topics. Fixed-point-in-time reviews become obsolete instantly.

4. Political pressure doesn't change biology. Los métodos rigurosos protegen a los pacientes incluso cuando están bajo presión.

HISTORIA: La revolución de la alergia al maní de LEAP

¿Qué pasa si la prevención ES la causa?

REAL DATA

For decades, pediatric guidelines recommended: avoid peanuts in infancy to prevent allergy. Meanwhile, peanut allergy rates tripled de 1997 a 2008. Luego llegó LEAP (2015): 640 high-risk infants randomized to early peanut introduction vs. avoidance. Result: Early introduction reduced peanut allergy by 81% (1,9% frente a 13,7%). La estrategia de prevención estaba causando la epidemia.

La encrucijada del alergista: 2010
Usted es alergólogo pediátrico. Las alergias al maní están aumentando a pesar de las pautas para evitarlo. ¿Cuestionas el dogma?
PATH A: Follow Guidelines
Continue recommending peanut avoidance in high-risk infants
Guidelines are "evidence-based." Safe to follow consensus.
OUTCOME: Peanut allergies continue to rise
RUTA B: Cuestiona el dogma
Design a trial to test if early introduction might be protective
LEAP trial reveals the truth. Guidelines reverse worldwide.
OUTCOME: Prevent an epidemic
2000: AAP recommends avoidance
2008: Allergy rates triple
2015: LEAP invierte la evidencia
2017: Guidelines flip to early introduction
THE REVELATION
"Primero, no hacer daño" requiere evidencia. Las suposiciones, incluso las bien intencionadas, pueden causar daños a gran escala. El sistema inmunológico necesitaba exposición para desarrollar tolerancia; la evitación creaba sensibilización.

1. ¿Cuál fue el principal defecto en el estudio de hidroxicloroquina de Gautret?

A. Too few patients
B. No blinding
C. Excluding patients who deteriorated
D. Too short follow-up

2. What does Trial Sequential Analysis help determine?

A. Which studies have high risk of bias
B. When enough evidence has accumulated
C. El grado de heterogeneidad
D. Which treatment is best

3. ¿Por qué los estudios observacionales de COVID mostraron un beneficio de HCQ mientras que los ECA no?

A. RCTs enrolled sicker patients
B. RCTs used different outcomes
C. Sesgo en los estudios observacionales
D. Los estudios observacionales tuvieron mejores datos

Speed cannot replace rigor.

But rigor can be fast.

Living reviews balance both.

No todas las señales son verdad.

Módulo 12: Métodos avanzados

Módulo 12: Métodos avanzados

No todas las señales son verdad.

Advanced Methods

Beyond pairwise meta-analysis.

🎯 Learning Objectives

  • Interpret network meta-analysis geometry and SUCRA rankings
  • Apply bivariate models for diagnostic test accuracy meta-analysis
  • Conduct dose-response meta-analysis with flexible splines
  • Understand when individual patient data (IPD) meta-analysis is needed
  • Reconocer las suposiciones y limitaciones de cada avanzado método

"A veces la pregunta es más compleja que A versus B..."

Los métodos que has aprendido forman la base. Pero la realidad clínica a menudo exige más: Which of 10 antidepressants is best? What's the optimal dose of statin? Does this test accurately diagnose early cancer?

Este módulo presenta cuatro métodos avanzados, cada uno de los cuales responde a diferentes preguntas complejas.

When you have many treatments but few head-to-head trials

NMA combines direct evidence (A vs B) with indirect evidence (A vs C, B vs C → inferred A vs B) to compare multiple treatments simultaneously.

SUCRA
Ranking probabilities, not effect size
Consistency
Direct = Indirect?
Networks
Visualize evidence
🔍

NMA Example: Antidepressants

The landmark Cipriani 2018 NMA compared 21 antidepressants using 522 trials.

The Challenge

21 drugs, but not every pair tested head-to-head

Many vs. placebo, few vs. each other

The Solution

NMA combina evidencia directa e indirecta en todo el red

Clasifica los 21 según su eficacia y aceptabilidad

Resultado: algunos medicamentos obtuvieron mejores calificaciones en cuanto a eficacia, otros en cuanto a aceptabilidad

Ningún medicamento es universalmente "mejor"; interprete clasificaciones con intervalos creíbles, transitividad y compensaciones clínicas.

1

Transitivity

Effect modifiers should be similarly distributed across comparisons; otherwise indirect comparisons may be biased

2

Consistency

La evidencia directa e indirecta concuerda (comprobable)

3

Connected Network

All treatments linked through at least one common comparator

When assumptions fail, NMA can mislead

Siempre evalúe la transitividad y pruebe inconsistencia.

Encontrar la dosis óptima

Uses the Greenland-Longnecker method con splines cúbicas restringidas para modelar relaciones no lineales entre dosis y efecto.

1

Non-linear patterns

J-shaped (alcohol & mortality), U-shaped (vitamin D), threshold (aspirin)

2

Clinical relevance

Encuentre la dosis con el mejor equilibrio beneficio-daño, no solo "más es mejor"

El estándar de oro para el análisis de subgrupos

Instead of published summary data, obtain sin procesar datos a nivel de paciente de los investigadores. Permite análisis precisos de subgrupos, modelado de tiempo hasta el evento y definiciones estandarizadas.

One-Stage
Single hierarchical model (not mega-trial)
Two-Stage
Analyze, then pool
80%+ target
Objetivo de disponibilidad de datos

El Grupo Colaborativo de Ensayistas Tempranos de Cáncer de Mama fue pionero en IPD MA en la década de 1980.

Cuando la "intervención" es una prueba

DTA meta-analysis synthesizes sensitivity (tasa de verdaderos positivos) y specificity (true negative rate)—two correlated outcomes requiring bivariate models.

1

Bivariate/HSROC Model

Cuenta la correlación entre sensibilidad y especificidad

2

SROC Curve

Curva ROC resumida con 95 % de confianza y regiones de predicción

3

QUADAS-2

Quality Assessment of Diagnostic Accuracy Studies

QuestionMethod
Does A beat B?Pairwise MA
Which of many treatments is best?Network MA (NMA)
¿Cuál es la dosis óptima?Dose-Response MA
Who benefits most? (subgroups)IPD MA
¿Qué precisión tiene esta prueba?DTA MA
¿Cómo evoluciona el efecto con el tiempo?Survival/Time-to-Event MA

El método debe coincidir con la pregunta. Nunca fuerces una pregunta con el método equivocado.

HISTORIA: La saga de los esteroides en la sepsis

Three large trials. Three different answers. What do you believe?

REAL DATA

CORTICUS (2008): 499 patients. Hydrocortisone in septic shock. No mortality benefit. ADRENAL (2018): 3,658 patients. Hydrocortisone. No mortality benefit. APROCCHSS (2018): 1,241 patients. Hydrocortisone + fludrocortisone. Mortality reduced (43% vs 49.1%, p=0.03). Same class of intervention. Different protocols. Different results.

El desafío del escritor de pautas
Estás escribiendo pautas sobre la sepsis. Tres ensayos importantes no están de acuerdo. ¿Cómo lo recomiendas?
PATH A: Simple Average
Pool all three trials. Overall effect uncertain. Conclude "evidence unclear."
Guidelines say steroids are optional. No strong recommendation.
OUTCOME: Clinicians left without clear guidance
PATH B: Investigate Heterogeneity
Analyze why APROCCHSS differed (fludrocortisone, longer duration, different population)
Identificar que el protocolo efectivo difiere de los ineficaces.
OUTCOME: Recommend the specific effective protocol
THE REVELATION
Las pruebas conflictivas no son fracasos. Son mapas de dónde funciona el tratamiento y dónde no. Las diferencias entre los ensayos (dosis, duración, cointervenciones, población) son la clave para la comprensión.

1. ¿Cuál es la ventaja clave del metaanálisis de red sobre el método por pares?

A. No requiere extracción de datos
B. It compares treatments not directly tested against each other
C. Elimina la necesidad de una evaluación del riesgo de sesgo
D. It produces better forest plots

2. Why does DTA meta-analysis require bivariate models?

A. To handle more than two studies
B. Para ajustar el sesgo de publicación
C. La sensibilidad y la especificidad son correlacionado
D. To generate forest plots

3. What does the "consistency" assumption in NMA require?

A. All studies must be high quality
B. La evidencia directa e indirecta debe coincidir
C. Sample sizes must be similar
D. No missing studies
Methodologist

Este curso cubre el flujo de trabajo de revisión sistemática completo. Para profundizar más, explore los cursos complementarios:

DTA Course
Bivariate/HSROC, SROC curves, QUADAS-2
Risk of Bias Mastery
RoB 2, ROBINS-I/E, domain-level assessment
GRADE Certainty
Full SoF tables, GRADE-CERQual
IPD Meta-Analysis
One-stage/two-stage, mixed-effects models
Publication Bias Detective
Copas, PET-PEESE, p-curve, selection models
Umbrella Reviews
AMSTAR 2, ROBIS, overlap correction
Prognostic Reviews
CHARMS, PROBAST, c-statistic pooling
Living Reviews + Rapid Reviews
TSA, update triggers, abbreviated methods

Module 12 Complete

"El método debe coincidir con la pregunta. Los métodos avanzados responden a preguntas avanzadas, pero los fundamentos nunca cambian".

Ha dominado el flujo de trabajo principal. Los siguientes diez módulos exploran la frontera: inferencia bayesiana, metanálisis en red, datos de pacientes individuales, modelado de dosis-respuesta, robustez y fragilidad, equidad, síntesis asistida por IA, evidencia cualitativa, métodos multivariados y reproducibilidad.

No todas las señales son verdad.

Módulo 13: El bayesiano Giro

===================================================================== MÓDULO 13: EL GIRO BAYESIANO (prueba de plataforma STAMPEDE) =====================================================================

No todas las señales son verdad.

Módulo 13: El bayesiano Giro

🎯 Learning Objectives

  • Explica la diferencia entre inferencia frecuentista y bayesiana
  • Interpret prior distributions, likelihoods, and posterior distributions
  • Distinguish credible intervals from confidence intervals
  • Understand when Bayesian meta-analysis offers advantages
  • Recognize how prior choice affects conclusions
Introducción de la historia: STAMPEDE

In 2005, a trial began

that would never truly end.

El ensayo STAMPEDE para el cáncer de próstata utilizó un diseño de plataforma de múltiples brazos y múltiples etapas (MAMS). Se podrían agregar o eliminar armas a medida que se acumularan pruebas. Aunque sus estadísticas eran frecuentistas, la filosofía adaptativa encarnaba el espíritu bayesiano: actualizar las decisiones a medida que se acumulan los datos.

In frequentist statistics, probability means long-run frequency. Un IC del 95% NO significa "95% de probabilidad de que el verdadero efecto esté en el interior". Significa: si repitiéramos el estudio infinitamente, el 95% de los intervalos contendrían la verdad.

p-value
P(datos | H₀), no P(H₀ | datos)
95% CI
Propiedad de cobertura, no creencia
Fixed
El verdadero parámetro es fijo

In Bayesian statistics, probability represents degree of belief. We start with a prior (lo que creemos antes que los datos), actualice con likelihood (lo que nos dicen los datos) y obtenga a posterior (updated belief).

1

Prior × Likelihood = Posterior

Teorema de Bayes: P(θ|datos) ∝ P(datos|θ) × P(θ)

2

Credible Intervals

Un intervalo de credibilidad del 95% es probabilísticamente interpretable, condicional al modelo especificado y anterior.

Researcher
1

Non-informative (Vague)

Normal(0, 10000) o uniforme. Dejemos que los datos dominen. Imita resultados frecuentistas.

2

Weakly Informative

Normal(0, 1) for log-OR. Regularizes extreme estimates while remaining flexible.

3

Informative

Based on previous evidence. Powerful but controversial. Must be pre-specified.

4

Half-Cauchy for τ

Recommended for heterogeneity. Half-Cauchy(0, 0.5) allows large τ but concentrates near zero.

Researcher

Most Bayesian models cannot be solved analytically. We use Markov Chain Monte Carlo (MCMC) para extraer muestras de la parte posterior. Herramientas: JAGS, Stan, brms (R), PyMC (Python).

Chains
Multiple independent chains (typically 4)
Convergence: R̂ < 1.01 (strict; older texts use < 1.1)
ESS
Bulk-ESS > 400 para medios; tail-ESS > 400 para CI
Methodologist

Instead of choosing between fixed-effect and random-effects models, Bayesian model averaging (BMA) pondera cada modelo según su probabilidad posterior. Esto tiene en cuenta la incertidumbre del modelo en la estimación final.

BF

Bayes Factors

BF₁₀ > 10 = evidencia sólida de H₁. BF₁₀ < 1/10 = evidencia sólida de H₀.

Marcador de posición de herramienta interactiva

Ajuste la fuerza anterior para ver cómo afecta la parte posterior. Observe cómo más datos abruman a los anteriores.



La historia de STAMPEDE

STAMPEDE se lanzó en 2005 con 5 ramas de investigación que comparan tratamientos para el cáncer de próstata avanzado. Para 2016, había agregado abiraterona y había mostrado una reducción del 37 % en la muerte (HR 0,63; IC del 95 %: 0,52–0,76).

El diseño de la plataforma incorpora el pensamiento adaptativo bayesiano: los análisis provisionales guían la selección de brazos, pueden ingresar nuevos brazos a medida que surgen tratamientos y los brazos inútiles caen temprano, salvando a los pacientes de tratamientos ineficaces. terapias.

STAMPEDE inscribió a más de 10,000 pacientes en más de 100 centros y cambió fundamentalmente la atención del cáncer de próstata. La mentalidad bayesiana permite que la evidencia se acumule e informe las decisiones en tiempo real.

Frequentist vs Bayesian Meta-Analysis
Elija bayesiano cuando: (1) tenga información previa genuina, (2) necesite afirmaciones probabilísticas ("efecto de probabilidad del 80 % > 0"), (3) pocos estudios hagan que las propiedades frecuentistas no sean confiables o (4) desee hacer un promedio del modelo.
Bayesian with weakly informative prior
A common practical default. Regularizes extreme estimates without forcing strong prior conclusions.
Bayesiano con previo informativo
Solo cuando la evidencia previa sea sólida y preespecificada. Debe hacer un análisis de sensibilidad.
Stay frequentist
Simpler, well-understood. Preferred when k is large and no prior information.

Remember Module 1?

CAST Through a Bayesian Lens

Si un análisis bayesiano de CAST hubiera utilizado un previo informativo de la ciencia básica (los antiarrítmicos suprimen las CVP), el posterior todavía se habría inclinado fuertemente hacia el daño. Con suficientes datos, incluso un historial sólido cede ante la probabilidad. La lección: los métodos bayesianos no protegen contra malos antecedentes, pero hacen suposiciones transparent.

Q1. What does a 95% Bayesian credible interval mean?

A. 95% of repeated experiments would produce intervals containing the true value
B. Hay un 95% de probabilidad de que el verdadero parámetro se encuentre dentro de este intervalo
C. The interval has a 95% chance of being correct
D. El 95% de los datos futuros caerán en este rango

Q2. ¿Cuál es el valor previo recomendado para la heterogeneidad entre estudios? (τ)?

A. Uniform(0, 100)
B. Normal(0, 1)
C. Half-Cauchy(0, 0.5)
D. Fixed at 0.5

Module 13 Complete

"El giro bayesiano no se trata de matemáticas. Se trata de honestidad: hacer visibles nuestras suposiciones."

No todas las señales son verdad.

Módulo 14: El Red

===================================================================== MÓDULO 14: LA RED (Cipriani 2018 — 21 antidepresivos) ===================================================================

Los métodos protegen a los pacientes de nuestra confianza.

Módulo 14: El Red

🎯 Learning Objectives

  • Explain why pairwise comparisons are insufficient when many treatments exist
  • Interpret network geometry (nodes, edges, thickness)
  • Comprender la transitividad, la coherencia y el papel de la evidencia indirecta
  • Interpret SUCRA rankings and league tables
  • Recognize when NMA assumptions are violated

A clinician faces a patient

con la depresión. ¿Qué medicamento?

Hay 21 antidepresivos comúnmente recetados. La mayoría de los ensayos comparativos comparan sólo 2 o 3. Cipriani et al. (2018, Lancet) conectaron 522 ensayos y 116,477 pacientes en una sola red.

1

Direct Evidence

Trials directly comparing A vs B give the most reliable estimate.

2

Indirect Evidence

Si existen A vs C y B vs C, podemos inferir A vs B. Este es el "transitivo" suposición.

3

Mixed Evidence

NMA combines both, weighted by precision, to rank all treatments simultaneously.

Cada nodo es un tratamiento. El espesor del borde representa el número de estudios que comparan esos dos tratamientos.

Researcher

Transitivity: La estimación indirecta (a través de un comparador común) debe aproximarse a la estimación directa. Esto requiere que los modificadores del efecto se distribuyan de manera similar en las comparaciones.

Consistency: Prueba estadística que compara evidencia directa e indirecta. Las pruebas globales (interacción diseño por tratamiento) y locales (división de nodos) ayudan a identificar bucles de inconsistencia.

Researcher
SUCRA
Superficie bajo clasificación acumulada. Los valores más altos indican una mejor probabilidad de clasificación, no una superioridad garantizada.
P-score
Análogo frecuentista a los resúmenes de clasificación de probabilidad. Interpretar con tamaños de efecto e incertidumbre.

Caution: Ranking is seductive but misleading when differences between treatments are small or uncertain. Always report credible/confidence intervals alongside ranks.

Methodologist

When interventions are complex (e.g., behavioral + pharmacological), component NMA decomposes multi-component treatments to estimate the individual contribution of each component. Uses additive models: effect(A+B) = effect(A) + effect(B) + interaction.

La Red Cipriani

El análisis de Lancet de 2018 encontró que los 21 antidepresivos eran más efectivos que el placebo. La amitriptilina, la mirtazapina y la venlafaxina obtuvieron los puntajes más altos en eficacia. La agomelatina, la fluoxetina y el escitalopram ocuparon el puesto más alto en cuanto a aceptabilidad (menor número de abandonos).

Ningún fármaco "ganó" en todos los resultados. La red reveló compensaciones invisibles al análisis por pares.

NMA Feasibility Check
Tiene 15 ECA que comparan 6 estatinas diferentes. Algunos pares tienen evidencia directa, otros no.
Check transitivity, then fit NMA
Verifique que las poblaciones de pacientes y los diseños de los estudios sean suficientemente similares en todas las comparaciones.
Ignore la evidencia indirecta
Pierde poder estadístico y deja vacíos en la base de evidencia.
Pool all into one pairwise comparison
Viola la estructura del evidencia. Las estatinas son medicamentos diferentes.

Q1. ¿Qué suposición debe cumplirse para que la evidencia indirecta sea válida en NMA?

A. Transitivity — effect modifiers are balanced across comparisons
B. Homogeneity — I² must be below 25%
C. All studies must have similar sample sizes
D. Todos los estudios deben ser doble ciego

Module 14 Complete

"La red ve lo que las comparaciones por pares no pueden: todo el panorama de elección de tratamiento".

No todas las señales son verdad.

Módulo 15: El individuo

===================================================================== MÓDULO 15: EL INDIVIDUO (EBCTCG — Metaanálisis de IPD) =============================================================

What was hidden in plain sight?

Módulo 15: El individuo

🎯 Learning Objectives

  • Explain why aggregate data can mask treatment–covariate interactions
  • Distinguish one-stage from two-stage IPD models
  • Recognize ecological bias in aggregate meta-analysis
  • Understand the practical challenges of IPD collection
  • Interpret treatment–covariate interaction plots

For decades, breast cancer trials

resúmenes publicados. No pacientes.

El Grupo Colaborativo de Ensayistas Tempranos de Cáncer de Mama (EBCTCG) recopiló registros individuales de más de 100,000 mujeres en cientos de ensayos. Sus metanálisis de IPD mostraron que los beneficios del tamoxifeno dependen en gran medida del estado del receptor de estrógeno, algo invisible en los datos agregados.

Cada ensayo publicado de tamoxifeno informó un resultado general. Según cientos de estudios, el tamoxifeno pareció ofrecer un beneficio modesto. Pero el “beneficio modesto” era un promedio que ocultaba una verdad profunda.

La división del subgrupo oculto

RR 0.59
ER-positive subgroup: 41% reduction in recurrence
RR 0.97
ER-negative subgroup: essentially no benefit at all

El efecto conjunto general (mezcla de pacientes que responden y no responden) fue una ficción estadística. Un promedio “modesto” que sobreestimó el beneficio para un grupo e implicó un beneficio donde no existía ninguno para el otro.

AD
Aggregate: published effect + CI only
IPD
Individual: raw patient-level records

IPD permite: (1) definiciones consistentes de resultados, (2) análisis de subgrupos por características del paciente, (3) modelado de tiempo hasta el evento, (4) verificación de sesgos ecológicos. Es gold standard for exploring treatment effect modification.

Researcher
1

Two-Stage

Analyze each study separately, then combine estimates (like standard MA). Simple but loses information.

2

One-Stage

Ajustar un único modelo de efectos mixtos a todos los datos del paciente simultáneamente. Más potente para interacciones y eventos raros.

Key: Ambos deberían tener en cuenta la agrupación de estudios. Nunca agrupe los IPD como si fueran de un megaensayo; esto introduce confusión (paradoja de Simpson).

Methodologist

A meta-regression using study-level mean age might show older patients benefit more. But this could be ecological bias: la asociación a nivel de estudio no refleja la verdad a nivel de paciente. Sólo IPD puede separar within-study from between-study effects.

Cuando el todo miente en sus partes

La paradoja de Simpson: una tendencia que aparece en los datos agregados se revierte cuando los datos se agrupan por una variable de confusión.

La paradoja en la práctica

A mega-trial analysis found Treatment X beneficial overall. But dentro cada estudio, fue perjudicial. ¿Cómo? Las diferencias en el riesgo inicial entre los estudios crearon una ilusión: las poblaciones más enfermas recibieron más tratamiento, lo que infló el beneficio agregado.

Cates (2002, BMJ) demostró que la combinación de estudios sin tener en cuenta la agrupación puede revertir la dirección aparente del efecto.

Esta es la razón por la que los modelos de una etapa de IPD incluyen el estudio como una variable de agrupación, para evitar que la confusión entre estudios se haga pasar por tratamiento. efecto.

El legado de EBCTCG

Los metanálisis IPD del EBCTCG han definido el tratamiento del cáncer de mama durante 40 años. Su análisis de 2005 de tamoxifeno versus ningún tratamiento mostró un beneficio claro en los tumores ER positivos (RR 0,59), pero ningún beneficio en los tumores ER negativos (RR 0,97).

Sin la DPI, el efecto agregado general se habría agrupado en ambos grupos, diluyendo el beneficio y potencialmente negando a los pacientes ER positivos la magnitud de su ganancia.

Do you suspect treatment–covariate interactions?
Yes →

¿Puede obtener IPD de >80% de los ensayos?

Yes → One-stage IPD meta-analysis with interaction terms
No → Dos etapas: solicitar IPD disponible + agregado para el resto
No →

Is ecological bias a concern?

Yes → IPD preferred even without interactions
No → Aggregate data meta-analysis may suffice

EBCTCG recopiló datos de cientos de ensayos durante 40 años. La mayoría de los metanálisis de DPI incluyen entre 5 y 20 ensayos. La decisión depende de la pregunta, no de la ambición.

Methodologist

¿Recuerdas el Módulo 3? La TRH pareció beneficiosa en estudios observacionales pero perjudicial en ECA. Se produjo el mismo enmascaramiento agregado: el beneficio general ocultó el daño del subgrupo.

El análisis IPD de la Women's Health Initiative mostró posteriormente que timing mattered—las mujeres que comenzaron la TRH dentro de los 10 años posteriores a la menopausia tuvieron resultados diferentes que aquellas que comenzaron más tarde. La “hipótesis del momento” era invisible en los resúmenes agregados publicados.

La lección se repite: los datos agregados pueden oscurecer las interacciones críticas entre el tratamiento y las covariables. Ya sea el estado de ER en el cáncer de mama o el momento de la TRH, los datos a nivel individual revelan lo que ocultan los resúmenes.

Q1. ¿Cuál es la principal ventaja del IPD sobre el metanálisis de datos agregados?

A. Siempre incluye más estudios
B. Es más barato y más rápido
C. It can explore treatment–covariate interactions without ecological bias
D. Elimina la necesidad de modelos de efectos aleatorios

Module 15 Complete

"Detrás de cada estimación agrupada hay individuos cuyas historias el agregado no puede contar."

La heterogeneidad es un mensaje, no ruido.

Módulo 16: El Dosis

==================================================================== MÓDULO 16: LA DOSIS (Curva J del alcohol / Stockwell 2016) ===================================================================

La heterogeneidad es un mensaje, no ruido.

Módulo 16: El Dosis

🎯 Learning Objectives

  • Explain why simple pairwise comparisons miss dose–response relationships
  • Distinguish linear, quadratic, and spline dose–response models
  • Interpret restricted cubic splines with knots
  • Identify threshold effects and J/U-shaped curves
  • Understand model comparison with AIC/BIC

Durante décadas, el consumo moderado de alcohol

pareció proteger el corazón.

La "curva en forma de J" mostró que los no bebedores tenían una mayor mortalidad cardiovascular que los bebedores moderados. Pero Stockwell et al. (2016) demostraron que la curva J era un artefacto de clasificar erróneamente a ex bebedores (que dejaron de beber debido a una enfermedad) como "abstemios".

Para 2010, más de 100 estudios observacionales habían confirmado la curva J. Los libros de texto de medicina lo enseñaban. Los cardiólogos lo citaron. Los lobbystas de la industria del vino financiaron conferencias sobre este tema.

100+
Estudios observacionales que confirman la curva J
15–25%
Lower cardiovascular mortality in moderate drinkers vs abstainers

La evidencia parecía abrumadora. Pero, ¿qué pasaría si el grupo de comparación, los “abstemios”, estuviera contaminado?

El enfermo que abandona

A Hidden Confounder

The Problem

People who stop drinking often do so because they are already ill—enfermedad hepática, interacciones entre medicamentos, diagnóstico de cáncer. Estos “ex bebedores” fueron clasificados como “abstemios” en la mayoría de los estudios.

The Effect: The reference group (abstainers) appeared less healthy—no porque la abstinencia fuera dañina, sino porque personas enfermas se habían sumado a ella.

When Stockwell et al. (2016, J Stud Alcohol Drugs) removed former drinkers and applied appropriate study-quality corrections: la curva J desapareció. El efecto protector era un fantasma.

Standard meta-analysis asks: "Does treatment X work?" Dose–response meta-analysis asks: "At what dose ¿el tratamiento X funciona mejor?" Modela la relación entre el nivel de dosis y el resultado en múltiples estudios.

Linear
Simplest: log(RR) = β × dose
Spline
Flexible: piecewise polynomials with knots
Fractional
Polynomial: dose^p1 + dose^p2
Researcher

RCS place knots en puntos de dosis preespecificados y ajusta polinomios suaves entre ellos. Normalmente, de 3 a 5 nudos en los cuantiles de la distribución de dosis. Lineal más allá de los nudos límite. Las pruebas de no linealidad comparan el modelo spline con un modelo lineal más simple.

AIC

Model Comparison

AIC/BIC compara el ajuste lineal versus el spline. Inferior = mejor. También prueba la desviación de la linealidad (valor p para términos spline).

Compara los ajustes lineal, cuadrático y spline. Observa cómo cambia la forma del modelo con diferentes suposiciones.

La curva J del alcohol desacreditada.

El nuevo análisis de Stockwell de 2016 encontró que cuando los exbebedores eran correctamente excluidos del grupo de referencia "abstemio", el efecto protector del consumo moderado de alcohol desaparecía. La curva J fue impulsada por el sesgo de los que abandonan por enfermedad.

El metanálisis de dosis-respuesta reveló la verdad: la forma de la curva depende fundamentalmente de cómo se define "dosis cero". La categoría de referencia incorrecta creó un beneficio fantasma.

The phantom J-curve influenced alcohol guidelines worldwide:

UK

NHS Guidance (until 2016)

“Beber con moderación puede proteger el corazón” apareció en la guía oficial. Después de la corrección de Stockwell, el Reino Unido revisó los límites a 14 unidades/semana para all bebedores (anteriormente 21 para los hombres). Ninguna cantidad fue declarada “segura”.

US

Dietary Guidelines Advisory Committee

Se citaron estudios de curva J hasta 2015. El comité de 2020 recomendó reducir los límites a 1 bebida/día para los hombres, reconociendo el sesgo del grupo de referencia.

AU

Australian Guidelines

Safe drinking limits were delayed by industry-funded J-curve research promoting “cardioprotective” moderate intake.

¿Tiene ≥3 niveles de exposición (no solo expuesto vs. ¿no expuesto)?
Yes →

¿Es plausible que la relación no sea lineal?

Yes → Restricted cubic splines (3–5 knots). Compare AIC with linear model.
No → Linear dose-response meta-regression may suffice
No →

Standard pairwise meta-analysis (no dose-response possible with only two levels)

Warning: Comprueba siempre: ¿está limpia tu categoría de referencia? La lección de la curva J: un grupo de referencia contaminado crea una no linealidad fantasma.

Q1. What makes restricted cubic splines useful in dose–response meta-analysis?

A. They always produce a straight line
B. They flexibly capture non-linear dose–response curves
C. Reducen el número de estudios necesarios
D. They simplify the model to fewer parameters

Module 16 Complete

"La dosis crea el veneno. Y la forma de la curva revela si el veneno es real."

La ausencia de evidencia no es evidencia de ausencia.

Módulo 17: El Fragilidad

===================================================================== MÓDULO 17: LA FRAGILIDAD (Oseltamivir / Jefferson 2014) ===================================================================

La ausencia de evidencia no es evidencia de ausencia.

Módulo 17: El Fragilidad

🎯 Learning Objectives

  • Calcule e interprete el índice de fragilidad
  • Utilice gráficos GOSH para identificar estudios y subconjuntos influyentes efectos
  • Interpret contour-enhanced funnel plots
  • Aplicar modelos de selección Copas y PET-PEESE para el sesgo de publicación
  • Understand how sensitivity analyses strengthen meta-analytic conclusions

Governments stockpiled billions

basado en evidencia que no pudieron ver.

Después del H1N1, los gobiernos gastaron miles de millones en reservas de oseltamivir (Tamiflu). El equipo Cochrane (Jefferson et al. 2014) luchó durante años para acceder a datos inéditos. Cuando finalmente lo hicieron, la evidencia para prevenir complicaciones se evaporó.

El índice de fragilidad pregunta: "How many patients would need to change outcome to flip a statistically significant result to non-significant?" Agrega eventos de forma iterativa (convierte no eventos en eventos) en el grupo con menos eventos hasta p > 0.05.

FI = 1
Extremely fragile. One patient flip changes conclusion.
FI > 8
Reasonably robust. Less sensitive to individual outcomes.

Enter a 2×2 table to calculate the fragility index. Watch events shift until significance flips.

Events
Total N
Treatment
Control
Researcher

Resumen gráfico de la heterogeneidad del estudio (GOSH) ajusta los modelos de metanálisis a todos los subconjuntos posibles de estudios. Cada punto traza el efecto combinado frente a I² para un subconjunto. Los grupos sugieren subgrupos distintos; las nubes atípicas sugieren un estudio que impulsa la heterogeneidad.

Para k estudios, hay 2k−1 subsets. For k > 15, random sampling is used.

Researcher

Standard funnel plots show effect size vs standard error. Contour-enhanced versiones que agregan regiones sombreadas para p < 0,01, p < 0,05 y p < 0,10. Si los estudios faltantes corresponden a regiones no significativas, es probable que se produzca un sesgo de publicación. Si se encuentran en regiones significativas, otras causas (por ejemplo, la calidad del estudio) pueden explicar la asimetría.

Methodologist
1

Copas Selection Model

Modela la probabilidad de que un estudio se publique en función de su SE y el tamaño del efecto. Estima conjuntamente el efecto real y el mecanismo de selección.

2

PET-PEESE

Precision-Effect Test (PET): regress effects on SE. If intercept = 0, no true effect. PEESE uses SE² for better performance when a true effect exists.

La saga del oseltamivir

El metanálisis original financiado por Roche (Kaiser 2003) mostró que el oseltamivir redujo las complicaciones de la influenza en un 67%. Pero 8 de 10 ensayos nunca se habían publicado. Después de que Cochrane obtuvo los informes de los estudios clínicos, el beneficio por complicaciones cayó a un 11% no significativo.

La fragilidad no fue solo estadística: fue informativa. A la base de evidencia en sí le faltaban la mayoría de los datos.

Usted calculó el índice de fragilidad. ¿Qué significa el número?
FI ≤ 3

Highly fragile. Un puñado de eventos diferentes revertirían la conclusión. Interprete con extrema precaución.

FI 4–8

Moderately fragile. Sensible a pequeñas perturbaciones. ¿Hay ensayos no publicados que podrían cambiar esto?

FI > 8

Relatively robust. But remember: fragility is only one dimension. Publication bias can undermine even robust results.

Walsh et al. (2014, J Clin Epidemiol) encontraron que en 399 ECA publicados en las principales revistas, el índice de fragilidad medio era solo 8. Más del 25% tenía FI ≤ 3. Los ensayos históricos que influyeron en la práctica clínica a menudo pendían de un hilo estadístico.

Methodologist

La saga del oseltamivir al descubierto three types of fragility—Y el Índice de Fragilidad captura sólo el primero.

1

Statistical Fragility (FI)

¿Cuántos eventos invierten el valor p? Esto es lo que mide el Índice de Fragilidad. Cuantifica la sensibilidad a los resultados de cada paciente.

2

Informational Fragility

¿Qué parte de la evidencia está oculta? Ocho de diez ensayos de Roche oseltamivir no estaban publicados. La base de evidencia era estructuralmente incompleta.

3

Analytical Fragility

¿Cuántos grados de libertad del investigador podrían cambiar la conclusión? Diferentes definiciones de resultados, poblaciones de análisis o métodos estadísticos.

Devolución de llamada al Módulo 10 (Paroxetina): Un nuevo análisis con diferentes definiciones de resultados revirtió la conclusión por completo. Eso fue fragilidad analítica: el IF nunca se calculó porque el punto final en sí estaba en disputa. Una evaluación de solidez completa examina las tres dimensiones.

Q1. Un ensayo tiene 200 pacientes por brazo, 12 eventos en tratamiento, 25 en control (p=0,03). El índice de fragilidad es 3. ¿Qué significa esto?

A. El tamaño del efecto es exactamente 3
B. Changing just 3 patient outcomes would flip the result to non-significant
C. El resultado es muy sólido con 3 estudios confirmatorios.
D. Se necesitan al menos 3 pacientes para el estudio.

Module 17 Complete

"El número que sobrevive a cada intento de romperlo es el número en el que vale la pena confiar".

No todas las señales son verdad.

Módulo 18: La Equidad

============================================================= MÓDULO 18: LA EQUIDAD (exclusiones SPRINT / PROGRESS-Plus) ===============================================================

Certainty must be earned, not assumed.

Módulo 18: La Equidad

🎯 Learning Objectives

  • Identify how trial exclusion criteria create evidence gaps
  • Aplicar el marco PROGRESS-Plus para evaluar la equidad en la evidencia
  • Use PRISMA-Equity reporting guidelines
  • Understand transportability: when trial findings fail in practice
  • Design equity-sensitive search and synthesis strategies

SPRINT proved tight blood pressure control

saves lives. But whose lives?

El histórico ensayo SPRINT excluyó a pacientes con diabetes, accidente cerebrovascular previo e insuficiencia cardíaca. Más del 75% de los pacientes hipertensos estadounidenses no habrían calificado. La evidencia era sólida pero la aplicabilidad era limitada.

Diapositiva A: La mayoría que falta

SPRINT inscribió a 9.361 pacientes y demostró que el control intensivo de la presión arterial (objetivo <120 mmHg) redujo los eventos cardiovasculares en un 25% (HR 0,75, IC 95% 0,64–0,89). Pero los criterios de inclusión contaron una historia diferente.

Quién fue excluido:

  • Diabetes — 35% de los adultos estadounidenses con hipertensión
  • Prior stroke — 8% de la población hipertensa
  • Symptomatic heart failure — 6% of hypertensive adults
  • Expected survival <3 years — los pacientes más frágiles
  • Nursing home residents — excluded entirely
  • GFR <20 mL/min — advanced kidney disease

Resultado: Más del 75% de los adultos estadounidenses con hipertensión NO habrían calificado. La evidencia era contundente. ¿Pero para quién?

Diapositiva B: La geografía de la evidencia

De dónde viene la evidencia

78%

of cardiovascular mega-trial participants came from high-income countries (2000–2020).

6%

from sub-Saharan Africa — where cardiovascular disease is rising fastest.

Ensayos de Polypill: 4 de 5 se realizaron en poblaciones con un IMC medio <25. El IMC medio en Estados Unidos es 30. El metabolismo de los fármacos, los patrones de comorbilidad, el acceso a la atención médica y la variación genética difieren entre las poblaciones. Efficacy in one population does not guarantee effectiveness in another.

Referencia: Ensayos multinacionales y la brecha de PROGRESS-Plus

P
Place of residence
R
Race / ethnicity
O
Occupation
G
Gender / sex
R
Religion
E
Education
S
SES (socioeconomic)
S
Social capital

Plus: Age, disability, sexual orientation, other vulnerable groups.

Researcher

PRISMA-Equity amplía PRISMA para exigir informes sobre cómo se abordó la equidad en la revisión: características de la población, análisis de subgrupos por desventaja y evaluación de la aplicabilidad a poblaciones desatendidas.

Transportability: La eficacia del ensayo no es igual a la eficacia en el mundo real. Existen métodos para volver a ponderar los datos de los ensayos para que coincidan con la distribución de la población objetivo.

Diapositiva C: La cuestión de la transportabilidad
Researcher

Transportability = ¿Se pueden aplicar los resultados de la población de prueba X a la población objetivo Y? Ésta no es una cuestión filosófica: tiene métodos formales.

1

Inverse Probability of Participation Weighting (IPPW)

Re-weights trial participants so they resemble the target population on key covariates.

2

Generalizability Index

Cuantifica qué tan similar es la muestra del ensayo a la población objetivo en cuanto a las características observadas.

Stuart et al. (2015, Stat Med): Cuando los resultados del SPRINT se volvieron a ponderar para que coincidieran con la población hipertensa de EE. UU., el beneficio estimado se atenuó: HR 0,82 (frente a 0,75 en el ensayo). El tratamiento todavía funciona. Pero la magnitud cambia cuando cambia la población.

SPRINT y la mayoría perdida

SPRINT fue un ensayo bien diseñado de 9,361 pacientes. Su hallazgo (HR 0,75 para el control intensivo de la PA frente al estándar) cambió las directrices en todo el mundo. Pero los análisis posteriores mostraron que el beneficio fue mayor en el subgrupo más parecido a la población del ensayo, e incierto para los grupos excluidos.

La equidad en la síntesis de evidencia significa preguntar no solo "¿Funciona?" pero "¿Para quién funciona?"

ROOT: ¿La evidencia de su revisión proviene de poblaciones similares a su objetivo?

YES → Good. But check: Are subgroups (age, sex, ethnicity, SES) reported separately?

  • Yes: Use subgroup effects for population-specific recommendations
  • No: Flag as limitation — equity gap in reporting

NO → Does PROGRESS-Plus analysis reveal differential effects?

  • Yes: Population-specific recommendations needed. Consider transportability re-weighting.
  • No: Cautious generalization with explicit equity statement in discussion
Diapositiva E: Devolución de llamada al Módulo 3
Methodologist

Callback: The HRT Lesson Revisited

¿Recuerda el Módulo 3? La historia de la TRH demostró que healthy-user bias hacía que un tratamiento perjudicial pareciera beneficioso. SPRINT puede tener el problema opuesto: el efecto de “voluntario sano” puede hacer que parezca un tratamiento eficaz more effective than it would be in the real world.

Cada metanálisis debería preguntarse: ¿Quién estuvo incluido? ¿Quién fue excluido? ¿Y eso importa?

Q1. What does the PROGRESS-Plus framework help reviewers assess?

A. Statistical heterogeneity
B. Equity and applicability across disadvantaged populations
C. Validez interna de los estudios incluidos
D. Certidez general de la evidencia

Module 18 Complete

"La evidencia que excluye a los vulnerables no puede pretender servirles".

No todas las señales son verdad.

Módulo 19: El Máquina

==================================================================== MÓDULO 19: LA MÁQUINA (cribado Cochrane de COVID) ====================================================================

El número sin procedencia no es un número.

Módulo 19: El Máquina

🎯 Learning Objectives

  • Describe how AI/ML is used in systematic review screening
  • Explain active learning and human-in-the-loop workflows
  • Assess automation validation: recall, workload savings, and risk
  • Reconocer las limitaciones y sesgos del cribado algorítmico
  • Aplicar marcos para el uso responsable de la IA en la evidencia síntesis

When COVID-19 hit,

papers arrived faster than humans could read.

Para 2021, existían más de 300.000 artículos COVID. Cochrane utilizó clasificadores de aprendizaje automático para clasificar los estudios para sus revisiones rápidas, lo que redujo la carga de trabajo de detección hasta en un 70 % y mantuvo >95 % de recuperación.

By April 2020, 4,000 COVID preprints appeared every week.

PubMed indexed 500 new COVID articles per day.

Cochrane's screening queue hit 10,000 unreviewed titles.

🔍 Las matemáticas de la imposibilidad

A pair of reviewers screens ~200 titles per day.

At 500 new articles/day, they fell further behind with every hour.

La revisión viva estaba muriendo antes de poder vivir.

La primera Intentos

La idea no era nueva. Cohen y cols. (2006, JAMIA) demostraron por primera vez que el aprendizaje automático podía reducir la carga de trabajo de detección en un 50 %, con menos del 5 % de pérdida en la recuperación.

📅
2006: Cohen et al. — SVM classifiers for drug class reviews. Proof of concept.
📅
2016: RobotReviewer (Marshall et al., JMLR) — ML for risk of bias assessment. Inter-rater reliability comparable to human reviewers.
📅
2021: ASReview (van de Schoot et al., Nature Machine Intelligence) — active learning that simulated 95% workload reduction.

Pero la simulación no es la realidad. COVID sería la primera prueba real a escala.

1

Screening Prioritization

Active learning ranks citations by relevance. Reviewers screen the most likely relevant first.

2

Asistencia de extracción de datos

La PNL extrae elementos, resultados y resultados de PICO. Siempre requiere verificación humana.

3

Risk of Bias Assessment

ML classifiers predict RoB domains. Experimental—human judgment remains gold standard.

Researcher
Recall
>95% required. Missing 1 study can change conclusions.
WSS@95%
Work Saved over Sampling at 95% recall.
Stopping
When to stop screening? Consecutive irrelevant threshold.

La tensión fundamental: La automatización ahorra tiempo pero introduce una nueva fuente de error. Informe siempre la herramienta, la versión, los datos de entrenamiento y los criterios de parada.

La crisis de validación
🔍 La paradoja de la validación

Para saber si la máquina omitió un estudio relevante, you need a human to screen everything.

But if humans screen everything, ¿Por qué usar el ¿máquina?

The solution: prospective holdout validation.

  • Random 10% sample screened by both human and machine
  • Comparar: ¿la máquina se perdió lo que encontró el humano?
  • If recall drops below 95%, retrain and expand human screening

Confía, pero verifica. La máquina se gana su función, no la hereda.

Cochrane's COVID Response

Cochrane creó el Registro de estudios de COVID-19 utilizando clasificadores de aprendizaje automático entrenados en millones de registros. El sistema logró una sensibilidad del 99 % y redujo la detección manual de semanas a días.

Pero la máquina era una herramienta, no un reemplazo. Todos los estudios incluidos fueron verificados por revisores humanos. La lección: la IA aumenta al revisor, no lo reemplaza.

El estudio que casi no se encuentra

En junio de 2020, el ensayo RECOVERY publicó sus resultados de dexametasona.the first treatment proven to reduce COVID mortality (28-day mortality: 22.9% vs 25.7%, RR 0.83).

La preimpresión apareció en medRxiv con un título no estándar. Escenarios como este ocurrieron repetidamente durante la pandemia: los clasificadores de ML, capacitados en la terminología existente, clasificaron los marcos desconocidos en un nivel bajo.

En varias revisiones de seres vivos, los revisores humanos que escanearon los títulos marcados reconocieron nombres de medicamentos clave y escalaron estudios que los clasificadores habían despriorizado.

Sin esos humanos, los hallazgos de tratamientos históricos podrían haber esperado semanas para llegar a los vivos. revisión.

La máquina lee más rápido. El humano lee más profundamente. Ninguno de los dos es suficiente por sí solo.

¿Su revisión examinará más de 5,000 títulos?
Yes → Consider AI-assisted screening

Active learning prioritization. Dual-screen random 10% holdout. Stop when 3 consecutive batches yield 0 relevant studies.

Report: classifier type, training data, recall on holdout, stopping rule.

No → Manual screening is feasible

For <5,000 titles, dual human screening remains gold standard. AI adds complexity without proportionate benefit.

¿Es esta una revisión viva o rápida?

If yes → AI is especially valuable. Continuous classifier retraining on new evidence. But: nunca deje que la máquina tome la decisión final de inclusión.

El patrón se repite
Methodologist

¿Recuerda el Módulo 6? Poldermans fabricó datos DECREASE que guiaron las pautas perioperatorias sobre betabloqueantes durante una década.

AI can now detect statistical anomalies automatically:

  • GRIM test: ¿Las medias reportadas son consistentes con tamaños de muestra enteros?
  • SPRITE: ¿Se pueden reconstruir las estadísticas resumidas reportadas a partir de datos individuales plausibles?
  • Statcheck: Do reported p-values match the test statistics?

Estas herramientas encontraron anomalías en hundreds of published papers—faster than any human auditor.

Pero la máquina falla. Los jueces humanos. La decisión de retractarse sigue siendo profundamente humana.

Q1. ¿Cuál es el retiro mínimo aceptable para la detección asistida por IA en revisiones sistemáticas?

A. 80%
B. 90%
C. >95%
D. 100%

Module 19 Complete

"La máquina lee más rápido. El ser humano lee más profundamente. Juntos, leen la verdad".

No todas las señales son verdad.

Módulo 20: El Cualitativo

===================================================================== MÓDULO 20: EL CUALITATIVO (Bohren 2015 — atención de maternidad) ===================================================================

Los métodos protegen a los pacientes de nuestra confianza.

Módulo 20: El Cualitativo

🎯 Learning Objectives

  • Explain why some questions require qualitative evidence synthesis
  • Describe meta-ethnography (Noblit & Hare) and thematic synthesis
  • Apply the CERQual framework to assess confidence in qualitative findings
  • Understand mixed-methods synthesis approaches
  • Recognize when qualitative evidence changes practice

La OMS hizo una pregunta

ningún ECA pudo respuesta.

¿Por qué las mujeres en todo el mundo sufren falta de respeto y abuso durante el parto? Bohren et al. (2015) sintetizaron 65 estudios cualitativos de 34 países en un marco de siete dominios de maltrato.

Diapositiva A: Una pregunta más allá de la aleatorización

En 2014, la OMS convocó a un panel para abordar una crisis global: las mujeres estaban siendo físicamente abusadas, humilladas verbalmente y negadas atención durante el parto. Este no fue un evento raro: los informes vinieron de 34 countries.

They needed to understand WHY. What drives disrespect and abuse in maternity care?

Ningún ECA pudo responder esto. No se puede asignar aleatoriamente a las mujeres a una atención abusiva o respetuosa. No se puede cegar a las parteras. No se puede medir la “dignidad” en una escala Likert. La evidencia tenía que ser cualitativa.

Developed by Noblit & Hare (1988), meta-ethnography translates conceptos entre estudios en lugar de agregar números. Produce nuevos marcos interpretativos (construcciones de tercer orden) a partir de datos de primer orden (citas de los participantes) y de segundo orden (interpretaciones del autor).

Reciprocal
Los estudios se confirman entre sí
Refutational
Los estudios se contradicen entre sí
Line of
argument
Los estudios construyen un nuevo teoría

What Bohren Found: A Taxonomy of Mistreatment

1. Physical abuse

Hitting, pinching, slapping during labor

2. Sexual abuse

Inappropriate touching, non-consensual procedures

3. Verbal abuse

Shouting, threats, judgmental comments

4. Stigma & discrimination

Based on HIV status, ethnicity, age, poverty

5. Professional standards failure

Neglect, lack of informed consent

6. Poor rapport

Poor communication, dismissiveness

7. Health system conditions

Overcrowding, understaffing, lack of supplies

65 estudios. 34 países. Los mismos patrones se repitieron en todos los idiomas, culturas y sistemas. Esto no fue una anécdota. Esta fue evidencia sintetizada.

Researcher

CERQual assesses confidence in qualitative review findings across four components:

1

Methodological Limitations

Calidad de los estudios que contribuyen.

2

Coherence

Qué tan bien los datos respaldan el hallazgo.

3

Adequacy

Riqueza de los datos (no solo el número de estudios).

4

Relevance

Aplicabilidad al contexto de la pregunta de revisión.

Diapositiva C: De la evidencia a la acción

Bohren's synthesis informed the WHO's 2018 Recommendations on Intrapartum Care for a Positive Childbirth Experience. Specific changes grounded in qualitative evidence:

Rec. 15
Companionship during labor
Rec. 1
Respectful maternity care
Rec. 3
Effective communication
Rec. 12
Emotional support

Estas recomendaciones, basadas en evidencia cualitativa, ahora guían la atención de maternidad en 194 estados miembros de la OMS. Ninguna parcela forestal podría haberlos producido. Ninguna estadística I² podría haberlos revelado.

Bohren's Framework of Mistreatment

La síntesis cualitativa de 2015 identificó siete dominios: abuso físico, abuso sexual, abuso verbal, estigma y discriminación, incumplimiento de los estándares profesionales, mala relación y condiciones del sistema de salud. Este marco informó las Recomendaciones de la OMS sobre atención durante el parto (2018).

Ningún valor p podría capturar la experiencia de recibir una bofetada durante el parto. La síntesis cualitativa dio voz a lo que los números no pudieron.

ROOT: ¿Su pregunta de investigación es sobre experiencias, percepciones, barreras o facilitadores?

YES → ¿Su pregunta es sobre el CÓMO o el PORQUÉ, no solo sobre el SI?

  • Yes: Qualitative evidence synthesis (meta-ethnography, thematic synthesis, or framework synthesis)
  • No: Considere métodos mixtos: cuantitativo para el efecto + cualitativo para mecanismo

NO →¿Su pregunta es sobre efectividad/eficacia?

  • Yes: Quantitative meta-analysis
  • But: Complemente con una revisión cualitativa de las barreras de implementación (evaluadas por CERQual)

Key insight: Las revisiones sistemáticas más sólidas responden AMBAS: ¿Funciona? (cuantitativo) Y ¿Por qué funciona o falla? (cualitativo)

Q1. What distinguishes meta-ethnography from quantitative meta-analysis?

A. Solo incluye de 3 a 5 estudios
B. It translates concepts across studies rather than pooling numbers
C. It does not require a systematic search
D. It is less rigorous than quantitative synthesis

Module 20 Complete

"No todo lo que cuenta se puede contar. No todo lo que cuenta cuenta."

La heterogeneidad es un mensaje, no ruido.

Módulo 21: El Multivariado

===================================================================== MÓDULO 21: EL MULTIVARIADO (Resultados correlacionados / RVE) ===================================================================

La heterogeneidad es un mensaje, no ruido.

Módulo 21: El Multivariado

🎯 Learning Objectives

  • Reconocer cuándo los resultados dentro de un estudio están correlacionados
  • Explain multivariate random-effects models
  • Apply robust variance estimation (RVE) for dependent effect sizes
  • Comprender modelos de tres niveles para anidados datos
  • Choose between multivariate approaches based on data structure

Cardiovascular trials report

mortalidad, infarto de miocardio, accidente cerebrovascular y más.

Estos resultados están correlacionados dentro de los pacientes. Un paciente que muere no puede tener un criterio de valoración de IM. El metanálisis estándar trata cada resultado de forma independiente, ignorando la dependencia y la posible doble contabilización de la evidencia.

Diapositiva A: La mentira de la conveniencia

Abra cualquier libro de texto de metanálisis estándar. Los modelos suponen que cada estudio contribuye one independent effect size. But reality is different.

Un único ensayo cardiovascular informa mortalidad, infarto de miocardio, accidente cerebrovascular y revascularización. Un solo estudio de psicoterapia informa depresión, ansiedad y calidad de vida a los 3, 6 y 12 meses.

30 trials
× 4 outcomes
= 120
effect sizes

Most analysts either: (a) treat all 120 as independent (inflating precision by a factor of √4), or (b) elija un resultado y descarte el resto. Ambos enfoques son incorrectos.

In standard pairwise meta-analysis, each study contributes one effect size. But many studies report multiple outcomes, subgroups, timepoints, or arms—creating dependent tamaños del efecto. Ignorar esto infla la precisión y distorsiona la inferencia.

RVE
Robust Variance Estimation. Sandwich estimator handles unknown correlation.
3-Level
Study → Outcome nesting modeled explicitly.
Researcher

RVE (Hedges, Tipton & Johnson, 2010) uses a sandwich-type estimador que proporciona errores estándar válidos independientemente de la verdadera correlación entre los efectos dependientes. No es necesario conocer ni estimar la correlación dentro del estudio. Lo mejor para ≥20 estudios.

Small-sample correction: Tipton y Pustejovsky (2015) desarrollaron correcciones de muestras pequeñas (CR2) para RVE, utilizando grados de libertad de Satterthwaite cuando el número de conglomerados es pequeño.

Diapositiva B: La verdad matemática
Researcher

What Dependence Does to Your Confidence Intervals

Si 4 resultados de el mismo estudio tiene una correlación dentro del estudio ρ = 0,5:

Treating as independent

CI width = X

Contabilización de la dependencia

CI width = 1.58X

Su intervalo de confianza debe ser 58% wider. Cada metanálisis que ignoró esto publicó resultados falsamente precisos.

RVE (Hedges, Tipton & Johnson, 2010): Uses a “sandwich” variance estimator that produces correct standard errors without needing to know the exact within-study correlation.

Researcher
1

Level 1: Sampling Variance

Measurement error within each effect size estimate.

2

Level 2: Within-Study Variance

Los resultados y los momentos varían dentro de un solo estudio.

3

Level 3: Between-Study Variance

Los estudios difieren entre sí en poblaciones, entornos y métodos.

Example: En un metanálisis de psicoterapia para la depresión (k=50 estudios, 180 efectos) tamaños), 35% de la varianza fue dentro del estudio (diferentes resultados) y 65% fue entre estudios (diferentes terapias, poblaciones). Esta descomposición revela cuánta heterogeneidad hay within vs between studies.

Methodologist

Cuando los efectos están anidados (por ejemplo, resultados múltiples dentro de estudios o estudios dentro de grupos de investigación), una three-level model divide la varianza en: (1) varianza muestral (nivel 1), (2) varianza dentro del estudio (nivel 2) y (3) varianza entre estudios (nivel 3). Esto mantiene la inferencia correcta al tiempo que toma prestada fuerza en todos los niveles.

El desafío cardiovascular

Un metanálisis de estatinas podría incluir 30 ensayos, cada uno de los cuales informaría sobre mortalidad, infarto de miocardio, accidente cerebrovascular y revascularización. Es decir, 120 tamaños de efectos de 30 grupos. Tratarlos como 120 estimaciones independientes infla la precisión por un factor relacionado con la correlación dentro del estudio.

RVE or multivariate models handle this correctly—producing wider, honest confidence intervals.

ROOT: ¿Su metanálisis tiene múltiples efectos por estudio?

YES → ¿Conoce (o puede estimar) las correlaciones dentro del estudio?

  • Yes: Multivariate random-effects model (most efficient)
  • No: RVE with small-sample correction (robust to unknown correlations)

NO → Standard univariate random-effects model

Sub-question: ¿Sus múltiples efectos provienen de diferentes resultados? ¿puntos de tiempo o subgrupos?

  • Different outcomes → Three-level model or RVE with clustering
  • Different timepoints → Network of timepoints with temporal correlation
  • Different subgroups → Consider if subgroups are meaningful or should be averaged

Q1. What problem does Robust Variance Estimation (RVE) solve?

A. Publication bias
B. Dependencia entre múltiples tamaños de efectos del mismo estudio
C. Between-study heterogeneity
D. Small-study effects

Module 21 Complete

"Cuando los resultados están entrelazados, pretender que son independientes es una mentira de conveniencia".

El número sin procedencia no es un número.

Módulo 22: El Prueba

===================================================================== MÓDULO 22: LA PRUEBA (Error de Excel Reinhart-Rogoff) ====================================================================

El número sin procedencia no es un número.

Módulo 22: El Prueba

🎯 Learning Objectives

  • Understand how computational errors propagate through policy
  • Definir reproducibilidad y distinguir de replicabilidad
  • Aplicar hash de evidencia y transporte de pruebas números
  • Use reproducibility checklists for meta-analysis
  • Reconoce el papel del prerregistro y los datos abiertos

A graduate student opened a spreadsheet

y descubrió que la era de la austeridad se construyó sobre un error.

En 2010, Reinhart y Rogoff afirmaron que los países con una relación deuda-PIB >90% tenían un crecimiento negativo. Esto influyó en las políticas de austeridad en toda Europa. En 2013, Thomas Herndon encontró un error de Excel que excluía a 5 países del promedio. El resultado corregido: crecimiento positivo modesto, no colapso.

Reproducible
Same data + same code = same result
Replicable
Nuevos datos + mismos métodos = resultado consistente

Reproducibility is the minimum standard. Si otros no pueden reproducir su estimación agrupada a partir de los datos informados, el análisis no podrá verificarse. Los metanálisis deben compartir: datos extraídos, scripts de análisis, versiones de software y semillas aleatorias.

Researcher

Every number in a meta-analysis should carry its provenance: de dónde vino, cómo se transformó y qué código lo produjo. Evidence hashing creates a cryptographic fingerprint of inputs so any change (accidental or deliberate) is detectable.

SHA

Input Hash

Hash SHA-256 de datos extraídos. Si una celda cambia, el hash cambia. Cadena de procedencia: datos → código → resultado → hash.

Marque cada elemento para evaluar la reproducibilidad de un metanálisis. ¿Cómo califica su revisión?

El error de Excel que cambió las economías

El "Crecimiento en tiempos de deuda" de Reinhart-Rogoff fue citado en testimonios ante el Congreso, informes de la Comisión Europea y resúmenes de políticas del FMI. El error de Excel (las filas 30 a 34 se excluyeron de una fórmula PROMEDIO) significó que cinco países (Australia, Austria, Bélgica, Canadá y Dinamarca) simplemente faltaban.

El promedio corregido pasó de −0,1% a +2,2%. Las políticas de austeridad afectaron a millones. La reproducibilidad no es perfeccionismo académico: es una salvaguardia contra la catástrofe.

Remember Module 5?

DECREASE Through the Lens of Reproducibility

Los ensayos DECREASE de Don Poldermans fueron retractados por datos fabricados. Si hubieran existido números que portaban pruebas (entradas codificadas, cadenas de procedencia, cálculos verificados), la fabricación habría sido detectable before la evidencia ingresó a los metanálisis y cambió las pautas quirúrgicas.

Q1. ¿Cuál fue el error de Reinhart-Rogoff?

A. They used too small a sample
B. An Excel formula excluded 5 countries, reversing the conclusion
C. They studied the wrong time period
D. They used the wrong statistical test

Module 22 Complete

"El número sin procedencia no es un número. El análisis sin reproducibilidad no es evidencia."

Certainty must be earned, not assumed.

Módulo 23: Su primer Meta-Sprint

Módulo 23: Capstone - Su primer Meta-Sprint

Certainty must be earned, not assumed.

Módulo 23: Su primer Meta-Sprint

🎯 Learning Objectives

  • Comprenda el flujo de trabajo de revisión sistemática de 40 días
  • Map the Seven Principles to real practice phases
  • Recognize Definition-of-Done (DoD) gates as quality checkpoints
  • Appreciate why structure prevents the failures you've studied
  • Graduate ready to conduct (not just understand) meta-analysis
El viaje Completa

Has aprendido las historias.

Ahora debes recorrer el camino.

Cada reversión de evidencia que estudiaste ocurrió porque los equipos knew los métodos pero no lo hizo follow them systematically.

El marco META-SPRINT

Un flujo de trabajo estructurado de 40 días con 5 puertas de fase. Cada puerta es un punto de control de Definición de Hecho (DoD) que le impide avanzar hasta que se garantice la calidad.

40
Days to Completion
5
DoD Phase Gates
Day 34
Hard Freeze

Why 40 days? Suficientemente largo para el rigor, lo suficientemente corto para evitar cambios en el alcance. Las señales cardíacas de rosiglitazona estuvieron enterradas durante años porque no había una fecha límite que obligara a la transparencia.

Las cinco puertas
A

DoD-A: Protocol Lock (Days 1-3)

PICOS defined, timepoint rules set, model choices pre-specified. No moving target.

B

DoD-B: Search Lock (Days 6-10)

All databases searched, grey literature checked, PRESS validated. No hidden studies.

C

DoD-C: Extraction Lock (Days 10-28)

Dual extraction, provenance linked, RoB assessed. No fabricated numbers.

D

DoD-D: Bloqueo de análisis (días 21-33)

Forest plots generated, sensitivity analyses run, heterogeneity explored. No cherry-picking.

E

DoD-E: Submission Lock (Days 33-40)

GRADE certainty rated, clinical summary written, manuscript finalized. No overconfidence.

Day 34 Freeze: No se pueden agregar nuevos estudios después del día 34. Esto evita el "desplazamiento del alcance armado" que plagaba los metanálisis de cirugía de columna BMP, donde la industria seguía "encontrando" estudios favorables.

Every principle you learned maps to a specific phase gate:

DoD-A "No todas las señales son verdad" — Especifique previamente lo que cuenta como evidencia
DoD-B "What was hidden in plain sight?" — Search comprehensively
DoD-C "El número sin procedencia no es un número" — Vincula cada punto de datos
DoD-D "La heterogeneidad es un mensaje, no ruido" — Investigate, don't ignore
DoD-E "Certainty must be earned, not assumed" — GRADE everything

El principio del equipo rojo

Tu propio equipo intenta interrumpe tu trabajo.

Todos los días, dos miembros rotativos del equipo dedican 12 minutos a verificar la calidad de los datos como adversarios. Así es como se detectó el fraude de Boldt: no mediante una revisión amigable, sino mediante una verificación escéptica que detectó tasas de reclutamiento imposibles.

What happens when you discover a critical problem mid-sprint?

CondGO = Conditional Go

A bounded rescue protocol. You have exactly 72 hours para solucionar el problema usando solo acciones permitidas. Si no puede solucionarlo, debe detener la revisión.

📖 La lección de Avandia: GSK vio señales cardiovasculares en 2000, pero no tenía una fecha límite forzada. Ellos "observaron y esperaron" durante 7 años. Decenas de miles resultaron perjudicados. CondGO existe porque "eventualmente nos ocuparemos de ello" mata a la gente.

Comenzaste este curso con historias.

Lo terminas listo para practicar.

El flujo de trabajo META-SPRINT toma todo lo que has aprendido y lo estructura en un sistema de 40 días que previene las fallas que has estudiado.

Cuando esté listo para realizar una revisión sistemática real, abra la aplicación META-SPRINT. Las historias que ha aprendido aquí lo guiarán y aparecerán como recordatorios en cada paso.

HISTORIA: La colaboración CTT: cuando los métodos ahorran millones

What does it look like when every principle is followed?

REAL DATA

La colaboración de los investigadores del tratamiento del colesterol (CTT) es el estándar de oro del metanálisis. Obtuvieron datos de pacientes individuales de más de 170.000 participantes across 26 statin trials. Pre-specified protocol. IPD from all major trials. Standardized outcomes. Result: statins reduce major vascular events by 21% per mmol/L LDL reduction (RR 0.79, 95% CI 0.77-0.81), regardless of baseline risk. This finding, replicated across 5 metanálisis durante 15 años, has prevented an estimated millions of heart attacks and strokes worldwide.

Los siete principios aplicados
La historia de CTT muestra lo que sucede cuando cada principio de este curso se aplica seguido. Considere la alternativa:
RUTA A: Sin los principios
No protocol. Published data only. No RoB. No heterogeneity investigation. No GRADE.
Conflicting small trials. Statin controversy persists. Millions untreated.
OUTCOME: Preventable cardiovascular deaths continue
RUTA B: La forma CTT
Protocolo prerregistrado. DPI de todos los ensayos. Resultados estandarizados. Métodos transparentes. GRADO Certeza alta.
Respuesta definitiva. Las pautas globales cambian. Estatinas recetadas a quienes se benefician.
OUTCOME: Millions of lives saved by rigorous evidence synthesis
THE REVELATION
Cada principio de este curso existe porque su ausencia causó daño. La Colaboración CTT demuestra que cuando los métodos son rigurosos, cuando los datos tienen procedencia, cuando se evalúa el sesgo y se gana la certeza, el metanálisis se convierte en la herramienta más poderosa en medicina. Ahora llevas estos principios. Úsalos.

1. ¿Cuál es el propósito del "congelamiento total" del día 34 en META-SPRINT?

A. Para dar tiempo a la revisión por pares
B. Para evitar que los estudios agregados tarde manipulen los resultados
C. To speed up publication
D. Para coordinar con las fechas límite de la revista

2. The CondGO protocol gives teams how long to fix critical problems?

A. 24 hours
B. 48 hours
C. 72 hours
D. 1 week

3. Red-team adversarial QA caught Joachim Boldt's fraud by noticing:

A. Impossible patient recruitment rates
B. p-hacking in statistical tests
C. Inconsistent effect sizes
D. Whistleblower testimony

Las historias que has aprendido no son historia.

Son advertencias que protegen su trabajo futuro.

Cuando realice su primer metanálisis,
remember CAST before you trust a signal,
remember Poldermans before you skip provenance,
recuerde Reboxetine antes de ignorar el embudo.

Ahora está listo. Vaya con la estructura. Vaya con humildad. Vaya con los siete principios.

No todas las señales son verdad.

Módulo 24: Examen final

Certainty must be earned, not assumed.

Final Examination

Pon a prueba su dominio de los principios del metanálisis. Cada pregunta aborda un concepto central del curso.

Q1. Un investigador quiere estudiar "los efectos del ejercicio en la salud". ¿Cuál es el problema PRIMARIO con esta pregunta de investigación?

A. It lacks randomization
B. Sample size is too small
C. It is not answerable—lacks specific PICO elements
D. It lacks ethical approval

Q2. Un gráfico en embudo muestra una asimetría pronunciada con estudios faltantes en la región inferior izquierda. ¿Qué sugiere esto?

A. Large studies have more precise estimates
B. Es probable que los pequeños estudios negativos no estén publicados
C. The true effect is stronger than estimated
D. Random sampling error

Q3. Un metanálisis informa I² = 85 % y τ² = 0,42. ¿Cuál es la interpretación MÁS apropiada?

A. There is an 85% chance of a true effect
B. The effect size is very large
C. Substantial between-study variance exists; investigate sources
D. Los resultados son clínicamente importantes

Q4. En GRADE, ¿cuál es la certeza inicial para un conjunto de evidencia de ensayos controlados aleatorios?

A. High
B. Moderate
C. Low
D. Very low

Q5. In RoB 2.0, which domain assesses whether outcome assessors knew the treatment allocation?

A. D1: Randomization process
B. D2: Desviaciones de las intervenciones previstas
C. D3: Resultado faltante datos
D. D4: Medición del resultado

Q6. El ensayo CAST demostró que los fármacos antiarrítmicos aumentaron la mortalidad a pesar de suprimir las arritmias. Este es un ejemplo de:

A. Random sampling error
B. Surrogate outcome failure
C. Confounding by indication
D. Reverse causation

Q7. When should a random-effects model be preferred over a fixed-effect model?

A. When sample sizes are large
B. Cuando los resultados son binarios
C. When between-study heterogeneity is expected
D. When publication bias is suspected

Q8. According to ICEMAN criteria, which makes a subgroup analysis MORE credible?

A. Hypothesis specified a priori
B. Large number of subgroups tested
C. No biological rationale
D. Inconsistent effects across trials within subgroup

Q9. What assumption must be checked in network meta-analysis to ensure valid indirect comparisons?

A. All studies have equal sample sizes
B. Todos los estudios miden el mismo resultado
C. Transitivity (consistency of effect modifiers)
D. Double-blinding in all trials

Q10. En el análisis secuencial de ensayos (TSA), ¿qué indica cruzar el límite de inutilidad?

A. Las causas del tratamiento daño
B. Es poco probable que más estudios muestren un efecto significativo
C. La evidencia es concluyente para el beneficio
D. El metanálisis no tiene suficiente poder estadístico

Part 1 Complete — continue to Part 2 (Advanced Modules)

Parte 2: Preguntas del módulo avanzado (Q11-Q25)

Questions 11–25 cover Modules 13–22 (Bayesian, NMA, IPD, Dose-Response, Fragility, Equity, AI, Qualitative, Multivariate, Reproducibility).

Q11. En el metanálisis bayesiano, ¿qué sucede cuando se utiliza un previo vago en muchos estudios?

A. El posterior coincide estrechamente con el resultado frecuentista
B. El anterior domina el posterior
C. The credible interval becomes infinitely wide
D. El modelo no logra converger

Q12. En el antidepresivo NMA de Cipriani, ¿por qué ningún medicamento fue declarado "ganador"?

A. Muy pocos estudios
B. Different drugs ranked best on different outcomes
C. No había evidencia indirecta disponible
D. SUCRA no pudo ser calculado

Q13. ¿Por qué nunca se deben agrupar los IPD como si fueran de un mega-ensayo?

A. IPD always has fewer studies than aggregate
B. Ignora la agrupación de estudios e introduce confusión
C. No puede manejar datos de tiempo hasta el evento
D. Binary outcomes cannot be pooled

Q14. What caused the alcohol "J-curve" to disappear in Stockwell's reanalysis?

A. Se agregaron nuevos estudios que no mostraron beneficio
B. Los ex bebedores fueron eliminados correctamente del grupo de referencia de abstemios
C. Se aumentó el tamaño de la muestra
D. Mejor ajuste para los factores de confusión

Q15. En la saga del oseltamivir, ¿qué descubrió Cochrane al acceder a informes de estudios clínicos no publicados?

A. El medicamento fue completamente ineficaz
B. El efecto fue mayor de lo que se pensaba originalmente
C. El beneficio por complicaciones desapareció en gran medida
D. Side effects were more common than reported

Q16. ¿Qué porcentaje de pacientes hipertensos de EE. UU. NO habrían calificado para el ensayo SPRINT?

A. About 25%
B. About 50%
C. Over 75%
D. Nearly 100%

Q17. Why is AI considered an "augmenter" rather than a "replacer" in systematic reviews?

A. AI is slower than human reviewers
B. AI has perfect recall
C. AI screens fast but cannot make human-level contextual judgments
D. AI is too expensive for most reviews

Q18. What does the "adequacy" component of CERQual assess?

A. El número de estudios solo
B. La riqueza y cantidad de datos que respaldan el hallazgo
C. Coherencia de los hallazgos entre los estudios
D. Generalizability to other populations

Q19. A meta-analysis includes 30 statin trials, each reporting 4 correlated outcomes (120 effect sizes). Which approach is correct?

A. Treat all 120 as independent effect sizes
B. Use RVE with small-sample correction
C. Pick only one outcome per study
D. Promedio de los 4 resultados dentro de cada estudio

Q20. En el error de Reinhart-Rogoff, ¿cuál fue la tasa de crecimiento promedio corregida para personas con deuda alta? ¿Países?

A. −0.1% (same as claimed)
B. +2.2%
C. 0%
D. +5%

Passing Score: 15/20 across both parts

Revise las preguntas perdidas regresando al módulo correspondiente. Cada pregunta pone a prueba un concepto central.

No todas las señales son verdad.

Los métodos protegen a los pacientes de nuestra confianza.

Congratulations

Has completado Evidence Reversal: Un curso de metaanálisis.

Que tu síntesis sea guiada por la verdad, tu combinación por la sabiduría,
y tus conclusiones por la humildad.

Los siete Principios:

"No todas las señales son verdad."

"Los métodos protegen a los pacientes de nuestra confianza."

"What was hidden in plain sight?"

"El número sin procedencia no es un número."

"La heterogeneidad es un mensaje, no ruido."

"La ausencia de evidencia no es evidencia de ausencia."

"Certainty must be earned, not assumed."

"Guíanos al camino recto..."