No todas las señales son verdad.
Módulo 0: La apertura
🎯 Learning Objectives
- Definir el metanálisis y explicar su papel en la síntesis de evidencia
- Identificar cuándo NO se deben realizar los estudios agrupado
- Describe la jerarquía de evidencia y dónde se ubican las revisiones sistemáticas
- Recognize that meta-analysis can mislead when done poorly
- Recuerda los siete principios que sustentan este curso
Este curso existe porque
la medicina estaba equivocada.
Ni una sola vez. No es raro. Repetidamente. De maneras que mataron a los pacientes que confiaban en que la evidencia era sólida.
What is Meta-Analysis?
Un método estadístico para combinar resultados de múltiples estudios independientes que abordan la misma pregunta.
*When well conducted. Quality of conduct matters more than study design alone — as GRADE recognizes.
¿Por qué combinar estudios?
Increase Statistical Power
Individual studies may be too small to detect effects.
Improve Precision
Narrower confidence intervals around effect estimates.
Resolve Disagreement
Cuando los estudios entran en conflicto, la combinación puede aclarar la señal.
Explore Heterogeneity
Identify why effects differ across populations or settings.
But meta-analysis can also
MISLEAD
When done poorly, it amplifies bias rather than truth.
Cuándo NO combinar
Los estudios miden cosas fundamentalmente diferentes (manzanas y naranjas)
Extreme heterogeneity that cannot be explained
One study dominates all others (megastudy problem)
Los estudios tienen un alto riesgo de sesgo que no se puede ajustar
La agrupación es un privilegio, no un derecho.
The decision to combine must be defended.
La jerarquía de la evidencia
Systematic Reviews & Meta-Analyses of RCTs
Randomized Controlled Trials
Cohort Studies
Case-Control Studies
Case Series / Expert Opinion
La posición en la jerarquía depende de la calidad de la metodología, no del tipo de estudio solo.
Este curso enseña a través de
evidence reversals.
Cada módulo comienza con una historia de cómo la medicina se equivocó. Luego aprendemos el método que habría evitado el daño.
Los Siete Principios
Estas frases volverán a lo largo de su viaje:
1. "No todas las señales son verdad."
2. "Los métodos protegen a los pacientes de nuestra confianza."
3. "What was hidden in plain sight?"
4. "El número sin procedencia no es un número."
5. "La heterogeneidad es un mensaje, no ruido."
6. "La ausencia de evidencia no es evidencia de ausencia."
7. "Certainty must be earned, not assumed."
Module 0 Quiz
1. ¿Por qué a veces NO debería agrupar estudios en un metanálisis?
2. ¿Dónde se ubican las revisiones sistemáticas de ECA en la jerarquía de evidencia?
Comience el viaje.
Módulo 1: La pregunta
No todas las señales son verdad.
Esta no es una historia sobre errores.
Es una historia sobre certeza.
Módulo 1: La pregunta
🎯 Learning Objectives
- Formule una pregunta PICO enfocada para una revisión sistemática
- Distinguish surrogate outcomes from patient-important outcomes
- Explain why biological plausibility alone is insufficient evidence
- Describa el ensayo CAST y sus implicaciones para la investigación basada en evidencia. medicina
- Aplica el principio: "No toda señal brillante es una guía"
~9,000
excess deaths per year
From a treatment everyone believed worked.
Esta es la historia de cómo creímos y de cómo nos equivocamos.
The Observation
Patients with frequent PVCs after MI had 2-5x higher mortality.
A massive clinical need. A clear target.
The Response
Antiarrhythmic drugs were developed, FDA approved,
and prescribed to ~200,000 patients per year.
No aparece ningún villano en esto historia.
Todos actuaron basándose en la mejor evidencia disponible.
La lógica que convenció a todos
PVCs after MI predict sudden cardiac death
Antiarrhythmic drugs suppress PVCs
Suppressing PVCs should prevent sudden death
Antiarrhythmics save lives in post-MI patients
La cadena era lógica. La conclusión parecía inevitable.
CAST: The Cardiac Arrhythmia Suppression Trial
Finally, someone asked: "Does suppressing PVCs actually save lives?"
Los resultados: abril de 1989
La Junta de Monitoreo de Seguridad de Datos detiene el ensayo antes de tiempo.
| Outcome | Drug (n=755) | Placebo (n=743) |
|---|---|---|
| Arrhythmic deaths | 33 | 9 |
| All cardiac deaths | 43 | 16 |
| Total deaths | 56 | 22 |
| Death rate | 7.4% | 3.0% |
Los medicamentos que suprimieron perfectamente las arritmias aumentaron la mortalidad en un 150%.
El ser humano Costo
Before CAST, ~200,000 Americans per year received these drugs.
~9,000
excess deaths per year - possibly more
Vietnam War: ~6,000 US deaths/year • These drugs: ~9,000+ deaths/year
For every number, a name we will never know.
Look again.
La lógica: revisada
PVCs after MI predict sudden cardiac death
Antiarrhythmic drugs suppress PVCs
Suppressing PVCs should prevent sudden death
Antiarrhythmics save lives in post-MI patients
La suposición de que suprimir el marcador arreglaría el resultado nunca se probó.
What Went Wrong: The Surrogate Trap
Las CVP eran un marcador de tejido dañado, no una causa de muerte
The drugs had proarrhythmic effects - triggering deadlier rhythms
El sustituto mejoró mientras que el resultado empeoró: un sustituto disociado
El sustituto no mintió. Le hicimos la pregunta equivocada.
El marco PICO
Every answerable clinical question has four components:
Ejercicio de investigación: la evidencia antes del CAST
Usted es cardiólogo en 1988. Un paciente ha sobrevivido a un infarto de miocardio pero tiene CVP frecuentes. La literatura observacional es clara...
| Study | Pacientes con CVP | Mortality Risk |
|---|---|---|
| Lown (1977) | High-grade PVCs | 2.4x higher |
| Bigger (1984) | >10 PVCs/hour | 3.1x higher |
| Mukharji (1984) | Complex PVCs | 4.8x higher |
La señal es clara. El mecanismo es plausible. ¿Le recetaría antiarrítmicos?
Before: Observational Logic
PVCs → Higher mortality
Drugs suppress PVCs
∴ Drugs should reduce mortality
After: CAST RCT (1989)
Death rate on drug: 7.4%
Death rate on placebo: 3.0%
RR = 2.5 (150% increase in deaths)
La madre sustituta mejoró. Los pacientes murieron. Por eso preguntamos: "¿Cuál es el resultado que importa?"
Las lecciones para la síntesis de evidencia
La plausibilidad biológica no es prueba
A logical mechanism doesn't guarantee the expected effect.
Surrogate endpoints can mislead
Improving a biomarker doesn't prove improvement in outcomes.
Los ensayos aleatorios proporcionan la evidencia causal más sólida
Los datos de observación por sí solos rara vez establecen causalidad de las intervenciones debido a factores de confusión.
El consenso no es evidencia
200.000 recetas, la aprobación de la FDA y las pautas estaban equivocadas.
This is why we do meta-analysis: to see past apparent truths.
¿Qué pasa si la pregunta que usted ¿Preguntar determina quién vive y quién muere?
REAL DATA
En 1989, los cardiólogos sabían que La supresión de PVC se podía lograr con encainida y flecainida. El criterio de valoración sustituto parecía perfecto: los fármacos suprimieron las CVP en 80%+. But CAST randomized 1,498 patients al fármaco activo frente al placebo. El ensayo se detuvo antes de tiempo: 56 deaths in the drug group vs 22 in placebo. Mortality increased 2.5-fold. An estimated ~9,000 excess American deaths per year eran atribuibles a estos medicamentos.
What appears certain may be wrong.
What everyone believes may be false.
Existen métodos para que los pacientes no paguen por nuestra confianza.
Por eso estás aquí.
Module 1 Quiz
1. ¿Cuál fue el error fundamental en la lógica antiarrítmica?
2. En PICO, ¿qué significa la "O" y por qué es importante?
No todas las señales son verdad.
Los métodos protegen a los pacientes de nuestra confianza.
What was hidden in plain sight?
Esta es una historia sobre
observational evidence.
Módulo 2: El Protocolo
🎯 Learning Objectives
- Explain why protocol pre-registration prevents bias
- Identify key elements of a PROSPERO registration
- Distinguish healthy user bias from true treatment effects
- Describe why observational studies overestimated HRT benefits
- Aplicar el principio: "Los métodos protegen a los pacientes de nuestra confianza". confianza"
30+
observational studies
All showing hormone replacement therapy protected postmenopausal women from heart disease.
La evidencia parecía abrumadora. La conclusión parecía segura.
El estudio de salud de las enfermeras
122,000 nurses followed for decades. HRT users had 40-50% lower cardiovascular mortality.
Landmark study. Impeccable methodology. Wrong conclusion.
El sesgo oculto
Healthy User Bias: Women who chose HRT were healthier, wealthier, better educated
Compliance Bias: Women who took HRT consistently also took better care of themselves
Prescriber Bias: Doctors gave HRT to healthier women with fewer risk factors
El tratamiento no las protegía. Ya estaban protegidos.
WHI: The Women's Health Initiative
The largest randomized trial of HRT ever conducted.
Los resultados: julio de 2002
Trial stopped early after 5.2 years. Harm exceeded benefits.
| Outcome | Hazard Ratio | Direction |
|---|---|---|
| Coronary heart disease | 1.29 | HARM |
| Stroke | 1.41 | HARM |
| Breast cancer | 1.26 | HARM |
| Pulmonary embolism | 2.13 | HARM |
The Lesson
PRE-SPECIFY
A protocol written before the search begins prevents fishing, prevents bias, prevents hindsight distortion.
¿Qué pasa si el tratamiento funciona, pero sólo para ¿algunos?
REAL DATA
WHI showed HRT increased cardiovascular events overall. But later analyses revealed a critical pattern: women who started HRT within 10 years of menopause had REDUCED cardiovascular risk. Women starting 20+ years after menopause had INCREASED risk. The overall null/harm result hid a timing effect.
PROSPERO Registration
Regístrese antes de buscar
PROSPERO: International prospective register of systematic reviews
Bloquee sus decisiones
PICO, search strategy, outcomes, analysis plan - all pre-specified
Document Amendments
Se permiten cambios, pero deben ser transparentes y justificados
Prevent Duplication
Compruebe si su reseña ya existe antes comenzando
Module 2 Quiz
1. ¿Por qué el Estudio de salud de las enfermeras mostró un beneficio de la TRH que WHI no mostró?
2. What is the primary purpose of PROSPERO registration?
La preespecificación no es burocracia.
It is protection.
Against our own tendency to find what we expect.
Los métodos protegen a los pacientes de nuestra confianza.
What was hidden in plain sight?
Módulo 3: La Búsqueda
What was hidden in plain sight?
Esta es una historia sobre
what they didn't publish.
Módulo 3: La Búsqueda
🎯 Learning Objectives
- Develop a comprehensive search strategy using PRESS guidelines
- Search multiple databases including grey literature sources
- Identify trial registries and regulatory databases (ClinicalTrials.gov, FDA)
- Explain how the rosiglitazone case exposed hidden cardiovascular harms
- Aplicar el principio: "¿Qué estaba oculto a plena vista?"
$3.2B
annual sales at peak
Avandia (rosiglitazona) fue uno de los los medicamentos para la diabetes más vendidos en el mundo.
Los ensayos publicados parecían tranquilizadores. Los inéditos contaban una historia diferente.
La evidencia publicada (antes de 2007)
Published trials showed rosiglitazone effectively lowered HbA1c. Cardiovascular outcomes were rarely reported.
La madre sustituta se veía bien. Pero ¿qué pasa con los eventos cardiovasculares reales?
Nissen's Discovery: May 2007
Dr. Steven Nissen obtuvo datos de ensayos no publicados del propio sitio web de GSK.
Un acuerdo legal exigió a GSK que publicara los resultados de los ensayos clínicos en línea. Nissen y Wolski analizaron 42 ensayos, muchos de ellos nunca publicados en revistas.
Los datos eran técnicamente públicos.
No one had systematically searched for it.
Los resultados del metanálisis
| Outcome | Odds Ratio | 95% CI |
|---|---|---|
| Myocardial Infarction | 1.43 | 1.03 - 1.98 |
| CV Death | 1.64 | 0.98 - 2.74 |
Published in NEJM. The FDA called an emergency advisory committee meeting.
The FDA Advisory Committee: July 2007
El comité estaba dividido. Algunos querían que se retirara. Algunos calificaron el metanálisis como defectuoso.
Pero la señal no podía pasar desapercibida.
The Aftermath
Black box warning added for heart failure risk (2007)
Severe restrictions on prescribing in the US (2010)
Withdrawn completamente del mercado europeo (2010)
FDA now requires cardiovascular outcome trials for all diabetes drugs
What a Comprehensive Search Requires
La lista de verificación de PRENSA
Peer Review of Electronic Search Strategies
Traducción de la pregunta de investigación
¿La búsqueda refleja el PICO? elementos?
Operadores booleanos y de proximidad
¿Y, O, NO se usan correctamente?
Subject Headings
¿Los términos MeSH/Emtree son apropiados y están desglosados?
Text Words
Synonyms, spelling variants, truncation?
PRESS Checklist (continued)
Spelling, Syntax, Line Numbers
¿Hay errores que podrían causar la recuperación? ¿Fallos?
Límites y filtros
¿Son apropiados los límites de fecha, idioma y diseño del estudio?
Peer-reviewed searches substantially improve retrieval of key studies.
PRESS guideline: McGowan et al., 2016
Database Translation
Se debe adaptar la misma búsqueda para cada base de datos:
"diabetes mellitus, type 2"[MeSH] OR "type 2 diabetes"[tiab]
'non insulin dependent diabetes mellitus'/exp OR 'type 2 diabetes':ti,ab
Subject headings, field tags, and operators differ between databases.
¿Qué sucede cuando buscas y no encuentras nada?
REAL DATA
Governments stockpiled $9 billion de oseltamivir (Tamiflu) para la gripe pandémica. La Colaboración Cochrane intentó revisar la evidencia. De 77 clinical trials, full reports existed for only 20. Roche se negó a compartir datos de 5 years. Cuando el BMJ y Cochrane finalmente obtuvieron over 160,000 pages of clinical study reports, they found: Tamiflu reduced symptoms by less than 1 day, with no evidence it prevented hospitalizations or complications.
If Nissen had searched only PubMed,
the signal would have remained hidden.
Comprehensive search is survival.
What was hidden in plain sight?
Module 3 Quiz
1. ¿Qué tipo de fuente de evidencia reveló la señal cardiovascular de rosiglitazona?
2. What does PRESS stand for?
What was hidden in plain sight?
Módulo 4: La detección
El número sin procedencia no es un número.
Esta es una historia sobre
what they chose to report.
Módulo 4: La detección
🎯 Learning Objectives
- Apply PRISMA flow diagram to document study selection
- Implement dual-reviewer screening with conflict resolution
- Identificar el informe selectivo de resultados y la manipulación de datos
- Calculate inter-rater reliability (Cohen's kappa)
- Aplicar el principio: "El número sin procedencia no es un número"
88,000
heart attacks attributed to Vioxx
A blockbuster drug. A hidden signal. A preventable catastrophe.
Entre En 1999 y 2004, millones de personas tomaron este analgésico. Algunos nunca regresaron a casa.
El auge de Vioxx
El rofecoxib (Vioxx) era un AINE selectivo para la COX-2. Comercializado como más seguro para el estómago que los analgésicos tradicionales.
El ensayo VIGOR (2000)
Vioxx Gastrointestinal Outcomes Research
What VIGOR Published
| GI Outcome | Vioxx | Naproxen |
|---|---|---|
| Confirmed GI events | 2.1 per 100 pt-yrs | 4.5 per 100 pt-yrs |
| Reduction | 54% fewer GI events | |
El titular: ¡Vioxx es más seguro para el estómago!
Esto es lo que les dijeron a los médicos. Esto es lo que creían los pacientes.
What VIGOR Buried
| CV Outcome | Vioxx | Naproxen |
|---|---|---|
| Myocardial Infarction | 20 events | 4 events |
| Relative Risk | 5x higher in Vioxx group | |
El informe selectivo
Manipulación del límite de datos: 3 additional heart attacks occurred after the cutoff used in publication
Spin: La señal CV se explicó como que el naproxeno es cardioprotector (sin evidencia)
Outcome switching: Los eventos CV fueron preespecificados pero no enfatizados
Internal knowledge: Los correos electrónicos de Merck muestran que conocían la señal
El ensayo APPROVe (2004)
Un ensayo para la prevención de pólipos colorrectales; se detuvo temprano por motivos de seguridad.
Four years after VIGOR showed a 5x risk. Four years too late.
¿Ha considerado lo que sucede cuando ¿Una señal se esconde en el ruido?
REAL DATA
Vioxx (rofecoxib) fue aprobado en 1999. By 2004, estimates suggest 88,000-140,000 excess heart attacks and 30,000-40,000 deaths. Merck's own VIGOR trial showed 5x cardiovascular risk in 2000—but it was dismissed as a "naproxen cardioprotective effect."
El diagrama de flujo PRISMA
Every step of screening must be documented and transparent.
Dual Screening: Why Two Reviewers?
Reduces Selection Bias
One reviewer might unconsciously favor certain studies
Catches Errors
La fatiga, las malas interpretaciones y los errores son inevitables
Forces Explicit Criteria
Disagreements reveal ambiguity in inclusion rules
Typical agreement: κ = 0.6-0.8
Disagreements resolved by discussion or third reviewer
Calibración: la fase piloto
Before screening thousands of records, reviewers should calibrate on a sample of 50-100 records.
Screen the same set independently
Compare decisions and discuss disagreements
Refine inclusion criteria until κ > 0.7
Documente el proceso de calibración y cualquier regla cambios
PRISMA 2020 Updates
PRISMA 2020 revisó sustancialmente la lista de verificación con informes ampliados sobre métodos de síntesis, evaluación de certeza y registro de protocolos.
If Vioxx's cardiovascular data had been screened by independent reviewers,
if all pre-specified outcomes had been required to be reported,
88,000 heart attacks might have been prevented.
El número sin procedencia no es un número.
Module 4 Quiz
1. En el ensayo VIGOR, ¿cuál fue el riesgo relativo de IM en el grupo de Vioxx en comparación con naproxeno?
2. Why is dual screening (two independent reviewers) important?
El número sin procedencia no es un número.
Módulo 5: La extracción
El número sin procedencia no es un número.
Esta es una historia sobre
números que nunca existieron.
Módulo 5: La extracción
🎯 Learning Objectives
- Diseñar un formulario de extracción de datos estandarizado con campos de procedencia
- Calculate effect sizes from various reported statistics (OR, RR, HR, SMD)
- Implement dual-extraction with discrepancy resolution
- Identificar señales de alerta para la fabricación de datos y mala conducta
- Explain how the DECREASE fraud affected clinical guidelines
~10,000
possible excess deaths in Europe
A partir de pautas basadas en ensayos clínicos fabricados datos.
Los ensayos DECREASE influyeron en la atención perioperatoria en todo el mundo. Los datos fueron inventados.
Don Poldermans: A Star Researcher
Professor at Erasmus Medical Center, Rotterdam. Author of over 500 papers. Lead author of ESC guidelines on perioperative cardiac care.
Una fuente aparentemente impecable. Hasta que alguien miró los datos.
Los ensayos de DECREASE: La reclamación
| Trial | Finding | Impact |
|---|---|---|
| DECREASE-I (1999) | 90% reduction in cardiac death | Changed guidelines |
| DECREASE-IV (2009) | Beta-blockers safe in low-risk | Expanded recommendations |
Effect sizes were implausibly large.
90% reduction? Almost nothing in medicine works that well.
The Investigation: 2011
Erasmus MC investigated after whistleblower complaints
Datos de pacientes fabricados: Patients who didn't exist or weren't enrolled
No informed consent: Many "participants" never consented
Poldermans dismissed: From Erasmus MC in 2011
La cascada de daños
Cuando se eliminó DECREASE de metanálisis...
El ensayo POISE (2008) había demostrado daños. Se descartó porque entraba en conflicto con DECREASE.
¿Por qué no se detectó esto?
Trust in authority: Poldermans fue el autor de la guía que revisó su propia evidencia
No data verification: Nadie pidió datos de pacientes individuales
Publication prestige: Published in top journals, assumed valid
Implausible effects accepted: 90% reductions should raise suspicion
Data Extraction: Defense Against Fraud
Dual Extraction
Two extractors independently - catches transcription errors and forces scrutiny
Record Provenance
Table, page, paragraph - every number traceable to source
Verify Against Registry
Resultados de ClinicalTrials.gov vs. publicación: las discrepancias son señales de alerta
Request IPD
Individual patient data reveals what aggregate summaries hide
Effect Size Calculation
Durante la extracción, calcula los tamaños del efecto a partir de los datos reportados:
Odds Ratio, Risk Ratio, Risk Difference from 2x2 tables
Diferencia de medias, diferencia de medias estandarizada de medias y DEs
Extraiga siempre de la fuente más confiable.
Prefer: ITT results > per-protocol > subgroups
Red Flags During Extraction
Implausible effect sizes: 80-90% reductions should prompt scrutiny
Baseline imbalances: Grupos que coinciden "demasiado perfectamente"
Round numbers: "Exactly 50" or "exactly 100" patients per arm
Registry discrepancies: Los N publicados difieren de los N registrados
Effect Size Conversions
Los resultados del informe de los estudios arrojan métricas diferentes. Para agruparlos, a menudo se necesitan conversiones:
| From | To | Formula |
|---|---|---|
| SMD (d) | log-OR | log-OR = d × π / √3 |
| log-OR | SMD (d) | d = log-OR × √3 / π |
| Correlation (r) | Fisher z | z = 0.5 × ln((1+r)/(1−r)) |
| OR | RR | RR = OR / (1 − P₀ + P₀ × OR) |
| OR | NNT | NNT = 1 / (P₀ − OR×P₀ / (1−P₀+OR×P₀)) |
P₀ = riesgo inicial en el grupo de control. Estas fórmulas asumen condiciones aproximadas; véase Borenstein et al. (Cap. 7) para derivaciones exactas.
Datos de tiempo hasta el evento (supervivencia)
Many trials report time-to-event outcomes using hazard ratios (HR). Pooling HRs in meta-analysis requires special handling:
El método log(HR) + SE
Extraiga log(HR) y su SE de la prueba. Si no se informa, obtenga SE del IC: SE = (ln(superior) − ln(inferior)) / (2 × 1,96). Combinar utilizando métodos estándar de varianza inversa.
Cuando no se informa la FC
Existen métodos para reconstruir la DPI a partir de las curvas de Kaplan-Meier (Guyot et al. 2012) o estimar la FC a partir de valores p y recuentos de eventos (Parmar et al. 1998). Siempre prefiera la FC ajustada informada directamente cuando esté disponible.
HR < 1 favors treatment; HR > 1 favors control. Do not convert HRs to ORs or RRs—they measure fundamentally different quantities.
¿Qué pasaría si los datos que extrae nunca fueran reales?
REAL DATA
Joachim Boldt fue el investigador más prolífico en el manejo de fluidos anestésicos. Más de 180 de sus publicaciones fueron retractadas —uno de los casos de retractación más grandes en la historia médica. Sus datos inventados mostraron que el hidroxietilalmidón (HES) era seguro. Los metanálisis que incluyeron sus estudios concluyeron que el HES era inofensivo. Cuando se eliminaron los estudios de Boldt, el efecto combinado se revirtió: HES increased kidney injury by 59% (RR 1.59, 95% CI 1.26-2.00) and mortality by ~9% (RR 1.09). An estimated thousands of patients received a harmful fluid based on fabricated evidence.
Cada número en su metanálisis
must trace back to a verifiable source.
El número sin procedencia no es un número.
Fraudulent data can kill as surely as fraudulent drugs.
Module 5 Quiz
1. ¿Qué sucedió cuando los datos del ensayo DECREASE se eliminaron de los metanálisis de betabloqueantes?
2. Why should dual extraction be standard practice?
El número sin procedencia no es un número.
Módulo 6: El sesgo
Los métodos protegen a los pacientes de nuestra confianza.
Esta es una historia sobre
el sesgo que no podemos ver.
Módulo 6: El sesgo
🎯 Learning Objectives
- Apply Risk of Bias 2.0 (RoB 2) to randomized trials
- Aplicar ROBINS-I a estudios no aleatorios
- Assess all five RoB 2 domains (randomization, deviations, missing data, measurement, selection)
- Distinguish confounding by indication from true treatment effects
- Explain how BART revealed hidden harms of aprotinin
20+
años en el mercado
La aprotinina fue el estándar de oro para reducir la cirugía sangrando.
Entonces alguien realizó un ECA. La verdad era diferente.
The Hidden Bias: Confounding by Indication
Sicker patients got aprotinin: Surgeons used it in complex, high-risk cases
Survivors bias: Dead patients can't report complications
Publication bias: No se publicaron estudios negativos
Los estudios observacionales no pudieron separar el efecto del medicamento del riesgo inicial del paciente.
BART: La Verdad Aleatoria
Blood Conservation Using Antifibrinolytics in a Randomized Trial
| Outcome | Aprotinin | Alternatives |
|---|---|---|
| 30-day mortality | 6.0% | 3.9% |
| Relative Risk | 1.53 (53% increased death) | |
Investigación: Evaluar el sesgo
Estás revisando los estudios observacionales. Aplique el pensamiento de riesgo de sesgo:
| Question | Observational | BART (RCT) |
|---|---|---|
| Random allocation? | ❌ Surgeon choice | ✓ Yes |
| Baseline comparable? | ❌ Sicker got drug | ✓ Balanced |
| Blinding? | ❌ Open label | ✓ Double-blind |
Confounding by indication: Los cirujanos administraron aprotinina a los pacientes más enfermos. Los estudios observacionales atribuyeron la supervivencia al fármaco cuando medían el sesgo de supervivencia.
Risk of Bias 2.0: The Five Domains
Randomization Process
Desviaciones de las intervenciones previstas
Datos de resultados faltantes
Medición del resultado
Selección del resultado informado
ROBINS-I: para estudios no aleatorios
Cuando los ECA no estén disponibles, use ROBINS-I (Riesgo de sesgo en estudios no aleatorios de Intervenciones)
Confounding
Baseline differences between groups
Selection of Participants
Exclusions related to intervention
Classification of Interventions
Misclassification of exposure status
Desviaciones de las intervenciones previstas
Co-interventions, contamination
Missing Data
Differential loss to follow-up
Measurement of Outcomes
Ascertainment bias
Selection of Reported Result
Selective reporting
Ratings: Low / Moderate / Serious / Critical / No information
¿Qué sucede cuando 64 estudios coinciden, y todos están equivocados?
REAL DATA
La aprotinina se usó en cirugía cardíaca para reducir el sangrado durante 20 years. 64 small randomized trials sugirió que era segura y eficaz. Los metanálisis confirmaron el beneficio. Luego el BART trial (2008) randomized 2,331 patients: aprotinin vs. tranexamic acid vs. aminocaproic acid. Result: aprotinin increased mortality by 53% (RR 1,53, IC 95% 1,06-2,22). El ensayo fue detenido antes de tiempo por daños. Bayer retiró la aprotinina del mercado en unos meses.
Sixty-four small trials measured bleeding, not death.
One adequately powered trial revealed 53% increased mortality.
La cantidad de evidencia no puede sustituir la calidad y el poder.
Module 6 Quiz
1. Why did 64 small trials miss aprotinin's harm?
Los métodos protegen a los pacientes de nuestra confianza.
Módulo 7: La Síntesis
La heterogeneidad es un mensaje, no ruido.
La controversia del magnesio: 1991-1995
When pooling leads us astray.
Módulo 7: La Síntesis
🎯 Learning Objectives
- Calculate pooled effect sizes using fixed-effect and random-effects models
- Choose between DerSimonian-Laird and HKSJ estimators appropriately
- Interpret forest plots including weights, confidence intervals, and diamonds
- Explain why small-study effects can mislead meta-analyses
- Aplica el principio: "La heterogeneidad es un mensaje, no ruido"
The Year: 1991
"Estás en la encrucijada de la esperanza y la evidencia..."
Heart disease kills more people worldwide than any other cause. In 1991, a new hope emerges: Could something as simple and cheap as intravenous magnesium save lives after myocardial infarction?
El fundamento biológico era sólido:
Magnesium stabilizes cardiac membranes, prevents arrhythmias, and vasodilates coronary arteries.
LIMIT-2: El ensayo histórico
Leicester Intravenous Magnesium Intervention Trial, 1992
A cheap, safe intervention that could save 250,000 lives per year globally.
La comunidad médica estaba electrificado.
The Meta-Analysis: 1993
Researchers pooled seven randomized trials of IV magnesium in MI:
| Trial | Year | N | Odds Ratio |
|---|---|---|---|
| Morton 1984 | 1984 | 40 | 0.10 |
| Rasmussen 1986 | 1986 | 273 | 0.35 |
| Smith 1986 | 1986 | 400 | 0.48 |
| Abraham 1987 | 1987 | 94 | 0.87 |
| Shechter 1990 | 1990 | 103 | 0.27 |
| Ceremuzynski 1989 | 1989 | 48 | 0.22 |
| LIMIT-2 | 1992 | 2,316 | 0.74 |
Investigation Exercise: The Meta-Analyst's Dilemma
Usted es revisor Cochrane en 1993. Se le pidió que sintetice la evidencia sobre el magnesio para el IM. Los datos de siete ensayos se encuentran ante usted.
¿Ve el patrón en este diagrama de bosque?
Pero espere... ¿nota algo sobre el tamaño de los ensayos?
La advertencia Señales
What should have given us pause?
Small sample sizes: Six of seven trials had <500 patients
Extreme effects: OR of 0.10 (90% reduction) is implausible for any drug
All positive: ¿Dónde estaban los ensayos negativos? El problema del cajón de archivos...
Funnel asymmetry: Small trials showed much larger effects than larger ones
La prueba del gráfico de embudo
Antes de agrupar, debemos verificar el sesgo de publicación. Examinemos el gráfico de embudo.
⚠️ Asymmetric Funnel
Los ensayos pequeños se agrupan a la izquierda (que muestran beneficios). ¿Dónde están las pequeñas pruebas negativas?
Egger's test p = 0.04 — statistically significant asymmetry.
El año: 1995 — Informes de ISIS-4
"Y luego vino la verdad..."
The Fourth International Study of Infarct Survival (ISIS-4) enrolled 58,050 patients across 1,086 hospitals in 31 countries.
Antes y después: la imagen completa
Mira lo que sucede cuando agregamos la mega-prueba a nuestra parcela forestal...
BEFORE ISIS-4
7 small trials (N = 3,274)
OR = 0.44
Strong benefit signal
AFTER ISIS-4
8 trials (N = 61,324)
OR = 1.02
No effect
Why Did Small Trials Mislead?
Publication Bias
Small negative trials were never published—they sat in file drawers
Small-Study Effects
Smaller trials tend to show larger effects due to methodological weaknesses
Random High Bias
Por casualidad, algunos ensayos pequeños alcanzaron resultados extremos, y se publican
Random-Effects Amplification
Random-effects models give more weight to small trials, amplifying bias
Fixed vs. Random Effects
Which model should you choose?
Assumes one true effect. Weights studies by inverse variance (precision). Large trials dominate.
Magnesium result: OR = 0.96 (p = 0.52)
Assumes distribution of effects. Gives more weight to small trials. Wider confidence intervals.
Magnesium result: OR = 0.59 (p = 0.01)
⚠️ ¡La elección del modelo determinó la conclusión!
Los efectos aleatorios no corrigen el sesgo; con efectos de estudios pequeños, puede cambiar el peso hacia ensayos más pequeños y cambiar las conclusiones.
Las lecciones del magnesio
1. Verifique el sesgo de publicación antes de confiar en una estimación agrupada. Los gráficos en embudo y la prueba de Egger son sus herramientas.
2. Be wary of small-study effects. If only small trials show benefit, wait for a large, well-conducted trial.
3. Model choice matters. Los efectos aleatorios pueden amplificar la evidencia sesgada. Considere ambos modelos y comprenda las implicaciones.
4. One large trial can overturn many small ones. Esta es la razón por la que los megaensayos como ISIS-4 son tan valiosos.
Diseños de estudios especiales en metanálisis
No todos los ECA utilizan diseños estándar de grupos paralelos. Dos alternativas comunes requieren un manejo especial al agrupar resultados:
Cluster-Randomized Trials
Aleatorizar grupos (hospitales, escuelas), no individuos. El design effect = 1 + (m−1) × ICC reduce el tamaño efectivo de la muestra. Divida N por el efecto de diseño antes de agrupar, o utilice el SE ajustado de la prueba. Ignorar la agrupación produce IC artificialmente estrechos.
Crossover Trials
Cada paciente recibe ambos tratamientos. El diseño emparejado reduce la varianza, pero necesita within-patient correlation (o el análisis emparejado SE) para agrupar correctamente. Usar el SE de grupos paralelos es conservador; utilizar N incorrectos recuentos dobles de pacientes.
Consulte el Manual Cochrane v6.4, Capítulo 23 para obtener fórmulas detalladas y ejemplos resueltos.
¿Qué pasa si la forma en que se combinan los estudios determina si un tratamiento parece salvar vidas o ¿inútil?
REAL DATA
El surfactante temprano para bebés prematuros fue respaldado por 6 small trials showing reduced mortality (RR 0.84). A fixed-effect meta-analysis confirmed benefit (p=0.04). But a random-effects model showed no significance (p=0.12) — the confidence interval crossed 1.0. Later, SUPPORT (2010) and VON (2012), two large pragmatic trials with ~2,000 neonates combined, found no benefit de surfactante temprano versus tardío. La práctica clínica había cambiado basándose en ensayos pequeños y en el modelo equivocado.
Module 7 Quiz
1. ¿Por qué el metanálisis del magnesio mostró un beneficio que ISIS-4 no encontró?
2. What warning sign should have alerted reviewers to potential bias?
3. When publication bias is suspected, which model may amplify the bias?
Small trials can show false signals.
Large trials anchor the truth.
La heterogeneidad es un mensaje, no ruido.
La heterogeneidad es un mensaje, no ruido.
Módulo 8: La heterogeneidad
La heterogeneidad es un mensaje, no ruido.
ACCORD: 2008
Cuando el promedio oculta la verdad.
Módulo 8: La heterogeneidad
🎯 Learning Objectives
- Calcula e interpreta I², τ² y los intervalos de predicción
- Apply ICEMAN criteria to assess subgroup credibility
- Distinguish between clinical, methodological, and statistical heterogeneity
- Conduct and interpret leave-one-out sensitivity analyses
- Explain how ACCORD revealed differential effects across subgroups
The Year: 2008
"Estás a punto de presenciar una de las terminaciones de juicio más impactantes de la historia..."
Para Durante décadas, la comunidad diabética tuvo un principio rector: lower blood sugar is better. Los históricos DCCT (1993) y UKPDS (1998) demostraron que el control intensivo de la glucosa reducía las complicaciones microvasculares: ceguera, insuficiencia renal, daño a los nervios.
La extrapolación lógica:
If controlling glucose prevents complications, shouldn't intensive control prevent cardiovascular disease too?
ACCORD: Action to Control Cardiovascular Risk in Diabetes
The definitive test of intensive glucose control
Todos los pacientes tenían diabetes tipo 2 con alto riesgo cardiovascular, ya sea enfermedad cardiovascular establecida o múltiples factores de riesgo. El ensayo fue diseñado para 5,6 años.
February 6, 2008
La Junta de Monitoreo de Seguridad de Datos convoca una reunión de emergencia.
After 3.5 years, they make an unprecedented decision:
DETENGA EL ENSAYO.
Los impactantes resultados
| Outcome | Intensive | Standard | HR (95% CI) |
|---|---|---|---|
| Primary CV endpoint | 352 events | 371 events | 0.90 (0.78–1.04) |
| All-cause mortality | 257 deaths | 203 deaths | 1.22 (1.01–1.46) |
| Severe hypoglycemia | 10.5% | 3.5% | 3.0× higher |
Investigation Exercise: The Clinician's Dilemma
Usted es un endocrinólogo con 500 pacientes diabéticos. Se publican los resultados de ACCORD. ¿Qué les dice a sus pacientes que se han esforzado por alcanzar una HbA1c <6%?
¿El control intensivo es perjudicial para todos? ¿O sólo para algunos?
Análisis de subgrupos revelado:
| Subgroup | Intensive HR | Interpretation |
|---|---|---|
| No prior CVD | 1.00 (0.76–1.32) | No effect |
| Prior CVD | 1.45 (1.15–1.84) | Significant harm |
| Baseline HbA1c <8% | 1.02 (0.75–1.40) | No effect |
| Baseline HbA1c ≥8% | 1.29 (1.03–1.60) | Harm |
The average effect masked critical heterogeneity!
Para pacientes con ECV establecida o control basal deficiente, la terapia intensiva fue perjudicial.
Comprensión de la heterogeneidad: I² y más allá
Cuando los estudios (o subgrupos) lo muestran diferentes efectos, debemos cuantificar esta variación.
I² = 0–25%: Baja heterogeneidad. Los efectos son consistentes en todos los estudios.
I² = 25–50%: Moderate. Look for sources of variation.
I² = 50–75%: Substantial. Consider whether pooling is appropriate.
I² = 75–100%: Considerable. A single pooled estimate may mislead.
Pero I² por sí solo no le dice qué hacer: indica que necesita investigar más.
Tau² (τ²): la varianza entre estudios
Mientras que I² le indica la proporción de varianza debido a la heterogeneidad, τ² le dice la magnitud.
"¿Qué fracción de la varianza total se debe a diferencias verdaderas entre los estudios?"
Scale: 0% to 100%
"¿Cuánto varían los efectos verdaderos entre los estudios?"
Same scale as the effect measure
Use τ² to calculate prediction intervals
Un intervalo de predicción muestra el rango de efectos que se esperaría en un nuevo estudio, a menudo mucho más amplio que la confianza. intervalo.
The Prediction Interval: What ACCORD Really Tells Us
Consider a meta-analysis of intensive glucose control across multiple trials...
Confidence Interval
HR 1.10 (0.95–1.27)
"Nuestra mejor estimación del efecto promedio"
Prediction Interval
HR 1.10 (0.70–1.73)
"The range of effects in a new setting"
¡El intervalo de predicción abarca tanto el beneficio como el daño!
In some settings, intensive control might help. In others, it could kill.
When Is a Subgroup Effect Credible?
Subgroup Credibility Criteria (adapted from ICEMAN, Schandelmaier 2020 & Sun 2012)
¿Se preespecificó el análisis de subgrupos?
Los subgrupos post hoc son propensos a recibir datos dragado
Is there a plausible biological rationale?
El mecanismo debe ser claro e independiente de los datos
Is the effect consistent across related outcomes?
Si aparece un daño para la mortalidad, ¿existe un daño similar para el infarto de miocardio y el accidente cerebrovascular?
Is there independent replication?
¿Se ha confirmado el efecto de subgrupo en otros estudios?
ICEMAN Applied to ACCORD
| Criterion | Assessment | Score |
|---|---|---|
| Pre-specified? | Sí, antes la ECV estaba en el protocolo | ✓ |
| Biological rationale? | Yes—hypoglycemia more dangerous with CVD | ✓ |
| Consistent outcomes? | Yes—CV mortality and all-cause mortality aligned | ✓ |
| Independent replication? | Partially—ADVANCE, VADT showed similar patterns | ~ |
ICEMAN Rating: High Credibility
The differential harm in high-risk patients appears genuine.
Las implicaciones clínicas
Para pacientes sin ECV: Moderate glucose control (HbA1c ~7%) remains the goal. Intensive control may reduce microvascular complications.
Para pacientes con ECV establecida: Avoid intensive targets. Hypoglycemia is dangerous for damaged hearts.
Para pacientes de edad avanzada: Relaxed targets. Quality of life matters. Tight control causes falls, confusion, and excess mortality.
"One size fits all" treatment is not patient-centered medicine.
Meta-Regression: Explaining Heterogeneity
When heterogeneity is high, meta-regression can identify study-level covariates that explain variation.
¿El tamaño del efecto varía sistemáticamente con el estudio? ¿Características?
Caution
La metarregresión requiere ≥10 estudios por covariable. Con pocos estudios, es sólo exploratorio. Falacia ecológica: las asociaciones a nivel de estudio pueden no aplicarse a individuos.
Example: In ACCORD, meta-regression might test if treatment effect varies by baseline HbA1c, showing harm concentrated in patients with very high levels.
What number saves lives? Who decides?
REAL DATA
Durante décadas, el objetivo fue: tratar la presión arterial para <140 mmHg systolic. Then came SPRINT (2015): 9,361 high-risk patients randomized to intensive (<120) vs standard (<140) targets. Intensive treatment reduced CV events by 25% and death by 27%. Trial stopped early for benefit. Guidelines changed worldwide.
Module 8 Quiz
1. ¿Por qué se detuvo el ensayo ACCORD antes de tiempo?
2. What does a prediction interval tell us that a confidence interval doesn't?
3. According to ICEMAN, which factor is MOST important for subgroup credibility?
Cuando los estudios no están de acuerdo,
escuche el desacuerdo.
La heterogeneidad es un mensaje, no ruido.
La ausencia de evidencia no es evidencia de ausencia.
Módulo 9: Los Estudios Ocultos
La ausencia de evidencia no es evidencia de ausencia.
Reboxetine: 2010
El 74% que nunca vio la luz.
Módulo 9: Los Estudios Ocultos
🎯 Learning Objectives
- Interpret funnel plots for asymmetry detection
- Aplica la prueba de Egger y otras pruebas estadísticas para detectar sesgo de publicación
- Implementar el método de recortar y completar para ajustar el sesgo
- Critically appraise the limitations of publication bias tests
- Aplicar el principio: "La ausencia de evidencia no es evidencia de ausencia"
The Year: 1997
"A new hope for depression patients who cannot tolerate SSRIs..."
La reboxetina (Edronax) era un antidepresivo novedoso: un inhibidor selectivo de la recaptación de norepinefrina (NRI). A diferencia de los ISRS, se dirigió a un sistema de neurotransmisores diferente. Para los pacientes que fracasaron o no pudieron tolerar la fluoxetina o la sertralina, ofreció un nuevo mecanismo.
La evidencia publicada
What doctors could find in medical journals:
| Comparison | Published Trials | Published Result |
|---|---|---|
| Reboxetine vs Placebo | 3 trials (n=507) | Significantly better (SMD = 0.56) |
| Reboxetine vs SSRIs | 4 trials (n=628) | Equivalent or better |
La literatura publicada contó una historia clara:
Reboxetine works. Patients benefit. Prescribe with confidence.
Pero ¿qué pasa con los ensayos que no pudo ver?
In 2010, German researchers at IQWiG made a request to the European Medicines Agency...
They demanded access to all ensayo datos: publicados y no publicados.
What they found changed everything.
El panorama completo
Eyding et al., BMJ 2010
| Comparison | Published Only | ALL DATA |
|---|---|---|
| Reboxetine vs Placebo | SMD 0.56 (benefit) | SMD 0.10 (no benefit) |
| Patients in analysis | 507 (14%) | 2,731 (100%) |
| Reboxetine vs SSRIs | Equivalent | Inferior (RR 1,23 para daños) |
| Patients in analysis | 628 (26%) | 2,411 (100%) |
Investigation Exercise: The File Drawer
Usted es un revisor sistemático en 2008. Busca en PubMed, Embase y la Biblioteca Cochrane todos los ensayos de reboxetina. Encontrará 7 ensayos publicados que muestran beneficios.
¿Puede confiar en esta evidencia?
⚠️ ¡El embudo es drásticamente asimétrico!
Todos los estudios publicados se agrupan en un lado. ¿Dónde están los ensayos nulos y negativos?
El kit de herramientas de sesgo de publicación
Funnel Plot
Plot effect size vs. standard error. A symmetric funnel suggests no bias; asymmetry raises alarms.
Egger's Regression Test
Regress effect/SE on 1/SE. A non-zero intercept (P < 0.10) suggests small-study effects. Note: inflated false-positive rate with binary outcomes; use Peters' test instead.
Peters' Test
For binary outcomes, regresses log OR on inverse of total sample size. Less prone to false positives.
Trim-and-Fill
Imputa los estudios "faltantes" para hacer que el embudo sea simétrico y luego recalcula el efecto combinado.
Interactivo: Análisis de recorte y llenado
Déjanos aplique recortar y llenar a los datos de reboxetina y vea cuál sería la estimación ajustada...
Published Only
7 trials
SMD = 0.56
Significant benefit
Trim-and-Fill
7 + 5 imputed = 12 trials
SMD = 0.23
Reduced, still nominally significant
But even trim-and-fill underestimated the problem!
El efecto real con todos los datos fue SMD = 0,10 (esencialmente nulo).
Trim-and-fill is conservative—it doesn't fully correct for selective publication.
The Best Defense: Trial Registries
Los métodos de detección de sesgo de publicación son imperfectos. La verdadera solución es prospective registration.
Al buscar pruebas, siempre verifique los registros. Compare el número de registered pruebas con el número published. La brecha es su señal de advertencia.
Since 2005, ICMJE requires trial registration as a condition of publication.
La campaña AllTrials
"All trials registered. All results reported."
El escándalo de la reboxetina, junto con casos similares en otros medicamentos, catalizó un movimiento global:
2013: Política de datos clínicos de la EMA
European Medicines Agency commits to publishing clinical study reports
2016: FDA Amendments Act enforcement
Mandatory results reporting on ClinicalTrials.gov within 12 months
AllTrials Coalition
Over 90,000 supporters, 700+ organizations demanding transparency
La reboxetina Consecuencias
Germany's IQWiG recommended against reboxetine for depression
El NICE del Reino Unido lo rebajó a "no recomendado"
La FDA había rechazado la reboxetina en 2001 (tenían acceso a datos no publicados)
Durante más de una década, los pacientes recibieron un medicamento no mejor que placebo.
Porque solo se publicaron los ensayos positivos.
¿Qué pasa si la conclusión publicada es lo opuesto a los datos reales?
REAL DATA
Estudio de GlaxoSmithKline 329 paroxetina probada en adolescent depression. El artículo publicado (2001) concluyó que la paroxetina era "generally well tolerated and effective." Los datos reales: paroxetina failed on all 8 pre-specified outcomes. When re-analyzed (RIAT 2015), suicidal/self-harm events: 23 en el grupo de paroxetina frente a 5 en el grupo de placebo. El artículo publicado redefinió los resultados post hoc para darles importancia. En 2015, un nuevo análisis de RIAT (Restoring Invisible and Abandoned Trials) utilizando el informe del estudio clínico original concluyó: la paroxetina era neither safe nor effective for adolescents.
Module 9 Quiz
1. ¿Qué porcentaje de los datos del ensayo de reboxetina se ocultaron de la literatura publicada?
2. Why can trim-and-fill underestimate the correction needed?
3. What is the best prospective defense against publication bias?
Lo que no puedes consulte
may be more important than what you can.
La ausencia de evidencia no es evidencia de ausencia.
Certainty must be earned, not assumed.
Módulo 10: La certeza
Certainty must be earned, not assumed.
Early Surfactant: 2012
Cuando evoluciona la evidencia de alta calidad.
Módulo 10: La certeza
🎯 Learning Objectives
- Aplicar el marco GRADE completo para evaluar la certeza de evidencia
- Evaluate all five downgrade factors (RoB, inconsistency, indirectness, imprecision, publication bias)
- Identify when to upgrade for large effect, dose-response, or confounding
- Construct Summary of Findings tables with absolute effect estimates
- Aplicar el principio: "La certeza debe ganarse, no asumirse"
The Year: 1990s
"A revolution in neonatal care..."
El síndrome de dificultad respiratoria (SDR) fue la principal causa de muerte en bebés prematuros. El desarrollo de exógeno surfactant—la sustancia que evita que los alvéolos colapsen—fue uno de los grandes avances en la medicina neonatal.
La pregunta fue: ¿Cuándo debemos administrar surfactante?
Prophylactically (to all high-risk infants) or selectively (only after RDS develops)?
La revisión Cochrane original (2003)
Multiple RCTs conducted before the era of routine CPAP
| Outcome | Prophylactic vs Selective | Certainty |
|---|---|---|
| Neonatal mortality | RR 0.73 (favors prophylactic) | High |
| BPD or death | RR 0.84 (favors prophylactic) | High |
Pero el mundo de la atención neonatal estaba cambiando...
A new technology emerged: Continuous Positive Airway Pressure (CPAP)
Non-invasive support that could help preterm lungs without intubation.
¿Seguiría siendo válida la evidencia anterior?
La actualización Cochrane de 2012
New trials conducted in the CPAP era
| Outcome | Old Trials | New Trials |
|---|---|---|
| BPD or death | RR 0.84 (favors prophylactic) | RR 1.12 (favors selective) |
| Necesidad de ventilación | Baja con profiláctico | ¡Más alta con profiláctico! |
Investigation: Why Did Evidence Evolve?
Usted es neonatólogo. Un colega pregunta: "¿Cómo pueden los ensayos aleatorios contradecirse entre sí?"
¿Estaba equivocada la evidencia original?
Indirectness Changed
Old trials: No CPAP available. New trials: CPAP standard of care.
El comparador mejoró
Selective surfactant + CPAP is better than prophylactic intubation.
Context Matters
La evidencia de una época puede no aplicarse a otro.
This is why GRADE assesses Indirectness!
High-quality evidence can become inapplicable when context changes.
El marco GRADE
Grading of Recommendations, Assessment, Development and Evaluations
GRADE responde a la pregunta: ¿Qué confianza tenemos en esta estimación?
⊕⊕⊕⊕ HIGH: Very confident. True effect is close to the estimate.
⊕⊕⊕◯ MODERATE: Moderately confident. True effect likely close, but may differ substantially.
⊕⊕◯◯ LOW: Limited confidence. True effect may differ substantially.
⊕◯◯◯ VERY LOW: Very little confidence. True effect likely substantially different.
GRADE: Factors That Downgrade Certainty
La evidencia de ECA comienza en ALTO. Se puede degradar por:
Risk of Bias
Flawed randomization, lack of blinding, incomplete follow-up, selective reporting
Inconsistency
Unexplained heterogeneity across studies (large I², non-overlapping CIs)
Indirectness
Diferencias en población, intervención, comparador o resultados de la pregunta
Imprecision
Wide confidence intervals, small sample size, few events
GRADE: El quinto factor
Publication Bias
Asymmetric funnel plot, missing registered trials, sponsor influence
Each factor can downgrade by one or two levels
High → Moderate → Low → Very Low
Example: Un metanálisis de ECA (comienza ALTO) con alto riesgo de sesgo (↓1) y falta de direccionalidad grave (↓1) sería clasificado LOW.
Interactive: Apply GRADE to Surfactant
Califiquemos la certeza de la evidencia para el surfactante profiláctico usando ensayos antiguos versus nuevos.
OLD TRIALS (Pre-CPAP)
Starting: HIGH (RCTs)
Risk of Bias: Low (−0)
Inconsistency: None (−0)
Indirectness: Serious (−1)
Different standard of care today
Final: ⊕⊕⊕◯ MODERATE
NEW TRIALS (CPAP Era)
Starting: HIGH (RCTs)
Risk of Bias: Low (−0)
Inconsistency: None (−0)
Indirectness: None (−0)
Matches current practice
Final: ⊕⊕⊕⊕ HIGH
GRADE: Factors That Upgrade Certainty
La evidencia observacional comienza en BAJA. Se puede actualizar para:
Large Magnitude of Effect
RR >2 o <0,5 sin posibles factores de confusión
Dose-Response Gradient
Higher exposure = larger effect in a consistent pattern
Residual Confounding
All plausible confounders would reduce the effect (strengthens causal inference)
Communicating Certainty
GRADE requires transparent language about confidence:
HIGH: "Prophylactic surfactant reduces mortality..."
MODERATE: "Prophylactic surfactant probably reduces mortality..."
LOW: "Prophylactic surfactant may reduce mortality..."
VERY LOW: "We are uncertain whether prophylactic surfactant reduces mortality..."
Este lenguaje garantiza que los médicos comprendan la solidez de la evidencia.
Can too much of a lifesaver become a killer?
REAL DATA
1940s-50s: High oxygen concentrations saved premature babies from respiratory failure. Then came an epidemic of blindness—retrolental fibroplasia (now called ROP). Doctors reduced oxygen dramatically. Blindness dropped. But then: increased deaths and brain damage de la hipoxia. El nivel óptimo de oxígeno requerido decades of trials to find. Recent SUPPORT/BOOST II trials finally defined the therapeutic window: SpO2 91-95%.
Module 10 Quiz
1. ¿Por qué se revirtió la recomendación del surfactante entre 2003 y 2012?
2. ¿Cuál de los siguientes NO es un factor de degradación de GRADE?
3. ¿Qué lenguaje se debe utilizar para evidencia de certeza BAJA?
Un número no es suficiente.
Debes comunicar qué tan seguro estás.
Certainty must be earned, not assumed.
Los métodos protegen a los pacientes de nuestra confianza.
Módulo 11: The Living Review
Los métodos protegen a los pacientes de nuestra confianza.
COVID-19 Hydroxychloroquine: 2020
Cuando se cumple la urgencia evidencia.
Módulo 11: The Living Review
🎯 Learning Objectives
- Aplicar análisis secuencial de prueba para determinar cuándo la evidencia es suficiente
- Diseñar y mantener una revisión sistemática viva
- Establish update triggers and futility/harm boundaries
- Manage multiplicity and alpha-spending in sequential analyses
- Explain how rapid evidence synthesis evolved during COVID-19
March 2020: A World in Crisis
"El virus se propaga más rápido de lo que entendemos..."
El COVID-19 estaba matando a miles de personas. Las UCI se desbordaron. No había vacuna ni tratamiento. Luego, un rayo de esperanza: hydroxychloroquine (HCQ)—an old malaria drug—showed antiviral activity in lab studies.
La prisa por adoptar
A pocas semanas del estudio Gautret:
March 28: FDA issues Emergency Use Authorization for HCQ
April 4: India bans HCQ export (hoarding fears)
Global: Shortages affect lupus and rheumatoid arthritis patients
Millions received HCQ based on a 36-patient observational study
What could go wrong?
Investigación: El Gautret Estudio
Usted es un experto en EBM al que se le ha pedido que evalúe el estudio francés HCQ. Examinar el diseño...
| Issue | Impact |
|---|---|
| Non-randomized | Selection bias—who got HCQ? |
| 6 patients excluded | 3 went to ICU, 1 died, 1 withdrew, 1 had nausea |
| Surrogate outcome | Viral load, not clinical outcomes |
| Control de diferentes hospitales | Different care, different testing |
| No blinding | Expectation bias in lab testing |
Este estudio tendría un ALTO riesgo de sesgo en RoB 2.0
GRADE certainty: VERY LOW. Yet it changed global policy.
Why Observational COVID Studies Misled
Immortal Time Bias
Patients must survive long enough to receive treatment. Survivors are compared to non-survivors.
Confounding by Indication
Sicker patients may get different treatments. Healthier patients received HCQ early.
Healthy User Effect
Patients who seek treatment tend to be healthier overall.
Outcome Reporting
Los estudios con resultados positivos se publicaron más rápido.
Junio de 2020: el informe de ECA
Large, rigorous trials completed at remarkable speed
| Trial | N | Result |
|---|---|---|
| RECOVERY (UK) | 4,716 | No benefit on mortality (RR 1.09) |
| WHO SOLIDARITY | 954 | No benefit (RR 1.19) |
| ORCHID (US) | 479 | Detenido por inutilidad |
Cronología: evidencia observacional versus evidencia RCT
March-May 2020
Observational: ~20 studies
Suggest benefit
Pooled OR ~0.65
June-July 2020
RCTs: RECOVERY, SOLIDARITY
Show no benefit/harm
Pooled RR ~1.10
De "prometedor" a "ineficaz" en 3 meses
Es por eso que necesitamos aleatorización y revisiones vivas para rastrear la evolución de la evidencia.
Living Systematic Reviews
Un nuevo enfoque para acelerar rápidamente evidencia en evolución:
Continuous Surveillance
Busque en la literatura semanalmente o incluso diariamente para obtener nueva evidencia
Cumulative Meta-Analysis
Update pooled estimates as each new trial reports
Análisis secuencial de ensayos (TSA)
Determine when sufficient information has accumulated to conclude
Transparent Versioning
Track every change, maintain full audit trail
Análisis secuencial de ensayos (TSA)
When have we learned enough?
TSA aplica límites de detención al metanálisis, similar al análisis intermedio en un solo ensayo. Esto explica el required information size (RIS) needed to detect or exclude a clinically meaningful effect.
Para HCQ en COVID, la TSA mostró que el límite de inutilidad se cruzó en junio de 2020.
Lecciones de la saga HCQ
1. Observational studies can mislead spectacularly cuando prevalece el sesgo. Incluso muchos estudios que apuntan en la misma dirección pueden estar equivocados.
2. RCTs can be conducted quickly when the will exists. RECOVERY enrolled 5,000+ patients in weeks.
3. Las revisiones vivas son esenciales for evolving topics. Fixed-point-in-time reviews become obsolete instantly.
4. Political pressure doesn't change biology. Los métodos rigurosos protegen a los pacientes incluso cuando están bajo presión.
¿Qué pasa si la prevención ES la causa?
REAL DATA
For decades, pediatric guidelines recommended: avoid peanuts in infancy to prevent allergy. Meanwhile, peanut allergy rates tripled de 1997 a 2008. Luego llegó LEAP (2015): 640 high-risk infants randomized to early peanut introduction vs. avoidance. Result: Early introduction reduced peanut allergy by 81% (1,9% frente a 13,7%). La estrategia de prevención estaba causando la epidemia.
Module 11 Quiz
1. ¿Cuál fue el principal defecto en el estudio de hidroxicloroquina de Gautret?
2. What does Trial Sequential Analysis help determine?
3. ¿Por qué los estudios observacionales de COVID mostraron un beneficio de HCQ mientras que los ECA no?
Speed cannot replace rigor.
But rigor can be fast.
Living reviews balance both.
No todas las señales son verdad.
Módulo 12: Métodos avanzados
No todas las señales son verdad.
Advanced Methods
Beyond pairwise meta-analysis.
Módulo 12: Métodos avanzados
🎯 Learning Objectives
- Interpret network meta-analysis geometry and SUCRA rankings
- Apply bivariate models for diagnostic test accuracy meta-analysis
- Conduct dose-response meta-analysis with flexible splines
- Understand when individual patient data (IPD) meta-analysis is needed
- Reconocer las suposiciones y limitaciones de cada avanzado método
Cuando el emparejamiento no es suficiente
"A veces la pregunta es más compleja que A versus B..."
Los métodos que has aprendido forman la base. Pero la realidad clínica a menudo exige más: Which of 10 antidepressants is best? What's the optimal dose of statin? Does this test accurately diagnose early cancer?
Este módulo presenta cuatro métodos avanzados, cada uno de los cuales responde a diferentes preguntas complejas.
Network Meta-Analysis (NMA)
When you have many treatments but few head-to-head trials
NMA combines direct evidence (A vs B) with indirect evidence (A vs C, B vs C → inferred A vs B) to compare multiple treatments simultaneously.
NMA Example: Antidepressants
The landmark Cipriani 2018 NMA compared 21 antidepressants using 522 trials.
The Challenge
21 drugs, but not every pair tested head-to-head
Many vs. placebo, few vs. each other
The Solution
NMA combina evidencia directa e indirecta en todo el red
Clasifica los 21 según su eficacia y aceptabilidad
Resultado: algunos medicamentos obtuvieron mejores calificaciones en cuanto a eficacia, otros en cuanto a aceptabilidad
Ningún medicamento es universalmente "mejor"; interprete clasificaciones con intervalos creíbles, transitividad y compensaciones clínicas.
NMA: Critical Assumptions
Transitivity
Effect modifiers should be similarly distributed across comparisons; otherwise indirect comparisons may be biased
Consistency
La evidencia directa e indirecta concuerda (comprobable)
Connected Network
All treatments linked through at least one common comparator
When assumptions fail, NMA can mislead
Siempre evalúe la transitividad y pruebe inconsistencia.
Dose-Response Meta-Analysis
Encontrar la dosis óptima
Uses the Greenland-Longnecker method con splines cúbicas restringidas para modelar relaciones no lineales entre dosis y efecto.
Non-linear patterns
J-shaped (alcohol & mortality), U-shaped (vitamin D), threshold (aspirin)
Clinical relevance
Encuentre la dosis con el mejor equilibrio beneficio-daño, no solo "más es mejor"
Datos de pacientes individuales (IPD)
El estándar de oro para el análisis de subgrupos
Instead of published summary data, obtain sin procesar datos a nivel de paciente de los investigadores. Permite análisis precisos de subgrupos, modelado de tiempo hasta el evento y definiciones estandarizadas.
El Grupo Colaborativo de Ensayistas Tempranos de Cáncer de Mama fue pionero en IPD MA en la década de 1980.
Diagnostic Test Accuracy (DTA)
Cuando la "intervención" es una prueba
DTA meta-analysis synthesizes sensitivity (tasa de verdaderos positivos) y specificity (true negative rate)—two correlated outcomes requiring bivariate models.
Bivariate/HSROC Model
Cuenta la correlación entre sensibilidad y especificidad
SROC Curve
Curva ROC resumida con 95 % de confianza y regiones de predicción
QUADAS-2
Quality Assessment of Diagnostic Accuracy Studies
Elección de la correcta Método
| Question | Method |
|---|---|
| Does A beat B? | Pairwise MA |
| Which of many treatments is best? | Network MA (NMA) |
| ¿Cuál es la dosis óptima? | Dose-Response MA |
| Who benefits most? (subgroups) | IPD MA |
| ¿Qué precisión tiene esta prueba? | DTA MA |
| ¿Cómo evoluciona el efecto con el tiempo? | Survival/Time-to-Event MA |
El método debe coincidir con la pregunta. Nunca fuerces una pregunta con el método equivocado.
Three large trials. Three different answers. What do you believe?
REAL DATA
CORTICUS (2008): 499 patients. Hydrocortisone in septic shock. No mortality benefit. ADRENAL (2018): 3,658 patients. Hydrocortisone. No mortality benefit. APROCCHSS (2018): 1,241 patients. Hydrocortisone + fludrocortisone. Mortality reduced (43% vs 49.1%, p=0.03). Same class of intervention. Different protocols. Different results.
Module 12 Quiz
1. ¿Cuál es la ventaja clave del metaanálisis de red sobre el método por pares?
2. Why does DTA meta-analysis require bivariate models?
3. What does the "consistency" assumption in NMA require?
El ecosistema del curso
Este curso cubre el flujo de trabajo de revisión sistemática completo. Para profundizar más, explore los cursos complementarios:
Bivariate/HSROC, SROC curves, QUADAS-2
RoB 2, ROBINS-I/E, domain-level assessment
Full SoF tables, GRADE-CERQual
One-stage/two-stage, mixed-effects models
Copas, PET-PEESE, p-curve, selection models
AMSTAR 2, ROBIS, overlap correction
CHARMS, PROBAST, c-statistic pooling
TSA, update triggers, abbreviated methods
Module 12 Complete
"El método debe coincidir con la pregunta. Los métodos avanzados responden a preguntas avanzadas, pero los fundamentos nunca cambian".
Ha dominado el flujo de trabajo principal. Los siguientes diez módulos exploran la frontera: inferencia bayesiana, metanálisis en red, datos de pacientes individuales, modelado de dosis-respuesta, robustez y fragilidad, equidad, síntesis asistida por IA, evidencia cualitativa, métodos multivariados y reproducibilidad.
No todas las señales son verdad.
Módulo 13: El bayesiano Giro
No todas las señales son verdad.
Módulo 13: El bayesiano Giro
Módulo 13: El bayesiano Giro
🎯 Learning Objectives
- Explica la diferencia entre inferencia frecuentista y bayesiana
- Interpret prior distributions, likelihoods, and posterior distributions
- Distinguish credible intervals from confidence intervals
- Understand when Bayesian meta-analysis offers advantages
- Recognize how prior choice affects conclusions
In 2005, a trial began
that would never truly end.
El ensayo STAMPEDE para el cáncer de próstata utilizó un diseño de plataforma de múltiples brazos y múltiples etapas (MAMS). Se podrían agregar o eliminar armas a medida que se acumularan pruebas. Aunque sus estadísticas eran frecuentistas, la filosofía adaptativa encarnaba el espíritu bayesiano: actualizar las decisiones a medida que se acumulan los datos.
La cosmovisión frecuentista
In frequentist statistics, probability means long-run frequency. Un IC del 95% NO significa "95% de probabilidad de que el verdadero efecto esté en el interior". Significa: si repitiéramos el estudio infinitamente, el 95% de los intervalos contendrían la verdad.
La cosmovisión bayesiana
In Bayesian statistics, probability represents degree of belief. We start with a prior (lo que creemos antes que los datos), actualice con likelihood (lo que nos dicen los datos) y obtenga a posterior (updated belief).
Prior × Likelihood = Posterior
Teorema de Bayes: P(θ|datos) ∝ P(datos|θ) × P(θ)
Credible Intervals
Un intervalo de credibilidad del 95% es probabilísticamente interpretable, condicional al modelo especificado y anterior.
Choosing Priors
Non-informative (Vague)
Normal(0, 10000) o uniforme. Dejemos que los datos dominen. Imita resultados frecuentistas.
Weakly Informative
Normal(0, 1) for log-OR. Regularizes extreme estimates while remaining flexible.
Informative
Based on previous evidence. Powerful but controversial. Must be pre-specified.
Half-Cauchy for τ
Recommended for heterogeneity. Half-Cauchy(0, 0.5) allows large τ but concentrates near zero.
MCMC Sampling
Most Bayesian models cannot be solved analytically. We use Markov Chain Monte Carlo (MCMC) para extraer muestras de la parte posterior. Herramientas: JAGS, Stan, brms (R), PyMC (Python).
Bayesian Model Averaging
Instead of choosing between fixed-effect and random-effects models, Bayesian model averaging (BMA) pondera cada modelo según su probabilidad posterior. Esto tiene en cuenta la incertidumbre del modelo en la estimación final.
Bayes Factors
BF₁₀ > 10 = evidencia sólida de H₁. BF₁₀ < 1/10 = evidencia sólida de H₀.
Interactive: Posterior Visualizer
Ajuste la fuerza anterior para ver cómo afecta la parte posterior. Observe cómo más datos abruman a los anteriores.
La historia de STAMPEDE
STAMPEDE se lanzó en 2005 con 5 ramas de investigación que comparan tratamientos para el cáncer de próstata avanzado. Para 2016, había agregado abiraterona y había mostrado una reducción del 37 % en la muerte (HR 0,63; IC del 95 %: 0,52–0,76).
El diseño de la plataforma incorpora el pensamiento adaptativo bayesiano: los análisis provisionales guían la selección de brazos, pueden ingresar nuevos brazos a medida que surgen tratamientos y los brazos inútiles caen temprano, salvando a los pacientes de tratamientos ineficaces. terapias.
STAMPEDE inscribió a más de 10,000 pacientes en más de 100 centros y cambió fundamentalmente la atención del cáncer de próstata. La mentalidad bayesiana permite que la evidencia se acumule e informe las decisiones en tiempo real.
Decision Tree: When to Go Bayesian?
Remember Module 1?
CAST Through a Bayesian Lens
Si un análisis bayesiano de CAST hubiera utilizado un previo informativo de la ciencia básica (los antiarrítmicos suprimen las CVP), el posterior todavía se habría inclinado fuertemente hacia el daño. Con suficientes datos, incluso un historial sólido cede ante la probabilidad. La lección: los métodos bayesianos no protegen contra malos antecedentes, pero hacen suposiciones transparent.
Module 13 Quiz
Q1. What does a 95% Bayesian credible interval mean?
Q2. ¿Cuál es el valor previo recomendado para la heterogeneidad entre estudios? (τ)?
Module 13 Complete
"El giro bayesiano no se trata de matemáticas. Se trata de honestidad: hacer visibles nuestras suposiciones."
No todas las señales son verdad.
Módulo 14: El Red
Los métodos protegen a los pacientes de nuestra confianza.
Módulo 14: El Red
Módulo 14: El Red
🎯 Learning Objectives
- Explain why pairwise comparisons are insufficient when many treatments exist
- Interpret network geometry (nodes, edges, thickness)
- Comprender la transitividad, la coherencia y el papel de la evidencia indirecta
- Interpret SUCRA rankings and league tables
- Recognize when NMA assumptions are violated
A clinician faces a patient
con la depresión. ¿Qué medicamento?
Hay 21 antidepresivos comúnmente recetados. La mayoría de los ensayos comparativos comparan sólo 2 o 3. Cipriani et al. (2018, Lancet) conectaron 522 ensayos y 116,477 pacientes en una sola red.
La lógica del metanálisis en red
Direct Evidence
Trials directly comparing A vs B give the most reliable estimate.
Indirect Evidence
Si existen A vs C y B vs C, podemos inferir A vs B. Este es el "transitivo" suposición.
Mixed Evidence
NMA combines both, weighted by precision, to rank all treatments simultaneously.
Interactive: Network Graph
Cada nodo es un tratamiento. El espesor del borde representa el número de estudios que comparan esos dos tratamientos.
Transitivity & Consistency
Transitivity: La estimación indirecta (a través de un comparador común) debe aproximarse a la estimación directa. Esto requiere que los modificadores del efecto se distribuyan de manera similar en las comparaciones.
Consistency: Prueba estadística que compara evidencia directa e indirecta. Las pruebas globales (interacción diseño por tratamiento) y locales (división de nodos) ayudan a identificar bucles de inconsistencia.
SUCRA & P-scores
Caution: Ranking is seductive but misleading when differences between treatments are small or uncertain. Always report credible/confidence intervals alongside ranks.
Component NMA
When interventions are complex (e.g., behavioral + pharmacological), component NMA decomposes multi-component treatments to estimate the individual contribution of each component. Uses additive models: effect(A+B) = effect(A) + effect(B) + interaction.
La Red Cipriani
El análisis de Lancet de 2018 encontró que los 21 antidepresivos eran más efectivos que el placebo. La amitriptilina, la mirtazapina y la venlafaxina obtuvieron los puntajes más altos en eficacia. La agomelatina, la fluoxetina y el escitalopram ocuparon el puesto más alto en cuanto a aceptabilidad (menor número de abandonos).
Ningún fármaco "ganó" en todos los resultados. La red reveló compensaciones invisibles al análisis por pares.
Decision Tree: Is NMA Appropriate?
Module 14 Quiz
Q1. ¿Qué suposición debe cumplirse para que la evidencia indirecta sea válida en NMA?
Module 14 Complete
"La red ve lo que las comparaciones por pares no pueden: todo el panorama de elección de tratamiento".
No todas las señales son verdad.
Módulo 15: El individuo
What was hidden in plain sight?
Módulo 15: El individuo
Módulo 15: El individuo
🎯 Learning Objectives
- Explain why aggregate data can mask treatment–covariate interactions
- Distinguish one-stage from two-stage IPD models
- Recognize ecological bias in aggregate meta-analysis
- Understand the practical challenges of IPD collection
- Interpret treatment–covariate interaction plots
For decades, breast cancer trials
resúmenes publicados. No pacientes.
El Grupo Colaborativo de Ensayistas Tempranos de Cáncer de Mama (EBCTCG) recopiló registros individuales de más de 100,000 mujeres en cientos de ensayos. Sus metanálisis de IPD mostraron que los beneficios del tamoxifeno dependen en gran medida del estado del receptor de estrógeno, algo invisible en los datos agregados.
Lo que ocultaban los resúmenes
Cada ensayo publicado de tamoxifeno informó un resultado general. Según cientos de estudios, el tamoxifeno pareció ofrecer un beneficio modesto. Pero el “beneficio modesto” era un promedio que ocultaba una verdad profunda.
La división del subgrupo oculto
El efecto conjunto general (mezcla de pacientes que responden y no responden) fue una ficción estadística. Un promedio “modesto” que sobreestimó el beneficio para un grupo e implicó un beneficio donde no existía ninguno para el otro.
Datos agregados versus individuales de pacientes
IPD permite: (1) definiciones consistentes de resultados, (2) análisis de subgrupos por características del paciente, (3) modelado de tiempo hasta el evento, (4) verificación de sesgos ecológicos. Es gold standard for exploring treatment effect modification.
One-Stage vs Two-Stage IPD
Two-Stage
Analyze each study separately, then combine estimates (like standard MA). Simple but loses information.
One-Stage
Ajustar un único modelo de efectos mixtos a todos los datos del paciente simultáneamente. Más potente para interacciones y eventos raros.
Key: Ambos deberían tener en cuenta la agrupación de estudios. Nunca agrupe los IPD como si fueran de un megaensayo; esto introduce confusión (paradoja de Simpson).
Ecological Bias
A meta-regression using study-level mean age might show older patients benefit more. But this could be ecological bias: la asociación a nivel de estudio no refleja la verdad a nivel de paciente. Sólo IPD puede separar within-study from between-study effects.
Cuando el todo miente en sus partes
La paradoja de Simpson: una tendencia que aparece en los datos agregados se revierte cuando los datos se agrupan por una variable de confusión.
La paradoja en la práctica
A mega-trial analysis found Treatment X beneficial overall. But dentro cada estudio, fue perjudicial. ¿Cómo? Las diferencias en el riesgo inicial entre los estudios crearon una ilusión: las poblaciones más enfermas recibieron más tratamiento, lo que infló el beneficio agregado.
Cates (2002, BMJ) demostró que la combinación de estudios sin tener en cuenta la agrupación puede revertir la dirección aparente del efecto.
Esta es la razón por la que los modelos de una etapa de IPD incluyen el estudio como una variable de agrupación, para evitar que la confusión entre estudios se haga pasar por tratamiento. efecto.
El legado de EBCTCG
Los metanálisis IPD del EBCTCG han definido el tratamiento del cáncer de mama durante 40 años. Su análisis de 2005 de tamoxifeno versus ningún tratamiento mostró un beneficio claro en los tumores ER positivos (RR 0,59), pero ningún beneficio en los tumores ER negativos (RR 0,97).
Sin la DPI, el efecto agregado general se habría agrupado en ambos grupos, diluyendo el beneficio y potencialmente negando a los pacientes ER positivos la magnitud de su ganancia.
Decision Tree: When Is IPD Worth Pursuing?
¿Puede obtener IPD de >80% de los ensayos?
Is ecological bias a concern?
EBCTCG recopiló datos de cientos de ensayos durante 40 años. La mayoría de los metanálisis de DPI incluyen entre 5 y 20 ensayos. La decisión depende de la pregunta, no de la ambición.
El patrón se repite
¿Recuerdas el Módulo 3? La TRH pareció beneficiosa en estudios observacionales pero perjudicial en ECA. Se produjo el mismo enmascaramiento agregado: el beneficio general ocultó el daño del subgrupo.
El análisis IPD de la Women's Health Initiative mostró posteriormente que timing mattered—las mujeres que comenzaron la TRH dentro de los 10 años posteriores a la menopausia tuvieron resultados diferentes que aquellas que comenzaron más tarde. La “hipótesis del momento” era invisible en los resúmenes agregados publicados.
La lección se repite: los datos agregados pueden oscurecer las interacciones críticas entre el tratamiento y las covariables. Ya sea el estado de ER en el cáncer de mama o el momento de la TRH, los datos a nivel individual revelan lo que ocultan los resúmenes.
Module 15 Quiz
Q1. ¿Cuál es la principal ventaja del IPD sobre el metanálisis de datos agregados?
Module 15 Complete
"Detrás de cada estimación agrupada hay individuos cuyas historias el agregado no puede contar."
La heterogeneidad es un mensaje, no ruido.
Módulo 16: El Dosis
La heterogeneidad es un mensaje, no ruido.
Módulo 16: El Dosis
Módulo 16: El Dosis
🎯 Learning Objectives
- Explain why simple pairwise comparisons miss dose–response relationships
- Distinguish linear, quadratic, and spline dose–response models
- Interpret restricted cubic splines with knots
- Identify threshold effects and J/U-shaped curves
- Understand model comparison with AIC/BIC
Durante décadas, el consumo moderado de alcohol
pareció proteger el corazón.
La "curva en forma de J" mostró que los no bebedores tenían una mayor mortalidad cardiovascular que los bebedores moderados. Pero Stockwell et al. (2016) demostraron que la curva J era un artefacto de clasificar erróneamente a ex bebedores (que dejaron de beber debido a una enfermedad) como "abstemios".
A Scientific Consensus Built on Sand
Para 2010, más de 100 estudios observacionales habían confirmado la curva J. Los libros de texto de medicina lo enseñaban. Los cardiólogos lo citaron. Los lobbystas de la industria del vino financiaron conferencias sobre este tema.
La evidencia parecía abrumadora. Pero, ¿qué pasaría si el grupo de comparación, los “abstemios”, estuviera contaminado?
El enfermo que abandona
A Hidden Confounder
The Problem
People who stop drinking often do so because they are already ill—enfermedad hepática, interacciones entre medicamentos, diagnóstico de cáncer. Estos “ex bebedores” fueron clasificados como “abstemios” en la mayoría de los estudios.
The Effect: The reference group (abstainers) appeared less healthy—no porque la abstinencia fuera dañina, sino porque personas enfermas se habían sumado a ella.
When Stockwell et al. (2016, J Stud Alcohol Drugs) removed former drinkers and applied appropriate study-quality corrections: la curva J desapareció. El efecto protector era un fantasma.
Dose–Response Meta-Analysis
Standard meta-analysis asks: "Does treatment X work?" Dose–response meta-analysis asks: "At what dose ¿el tratamiento X funciona mejor?" Modela la relación entre el nivel de dosis y el resultado en múltiples estudios.
Restricted Cubic Splines
RCS place knots en puntos de dosis preespecificados y ajusta polinomios suaves entre ellos. Normalmente, de 3 a 5 nudos en los cuantiles de la distribución de dosis. Lineal más allá de los nudos límite. Las pruebas de no linealidad comparan el modelo spline con un modelo lineal más simple.
Model Comparison
AIC/BIC compara el ajuste lineal versus el spline. Inferior = mejor. También prueba la desviación de la linealidad (valor p para términos spline).
Interactive: Dose–Response Builder
Compara los ajustes lineal, cuadrático y spline. Observa cómo cambia la forma del modelo con diferentes suposiciones.
La curva J del alcohol desacreditada.
El nuevo análisis de Stockwell de 2016 encontró que cuando los exbebedores eran correctamente excluidos del grupo de referencia "abstemio", el efecto protector del consumo moderado de alcohol desaparecía. La curva J fue impulsada por el sesgo de los que abandonan por enfermedad.
El metanálisis de dosis-respuesta reveló la verdad: la forma de la curva depende fundamentalmente de cómo se define "dosis cero". La categoría de referencia incorrecta creó un beneficio fantasma.
When Curves Shape Policy
The phantom J-curve influenced alcohol guidelines worldwide:
NHS Guidance (until 2016)
“Beber con moderación puede proteger el corazón” apareció en la guía oficial. Después de la corrección de Stockwell, el Reino Unido revisó los límites a 14 unidades/semana para all bebedores (anteriormente 21 para los hombres). Ninguna cantidad fue declarada “segura”.
Dietary Guidelines Advisory Committee
Se citaron estudios de curva J hasta 2015. El comité de 2020 recomendó reducir los límites a 1 bebida/día para los hombres, reconociendo el sesgo del grupo de referencia.
Australian Guidelines
Safe drinking limits were delayed by industry-funded J-curve research promoting “cardioprotective” moderate intake.
Decision Tree: Is Dose-Response Analysis Appropriate?
¿Es plausible que la relación no sea lineal?
Standard pairwise meta-analysis (no dose-response possible with only two levels)
Module 16 Quiz
Q1. What makes restricted cubic splines useful in dose–response meta-analysis?
Module 16 Complete
"La dosis crea el veneno. Y la forma de la curva revela si el veneno es real."
La ausencia de evidencia no es evidencia de ausencia.
Módulo 17: El Fragilidad
La ausencia de evidencia no es evidencia de ausencia.
Módulo 17: El Fragilidad
Módulo 17: El Fragilidad
🎯 Learning Objectives
- Calcule e interprete el índice de fragilidad
- Utilice gráficos GOSH para identificar estudios y subconjuntos influyentes efectos
- Interpret contour-enhanced funnel plots
- Aplicar modelos de selección Copas y PET-PEESE para el sesgo de publicación
- Understand how sensitivity analyses strengthen meta-analytic conclusions
Governments stockpiled billions
basado en evidencia que no pudieron ver.
Después del H1N1, los gobiernos gastaron miles de millones en reservas de oseltamivir (Tamiflu). El equipo Cochrane (Jefferson et al. 2014) luchó durante años para acceder a datos inéditos. Cuando finalmente lo hicieron, la evidencia para prevenir complicaciones se evaporó.
El índice de fragilidad
El índice de fragilidad pregunta: "How many patients would need to change outcome to flip a statistically significant result to non-significant?" Agrega eventos de forma iterativa (convierte no eventos en eventos) en el grupo con menos eventos hasta p > 0.05.
Interactive: Fragility Calculator
Enter a 2×2 table to calculate the fragility index. Watch events shift until significance flips.
GOSH Plots
Resumen gráfico de la heterogeneidad del estudio (GOSH) ajusta los modelos de metanálisis a todos los subconjuntos posibles de estudios. Cada punto traza el efecto combinado frente a I² para un subconjunto. Los grupos sugieren subgrupos distintos; las nubes atípicas sugieren un estudio que impulsa la heterogeneidad.
Para k estudios, hay 2k−1 subsets. For k > 15, random sampling is used.
Contour-Enhanced Funnel Plots
Standard funnel plots show effect size vs standard error. Contour-enhanced versiones que agregan regiones sombreadas para p < 0,01, p < 0,05 y p < 0,10. Si los estudios faltantes corresponden a regiones no significativas, es probable que se produzca un sesgo de publicación. Si se encuentran en regiones significativas, otras causas (por ejemplo, la calidad del estudio) pueden explicar la asimetría.
Copas Selection & PET-PEESE
Copas Selection Model
Modela la probabilidad de que un estudio se publique en función de su SE y el tamaño del efecto. Estima conjuntamente el efecto real y el mecanismo de selección.
PET-PEESE
Precision-Effect Test (PET): regress effects on SE. If intercept = 0, no true effect. PEESE uses SE² for better performance when a true effect exists.
La saga del oseltamivir
El metanálisis original financiado por Roche (Kaiser 2003) mostró que el oseltamivir redujo las complicaciones de la influenza en un 67%. Pero 8 de 10 ensayos nunca se habían publicado. Después de que Cochrane obtuvo los informes de los estudios clínicos, el beneficio por complicaciones cayó a un 11% no significativo.
La fragilidad no fue solo estadística: fue informativa. A la base de evidencia en sí le faltaban la mayoría de los datos.
Árbol de decisiones: Interpretación de sus resultados de fragilidad
Highly fragile. Un puñado de eventos diferentes revertirían la conclusión. Interprete con extrema precaución.
Moderately fragile. Sensible a pequeñas perturbaciones. ¿Hay ensayos no publicados que podrían cambiar esto?
Relatively robust. But remember: fragility is only one dimension. Publication bias can undermine even robust results.
Walsh et al. (2014, J Clin Epidemiol) encontraron que en 399 ECA publicados en las principales revistas, el índice de fragilidad medio era solo 8. Más del 25% tenía FI ≤ 3. Los ensayos históricos que influyeron en la práctica clínica a menudo pendían de un hilo estadístico.
Beyond the Index: Structural Fragility
La saga del oseltamivir al descubierto three types of fragility—Y el Índice de Fragilidad captura sólo el primero.
Statistical Fragility (FI)
¿Cuántos eventos invierten el valor p? Esto es lo que mide el Índice de Fragilidad. Cuantifica la sensibilidad a los resultados de cada paciente.
Informational Fragility
¿Qué parte de la evidencia está oculta? Ocho de diez ensayos de Roche oseltamivir no estaban publicados. La base de evidencia era estructuralmente incompleta.
Analytical Fragility
¿Cuántos grados de libertad del investigador podrían cambiar la conclusión? Diferentes definiciones de resultados, poblaciones de análisis o métodos estadísticos.
Devolución de llamada al Módulo 10 (Paroxetina): Un nuevo análisis con diferentes definiciones de resultados revirtió la conclusión por completo. Eso fue fragilidad analítica: el IF nunca se calculó porque el punto final en sí estaba en disputa. Una evaluación de solidez completa examina las tres dimensiones.
Module 17 Quiz
Q1. Un ensayo tiene 200 pacientes por brazo, 12 eventos en tratamiento, 25 en control (p=0,03). El índice de fragilidad es 3. ¿Qué significa esto?
Module 17 Complete
"El número que sobrevive a cada intento de romperlo es el número en el que vale la pena confiar".
No todas las señales son verdad.
Módulo 18: La Equidad
Certainty must be earned, not assumed.
Módulo 18: La Equidad
Módulo 18: La Equidad
🎯 Learning Objectives
- Identify how trial exclusion criteria create evidence gaps
- Aplicar el marco PROGRESS-Plus para evaluar la equidad en la evidencia
- Use PRISMA-Equity reporting guidelines
- Understand transportability: when trial findings fail in practice
- Design equity-sensitive search and synthesis strategies
SPRINT proved tight blood pressure control
saves lives. But whose lives?
El histórico ensayo SPRINT excluyó a pacientes con diabetes, accidente cerebrovascular previo e insuficiencia cardíaca. Más del 75% de los pacientes hipertensos estadounidenses no habrían calificado. La evidencia era sólida pero la aplicabilidad era limitada.
El ensayo que excluyó a la mayoría de sus pacientes
SPRINT inscribió a 9.361 pacientes y demostró que el control intensivo de la presión arterial (objetivo <120 mmHg) redujo los eventos cardiovasculares en un 25% (HR 0,75, IC 95% 0,64–0,89). Pero los criterios de inclusión contaron una historia diferente.
Quién fue excluido:
- Diabetes — 35% de los adultos estadounidenses con hipertensión
- Prior stroke — 8% de la población hipertensa
- Symptomatic heart failure — 6% of hypertensive adults
- Expected survival <3 years — los pacientes más frágiles
- Nursing home residents — excluded entirely
- GFR <20 mL/min — advanced kidney disease
Resultado: Más del 75% de los adultos estadounidenses con hipertensión NO habrían calificado. La evidencia era contundente. ¿Pero para quién?
De dónde viene la evidencia
78%
of cardiovascular mega-trial participants came from high-income countries (2000–2020).
6%
from sub-Saharan Africa — where cardiovascular disease is rising fastest.
Ensayos de Polypill: 4 de 5 se realizaron en poblaciones con un IMC medio <25. El IMC medio en Estados Unidos es 30. El metabolismo de los fármacos, los patrones de comorbilidad, el acceso a la atención médica y la variación genética difieren entre las poblaciones. Efficacy in one population does not guarantee effectiveness in another.
Referencia: Ensayos multinacionales y la brecha de PROGRESS-Plus
PROGRESS-Plus Framework
Plus: Age, disability, sexual orientation, other vulnerable groups.
PRISMA-Equity & Transportability
PRISMA-Equity amplía PRISMA para exigir informes sobre cómo se abordó la equidad en la revisión: características de la población, análisis de subgrupos por desventaja y evaluación de la aplicabilidad a poblaciones desatendidas.
Transportability: La eficacia del ensayo no es igual a la eficacia en el mundo real. Existen métodos para volver a ponderar los datos de los ensayos para que coincidan con la distribución de la población objetivo.
From Trial to Real World: Transportability
Transportability = ¿Se pueden aplicar los resultados de la población de prueba X a la población objetivo Y? Ésta no es una cuestión filosófica: tiene métodos formales.
Inverse Probability of Participation Weighting (IPPW)
Re-weights trial participants so they resemble the target population on key covariates.
Generalizability Index
Cuantifica qué tan similar es la muestra del ensayo a la población objetivo en cuanto a las características observadas.
Stuart et al. (2015, Stat Med): Cuando los resultados del SPRINT se volvieron a ponderar para que coincidieran con la población hipertensa de EE. UU., el beneficio estimado se atenuó: HR 0,82 (frente a 0,75 en el ensayo). El tratamiento todavía funciona. Pero la magnitud cambia cuando cambia la población.
SPRINT y la mayoría perdida
SPRINT fue un ensayo bien diseñado de 9,361 pacientes. Su hallazgo (HR 0,75 para el control intensivo de la PA frente al estándar) cambió las directrices en todo el mundo. Pero los análisis posteriores mostraron que el beneficio fue mayor en el subgrupo más parecido a la población del ensayo, e incierto para los grupos excluidos.
La equidad en la síntesis de evidencia significa preguntar no solo "¿Funciona?" pero "¿Para quién funciona?"
Árbol de decisiones: Evaluación de equidad para su revisión
ROOT: ¿La evidencia de su revisión proviene de poblaciones similares a su objetivo?
YES → Good. But check: Are subgroups (age, sex, ethnicity, SES) reported separately?
- Yes: Use subgroup effects for population-specific recommendations
- No: Flag as limitation — equity gap in reporting
NO → Does PROGRESS-Plus analysis reveal differential effects?
- Yes: Population-specific recommendations needed. Consider transportability re-weighting.
- No: Cautious generalization with explicit equity statement in discussion
Callback: The HRT Lesson Revisited
¿Recuerda el Módulo 3? La historia de la TRH demostró que healthy-user bias hacía que un tratamiento perjudicial pareciera beneficioso. SPRINT puede tener el problema opuesto: el efecto de “voluntario sano” puede hacer que parezca un tratamiento eficaz more effective than it would be in the real world.
Cada metanálisis debería preguntarse: ¿Quién estuvo incluido? ¿Quién fue excluido? ¿Y eso importa?
Module 18 Quiz
Q1. What does the PROGRESS-Plus framework help reviewers assess?
Module 18 Complete
"La evidencia que excluye a los vulnerables no puede pretender servirles".
No todas las señales son verdad.
Módulo 19: El Máquina
El número sin procedencia no es un número.
Módulo 19: El Máquina
Módulo 19: El Máquina
🎯 Learning Objectives
- Describe how AI/ML is used in systematic review screening
- Explain active learning and human-in-the-loop workflows
- Assess automation validation: recall, workload savings, and risk
- Reconocer las limitaciones y sesgos del cribado algorítmico
- Aplicar marcos para el uso responsable de la IA en la evidencia síntesis
When COVID-19 hit,
papers arrived faster than humans could read.
Para 2021, existían más de 300.000 artículos COVID. Cochrane utilizó clasificadores de aprendizaje automático para clasificar los estudios para sus revisiones rápidas, lo que redujo la carga de trabajo de detección hasta en un 70 % y mantuvo >95 % de recuperación.
The Flood
By April 2020, 4,000 COVID preprints appeared every week.
PubMed indexed 500 new COVID articles per day.
Cochrane's screening queue hit 10,000 unreviewed titles.
A pair of reviewers screens ~200 titles per day.
At 500 new articles/day, they fell further behind with every hour.
La revisión viva estaba muriendo antes de poder vivir.
La primera Intentos
La idea no era nueva. Cohen y cols. (2006, JAMIA) demostraron por primera vez que el aprendizaje automático podía reducir la carga de trabajo de detección en un 50 %, con menos del 5 % de pérdida en la recuperación.
Pero la simulación no es la realidad. COVID sería la primera prueba real a escala.
AI in Systematic Reviews
Screening Prioritization
Active learning ranks citations by relevance. Reviewers screen the most likely relevant first.
Asistencia de extracción de datos
La PNL extrae elementos, resultados y resultados de PICO. Siempre requiere verificación humana.
Risk of Bias Assessment
ML classifiers predict RoB domains. Experimental—human judgment remains gold standard.
Validating Automation
La tensión fundamental: La automatización ahorra tiempo pero introduce una nueva fuente de error. Informe siempre la herramienta, la versión, los datos de entrenamiento y los criterios de parada.
Para saber si la máquina omitió un estudio relevante, you need a human to screen everything.
But if humans screen everything, ¿Por qué usar el ¿máquina?
The solution: prospective holdout validation.
- Random 10% sample screened by both human and machine
- Comparar: ¿la máquina se perdió lo que encontró el humano?
- If recall drops below 95%, retrain and expand human screening
Confía, pero verifica. La máquina se gana su función, no la hereda.
Cochrane's COVID Response
Cochrane creó el Registro de estudios de COVID-19 utilizando clasificadores de aprendizaje automático entrenados en millones de registros. El sistema logró una sensibilidad del 99 % y redujo la detección manual de semanas a días.
Pero la máquina era una herramienta, no un reemplazo. Todos los estudios incluidos fueron verificados por revisores humanos. La lección: la IA aumenta al revisor, no lo reemplaza.
El estudio que casi no se encuentra
En junio de 2020, el ensayo RECOVERY publicó sus resultados de dexametasona.the first treatment proven to reduce COVID mortality (28-day mortality: 22.9% vs 25.7%, RR 0.83).
La preimpresión apareció en medRxiv con un título no estándar. Escenarios como este ocurrieron repetidamente durante la pandemia: los clasificadores de ML, capacitados en la terminología existente, clasificaron los marcos desconocidos en un nivel bajo.
En varias revisiones de seres vivos, los revisores humanos que escanearon los títulos marcados reconocieron nombres de medicamentos clave y escalaron estudios que los clasificadores habían despriorizado.
Sin esos humanos, los hallazgos de tratamientos históricos podrían haber esperado semanas para llegar a los vivos. revisión.
La máquina lee más rápido. El humano lee más profundamente. Ninguno de los dos es suficiente por sí solo.
Decision Tree: When Should You Use AI?
Active learning prioritization. Dual-screen random 10% holdout. Stop when 3 consecutive batches yield 0 relevant studies.
Report: classifier type, training data, recall on holdout, stopping rule.
For <5,000 titles, dual human screening remains gold standard. AI adds complexity without proportionate benefit.
If yes → AI is especially valuable. Continuous classifier retraining on new evidence. But: nunca deje que la máquina tome la decisión final de inclusión.
El patrón se repite
¿Recuerda el Módulo 6? Poldermans fabricó datos DECREASE que guiaron las pautas perioperatorias sobre betabloqueantes durante una década.
AI can now detect statistical anomalies automatically:
- GRIM test: ¿Las medias reportadas son consistentes con tamaños de muestra enteros?
- SPRITE: ¿Se pueden reconstruir las estadísticas resumidas reportadas a partir de datos individuales plausibles?
- Statcheck: Do reported p-values match the test statistics?
Estas herramientas encontraron anomalías en hundreds of published papers—faster than any human auditor.
Pero la máquina falla. Los jueces humanos. La decisión de retractarse sigue siendo profundamente humana.
Module 19 Quiz
Q1. ¿Cuál es el retiro mínimo aceptable para la detección asistida por IA en revisiones sistemáticas?
Module 19 Complete
"La máquina lee más rápido. El ser humano lee más profundamente. Juntos, leen la verdad".
No todas las señales son verdad.
Módulo 20: El Cualitativo
Los métodos protegen a los pacientes de nuestra confianza.
Módulo 20: El Cualitativo
Módulo 20: El Cualitativo
🎯 Learning Objectives
- Explain why some questions require qualitative evidence synthesis
- Describe meta-ethnography (Noblit & Hare) and thematic synthesis
- Apply the CERQual framework to assess confidence in qualitative findings
- Understand mixed-methods synthesis approaches
- Recognize when qualitative evidence changes practice
La OMS hizo una pregunta
ningún ECA pudo respuesta.
¿Por qué las mujeres en todo el mundo sufren falta de respeto y abuso durante el parto? Bohren et al. (2015) sintetizaron 65 estudios cualitativos de 34 países en un marco de siete dominios de maltrato.
Una pregunta más allá de la aleatorización
En 2014, la OMS convocó a un panel para abordar una crisis global: las mujeres estaban siendo físicamente abusadas, humilladas verbalmente y negadas atención durante el parto. Este no fue un evento raro: los informes vinieron de 34 countries.
They needed to understand WHY. What drives disrespect and abuse in maternity care?
Ningún ECA pudo responder esto. No se puede asignar aleatoriamente a las mujeres a una atención abusiva o respetuosa. No se puede cegar a las parteras. No se puede medir la “dignidad” en una escala Likert. La evidencia tenía que ser cualitativa.
Meta-Ethnography
Developed by Noblit & Hare (1988), meta-ethnography translates conceptos entre estudios en lugar de agregar números. Produce nuevos marcos interpretativos (construcciones de tercer orden) a partir de datos de primer orden (citas de los participantes) y de segundo orden (interpretaciones del autor).
argument
What Bohren Found: A Taxonomy of Mistreatment
Hitting, pinching, slapping during labor
Inappropriate touching, non-consensual procedures
Shouting, threats, judgmental comments
Based on HIV status, ethnicity, age, poverty
Neglect, lack of informed consent
Poor communication, dismissiveness
Overcrowding, understaffing, lack of supplies
65 estudios. 34 países. Los mismos patrones se repitieron en todos los idiomas, culturas y sistemas. Esto no fue una anécdota. Esta fue evidencia sintetizada.
CERQual: Confianza en la evidencia cualitativa
CERQual assesses confidence in qualitative review findings across four components:
Methodological Limitations
Calidad de los estudios que contribuyen.
Coherence
Qué tan bien los datos respaldan el hallazgo.
Adequacy
Riqueza de los datos (no solo el número de estudios).
Relevance
Aplicabilidad al contexto de la pregunta de revisión.
When Qualitative Evidence Changes Practice
Bohren's synthesis informed the WHO's 2018 Recommendations on Intrapartum Care for a Positive Childbirth Experience. Specific changes grounded in qualitative evidence:
Estas recomendaciones, basadas en evidencia cualitativa, ahora guían la atención de maternidad en 194 estados miembros de la OMS. Ninguna parcela forestal podría haberlos producido. Ninguna estadística I² podría haberlos revelado.
Bohren's Framework of Mistreatment
La síntesis cualitativa de 2015 identificó siete dominios: abuso físico, abuso sexual, abuso verbal, estigma y discriminación, incumplimiento de los estándares profesionales, mala relación y condiciones del sistema de salud. Este marco informó las Recomendaciones de la OMS sobre atención durante el parto (2018).
Ningún valor p podría capturar la experiencia de recibir una bofetada durante el parto. La síntesis cualitativa dio voz a lo que los números no pudieron.
Decision Tree: When Is Qualitative Synthesis Appropriate?
ROOT: ¿Su pregunta de investigación es sobre experiencias, percepciones, barreras o facilitadores?
YES → ¿Su pregunta es sobre el CÓMO o el PORQUÉ, no solo sobre el SI?
- Yes: Qualitative evidence synthesis (meta-ethnography, thematic synthesis, or framework synthesis)
- No: Considere métodos mixtos: cuantitativo para el efecto + cualitativo para mecanismo
NO →¿Su pregunta es sobre efectividad/eficacia?
- Yes: Quantitative meta-analysis
- But: Complemente con una revisión cualitativa de las barreras de implementación (evaluadas por CERQual)
Key insight: Las revisiones sistemáticas más sólidas responden AMBAS: ¿Funciona? (cuantitativo) Y ¿Por qué funciona o falla? (cualitativo)
Module 20 Quiz
Q1. What distinguishes meta-ethnography from quantitative meta-analysis?
Module 20 Complete
"No todo lo que cuenta se puede contar. No todo lo que cuenta cuenta."
La heterogeneidad es un mensaje, no ruido.
Módulo 21: El Multivariado
La heterogeneidad es un mensaje, no ruido.
Módulo 21: El Multivariado
Módulo 21: El Multivariado
🎯 Learning Objectives
- Reconocer cuándo los resultados dentro de un estudio están correlacionados
- Explain multivariate random-effects models
- Apply robust variance estimation (RVE) for dependent effect sizes
- Comprender modelos de tres niveles para anidados datos
- Choose between multivariate approaches based on data structure
Cardiovascular trials report
mortalidad, infarto de miocardio, accidente cerebrovascular y más.
Estos resultados están correlacionados dentro de los pacientes. Un paciente que muere no puede tener un criterio de valoración de IM. El metanálisis estándar trata cada resultado de forma independiente, ignorando la dependencia y la posible doble contabilización de la evidencia.
La suposición que nadie cuestiona
Abra cualquier libro de texto de metanálisis estándar. Los modelos suponen que cada estudio contribuye one independent effect size. But reality is different.
Un único ensayo cardiovascular informa mortalidad, infarto de miocardio, accidente cerebrovascular y revascularización. Un solo estudio de psicoterapia informa depresión, ansiedad y calidad de vida a los 3, 6 y 12 meses.
Most analysts either: (a) treat all 120 as independent (inflating precision by a factor of √4), or (b) elija un resultado y descarte el resto. Ambos enfoques son incorrectos.
El problema de la dependencia
In standard pairwise meta-analysis, each study contributes one effect size. But many studies report multiple outcomes, subgroups, timepoints, or arms—creating dependent tamaños del efecto. Ignorar esto infla la precisión y distorsiona la inferencia.
Robust Variance Estimation
RVE (Hedges, Tipton & Johnson, 2010) uses a sandwich-type estimador que proporciona errores estándar válidos independientemente de la verdadera correlación entre los efectos dependientes. No es necesario conocer ni estimar la correlación dentro del estudio. Lo mejor para ≥20 estudios.
Small-sample correction: Tipton y Pustejovsky (2015) desarrollaron correcciones de muestras pequeñas (CR2) para RVE, utilizando grados de libertad de Satterthwaite cuando el número de conglomerados es pequeño.
What Dependence Does to Your Confidence Intervals
Si 4 resultados de el mismo estudio tiene una correlación dentro del estudio ρ = 0,5:
Treating as independent
CI width = X
Contabilización de la dependencia
CI width = 1.58X
Su intervalo de confianza debe ser 58% wider. Cada metanálisis que ignoró esto publicó resultados falsamente precisos.
RVE (Hedges, Tipton & Johnson, 2010): Uses a “sandwich” variance estimator that produces correct standard errors without needing to know the exact within-study correlation.
Three-Level Models: Making Structure Explicit
Level 1: Sampling Variance
Measurement error within each effect size estimate.
Level 2: Within-Study Variance
Los resultados y los momentos varían dentro de un solo estudio.
Level 3: Between-Study Variance
Los estudios difieren entre sí en poblaciones, entornos y métodos.
Example: En un metanálisis de psicoterapia para la depresión (k=50 estudios, 180 efectos) tamaños), 35% de la varianza fue dentro del estudio (diferentes resultados) y 65% fue entre estudios (diferentes terapias, poblaciones). Esta descomposición revela cuánta heterogeneidad hay within vs between studies.
Three-Level Models: Formal Framework
Cuando los efectos están anidados (por ejemplo, resultados múltiples dentro de estudios o estudios dentro de grupos de investigación), una three-level model divide la varianza en: (1) varianza muestral (nivel 1), (2) varianza dentro del estudio (nivel 2) y (3) varianza entre estudios (nivel 3). Esto mantiene la inferencia correcta al tiempo que toma prestada fuerza en todos los niveles.
El desafío cardiovascular
Un metanálisis de estatinas podría incluir 30 ensayos, cada uno de los cuales informaría sobre mortalidad, infarto de miocardio, accidente cerebrovascular y revascularización. Es decir, 120 tamaños de efectos de 30 grupos. Tratarlos como 120 estimaciones independientes infla la precisión por un factor relacionado con la correlación dentro del estudio.
RVE or multivariate models handle this correctly—producing wider, honest confidence intervals.
Decision Tree: Which Approach for Dependent Effect Sizes?
ROOT: ¿Su metanálisis tiene múltiples efectos por estudio?
YES → ¿Conoce (o puede estimar) las correlaciones dentro del estudio?
- Yes: Multivariate random-effects model (most efficient)
- No: RVE with small-sample correction (robust to unknown correlations)
NO → Standard univariate random-effects model
Sub-question: ¿Sus múltiples efectos provienen de diferentes resultados? ¿puntos de tiempo o subgrupos?
- Different outcomes → Three-level model or RVE with clustering
- Different timepoints → Network of timepoints with temporal correlation
- Different subgroups → Consider if subgroups are meaningful or should be averaged
Module 21 Quiz
Q1. What problem does Robust Variance Estimation (RVE) solve?
Module 21 Complete
"Cuando los resultados están entrelazados, pretender que son independientes es una mentira de conveniencia".
El número sin procedencia no es un número.
Módulo 22: El Prueba
El número sin procedencia no es un número.
Módulo 22: El Prueba
Módulo 22: El Prueba
🎯 Learning Objectives
- Understand how computational errors propagate through policy
- Definir reproducibilidad y distinguir de replicabilidad
- Aplicar hash de evidencia y transporte de pruebas números
- Use reproducibility checklists for meta-analysis
- Reconoce el papel del prerregistro y los datos abiertos
A graduate student opened a spreadsheet
y descubrió que la era de la austeridad se construyó sobre un error.
En 2010, Reinhart y Rogoff afirmaron que los países con una relación deuda-PIB >90% tenían un crecimiento negativo. Esto influyó en las políticas de austeridad en toda Europa. En 2013, Thomas Herndon encontró un error de Excel que excluía a 5 países del promedio. El resultado corregido: crecimiento positivo modesto, no colapso.
Reproducibility vs Replicability
Reproducibility is the minimum standard. Si otros no pueden reproducir su estimación agrupada a partir de los datos informados, el análisis no podrá verificarse. Los metanálisis deben compartir: datos extraídos, scripts de análisis, versiones de software y semillas aleatorias.
Proof-Carrying Numbers
Every number in a meta-analysis should carry its provenance: de dónde vino, cómo se transformó y qué código lo produjo. Evidence hashing creates a cryptographic fingerprint of inputs so any change (accidental or deliberate) is detectable.
Input Hash
Hash SHA-256 de datos extraídos. Si una celda cambia, el hash cambia. Cadena de procedencia: datos → código → resultado → hash.
Interactive: Reproducibility Checklist
Marque cada elemento para evaluar la reproducibilidad de un metanálisis. ¿Cómo califica su revisión?
El error de Excel que cambió las economías
El "Crecimiento en tiempos de deuda" de Reinhart-Rogoff fue citado en testimonios ante el Congreso, informes de la Comisión Europea y resúmenes de políticas del FMI. El error de Excel (las filas 30 a 34 se excluyeron de una fórmula PROMEDIO) significó que cinco países (Australia, Austria, Bélgica, Canadá y Dinamarca) simplemente faltaban.
El promedio corregido pasó de −0,1% a +2,2%. Las políticas de austeridad afectaron a millones. La reproducibilidad no es perfeccionismo académico: es una salvaguardia contra la catástrofe.
Remember Module 5?
DECREASE Through the Lens of Reproducibility
Los ensayos DECREASE de Don Poldermans fueron retractados por datos fabricados. Si hubieran existido números que portaban pruebas (entradas codificadas, cadenas de procedencia, cálculos verificados), la fabricación habría sido detectable before la evidencia ingresó a los metanálisis y cambió las pautas quirúrgicas.
Module 22 Quiz
Q1. ¿Cuál fue el error de Reinhart-Rogoff?
Module 22 Complete
"El número sin procedencia no es un número. El análisis sin reproducibilidad no es evidencia."
Certainty must be earned, not assumed.
Módulo 23: Su primer Meta-Sprint
Certainty must be earned, not assumed.
Módulo 23: Su primer Meta-Sprint
Módulo 23: Su primer Meta-Sprint
🎯 Learning Objectives
- Comprenda el flujo de trabajo de revisión sistemática de 40 días
- Map the Seven Principles to real practice phases
- Recognize Definition-of-Done (DoD) gates as quality checkpoints
- Appreciate why structure prevents the failures you've studied
- Graduate ready to conduct (not just understand) meta-analysis
Has aprendido las historias.
Ahora debes recorrer el camino.
Cada reversión de evidencia que estudiaste ocurrió porque los equipos knew los métodos pero no lo hizo follow them systematically.
El marco META-SPRINT
Un flujo de trabajo estructurado de 40 días con 5 puertas de fase. Cada puerta es un punto de control de Definición de Hecho (DoD) que le impide avanzar hasta que se garantice la calidad.
Why 40 days? Suficientemente largo para el rigor, lo suficientemente corto para evitar cambios en el alcance. Las señales cardíacas de rosiglitazona estuvieron enterradas durante años porque no había una fecha límite que obligara a la transparencia.
Las cinco puertas de fase
DoD-A: Protocol Lock (Days 1-3)
PICOS defined, timepoint rules set, model choices pre-specified. No moving target.
DoD-B: Search Lock (Days 6-10)
All databases searched, grey literature checked, PRESS validated. No hidden studies.
DoD-C: Extraction Lock (Days 10-28)
Dual extraction, provenance linked, RoB assessed. No fabricated numbers.
The Five Phase Gates (continued)
DoD-D: Bloqueo de análisis (días 21-33)
Forest plots generated, sensitivity analyses run, heterogeneity explored. No cherry-picking.
DoD-E: Submission Lock (Days 33-40)
GRADE certainty rated, clinical summary written, manuscript finalized. No overconfidence.
Day 34 Freeze: No se pueden agregar nuevos estudios después del día 34. Esto evita el "desplazamiento del alcance armado" que plagaba los metanálisis de cirugía de columna BMP, donde la industria seguía "encontrando" estudios favorables.
Los siete principios en la práctica
Every principle you learned maps to a specific phase gate:
El principio del equipo rojo
Tu propio equipo intenta interrumpe tu trabajo.
Todos los días, dos miembros rotativos del equipo dedican 12 minutos a verificar la calidad de los datos como adversarios. Así es como se detectó el fraude de Boldt: no mediante una revisión amigable, sino mediante una verificación escéptica que detectó tasas de reclutamiento imposibles.
CondGO: When Things Go Wrong
What happens when you discover a critical problem mid-sprint?
CondGO = Conditional Go
A bounded rescue protocol. You have exactly 72 hours para solucionar el problema usando solo acciones permitidas. Si no puede solucionarlo, debe detener la revisión.
📖 La lección de Avandia: GSK vio señales cardiovasculares en 2000, pero no tenía una fecha límite forzada. Ellos "observaron y esperaron" durante 7 años. Decenas de miles resultaron perjudicados. CondGO existe porque "eventualmente nos ocuparemos de ello" mata a la gente.
Comenzaste este curso con historias.
Lo terminas listo para practicar.
El flujo de trabajo META-SPRINT toma todo lo que has aprendido y lo estructura en un sistema de 40 días que previene las fallas que has estudiado.
Cuando esté listo para realizar una revisión sistemática real, abra la aplicación META-SPRINT. Las historias que ha aprendido aquí lo guiarán y aparecerán como recordatorios en cada paso.
What does it look like when every principle is followed?
REAL DATA
La colaboración de los investigadores del tratamiento del colesterol (CTT) es el estándar de oro del metanálisis. Obtuvieron datos de pacientes individuales de más de 170.000 participantes across 26 statin trials. Pre-specified protocol. IPD from all major trials. Standardized outcomes. Result: statins reduce major vascular events by 21% per mmol/L LDL reduction (RR 0.79, 95% CI 0.77-0.81), regardless of baseline risk. This finding, replicated across 5 metanálisis durante 15 años, has prevented an estimated millions of heart attacks and strokes worldwide.
Capstone Quiz
1. ¿Cuál es el propósito del "congelamiento total" del día 34 en META-SPRINT?
2. The CondGO protocol gives teams how long to fix critical problems?
3. Red-team adversarial QA caught Joachim Boldt's fraud by noticing:
Las historias que has aprendido no son historia.
Son advertencias que protegen su trabajo futuro.
Cuando realice su primer metanálisis,
remember CAST before you trust a signal,
remember Poldermans before you skip provenance,
recuerde Reboxetine antes de ignorar el embudo.
Ahora está listo. Vaya con la estructura. Vaya con humildad. Vaya con los siete principios.
No todas las señales son verdad.
Módulo 24: Examen final
Certainty must be earned, not assumed.
Final Examination
Final Exam: Part 1 of 2
Pon a prueba su dominio de los principios del metanálisis. Cada pregunta aborda un concepto central del curso.
Q1. Un investigador quiere estudiar "los efectos del ejercicio en la salud". ¿Cuál es el problema PRIMARIO con esta pregunta de investigación?
Q2. Un gráfico en embudo muestra una asimetría pronunciada con estudios faltantes en la región inferior izquierda. ¿Qué sugiere esto?
Q3. Un metanálisis informa I² = 85 % y τ² = 0,42. ¿Cuál es la interpretación MÁS apropiada?
Q4. En GRADE, ¿cuál es la certeza inicial para un conjunto de evidencia de ensayos controlados aleatorios?
Q5. In RoB 2.0, which domain assesses whether outcome assessors knew the treatment allocation?
Final Exam: Part 2 of 2
Q6. El ensayo CAST demostró que los fármacos antiarrítmicos aumentaron la mortalidad a pesar de suprimir las arritmias. Este es un ejemplo de:
Q7. When should a random-effects model be preferred over a fixed-effect model?
Q8. According to ICEMAN criteria, which makes a subgroup analysis MORE credible?
Q9. What assumption must be checked in network meta-analysis to ensure valid indirect comparisons?
Q10. En el análisis secuencial de ensayos (TSA), ¿qué indica cruzar el límite de inutilidad?
Part 1 Complete — continue to Part 2 (Advanced Modules)
Final Exam: Part 2 of 2 (Advanced)
Questions 11–25 cover Modules 13–22 (Bayesian, NMA, IPD, Dose-Response, Fragility, Equity, AI, Qualitative, Multivariate, Reproducibility).
Q11. En el metanálisis bayesiano, ¿qué sucede cuando se utiliza un previo vago en muchos estudios?
Q12. En el antidepresivo NMA de Cipriani, ¿por qué ningún medicamento fue declarado "ganador"?
Q13. ¿Por qué nunca se deben agrupar los IPD como si fueran de un mega-ensayo?
Q14. What caused the alcohol "J-curve" to disappear in Stockwell's reanalysis?
Q15. En la saga del oseltamivir, ¿qué descubrió Cochrane al acceder a informes de estudios clínicos no publicados?
Q16. ¿Qué porcentaje de pacientes hipertensos de EE. UU. NO habrían calificado para el ensayo SPRINT?
Q17. Why is AI considered an "augmenter" rather than a "replacer" in systematic reviews?
Q18. What does the "adequacy" component of CERQual assess?
Q19. A meta-analysis includes 30 statin trials, each reporting 4 correlated outcomes (120 effect sizes). Which approach is correct?
Q20. En el error de Reinhart-Rogoff, ¿cuál fue la tasa de crecimiento promedio corregida para personas con deuda alta? ¿Países?
Passing Score: 15/20 across both parts
Revise las preguntas perdidas regresando al módulo correspondiente. Cada pregunta pone a prueba un concepto central.
No todas las señales son verdad.
Los métodos protegen a los pacientes de nuestra confianza.
Congratulations
Has completado Evidence Reversal: Un curso de metaanálisis.
Que tu síntesis sea guiada por la verdad, tu combinación por la sabiduría,
y tus conclusiones por la humildad.
Los siete Principios:
"No todas las señales son verdad."
"Los métodos protegen a los pacientes de nuestra confianza."
"What was hidden in plain sight?"
"El número sin procedencia no es un número."
"La heterogeneidad es un mensaje, no ruido."
"La ausencia de evidencia no es evidencia de ausencia."
"Certainty must be earned, not assumed."
"Guíanos al camino recto..."