Nem todo sinal é verdade.
Módulo 0: O Abertura
🎯 Learning Objectives
- Definir meta-análise e explicar seu papel na síntese de evidências
- Identificar quando os estudos NÃO devem ser agrupados
- Descrever a hierarquia de evidências e onde as revisões sistemáticas sit
- Recognize that meta-analysis can mislead when done poorly
- Lembre-se dos Sete Princípios que ancoram este curso
Este curso existe porque
a medicina estava errada.
Nem uma vez. Não raramente. Repetidamente. De uma forma que matou pacientes que confiavam que as evidências eram sólidas.
What is Meta-Analysis?
Um método estatístico para combinar resultados de vários estudos independentes que abordam a mesma questão.
*When well conducted. Quality of conduct matters more than study design alone — as GRADE recognizes.
Por que agrupar estudos?
Increase Statistical Power
Individual studies may be too small to detect effects.
Improve Precision
Narrower confidence intervals around effect estimates.
Resolve Disagreement
Quando os estudos entram em conflito, o agrupamento pode esclarecer o sinal.
Explore Heterogeneity
Identify why effects differ across populations or settings.
But meta-analysis can also
MISLEAD
When done poorly, it amplifies bias rather than truth.
Quando NÃO agrupar
Os estudos medem coisas fundamentalmente diferentes (maçãs e laranjas)
Extreme heterogeneity that cannot be explained
One study dominates all others (megastudy problem)
Os estudos apresentam alto risco de viés que não pode ser ajustado para
O agrupamento é um privilégio, não um direito.
The decision to combine must be defended.
A hierarquia de evidências
Systematic Reviews & Meta-Analyses of RCTs
Randomized Controlled Trials
Cohort Studies
Case-Control Studies
Case Series / Expert Opinion
A posição na hierarquia depende da qualidade da metodologia, não do tipo de estudo sozinho.
Este curso ensina através de
evidence reversals.
Cada módulo abre com uma história de como a medicina errou. Então aprendemos o método que teria evitado o dano.
The Seven Princípios
Essas frases retornarão ao longo de sua jornada:
1. "Nem todo sinal é verdade."
2. "Os métodos protegem os pacientes de nossa confiança."
3. "What was hidden in plain sight?"
4. "O número sem procedência não é um número."
5. "Heterogeneidade é uma mensagem, não ruído."
6. "Ausência de evidência não é evidência de ausência."
7. "Certainty must be earned, not assumed."
Module 0 Quiz
1. Por que às vezes você NÃO deve agrupar estudos em uma meta-análise?
2. Onde estão as revisões sistemáticas de ECRs na hierarquia de evidências?
Comece a jornada.
Módulo 1: A questão
Nem todo sinal é verdade.
Esta não é uma história sobre erro.
É uma história sobre certeza.
Módulo 1: A questão
🎯 Learning Objectives
- Formule uma pergunta PICO focada para uma revisão sistemática
- Distinguish surrogate outcomes from patient-important outcomes
- Explain why biological plausibility alone is insufficient evidence
- Descreva o ensaio CAST e suas implicações para a análise baseada em evidências. medicina
- Aplique o princípio: "Nem todo sinal brilhante é orientação"
~9,000
excess deaths per year
From a treatment everyone believed worked.
Esta é a história de como acreditamos - e como estávamos errados.
The Observation
Patients with frequent PVCs after MI had 2-5x higher mortality.
A massive clinical need. A clear target.
The Response
Antiarrhythmic drugs were developed, FDA approved,
and prescribed to ~200,000 patients per year.
Nenhum vilão aparece neste história.
Todos agiram com base nas melhores evidências disponíveis.
A lógica que convenceu a todos
PVCs after MI predict sudden cardiac death
Antiarrhythmic drugs suppress PVCs
Suppressing PVCs should prevent sudden death
Antiarrhythmics save lives in post-MI patients
A cadeia era lógica. A conclusão parecia inevitável.
CAST: The Cardiac Arrhythmia Suppression Trial
Finally, someone asked: "Does suppressing PVCs actually save lives?"
Os resultados: abril de 1989
O Conselho de Monitoramento de Segurança de Dados interrompe o ensaio mais cedo.
| Outcome | Drug (n=755) | Placebo (n=743) |
|---|---|---|
| Arrhythmic deaths | 33 | 9 |
| All cardiac deaths | 43 | 16 |
| Total deaths | 56 | 22 |
| Death rate | 7.4% | 3.0% |
Os medicamentos que suprimiam perfeitamente as arritmias aumentaram a mortalidade em 150%.
O Humano Custo
Before CAST, ~200,000 Americans per year received these drugs.
~9,000
excess deaths per year - possibly more
Vietnam War: ~6,000 US deaths/year • These drugs: ~9,000+ deaths/year
For every number, a name we will never know.
Look again.
A Lógica - Revisitada
PVCs after MI predict sudden cardiac death
Antiarrhythmic drugs suppress PVCs
Suppressing PVCs should prevent sudden death
Antiarrhythmics save lives in post-MI patients
A suposição de que a supressão do marcador corrigiria o resultado nunca foi testada.
What Went Wrong: The Surrogate Trap
Os CVPs eram um marcador de tecido danificado, não uma causa de morte
The drugs had proarrhythmic effects - triggering deadlier rhythms
O substituto melhorou enquanto o resultado piorou - um substituto dissociado
O substituto não mentiu. Fizemos a pergunta errada.
A Estrutura PICO
Every answerable clinical question has four components:
Exercício de investigação: as evidências antes do CAST
Você é cardiologista em 1988. Um paciente sobreviveu a um infarto do miocárdio, mas tem CVPs frequentes. A literatura observacional é clara...
| Study | Pacientes com CVPs | Mortality Risk |
|---|---|---|
| Lown (1977) | High-grade PVCs | 2.4x higher |
| Bigger (1984) | >10 PVCs/hour | 3.1x higher |
| Mukharji (1984) | Complex PVCs | 4.8x higher |
O sinal é claro. O mecanismo é plausível. Você prescreveria antiarrítmicos?
Before: Observational Logic
PVCs → Higher mortality
Drugs suppress PVCs
∴ Drugs should reduce mortality
After: CAST RCT (1989)
Death rate on drug: 7.4%
Death rate on placebo: 3.0%
RR = 2.5 (150% increase in deaths)
O substituto melhorou. Os pacientes morreram. É por isso que perguntamos: "Qual é o resultado que importa?"
As lições para a síntese de evidências
Plausibilidade biológica não é prova
A logical mechanism doesn't guarantee the expected effect.
Surrogate endpoints can mislead
Improving a biomarker doesn't prove improvement in outcomes.
Ensaios randomizados fornecem a evidência causal mais forte
Os dados observacionais por si só raramente estabelecem causalidade para intervenções devido a confusão.
Consenso não é evidência
200.000 prescrições, aprovação da FDA e diretrizes estavam todas erradas.<
This is why we do meta-analysis: to see past apparent truths.
E se a pergunta você perguntar determina quem vive e quem morre?
REAL DATA
Em 1989, os cardiologistas sabiam que a supressão de PVC era alcançável com encainida e flecainida. O desfecho substituto parecia perfeito: os medicamentos suprimiram os PVCs por 80%+. But CAST randomized 1,498 patients do medicamento ativo versus placebo. O estudo foi interrompido precocemente: 56 deaths in the drug group vs 22 in placebo. Mortality increased 2.5-fold. An estimated ~9,000 excess American deaths per year foram atribuíveis a esses medicamentos.
What appears certain may be wrong.
What everyone believes may be false.
Existem métodos para que os pacientes não paguem pela nossa confiança.
É por isso que você está aqui.
Module 1 Quiz
1. Qual foi o erro fundamental na lógica antiarrítmica?
2. No PICO, o que significa o "O" e por que isso importa?
Nem todo sinal é verdade.
Os métodos protegem os pacientes de nossa confiança.
What was hidden in plain sight?
Esta é uma história sobre
observational evidence.
Módulo 2: O Protocolo
🎯 Learning Objectives
- Explain why protocol pre-registration prevents bias
- Identify key elements of a PROSPERO registration
- Distinguish healthy user bias from true treatment effects
- Describe why observational studies overestimated HRT benefits
- Aplicar o princípio: "Os métodos protegem os pacientes de nossa confiança"
30+
observational studies
All showing hormone replacement therapy protected postmenopausal women from heart disease.
As evidências pareciam esmagadoras. A conclusão parecia certa.
O Estudo de Saúde das Enfermeiras
122,000 nurses followed for decades. HRT users had 40-50% lower cardiovascular mortality.
Landmark study. Impeccable methodology. Wrong conclusion.
O preconceito oculto
Healthy User Bias: Women who chose HRT were healthier, wealthier, better educated
Compliance Bias: Women who took HRT consistently also took better care of themselves
Prescriber Bias: Doctors gave HRT to healthier women with fewer risk factors
O tratamento não os estava protegendo. Eles já estavam protegidos.
WHI: The Women's Health Initiative
The largest randomized trial of HRT ever conducted.
Os resultados: julho de 2002
Trial stopped early after 5.2 years. Harm exceeded benefits.
| Outcome | Hazard Ratio | Direction |
|---|---|---|
| Coronary heart disease | 1.29 | HARM |
| Stroke | 1.41 | HARM |
| Breast cancer | 1.26 | HARM |
| Pulmonary embolism | 2.13 | HARM |
The Lesson
PRE-SPECIFY
A protocol written before the search begins prevents fishing, prevents bias, prevents hindsight distortion.
E se o tratamento funcionar - mas apenas para algum?
REAL DATA
WHI showed HRT increased cardiovascular events overall. But later analyses revealed a critical pattern: women who started HRT within 10 years of menopause had REDUCED cardiovascular risk. Women starting 20+ years after menopause had INCREASED risk. The overall null/harm result hid a timing effect.
PROSPERO Registration
Registre-se antes de pesquisar
PROSPERO: International prospective register of systematic reviews
Bloqueie suas decisões
PICO, search strategy, outcomes, analysis plan - all pre-specified
Document Amendments
As alterações são permitidas, mas devem ser transparentes e justificadas
Prevent Duplication
Verifique se sua avaliação já existe antes começando
Module 2 Quiz
1. Por que o Nurses' Health Study mostrou benefícios da TRH que o WHI não mostrou?
2. What is the primary purpose of PROSPERO registration?
A pré-especificação não é burocracia.
It is protection.
Against our own tendency to find what we expect.
Os métodos protegem os pacientes de nossa confiança.
What was hidden in plain sight?
Módulo 3: A Pesquisa
What was hidden in plain sight?
Esta é uma história sobre
what they didn't publish.
Módulo 3: A Pesquisa
🎯 Learning Objectives
- Develop a comprehensive search strategy using PRESS guidelines
- Search multiple databases including grey literature sources
- Identify trial registries and regulatory databases (ClinicalTrials.gov, FDA)
- Explain how the rosiglitazone case exposed hidden cardiovascular harms
- Aplicar o princípio: "O que estava escondido à vista de todos?"
$3.2B
annual sales at peak
Avandia (rosiglitazona) foi um dos os medicamentos para diabetes mais vendidos no mundo.
Os ensaios publicados pareciam tranquilizadores. Os não publicados contaram uma história diferente.
As evidências publicadas (pré-2007)
Published trials showed rosiglitazone effectively lowered HbA1c. Cardiovascular outcomes were rarely reported.
O substituto parecia bom. Mas e quanto aos eventos cardiovasculares reais?
Nissen's Discovery: May 2007
Dr. Steven Nissen obteve dados de ensaios não publicados no próprio website da GSK.
A GSK foi obrigada por acordo legal a publicar os resultados dos ensaios clínicos online. Nissen e Wolski analisaram 42 ensaios - muitos deles nunca publicados em periódicos.
Os dados eram tecnicamente públicos.
No one had systematically searched for it.
Os resultados da meta-análise
| Outcome | Odds Ratio | 95% CI |
|---|---|---|
| Myocardial Infarction | 1.43 | 1.03 - 1.98 |
| CV Death | 1.64 | 0.98 - 2.74 |
Published in NEJM. The FDA called an emergency advisory committee meeting.
The FDA Advisory Committee: July 2007
O comitê ficou dividido. Alguns queriam que fosse retirado. Some called the meta-analysis flawed.
Mas o sinal não poderia passar despercebido.
The Aftermath
Black box warning added for heart failure risk (2007)
Severe restrictions on prescribing in the US (2010)
Withdrawn do mercado europeu inteiramente (2010)
FDA now requires cardiovascular outcome trials for all diabetes drugs
What a Comprehensive Search Requires
Lista de Verificação da IMPRENSA
Peer Review of Electronic Search Strategies
Tradução da Pergunta de Pesquisa
A pesquisa reflete o PICO elementos?
Operadores Booleanos e de Proximidade
E, OU, NÃO são usados corretamente?
Subject Headings
Os termos MeSH/Emtree são apropriados e explodidos?
Text Words
Synonyms, spelling variants, truncation?
PRESS Checklist (continued)
Spelling, Syntax, Line Numbers
Existem erros que causariam recuperação falhas?
Limites e Filtros
Os limites de data, idioma e desenho do estudo são apropriados?
Peer-reviewed searches substantially improve retrieval of key studies.
PRESS guideline: McGowan et al., 2016
Database Translation
A mesma pesquisa deve ser adaptada para cada banco de dados:
"diabetes mellitus, type 2"[MeSH] OR "type 2 diabetes"[tiab]
'non insulin dependent diabetes mellitus'/exp OR 'type 2 diabetes':ti,ab
Subject headings, field tags, and operators differ between databases.
O que acontece quando você pesquisa — e não encontra nada?
REAL DATA
Governments stockpiled $9 billion de oseltamivir (Tamiflu) para gripe pandêmica. A Colaboração Cochrane tentou revisar as evidências. De 77 clinical trials, full reports existed for only 20. A Roche recusou-se a compartilhar dados para 5 years. Quando o BMJ e a Cochrane finalmente obtiveram over 160,000 pages of clinical study reports, they found: Tamiflu reduced symptoms by less than 1 day, with no evidence it prevented hospitalizations or complications.
If Nissen had searched only PubMed,
the signal would have remained hidden.
Comprehensive search is survival.
What was hidden in plain sight?
Module 3 Quiz
1. Que tipo de fonte de evidência revelou o sinal cardiovascular da rosiglitazona?
2. What does PRESS stand for?
What was hidden in plain sight?
Módulo 4: A Triagem
O número sem proveniência não é um número.
Esta é uma história sobre
what they chose to report.
Módulo 4: A Triagem
🎯 Learning Objectives
- Apply PRISMA flow diagram to document study selection
- Implement dual-reviewer screening with conflict resolution
- Identificar relatórios seletivos de resultados e manipulação de dados
- Calculate inter-rater reliability (Cohen's kappa)
- Aplicar o princípio: "O número sem proveniência não é um número"
88,000
heart attacks attributed to Vioxx
A blockbuster drug. A hidden signal. A preventable catastrophe.
Entre 1999 e Em 2004, milhões tomaram este analgésico. Alguns nunca voltaram para casa.
A ascensão do Vioxx
Rofecoxib (Vioxx) era um AINE seletivo para COX-2. Comercializado como mais seguro para o estômago do que os analgésicos tradicionais.
O ensaio VIGOR (2000)
Vioxx Gastrointestinal Outcomes Research
What VIGOR Published
| GI Outcome | Vioxx | Naproxen |
|---|---|---|
| Confirmed GI events | 2.1 per 100 pt-yrs | 4.5 per 100 pt-yrs |
| Reduction | 54% fewer GI events | |
O título: Vioxx é mais seguro para o seu estômago!
Isso foi o que os médicos disseram. Isso é o que os pacientes acreditavam.
What VIGOR Buried
| CV Outcome | Vioxx | Naproxen |
|---|---|---|
| Myocardial Infarction | 20 events | 4 events |
| Relative Risk | 5x higher in Vioxx group | |
O Relatório Seletivo
Manipulação de corte de dados: 3 additional heart attacks occurred after the cutoff used in publication
Spin: O sinal CV foi explicado como o naproxeno sendo cardioprotetor (sem evidência)
Outcome switching: Os eventos CV foram pré-especificados, mas não enfatizados
Internal knowledge: Os e-mails da Merck mostram que eles sabiam sobre o sinal
O ensaio APPROVe (2004)
Um ensaio para prevenção de pólipos colorretais - interrompido precocemente por segurança.<
Four years after VIGOR showed a 5x risk. Four years too late.
Você já considerou o que acontece quando um sinal se esconde no ruído?
REAL DATA
Vioxx (rofecoxib) foi aprovado em 1999. By 2004, estimates suggest 88,000-140,000 excess heart attacks and 30,000-40,000 deaths. Merck's own VIGOR trial showed 5x cardiovascular risk in 2000—but it was dismissed as a "naproxen cardioprotective effect."
O diagrama de fluxo PRISMA
Every step of screening must be documented and transparent.
Dual Screening: Why Two Reviewers?
Reduces Selection Bias
One reviewer might unconsciously favor certain studies
Catches Errors
Fadiga, leitura incorreta e erros são inevitáveis
Forces Explicit Criteria
Disagreements reveal ambiguity in inclusion rules
Typical agreement: κ = 0.6-0.8
Disagreements resolved by discussion or third reviewer
Calibração: a fase piloto
Before screening thousands of records, reviewers should calibrate on a sample of 50-100 records.
Screen the same set independently
Compare decisions and discuss disagreements
Refine inclusion criteria until κ > 0.7
Documente o processo de calibração e qualquer regra mudanças
PRISMA 2020 Updates
PRISMA 2020 revisou substancialmente a lista de verificação com relatórios expandidos sobre métodos de síntese, avaliação de certeza e registro de protocolo.
If Vioxx's cardiovascular data had been screened by independent reviewers,
if all pre-specified outcomes had been required to be reported,
88,000 heart attacks might have been prevented.
O número sem proveniência não é um número.
Module 4 Quiz
1. No estudo VIGOR, qual foi o risco relativo de IM no grupo Vioxx em comparação ao naproxeno?
2. Why is dual screening (two independent reviewers) important?
O número sem proveniência não é um número.
Módulo 5: A Extração
O número sem proveniência não é um número.
Esta é uma história sobre
números que nunca existiram.
Módulo 5: A Extração
🎯 Learning Objectives
- Projetar um formulário de extração de dados padronizado com campos de proveniência
- Calculate effect sizes from various reported statistics (OR, RR, HR, SMD)
- Implement dual-extraction with discrepancy resolution
- Identificar sinais de alerta para fabricação de dados e má conduta
- Explain how the DECREASE fraud affected clinical guidelines
~10,000
possible excess deaths in Europe
A partir de diretrizes baseadas em ensaios clínicos fabricados dados.
Os ensaios DECREASE influenciaram os cuidados perioperatórios em todo o mundo. Os dados foram inventados.
Don Poldermans: A Star Researcher
Professor at Erasmus Medical Center, Rotterdam. Author of over 500 papers. Lead author of ESC guidelines on perioperative cardiac care.
Uma fonte aparentemente incontestável. Até que alguém olhasse os dados.
Os ensaios DECREASE: A reivindicação
| Trial | Finding | Impact |
|---|---|---|
| DECREASE-I (1999) | 90% reduction in cardiac death | Changed guidelines |
| DECREASE-IV (2009) | Beta-blockers safe in low-risk | Expanded recommendations |
Effect sizes were implausibly large.
90% reduction? Almost nothing in medicine works that well.
The Investigation: 2011
Erasmus MC investigated after whistleblower complaints
Dados fabricados do paciente: Patients who didn't exist or weren't enrolled
No informed consent: Many "participants" never consented
Poldermans dismissed: From Erasmus MC in 2011
A cascata de danos
Quando DECREASE foi removido de meta-análises...
O ensaio POISE (2008) mostrou danos. Foi rejeitado porque entrou em conflito com DECREASE.
Por que isso não foi detectado?
Trust in authority: Poldermans foi o autor da diretriz revisando suas próprias evidências
No data verification: Ninguém pediu dados individuais do paciente
Publication prestige: Published in top journals, assumed valid
Implausible effects accepted: 90% reductions should raise suspicion
Data Extraction: Defense Against Fraud
Dual Extraction
Two extractors independently - catches transcription errors and forces scrutiny
Record Provenance
Table, page, paragraph - every number traceable to source
Verify Against Registry
Resultados do ClinicalTrials.gov vs publicação - discrepâncias são sinais de alerta
Request IPD
Individual patient data reveals what aggregate summaries hide
Effect Size Calculation
Durante a extração, você calcula os tamanhos dos efeitos a partir dos dados relatados:
Odds Ratio, Risk Ratio, Risk Difference from 2x2 tables
Diferença média, diferença média padronizada de médias e SDs
Sempre extraia da fonte mais confiável.
Prefer: ITT results > per-protocol > subgroups
Red Flags During Extraction
Implausible effect sizes: 80-90% reductions should prompt scrutiny
Baseline imbalances: Grupos com correspondência "perfeita demais"
Round numbers: "Exactly 50" or "exactly 100" patients per arm
Registry discrepancies: N publicado difere do N registrado
Effect Size Conversions
Os estudos relatam resultados em métricas diferentes. Para agrupá-los, muitas vezes você precisa de conversões:
| From | To | Formula |
|---|---|---|
| SMD (d) | log-OR | log-OR = d × π / √3 |
| log-OR | SMD (d) | d = log-OR × √3 / π |
| Correlation (r) | Fisher z | z = 0.5 × ln((1+r)/(1−r)) |
| OR | RR | RR = OR / (1 − P₀ + P₀ × OR) |
| OR | NNT | NNT = 1 / (P₀ − OR×P₀ / (1−P₀+OR×P₀)) |
P₀ = risco de linha de base no grupo de controle. Estas fórmulas assumem condições aproximadas; veja Borenstein et al. (Cap. 7) para derivações exatas.
Dados de tempo até o evento (sobrevivência)
Many trials report time-to-event outcomes using hazard ratios (HR). Pooling HRs in meta-analysis requires special handling:
O método log(HR) + SE
Extraia log(HR) e seu SE do teste. Se não for relatado, derive SE do IC: SE = (ln(superior) − ln(inferior)) / (2 × 1,96). Pool usando métodos de variância inversa padrão.
Quando a FC não é relatada
Existem métodos para reconstruir IPD a partir de curvas de Kaplan-Meier (Guyot et al. 2012) ou estimar a FC a partir de valores p e contagens de eventos (Parmar et al. 1998). Sempre prefira a FC ajustada relatada diretamente, quando disponível.
HR < 1 favors treatment; HR > 1 favors control. Do not convert HRs to ORs or RRs—they measure fundamentally different quantities.
E se os dados que você extrai nunca fossem reais?
REAL DATA
Joachim Boldt foi o pesquisador mais prolífico no gerenciamento de fluidos anestésicos. Mais de 180 de suas publicações foram retratadas — um dos maiores casos de retratação na história da medicina. Seus dados fabricados mostraram que o hidroxietilamido (HES) era seguro. Metanálises que incluíram seus estudos concluíram que o HES era inofensivo. Quando os estudos de Boldt foram removidos, o efeito combinado foi revertido: HES increased kidney injury by 59% (RR 1.59, 95% CI 1.26-2.00) and mortality by ~9% (RR 1.09). An estimated thousands of patients received a harmful fluid based on fabricated evidence.
Cada número em sua meta-análise
must trace back to a verifiable source.
O número sem proveniência não é um número.
Fraudulent data can kill as surely as fraudulent drugs.
Module 5 Quiz
1. O que aconteceu quando os dados do ensaio DECREASE foram removidos das meta-análises dos betabloqueadores?
2. Why should dual extraction be standard practice?
O número sem proveniência não é um número.
Módulo 6: O preconceito
Os métodos protegem os pacientes de nossa confiança.
Esta é uma história sobre
o viés que não podemos ver.
Módulo 6: O preconceito
🎯 Learning Objectives
- Apply Risk of Bias 2.0 (RoB 2) to randomized trials
- Aplicar ROBINS-I a estudos não randomizados
- Assess all five RoB 2 domains (randomization, deviations, missing data, measurement, selection)
- Distinguish confounding by indication from true treatment effects
- Explain how BART revealed hidden harms of aprotinin
20+
anos no mercado
Aprotinina foi o padrão ouro para redução cirúrgica sangramento.
Então alguém executou um RCT. A verdade era diferente.
The Hidden Bias: Confounding by Indication
Sicker patients got aprotinin: Surgeons used it in complex, high-risk cases
Survivors bias: Dead patients can't report complications
Publication bias: Estudos negativos não foram publicados
Os estudos observacionais não conseguiram separar o efeito do medicamento do risco basal do paciente.
BART: A verdade aleatória
Blood Conservation Using Antifibrinolytics in a Randomized Trial
| Outcome | Aprotinin | Alternatives |
|---|---|---|
| 30-day mortality | 6.0% | 3.9% |
| Relative Risk | 1.53 (53% increased death) | |
Investigação: avaliar o viés
Você está revisando os estudos observacionais. Aplique o pensamento de risco de preconceito:
| Question | Observational | BART (RCT) |
|---|---|---|
| Random allocation? | ❌ Surgeon choice | ✓ Yes |
| Baseline comparable? | ❌ Sicker got drug | ✓ Balanced |
| Blinding? | ❌ Open label | ✓ Double-blind |
Confounding by indication: Os cirurgiões administraram aprotinina aos pacientes mais doentes. Os estudos observacionais atribuíram a sobrevivência ao medicamento, quando estavam medindo o viés de sobrevivência.
Risk of Bias 2.0: The Five Domains
Randomization Process
Desvios das intervenções pretendidas
Dados de resultados ausentes
Medição do resultado
Seleção do resultado relatado
ROBINS-I: para estudos não randomizados
Quando os RCTs não estiverem disponíveis, use ROBINS-I (risco de viés em estudos não randomizados de Intervenções)
Confounding
Baseline differences between groups
Selection of Participants
Exclusions related to intervention
Classification of Interventions
Misclassification of exposure status
Desvios das intervenções pretendidas
Co-interventions, contamination
Missing Data
Differential loss to follow-up
Measurement of Outcomes
Ascertainment bias
Selection of Reported Result
Selective reporting
Ratings: Low / Moderate / Serious / Critical / No information
O que acontece quando 64 estudos concordam - e todos estão errados?
REAL DATA
A aprotinina foi usada em cirurgia cardíaca para reduzir o sangramento para 20 years. 64 small randomized trials sugeriu que era segura e eficaz. As meta-análises confirmaram o benefício. Então o BART trial (2008) randomized 2,331 patients: aprotinin vs. tranexamic acid vs. aminocaproic acid. Result: aprotinin increased mortality by 53% (RR 1,53, IC 95% 1,06-2,22). O ensaio foi interrompido antecipadamente por danos. A Bayer retirou a aprotinina do mercado em poucos meses.
Sixty-four small trials measured bleeding, not death.
One adequately powered trial revealed 53% increased mortality.
A quantidade de evidências não pode substituir a qualidade e o poder.
Module 6 Quiz
1. Why did 64 small trials miss aprotinin's harm?
Os métodos protegem os pacientes de nossa confiança.
Módulo 7: A Síntese
A heterogeneidade é uma mensagem, não um ruído.
A controvérsia do magnésio: 1991-1995
When pooling leads us astray.
Módulo 7: A Síntese
🎯 Learning Objectives
- Calculate pooled effect sizes using fixed-effect and random-effects models
- Choose between DerSimonian-Laird and HKSJ estimators appropriately
- Interpret forest plots including weights, confidence intervals, and diamonds
- Explain why small-study effects can mislead meta-analyses
- Aplique o princípio: "A heterogeneidade é uma mensagem, não ruído"
The Year: 1991
"Você está na encruzilhada de esperança e evidências..."
Heart disease kills more people worldwide than any other cause. In 1991, a new hope emerges: Could something as simple and cheap as intravenous magnesium save lives after myocardial infarction?
A justificativa biológica era sólida:
Magnesium stabilizes cardiac membranes, prevents arrhythmias, and vasodilates coronary arteries.
LIMIT-2: O teste de referência
Leicester Intravenous Magnesium Intervention Trial, 1992
A cheap, safe intervention that could save 250,000 lives per year globally.
A comunidade médica estava eletrificado.
The Meta-Analysis: 1993
Researchers pooled seven randomized trials of IV magnesium in MI:
| Trial | Year | N | Odds Ratio |
|---|---|---|---|
| Morton 1984 | 1984 | 40 | 0.10 |
| Rasmussen 1986 | 1986 | 273 | 0.35 |
| Smith 1986 | 1986 | 400 | 0.48 |
| Abraham 1987 | 1987 | 94 | 0.87 |
| Shechter 1990 | 1990 | 103 | 0.27 |
| Ceremuzynski 1989 | 1989 | 48 | 0.22 |
| LIMIT-2 | 1992 | 2,316 | 0.74 |
Investigation Exercise: The Meta-Analyst's Dilemma
Você é um revisor da Cochrane em 1993. Você foi solicitado a sintetizar as evidências sobre magnésio para IM. Os dados de sete testes estão diante de você.
Você vê o padrão neste gráfico de floresta?
Mas espere... você notou alguma coisa sobre os tamanhos dos testes?
O aviso Sinais
What should have given us pause?
Small sample sizes: Six of seven trials had <500 patients
Extreme effects: OR of 0.10 (90% reduction) is implausible for any drug
All positive: Onde estavam os ensaios negativos? O problema da gaveta de arquivos...
Funnel asymmetry: Small trials showed much larger effects than larger ones
O teste do gráfico de funil
Antes de agruparmos, devemos verificar se há viés de publicação. Vamos examinar o gráfico do funil.
⚠️ Asymmetric Funnel
Pequenos testes agrupados à esquerda (mostrando benefício). Onde estão os pequenos testes negativos?
Egger's test p = 0.04 — statistically significant asymmetry.
O Ano: 1995 — Relatórios ISIS-4
"E então veio a verdade..."
The Fourth International Study of Infarct Survival (ISIS-4) enrolled 58,050 patients across 1,086 hospitals in 31 countries.
Antes e Depois: O Quadro Completo
Veja o que acontece quando adicionamos o mega-ensaio ao nosso terreno florestal...
BEFORE ISIS-4
7 small trials (N = 3,274)
OR = 0.44
Strong benefit signal
AFTER ISIS-4
8 trials (N = 61,324)
OR = 1.02
No effect
Why Did Small Trials Mislead?
Publication Bias
Small negative trials were never published—they sat in file drawers
Small-Study Effects
Smaller trials tend to show larger effects due to methodological weaknesses
Random High Bias
Por acaso, alguns pequenos testes atingiram resultados extremos - e eles são publicados
Random-Effects Amplification
Random-effects models give more weight to small trials, amplifying bias
Fixed vs. Random Effects
Which model should you choose?
Assumes one true effect. Weights studies by inverse variance (precision). Large trials dominate.
Magnesium result: OR = 0.96 (p = 0.52)
Assumes distribution of effects. Gives more weight to small trials. Wider confidence intervals.
Magnesium result: OR = 0.59 (p = 0.01)
⚠️ A escolha do modelo determinou a conclusão!
Efeitos aleatórios não corrigem preconceito; com efeitos de estudos pequenos, pode mudar o peso para ensaios menores e mudar as conclusões.
As Lições do Magnésio
1. Verifique o viés de publicação antes de confiar em uma estimativa agrupada. Os gráficos de funil e o teste de Egger são suas ferramentas.
2. Be wary of small-study effects. If only small trials show benefit, wait for a large, well-conducted trial.
3. Model choice matters. Efeitos aleatórios podem amplificar evidências tendenciosas. Considere ambos os modelos e entenda as implicações.
4. One large trial can overturn many small ones. É por isso que megaensaios como o ISIS-4 são tão valiosos.
Desenhos de estudo especiais em meta-análise
Nem todos os ECRs usam desenhos de grupos paralelos padrão. Duas alternativas comuns exigem tratamento especial ao agrupar resultados:
Cluster-Randomized Trials
Randomizar grupos (hospitais, escolas), não indivíduos. O design effect = 1 + (m−1) × ICC reduz o tamanho efetivo da amostra. Divida N pelo efeito de design antes de agrupar ou use o SE ajustado do teste. Ignorar o agrupamento produz ICs artificialmente estreitos.
Crossover Trials
Cada paciente recebe ambos os tratamentos. O design emparelhado reduz a variação, mas você precisa do within-patient correlation (ou da análise emparelhada SE) para agrupar corretamente. Usar o grupo paralelo SE é conservador; usando N errados contagens duplas de pacientes.
Consulte o Cochrane Handbook v6.4, Capítulo 23 para fórmulas detalhadas e exemplos resolvidos.
E se a maneira como você combina os estudos determinar se um tratamento parece salvar vidas ou inútil?
REAL DATA
O surfactante precoce para bebês prematuros foi apoiado por 6 small trials showing reduced mortality (RR 0.84). A fixed-effect meta-analysis confirmed benefit (p=0.04). But a random-effects model showed no significance (p=0.12) — the confidence interval crossed 1.0. Later, SUPPORT (2010) and VON (2012), two large pragmatic trials with ~2,000 neonates combined, found no benefit de surfactante precoce versus posterior. A prática clínica foi alterada com base em pequenos ensaios e no modelo errado.
Module 7 Quiz
1. Por que a meta-análise de magnésio mostrou benefícios que o ISIS-4 não encontrou?
2. What warning sign should have alerted reviewers to potential bias?
3. When publication bias is suspected, which model may amplify the bias?
Small trials can show false signals.
Large trials anchor the truth.
A heterogeneidade é uma mensagem, não um ruído.
A heterogeneidade é uma mensagem, não um ruído.
Módulo 8: A heterogeneidade
A heterogeneidade é uma mensagem, não um ruído.
ACCORD: 2008
Quando a média esconde a verdade.
Módulo 8: A heterogeneidade
🎯 Learning Objectives
- Calcule e interprete I², τ² e intervalos de previsão
- Apply ICEMAN criteria to assess subgroup credibility
- Distinguish between clinical, methodological, and statistical heterogeneity
- Conduct and interpret leave-one-out sensitivity analyses
- Explain how ACCORD revealed differential effects across subgroups
The Year: 2008
"Você está prestes a testemunhar um dos encerramentos de julgamento mais chocantes da história..."
Por décadas, a comunidade do diabetes tinha um princípio orientador: lower blood sugar is better. O marco DCCT (1993) e UKPDS (1998) mostraram que o controle intensivo da glicose reduziu complicações microvasculares – cegueira, insuficiência renal, danos aos nervos.
A extrapolação lógica:
If controlling glucose prevents complications, shouldn't intensive control prevent cardiovascular disease too?
ACCORD: Action to Control Cardiovascular Risk in Diabetes
The definitive test of intensive glucose control
Todos os pacientes tinham diabetes tipo 2 com alto risco cardiovascular – seja doença cardiovascular estabelecida ou múltiplos fatores de risco. O ensaio foi projetado para 5,6 anos.
February 6, 2008
O Conselho de Monitoramento de Segurança de Dados convoca uma reunião de emergência.
After 3.5 years, they make an unprecedented decision:
PARE O TESTE.
Os resultados chocantes
| Outcome | Intensive | Standard | HR (95% CI) |
|---|---|---|---|
| Primary CV endpoint | 352 events | 371 events | 0.90 (0.78–1.04) |
| All-cause mortality | 257 deaths | 203 deaths | 1.22 (1.01–1.46) |
| Severe hypoglycemia | 10.5% | 3.5% | 3.0× higher |
Investigation Exercise: The Clinician's Dilemma
Você é um endocrinologista com 500 pacientes diabéticos. Os resultados do ACCORD são publicados. O que você diz aos seus pacientes que têm se esforçado para ter HbA1c <6%?
O controle intensivo é prejudicial para todos? Ou apenas para alguns?
Análise de subgrupo revelada:
| Subgroup | Intensive HR | Interpretation |
|---|---|---|
| No prior CVD | 1.00 (0.76–1.32) | No effect |
| Prior CVD | 1.45 (1.15–1.84) | Significant harm |
| Baseline HbA1c <8% | 1.02 (0.75–1.40) | No effect |
| Baseline HbA1c ≥8% | 1.29 (1.03–1.60) | Harm |
The average effect masked critical heterogeneity!
Para pacientes com DCV estabelecida ou controle basal deficiente, a terapia intensiva foi prejudicial.
Compreendendo a heterogeneidade: I² e além
Quando os estudos (ou subgrupos) mostram diferentes effects, we must quantify this variation.
I² = 0–25%: Low heterogeneity. Os efeitos são consistentes entre os estudos.
I² = 25–50%: Moderate. Look for sources of variation.
I² = 50–75%: Substantial. Consider whether pooling is appropriate.
I² = 75–100%: Considerable. A single pooled estimate may mislead.
Mas I² por si só não diz o que fazer - ele sinaliza que você precisa investigar mais.
Tau² (τ²): a variação entre estudos
Enquanto I² informa a proporção de variância devido à heterogeneidade, τ² informa a magnitude.
"Qual fração da variância total é devida a diferenças verdadeiras entre os estudos?"
Scale: 0% to 100%
"Quanto os efeitos verdadeiros variam entre os estudos?"
Same scale as the effect measure
Use τ² to calculate prediction intervals
Um intervalo de previsão mostra a gama de efeitos que você esperaria em um novo estudo - geralmente muito mais amplo do que a confiança intervalo.
The Prediction Interval: What ACCORD Really Tells Us
Consider a meta-analysis of intensive glucose control across multiple trials...
Confidence Interval
HR 1.10 (0.95–1.27)
"Nossa melhor estimativa do efeito médio"
Prediction Interval
HR 1.10 (0.70–1.73)
"The range of effects in a new setting"
O intervalo de previsão abrange benefícios e danos!
In some settings, intensive control might help. In others, it could kill.
When Is a Subgroup Effect Credible?
Subgroup Credibility Criteria (adapted from ICEMAN, Schandelmaier 2020 & Sun 2012)
A análise de subgrupo foi pré-especificada?
Subgrupos post-hoc são propensos a dados dragagem
Is there a plausible biological rationale?
O mecanismo deve ser claro e independente dos dados
Is the effect consistent across related outcomes?
Se o dano aparecer para mortalidade, há dano semelhante para infarto do miocárdio, acidente vascular cerebral?
Is there independent replication?
O efeito do subgrupo foi confirmado em outros estudos?
ICEMAN Applied to ACCORD
| Criterion | Assessment | Score |
|---|---|---|
| Pre-specified? | Sim - DCV anterior estava no protocolo | ✓ |
| Biological rationale? | Yes—hypoglycemia more dangerous with CVD | ✓ |
| Consistent outcomes? | Yes—CV mortality and all-cause mortality aligned | ✓ |
| Independent replication? | Partially—ADVANCE, VADT showed similar patterns | ~ |
ICEMAN Rating: High Credibility
The differential harm in high-risk patients appears genuine.
As Implicações Clínicas
Para pacientes sem DCV: Moderate glucose control (HbA1c ~7%) remains the goal. Intensive control may reduce microvascular complications.
Para pacientes com DCV estabelecida: Avoid intensive targets. Hypoglycemia is dangerous for damaged hearts.
Para pacientes idosos: Relaxed targets. Quality of life matters. Tight control causes falls, confusion, and excess mortality.
"One size fits all" treatment is not patient-centered medicine.
Meta-Regression: Explaining Heterogeneity
When heterogeneity is high, meta-regression can identify study-level covariates that explain variation.
O tamanho do efeito varia sistematicamente com o estudo características?
Caution
A meta-regressão requer ≥10 estudos por covariável. Com poucos estudos, é apenas exploratório. Falácia ecológica: associações em nível de estudo podem não se aplicar a indivíduos.
Example: In ACCORD, meta-regression might test if treatment effect varies by baseline HbA1c, showing harm concentrated in patients with very high levels.
What number saves lives? Who decides?
REAL DATA
Durante décadas, a meta foi: tratar a pressão arterial para <140 mmHg systolic. Then came SPRINT (2015): 9,361 high-risk patients randomized to intensive (<120) vs standard (<140) targets. Intensive treatment reduced CV events by 25% and death by 27%. Trial stopped early for benefit. Guidelines changed worldwide.
Module 8 Quiz
1. Por que o ensaio ACCORD foi interrompido precocemente?
2. What does a prediction interval tell us that a confidence interval doesn't?
3. According to ICEMAN, which factor is MOST important for subgroup credibility?
Quando os estudos discordam,
ouça a discordância.
A heterogeneidade é uma mensagem, não um ruído.
Ausência de evidência não é evidência de ausência.
Módulo 9: Os Estudos Ocultos
Ausência de evidência não é evidência de ausência.
Reboxetine: 2010
Os 74% que nunca viram a luz.
Módulo 9: Os Estudos Ocultos
🎯 Learning Objectives
- Interpret funnel plots for asymmetry detection
- Aplique o teste de Egger e outros testes estatísticos para viés de publicação
- Implementar o método trim-and-fill para ajuste de viés
- Critically appraise the limitations of publication bias tests
- Aplicar o princípio: "Ausência de evidência não é evidência de ausência"
The Year: 1997
"A new hope for depression patients who cannot tolerate SSRIs..."
Reboxetina (Edronax) era um novo antidepressivo - um inibidor seletivo de recaptação de norepinefrina (NRI). Ao contrário dos ISRS, ele tinha como alvo um sistema neurotransmissor diferente. Para pacientes que falharam ou não toleraram fluoxetina ou sertralina, ele ofereceu um novo mecanismo.
As evidências publicadas
What doctors could find in medical journals:
| Comparison | Published Trials | Published Result |
|---|---|---|
| Reboxetine vs Placebo | 3 trials (n=507) | Significantly better (SMD = 0.56) |
| Reboxetine vs SSRIs | 4 trials (n=628) | Equivalent or better |
A literatura publicada contou uma história clara:
Reboxetine works. Patients benefit. Prescribe with confidence.
Mas e os ensaios que você não conseguiu ver?
In 2010, German researchers at IQWiG made a request to the European Medicines Agency...
They demanded access to all ensaio dados - publicados e não publicados.
What they found changed everything.
O quadro completo
Eyding et al., BMJ 2010
| Comparison | Published Only | ALL DATA |
|---|---|---|
| Reboxetine vs Placebo | SMD 0.56 (benefit) | SMD 0.10 (no benefit) |
| Patients in analysis | 507 (14%) | 2,731 (100%) |
| Reboxetine vs SSRIs | Equivalent | Inferior (RR 1,23 para danos) |
| Patients in analysis | 628 (26%) | 2,411 (100%) |
Investigation Exercise: The File Drawer
Você é um revisor sistemático em 2008. Você pesquisa no PubMed, Embase e na Biblioteca Cochrane todos os ensaios de reboxetina. Você encontra 7 ensaios publicados mostrando benefícios.
Você pode confiar nessas evidências?
⚠️ O funil é drasticamente assimétrico!
Todos os estudos publicados estão agrupados em um lado. Onde estão os ensaios nulos e negativos?
O kit de ferramentas de viés de publicação
Funnel Plot
Plot effect size vs. standard error. A symmetric funnel suggests no bias; asymmetry raises alarms.
Egger's Regression Test
Regress effect/SE on 1/SE. A non-zero intercept (P < 0.10) suggests small-study effects. Note: inflated false-positive rate with binary outcomes; use Peters' test instead.
Peters' Test
For binary outcomes, regresses log OR on inverse of total sample size. Less prone to false positives.
Trim-and-Fill
Imputa estudos "ausentes" para tornar o funil simétrico e, em seguida, recalcula o efeito agrupado.
Interativo: análise de corte e preenchimento
Deixe aplicamos trim-and-fill aos dados da reboxetina e vemos qual seria a estimativa ajustada...
Published Only
7 trials
SMD = 0.56
Significant benefit
Trim-and-Fill
7 + 5 imputed = 12 trials
SMD = 0.23
Reduced, still nominally significant
But even trim-and-fill underestimated the problem!
O verdadeiro efeito com todos os dados foi SMD = 0,10 (essencialmente nulo).
Trim-and-fill is conservative—it doesn't fully correct for selective publication.
The Best Defense: Trial Registries
Os métodos de detecção de viés de publicação são imperfeitos. A verdadeira solução é prospective registration.
Ao pesquisar ensaios, sempre verifique os registros. Compare o número de registered ensaios com o número published. A lacuna é o seu sinal de alerta.
Since 2005, ICMJE requires trial registration as a condition of publication.
A Campanha AllTrials
"All trials registered. All results reported."
O escândalo da reboxetina, juntamente com casos semelhantes em outras drogas, catalisou um movimento global:
2013: Política de Dados Clínicos da EMA
European Medicines Agency commits to publishing clinical study reports
2016: FDA Amendments Act enforcement
Mandatory results reporting on ClinicalTrials.gov within 12 months
AllTrials Coalition
Over 90,000 supporters, 700+ organizations demanding transparency
A Reboxetina Consequências
Germany's IQWiG recommended against reboxetine for depression
O NICE do Reino Unido rebaixou-o para "não recomendado"
O FDA rejeitou a reboxetina em 2001 (eles tiveram acesso a dados não publicados)
Por mais de uma década, os pacientes receberam um medicamento não melhor que placebo.
Porque apenas os ensaios positivos foram publicados.
E se a conclusão publicada for o oposto dos dados reais?
REAL DATA
GlaxoSmithKline's Study 329 testado paroxetina em adolescent depression. O artigo publicado (2001) concluiu que a paroxetina era "generally well tolerated and effective." Os dados reais: paroxetina failed on all 8 pre-specified outcomes. When re-analyzed (RIAT 2015), suicidal/self-harm events: 23 no grupo de paroxetina vs 5 no grupo de placebo. O artigo publicado redefiniu resultados post-hoc para produzir significância. Em 2015, uma reanálise RIAT (Restoring Invisible and Abandoned Trials) usando o relatório de estudo clínico original concluiu: a paroxetina era neither safe nor effective for adolescents.
Module 9 Quiz
1. Qual porcentagem de dados de ensaios de reboxetina foi ocultada da literatura publicada?
2. Why can trim-and-fill underestimate the correction needed?
3. What is the best prospective defense against publication bias?
O que você não pode consulte
may be more important than what you can.
Ausência de evidência não é evidência de ausência.
Certainty must be earned, not assumed.
Módulo 10: A Certeza
Certainty must be earned, not assumed.
Early Surfactant: 2012
Quando a evidência de alta qualidade evolui.
Módulo 10: A Certeza
🎯 Learning Objectives
- Aplique a estrutura GRADE completa para avaliar a certeza de evidências
- Evaluate all five downgrade factors (RoB, inconsistency, indirectness, imprecision, publication bias)
- Identify when to upgrade for large effect, dose-response, or confounding
- Construct Summary of Findings tables with absolute effect estimates
- Aplicar o princípio: "A certeza deve ser conquistada, não assumida"
The Year: 1990s
"A revolution in neonatal care..."
A Síndrome do Desconforto Respiratório (SDR) foi a principal causa de morte em bebês prematuros. O desenvolvimento de surfactantexógeno - a substância que impede o colapso dos alvéolos - foi um dos grandes avanços na medicina neonatal.
A questão passou a ser: Quando devemos administrar surfactante?
Prophylactically (to all high-risk infants) or selectively (only after RDS develops)?
A Revisão Cochrane Original (2003)
Multiple RCTs conducted before the era of routine CPAP
| Outcome | Prophylactic vs Selective | Certainty |
|---|---|---|
| Neonatal mortality | RR 0.73 (favors prophylactic) | High |
| BPD or death | RR 0.84 (favors prophylactic) | High |
Mas o mundo dos cuidados neonatais estava mudando...
A new technology emerged: Continuous Positive Airway Pressure (CPAP)
Non-invasive support that could help preterm lungs without intubation.
As evidências antigas ainda se aplicariam?
A Atualização Cochrane de 2012
New trials conducted in the CPAP era
| Outcome | Old Trials | New Trials |
|---|---|---|
| BPD or death | RR 0.84 (favors prophylactic) | RR 1.12 (favors selective) |
| Necessidade de mecânica ventilação | Baixe com profilático | Maior com profilático! |
Investigation: Why Did Evidence Evolve?
Você é um neonatologista. Um colega pergunta: "Como os ensaios randomizados podem se contradizer?"
A evidência original estava errada?
Indirectness Changed
Old trials: No CPAP available. New trials: CPAP standard of care.
O comparador melhorado
Selective surfactant + CPAP is better than prophylactic intubation.
Context Matters
Evidências de uma época podem não se aplicar a outro.
This is why GRADE assesses Indirectness!
High-quality evidence can become inapplicable when context changes.
A estrutura GRADE
Grading of Recommendations, Assessment, Development and Evaluations
GRADE responde à pergunta: Quão confiantes estamos nesta estimativa?
⊕⊕⊕⊕ HIGH: Very confident. True effect is close to the estimate.
⊕⊕⊕◯ MODERATE: Moderately confident. True effect likely close, but may differ substantially.
⊕⊕◯◯ LOW: Limited confidence. True effect may differ substantially.
⊕◯◯◯ VERY LOW: Very little confidence. True effect likely substantially different.
GRADE: Factors That Downgrade Certainty
A evidência do RCT começa em ALTO. Ele pode ser rebaixado para:
Risk of Bias
Flawed randomization, lack of blinding, incomplete follow-up, selective reporting
Inconsistency
Unexplained heterogeneity across studies (large I², non-overlapping CIs)
Indirectness
Diferenças na população, intervenção, comparador ou resultados da pergunta
Imprecision
Wide confidence intervals, small sample size, few events
GRAU: O Quinto Fator
Publication Bias
Asymmetric funnel plot, missing registered trials, sponsor influence
Each factor can downgrade by one or two levels
High → Moderate → Low → Very Low
Example: Uma meta-análise de ECRs (começa em ALTO) com alto risco de viés (↓1) e indireta grave (↓1) seria avaliado LOW.
Interactive: Apply GRADE to Surfactant
Vamos avaliar a certeza da evidência para surfactante profilático usando ensaios antigos versus novos.
OLD TRIALS (Pre-CPAP)
Starting: HIGH (RCTs)
Risk of Bias: Low (−0)
Inconsistency: None (−0)
Indirectness: Serious (−1)
Different standard of care today
Final: ⊕⊕⊕◯ MODERATE
NEW TRIALS (CPAP Era)
Starting: HIGH (RCTs)
Risk of Bias: Low (−0)
Inconsistency: None (−0)
Indirectness: None (−0)
Matches current practice
Final: ⊕⊕⊕⊕ HIGH
GRADE: Factors That Upgrade Certainty
A evidência observacional começa em BAIXO. Ele pode ser atualizado para:
Large Magnitude of Effect
RR >2 ou <0,5 sem confusão plausível
Dose-Response Gradient
Higher exposure = larger effect in a consistent pattern
Residual Confounding
All plausible confounders would reduce the effect (strengthens causal inference)
Communicating Certainty
GRADE requires transparent language about confidence:
HIGH: "Prophylactic surfactant reduces mortality..."
MODERATE: "Prophylactic surfactant probably reduces mortality..."
LOW: "Prophylactic surfactant may reduce mortality..."
VERY LOW: "We are uncertain whether prophylactic surfactant reduces mortality..."
Esta linguagem garante que os médicos entendam a força da evidência.
Can too much of a lifesaver become a killer?
REAL DATA
1940s-50s: High oxygen concentrations saved premature babies from respiratory failure. Then came an epidemic of blindness—retrolental fibroplasia (now called ROP). Doctors reduced oxygen dramatically. Blindness dropped. But then: increased deaths and brain damage da hipóxia. O nível ideal de oxigênio necessário decades of trials to find. Recent SUPPORT/BOOST II trials finally defined the therapeutic window: SpO2 91-95%.
Module 10 Quiz
1. Por que a recomendação do surfactante foi revertida entre 2003 e 2012?
2. Qual das opções a seguir NÃO é um fator de downgrade GRADE?
3. Que linguagem deve ser usada para evidências de qualidade BAIXA?
Um número não é suficiente.
Você deve comunicar o quão certo você está.
Certainty must be earned, not assumed.
Os métodos protegem os pacientes de nossa confiança.
Módulo 11: The Living Review
Os métodos protegem os pacientes de nossa confiança.
COVID-19 Hydroxychloroquine: 2020
Quando a urgência para evidências atendidas.
Módulo 11: The Living Review
🎯 Learning Objectives
- Aplicar análise sequencial de testes para determinar quando as evidências são suficientes
- Projetar e manter uma revisão sistemática viva
- Establish update triggers and futility/harm boundaries
- Manage multiplicity and alpha-spending in sequential analyses
- Explain how rapid evidence synthesis evolved during COVID-19
March 2020: A World in Crisis
"O vírus se espalha mais rápido do que nossa compreensão..."
COVID-19 estava matando milhares de pessoas. As UTIs transbordaram. Não havia vacina, não havia tratamento. Então, um vislumbre de esperança: hydroxychloroquine (HCQ)—an old malaria drug—showed antiviral activity in lab studies.
A pressa para adotar
Nas semanas do estudo de Gautret:
March 28: FDA issues Emergency Use Authorization for HCQ
April 4: India bans HCQ export (hoarding fears)
Global: Shortages affect lupus and rheumatoid arthritis patients
Millions received HCQ based on a 36-patient observational study
What could go wrong?
Investigação: The Gautret Estudo
Você é um especialista em MBE solicitado a avaliar o estudo francês HCQ. Examine o design...
| Issue | Impact |
|---|---|
| Non-randomized | Selection bias—who got HCQ? |
| 6 patients excluded | 3 went to ICU, 1 died, 1 withdrew, 1 had nausea |
| Surrogate outcome | Viral load, not clinical outcomes |
| Controle de hospital diferente | Different care, different testing |
| No blinding | Expectation bias in lab testing |
Este estudo teria uma pontuação ALTA de risco de viés em RoB 2.0
GRADE certainty: VERY LOW. Yet it changed global policy.
Why Observational COVID Studies Misled
Immortal Time Bias
Patients must survive long enough to receive treatment. Survivors are compared to non-survivors.
Confounding by Indication
Sicker patients may get different treatments. Healthier patients received HCQ early.
Healthy User Effect
Patients who seek treatment tend to be healthier overall.
Outcome Reporting
Estudos com resultados positivos foram publicados mais rapidamente.
Junho de 2020: O relatório de RCTs
Large, rigorous trials completed at remarkable speed
| Trial | N | Result |
|---|---|---|
| RECOVERY (UK) | 4,716 | No benefit on mortality (RR 1.09) |
| WHO SOLIDARITY | 954 | No benefit (RR 1.19) |
| ORCHID (US) | 479 | Interrompido para futilidade |
Linha do tempo: evidências observacionais vs. RCT
March-May 2020
Observational: ~20 studies
Suggest benefit
Pooled OR ~0.65
June-July 2020
RCTs: RECOVERY, SOLIDARITY
Show no benefit/harm
Pooled RR ~1.10
De "promissor" a "ineficaz" em 3 meses
É por isso que precisamos de randomização - e análises vivas para rastrear evidências em evolução.
Living Systematic Reviews
Uma nova abordagem para evolução rápida evidências:
Continuous Surveillance
Pesquise na literatura semanalmente ou mesmo diariamente por novas evidências
Cumulative Meta-Analysis
Update pooled estimates as each new trial reports
Análise Sequencial de Teste (TSA)
Determine when sufficient information has accumulated to conclude
Transparent Versioning
Track every change, maintain full audit trail
Análise Sequencial de Teste (TSA)
When have we learned enough?
A TSA aplica limites de parada à meta-análise - semelhante à análise provisória em um único ensaio. É responsável pelo required information size (RIS) needed to detect or exclude a clinically meaningful effect.
Para HCQ em COVID, a TSA mostrou que o limite de futilidade foi ultrapassado em junho de 2020.
Lições da saga HCQ
1. Observational studies can mislead spectacularly quando o preconceito é predominante. Mesmo muitos estudos apontando na mesma direção podem estar errados.
2. RCTs can be conducted quickly when the will exists. RECOVERY enrolled 5,000+ patients in weeks.
3. Revisões vivas são essenciais for evolving topics. Fixed-point-in-time reviews become obsolete instantly.
4. Political pressure doesn't change biology. Métodos rigorosos protegem os pacientes mesmo quando sob pressão.
E se a prevenção FOR a causa?
REAL DATA
For decades, pediatric guidelines recommended: avoid peanuts in infancy to prevent allergy. Meanwhile, peanut allergy rates tripled de 1997 a 2008. Então veio LEAP (2015): 640 high-risk infants randomized to early peanut introduction vs. avoidance. Result: Early introduction reduced peanut allergy by 81% (1,9% vs 13,7%). A estratégia de prevenção estava causando a epidemia.
Module 11 Quiz
1. Qual foi a principal falha no estudo da hidroxicloroquina de Gautret?
2. What does Trial Sequential Analysis help determine?
3. Por que os estudos observacionais de COVID mostraram benefícios de HCQ enquanto os ECRs não?
Speed cannot replace rigor.
But rigor can be fast.
Living reviews balance both.
Nem todo sinal é verdade.
Módulo 12: Métodos avançados
Nem todo sinal é verdade.
Advanced Methods
Beyond pairwise meta-analysis.
Módulo 12: Métodos avançados
🎯 Learning Objectives
- Interpret network meta-analysis geometry and SUCRA rankings
- Apply bivariate models for diagnostic test accuracy meta-analysis
- Conduct dose-response meta-analysis with flexible splines
- Understand when individual patient data (IPD) meta-analysis is needed
- Reconhecer as suposições e limitações de cada um método avançado
Quando o par a par não é suficiente
"Às vezes a questão é mais complexa do que A versus B..."
Os métodos que você aprendeu formam a base. Mas a realidade clínica muitas vezes exige mais: Which of 10 antidepressants is best? What's the optimal dose of statin? Does this test accurately diagnose early cancer?
Este módulo apresenta quatro métodos avançados - cada um respondendo a diferentes questões complexas.
Network Meta-Analysis (NMA)
When you have many treatments but few head-to-head trials
NMA combines direct evidence (A vs B) with indirect evidence (A vs C, B vs C → inferred A vs B) to compare multiple treatments simultaneously.
NMA Example: Antidepressants
The landmark Cipriani 2018 NMA compared 21 antidepressants using 522 trials.
The Challenge
21 drugs, but not every pair tested head-to-head
Many vs. placebo, few vs. each other
The Solution
NMA combina evidências diretas e indiretas em toda a rede
Classifica todos os 21 em termos de eficácia e aceitabilidade
Resultado: alguns medicamentos tiveram classificação mais alta em eficácia, outros em aceitabilidade
Nenhum medicamento é universalmente "melhor"; interpretar classificações com intervalos confiáveis, transitividade e compensações clínicas.
NMA: Critical Assumptions
Transitivity
Effect modifiers should be similarly distributed across comparisons; otherwise indirect comparisons may be biased
Consistency
Evidências diretas e indiretas concordam (testáveis)
Connected Network
All treatments linked through at least one common comparator
When assumptions fail, NMA can mislead
Sempre avalie a transitividade e teste para inconsistência.
Dose-Response Meta-Analysis
Encontrar a dose ideal
Uses the Greenland-Longnecker method com splines cúbicos restritos para modelar relações não lineares entre dose e efeito.
Non-linear patterns
J-shaped (alcohol & mortality), U-shaped (vitamin D), threshold (aspirin)
Clinical relevance
Encontre a dose com melhor equilíbrio benefício-dano, não apenas "mais é melhor"
Dados individuais do paciente (IPD)
O padrão ouro para o subgrupo análise
Instead of published summary data, obtain dados brutos em nível de paciente dos experimentadores. Permite análises precisas de subgrupos, modelagem de tempo até o evento e definições padronizadas.
O Early Breast Cancer Trialists' Collaborative Group foi pioneiro no IPD MA na década de 1980.
Diagnostic Test Accuracy (DTA)
Quando a "intervenção" é uma teste
DTA meta-analysis synthesizes sensitivity (taxa de verdadeiro positivo) e specificity (true negative rate)—two correlated outcomes requiring bivariate models.
Bivariate/HSROC Model
Conta para correlação entre sensibilidade e especificidade
SROC Curve
Curva ROC resumida com 95% de confiança e regiões de predição
QUADAS-2
Quality Assessment of Diagnostic Accuracy Studies
Escolhendo o certo Método
| Question | Method |
|---|---|
| Does A beat B? | Pairwise MA |
| Which of many treatments is best? | Network MA (NMA) |
| Qual é a dose ideal? | Dose-Response MA |
| Who benefits most? (subgroups) | IPD MA |
| Quão preciso é este teste? | DTA MA |
| Como o efeito evolui ao longo do tempo? | Survival/Time-to-Event MA |
O método deve corresponder à pergunta. Nunca force uma pergunta no método errado.
Three large trials. Three different answers. What do you believe?
REAL DATA
CORTICUS (2008): 499 patients. Hydrocortisone in septic shock. No mortality benefit. ADRENAL (2018): 3,658 patients. Hydrocortisone. No mortality benefit. APROCCHSS (2018): 1,241 patients. Hydrocortisone + fludrocortisone. Mortality reduced (43% vs 49.1%, p=0.03). Same class of intervention. Different protocols. Different results.
Module 12 Quiz
1. Qual é a principal vantagem da metanálise de rede em relação aos pares?
2. Why does DTA meta-analysis require bivariate models?
3. What does the "consistency" assumption in NMA require?
O ecossistema do curso
Este curso cobre todo o fluxo de trabalho da revisão sistemática. Para se aprofundar, explore os cursos complementares:
Bivariate/HSROC, SROC curves, QUADAS-2
RoB 2, ROBINS-I/E, domain-level assessment
Full SoF tables, GRADE-CERQual
One-stage/two-stage, mixed-effects models
Copas, PET-PEESE, p-curve, selection models
AMSTAR 2, ROBIS, overlap correction
CHARMS, PROBAST, c-statistic pooling
TSA, update triggers, abbreviated methods
Module 12 Complete
"O método deve corresponder à pergunta. Os métodos avançados respondem a perguntas avançadas, mas os fundamentos nunca mudam."
Você dominou o fluxo de trabalho principal. Os próximos dez módulos exploram a fronteira: inferência bayesiana, meta-análise de rede, dados individuais de pacientes, modelagem dose-resposta, robustez e fragilidade, equidade, síntese assistida por IA, evidência qualitativa, métodos multivariados e reprodutibilidade.
Nem todo sinal é verdade.
Módulo 13: O bayesiano Turn
Nem todo sinal é verdade.
Módulo 13: O bayesiano Turn
Módulo 13: O bayesiano Turn
🎯 Learning Objectives
- Explique a diferença entre inferência frequentista e bayesiana
- Interpret prior distributions, likelihoods, and posterior distributions
- Distinguish credible intervals from confidence intervals
- Understand when Bayesian meta-analysis offers advantages
- Recognize how prior choice affects conclusions
In 2005, a trial began
that would never truly end.
O estudo STAMPEDE para câncer de próstata usou um projeto de plataforma multi-braço e multi-estágio (MAMS). As armas poderiam ser adicionadas ou retiradas à medida que as evidências se acumulassem. Embora suas estatísticas fossem frequentistas, a filosofia adaptativa incorporava o espírito Bayesiano: atualizar decisões à medida que os dados se acumulam.
A Visão de Mundo Frequentista
In frequentist statistics, probability means long-run frequency. Um IC de 95% NÃO significa "95% de probabilidade de o verdadeiro efeito estar dentro". Isso significa: se repetissemos o estudo infinitamente, 95% dos intervalos conteriam a verdade.
A visão de mundo bayesiana
In Bayesian statistics, probability represents degree of belief. We start with a prior (o que acreditamos antes dos dados), atualize com o likelihood (o que os dados nos dizem) e obtenha a posterior (updated belief).
Prior × Likelihood = Posterior
Teorema de Bayes: P(θ|dados) ∝ P(dados|θ) × P(θ)
Credible Intervals
Um intervalo de credibilidade de 95% é interpretável probabilisticamente, condicionado ao modelo especificado e anterior.
Choosing Priors
Non-informative (Vague)
Normal(0, 10000) ou uniforme. Deixe os dados dominarem. Imita resultados frequentistas.
Weakly Informative
Normal(0, 1) for log-OR. Regularizes extreme estimates while remaining flexible.
Informative
Based on previous evidence. Powerful but controversial. Must be pre-specified.
Half-Cauchy for τ
Recommended for heterogeneity. Half-Cauchy(0, 0.5) allows large τ but concentrates near zero.
MCMC Sampling
Most Bayesian models cannot be solved analytically. We use Markov Chain Monte Carlo (MCMC) para extrair amostras da parte posterior. Ferramentas: JAGS, Stan, brms (R), PyMC (Python).
Bayesian Model Averaging
Instead of choosing between fixed-effect and random-effects models, Bayesian model averaging (BMA) pondera cada modelo por sua probabilidade posterior. Isso explica a incerteza do modelo na estimativa final.
Bayes Factors
BF₁₀ > 10 = forte evidência para H₁. BF₁₀ < 1/10 = forte evidência para H₀.
Interactive: Posterior Visualizer
Ajuste a força anterior para ver como ela afeta a parte posterior. Veja como mais dados superam os anteriores.
A história do STAMPEDE
STAMPEDE foi lançado em 2005 com 5 braços de pesquisa comparando tratamentos para câncer de próstata avançado. Em 2016, adicionou abiraterona e mostrou uma redução de 37% na mortalidade (HR 0,63, IC 95% 0,52–0,76).
O design da plataforma incorpora o pensamento adaptativo bayesiano: análises provisórias orientam a seleção de braços, novos braços podem entrar à medida que os tratamentos surgem e braços fúteis caem precocemente - salvando pacientes de ineficácia terapias.
STAMPEDE inscreveu mais de 10.000 pacientes em mais de 100 centros e mudou fundamentalmente o tratamento do câncer de próstata. A mentalidade Bayesiana permite que as evidências se acumulem e informem as decisões em tempo real.
Decision Tree: When to Go Bayesian?
Remember Module 1?
CAST Through a Bayesian Lens
Se uma análise Bayesiana do CAST tivesse usado um antecedente informativo da ciência básica (antiarrítmicos suprimem CVPs), a parte posterior ainda teria se deslocado fortemente em direção ao dano. Com dados suficientes, mesmo um anterior forte cede à probabilidade. A lição: os métodos bayesianos não protegem contra antecedentes ruins - mas eles fazem suposições transparent.
Module 13 Quiz
Q1. What does a 95% Bayesian credible interval mean?
Q2. Qual é o prévio recomendado para heterogeneidade entre estudos (τ)?
Module 13 Complete
"A virada bayesiana não é sobre matemática. É sobre honestidade - tornar nossas suposições visíveis."
Nem todo sinal é verdade.
Módulo 14: O Rede
Os métodos protegem os pacientes de nossa confiança.
Módulo 14: O Rede
Módulo 14: O Rede
🎯 Learning Objectives
- Explain why pairwise comparisons are insufficient when many treatments exist
- Interpret network geometry (nodes, edges, thickness)
- Entenda a transitividade, a consistência e o papel da evidência indireta
- Interpret SUCRA rankings and league tables
- Recognize when NMA assumptions are violated
A clinician faces a patient
com depressão. Qual medicamento?
Existem 21 antidepressivos comumente prescritos. A maioria dos ensaios comparativos compara apenas 2 ou 3. Cipriani et al. (2018, Lancet) conectou 522 ensaios e 116.477 pacientes em uma única rede.
A lógica da meta-análise de rede
Direct Evidence
Trials directly comparing A vs B give the most reliable estimate.
Indirect Evidence
Se A vs C e B vs C existem, podemos inferir A vs B. Esta é a suposição "transitiva".
Mixed Evidence
NMA combines both, weighted by precision, to rank all treatments simultaneously.
Interactive: Network Graph
Cada nó é um tratamento. A espessura da borda representa o número de estudos comparando esses dois tratamentos.
Transitivity & Consistency
Transitivity: A estimativa indireta (via comparador comum) deve aproximar-se da estimativa direta. Isso requer que os modificadores de efeito sejam distribuídos de forma semelhante entre as comparações.
Consistency: Teste estatístico comparando evidências diretas e indiretas. Testes globais (interação projeto por tratamento) e locais (divisão de nós) ajudam a identificar loops de inconsistência.
SUCRA & P-scores
Caution: Ranking is seductive but misleading when differences between treatments are small or uncertain. Always report credible/confidence intervals alongside ranks.
Component NMA
When interventions are complex (e.g., behavioral + pharmacological), component NMA decomposes multi-component treatments to estimate the individual contribution of each component. Uses additive models: effect(A+B) = effect(A) + effect(B) + interaction.
A Rede Cipriani
A análise da Lancet de 2018 descobriu que todos os 21 antidepressivos foram mais eficazes que o placebo. Amitriptilina, mirtazapina e venlafaxina tiveram a melhor classificação em eficácia. A agomelatina, a fluoxetina e o escitalopram obtiveram a melhor classificação em termos de aceitabilidade (menos desistências).
Nenhum medicamento "ganhou" em todos os resultados. A rede revelou compensações invisíveis à análise pareada.
Decision Tree: Is NMA Appropriate?
Module 14 Quiz
Q1. Que suposição deve ser mantida para que a evidência indireta seja válida na NMA?
Module 14 Complete
"A rede vê o que as comparações entre pares não podem: todo o cenário da escolha do tratamento."
Nem todo sinal é verdade.
Módulo 15: O Indivíduo
What was hidden in plain sight?
Módulo 15: O Indivíduo
Módulo 15: O Indivíduo
🎯 Learning Objectives
- Explain why aggregate data can mask treatment–covariate interactions
- Distinguish one-stage from two-stage IPD models
- Recognize ecological bias in aggregate meta-analysis
- Understand the practical challenges of IPD collection
- Interpret treatment–covariate interaction plots
For decades, breast cancer trials
resumos publicados. Não pacientes.
O Early Breast Cancer Trialists' Collaborative Group (EBCTCG) coletou registros individuais de mais de 100.000 mulheres em centenas de ensaios. Suas meta-análises de IPD mostraram que os benefícios do tamoxifeno dependem fortemente do status do receptor de estrogênio – algo invisível nos dados agregados.
O que os resumos ocultam
Todos os ensaios publicados sobre tamoxifeno relataram um resultado geral. Em centenas de estudos, o tamoxifeno pareceu oferecer um benefício modesto. Mas o “benefício modesto” era uma média que escondia uma verdade profunda.
A divisão oculta do subgrupo
O efeito geral agrupado – misturando pacientes responsivos e não responsivos – era uma ficção estatística. Uma média “modesta” que exagerava o benefício para um grupo e implicava benefício onde nenhum existia para o outro.
Dados agregados vs individuais do paciente
O IPD permite: (1) definições consistentes de resultados, (2) análise de subgrupos por características do paciente, (3) modelagem de tempo até o evento, (4) verificação de viés ecológico. É o gold standard for exploring treatment effect modification.
One-Stage vs Two-Stage IPD
Two-Stage
Analyze each study separately, then combine estimates (like standard MA). Simple but loses information.
One-Stage
Ajustar um único modelo de efeitos mistos a todos os dados do paciente simultaneamente. Mais poderoso para interações e eventos raros.
Key: Ambos devem levar em conta o agrupamento de estudos. Nunca agrupe a DPI como se fosse um mega-ensaio — isso introduz confusão (paradoxo de Simpson).
Ecological Bias
A meta-regression using study-level mean age might show older patients benefit more. But this could be ecological bias— a associação em nível de estudo não reflete a verdade em nível de paciente. Somente o IPD pode separar within-study from between-study effects.
Quando o todo reside em suas partes
Paradoxo de Simpson: uma tendência que aparece em dados agregados se inverte quando os dados são agrupados por uma variável de confusão.
O Paradoxo na Prática
A mega-trial analysis found Treatment X beneficial overall. But dentro de cada estudo, foi prejudicial. Como? As diferenças no risco de base entre os estudos criaram uma ilusão: populações mais doentes receberam mais tratamento, inflando o benefício agregado.
Cates (2002, BMJ) mostraram que o agrupamento entre estudos sem levar em conta o agrupamento pode reverter a direção aparente do efeito.
É por isso que os modelos de estágio único de IPD incluem o estudo como uma variável de agrupamento - para evitar que a confusão entre os estudos seja mascarada como tratamento efeito.
O Legado EBCTCG
As meta-análises de IPD da EBCTCG definiram o tratamento do câncer de mama há 40 anos. A análise de 2005 do tamoxifeno versus nenhum tratamento mostrou um claro benefício em tumores ER-positivos (RR 0,59), mas nenhum benefício em tumores ER-negativos (RR 0,97).
Sem a DPI, o efeito agregado global teria sido agrupado em ambos os grupos – diluindo o benefício e potencialmente negando aos pacientes RE-positivos a magnitude do seu ganho.
Decision Tree: When Is IPD Worth Pursuing?
Você pode obter DPI em >80% dos ensaios?
Is ecological bias a concern?
A EBCTCG coletou dados de centenas de ensaios ao longo de 40 anos. A maioria das meta-análises de DPI envolve de 5 a 20 ensaios. A decisão depende da questão e não da ambição.
O padrão se repete
Lembra do Módulo 3? A TRH pareceu benéfica em estudos observacionais, mas prejudicial em ECRs. Ocorreu o mesmo mascaramento agregado: o benefício geral escondeu os danos do subgrupo.
A análise do IPD da Iniciativa de Saúde da Mulher mostrou mais tarde que timing mattered—mulheres que iniciaram TRH dentro de 10 anos após a menopausa tiveram resultados diferentes daqueles que iniciaram mais tarde. A “hipótese temporal” era invisível nos resumos agregados publicados.
A lição se repete: dados agregados podem obscurecer interações críticas entre tratamento e covariáveis. Quer se trate do status do pronto-socorro no câncer de mama ou do momento da TRH, os dados de nível individual revelam o que os resumos ocultam.
Module 15 Quiz
Q1. Qual é a principal vantagem do IPD sobre a meta-análise de dados agregados?
Module 15 Complete
“Por trás de cada estimativa agrupada estão indivíduos cujas histórias o agregado não pode contar”.
A heterogeneidade é uma mensagem, não um ruído.
Módulo 16: A Dose
A heterogeneidade é uma mensagem, não um ruído.
Módulo 16: A Dose
Módulo 16: A Dose
🎯 Learning Objectives
- Explain why simple pairwise comparisons miss dose–response relationships
- Distinguish linear, quadratic, and spline dose–response models
- Interpret restricted cubic splines with knots
- Identify threshold effects and J/U-shaped curves
- Understand model comparison with AIC/BIC
Durante décadas, o consumo moderado
parecia proteger o coração.
A "curva em forma de J" mostrou que os que não bebem apresentam maior mortalidade cardiovascular do que os que bebem moderadamente. Mas Stockwell et al. (2016) demonstraram que a curva J era um artefato para classificar erroneamente ex-bebedores (que pararam devido a doença) como “abstêmios”.
A Scientific Consensus Built on Sand
Em 2010, mais de 100 estudos observacionais confirmaram a curva J. Os livros de medicina ensinavam isso. Os cardiologistas citaram isso. Os lobistas da indústria do vinho financiaram conferências em torno do assunto.
A evidência parecia esmagadora. Mas e se o grupo de comparação – “abstêmios” – estivesse contaminado?
O desistente doente
A Hidden Confounder
The Problem
People who stop drinking often do so because they are already ill—doença hepática, interações medicamentosas, diagnóstico de câncer. Esses “ex-bebedores” foram classificados como “abstêmios” na maioria dos estudos.
The Effect: The reference group (abstainers) appeared less healthy—não porque a abstinência fosse prejudicial, mas porque pessoas doentes haviam aderido a ela.
When Stockwell et al. (2016, J Stud Alcohol Drugs) removed former drinkers and applied appropriate study-quality corrections: a curva J desapareceu. O efeito protetor era um fantasma.
Dose–Response Meta-Analysis
Standard meta-analysis asks: "Does treatment X work?" Dose–response meta-analysis asks: "At what dose o tratamento X funciona melhor?" Ele modela a relação entre o nível de dose e o resultado em vários estudos.
Restricted Cubic Splines
RCS place knots em pontos de dose pré-especificados e ajuste polinômios suaves entre eles. Normalmente 3–5 nós nos quantis da distribuição da dose. Linear além dos nós de limite. Os testes de não linearidade comparam o modelo spline com um modelo linear mais simples.
Model Comparison
AIC/BIC compara ajuste linear vs spline. Menor = melhor. Teste também o desvio da linearidade (valor p para termos spline).
Interactive: Dose–Response Builder
Compare ajustes lineares vs quadráticos vs spline. Observe como o formato do modelo muda com diferentes suposições.
A curva J do álcool desmascarada
A reanálise de Stockwell de 2016 descobriu que quando ex-bebedores eram corretamente excluídos do grupo de referência de “abstêmios”, o efeito protetor do consumo moderado desaparecia. A curva J foi impulsionada pelo viés do abandono por doença.
A meta-análise dose-resposta revelou a verdade: o formato da curva depende criticamente de como você define "dose zero". A categoria de referência errada criou um benefício fantasma.
When Curves Shape Policy
The phantom J-curve influenced alcohol guidelines worldwide:
NHS Guidance (until 2016)
“Beber moderadamente pode proteger o coração” apareceu na orientação oficial. Após a correção de Stockwell, o Reino Unido revisou os limites para 14 unidades/semana para all bebedores (anteriormente 21 para homens). Nenhuma quantidade foi declarada “segura”.
Dietary Guidelines Advisory Committee
Estudos da curva J foram citados até 2015. O comitê de 2020 recomendou reduzir os limites para 1 bebida/dia para homens, reconhecendo o viés do grupo de referência.
Australian Guidelines
Safe drinking limits were delayed by industry-funded J-curve research promoting “cardioprotective” moderate intake.
Decision Tree: Is Dose-Response Analysis Appropriate?
O relacionamento é plausivelmente não linear?
Standard pairwise meta-analysis (no dose-response possible with only two levels)
Module 16 Quiz
Q1. What makes restricted cubic splines useful in dose–response meta-analysis?
Module 16 Complete
"A dose produz o veneno. E o formato da curva revela se o veneno é real."
Ausência de evidência não é evidência de ausência.
Módulo 17: O Fragilidade
Ausência de evidência não é evidência de ausência.
Módulo 17: O Fragilidade
Módulo 17: O Fragilidade
🎯 Learning Objectives
- Calcular e interpretar o índice de fragilidade
- Use gráficos GOSH para identificar estudos e subconjuntos influentes efeitos
- Interpret contour-enhanced funnel plots
- Aplicar modelos de seleção Copas e PET-PEESE para viés de publicação
- Understand how sensitivity analyses strengthen meta-analytic conclusions
Governments stockpiled billions
com base em evidências que eles não puderam ver.
Depois do H1N1, os governos gastaram bilhões em estoques de oseltamivir (Tamiflu). A equipa Cochrane (Jefferson et al. 2014) lutou durante anos para aceder a dados não publicados. Quando finalmente o fizeram, a evidência para prevenir complicações evaporou.
O Índice de Fragilidade
O índice de fragilidade pergunta: "How many patients would need to change outcome to flip a statistically significant result to non-significant?" Ele adiciona eventos iterativamente (converte não eventos em eventos) no grupo com menos eventos até p > 0,05.
Interactive: Fragility Calculator
Enter a 2×2 table to calculate the fragility index. Watch events shift until significance flips.
GOSH Plots
Visão geral gráfica da heterogeneidade do estudo (GOSH) ajusta modelos de meta-análise a todos os subconjuntos possíveis de estudos. Cada ponto representa graficamente o efeito combinado vs I² para um subconjunto. Os clusters sugerem subgrupos distintos; nuvens atípicas sugerem um estudo que impulsiona a heterogeneidade.
Para estudos k, há 2k−1 subsets. For k > 15, random sampling is used.
Contour-Enhanced Funnel Plots
Standard funnel plots show effect size vs standard error. Contour-enhanced versões que adicionam regiões sombreadas para p < 0,01, p < 0,05 e p < 0,10. Se os estudos faltantes caírem em regiões não significativas, é provável que haja viés de publicação. Se caírem em regiões significativas, outras causas (por exemplo, qualidade do estudo) podem explicar a assimetria.
Copas Selection & PET-PEESE
Copas Selection Model
Modela a probabilidade de um estudo ser publicado em função de seu SE e tamanho do efeito. Estima conjuntamente o verdadeiro efeito e o mecanismo de seleção.
PET-PEESE
Precision-Effect Test (PET): regress effects on SE. If intercept = 0, no true effect. PEESE uses SE² for better performance when a true effect exists.
A Saga Oseltamivir
A meta-análise original financiada pela Roche (Kaiser 2003) mostrou que o oseltamivir reduziu as complicações da gripe em 67%. Mas 8 dos 10 ensaios nunca foram publicados. Depois que a Cochrane obteve os relatórios dos estudos clínicos, o benefício em termos de complicações caiu para 11%, não significativos.
A fragilidade não era apenas estatística – era informativa. A própria base de evidências estava faltando a maioria dos dados.
Árvore de decisão: interpretando seus resultados de fragilidade
Highly fragile. Um punhado de eventos diferentes reverteria a conclusão. Interprete com extrema cautela.
Moderately fragile. Sensível a pequenas perturbações. Existem ensaios não publicados que possam mudar isso?
Relatively robust. But remember: fragility is only one dimension. Publication bias can undermine even robust results.
Walsh et al. (2014, J Clin Epidemiol) descobriram que em 399 ensaios clínicos randomizados publicados nas principais revistas, o índice de fragilidade mediano era de apenas 8. Mais de 25% tinham FI ≤ 3. Os ensaios de referência que influenciavam a prática clínica estavam muitas vezes pendurados por um fio estatístico.
Beyond the Index: Structural Fragility
A saga do oseltamivir revelada three types of fragility—e o Índice de Fragilidade capta apenas o primeiro.
Statistical Fragility (FI)
Quantos eventos invertem o valor p? Isto é o que mede o Índice de Fragilidade. Ele quantifica a sensibilidade aos resultados individuais do paciente.
Informational Fragility
Quanto da evidência está oculta? Oito dos dez ensaios da Roche com oseltamivir não foram publicados. A base de evidências estava estruturalmente incompleta.
Analytical Fragility
Quantos graus de liberdade do pesquisador poderiam mudar a conclusão? Diferentes definições de resultados, populações de análise ou métodos estatísticos.
Retorno de chamada para Módulo 10 (Paroxetina): A reanálise com diferentes definições de resultados reverteu totalmente a conclusão. Isso foi uma fragilidade analítica – o IF nunca foi calculado porque o próprio ponto final era contestado. Uma avaliação completa da robustez examina todas as três dimensões.
Module 17 Quiz
Q1. Um ensaio tem 200 pacientes por braço, 12 eventos em tratamento, 25 em controle (p=0,03). O índice de fragilidade é 3. O que isso significa?
Module 17 Complete
“O número que sobrevive a cada tentativa de quebrá-lo é o número em que vale a pena confiar.”
Nem todo sinal é verdade.
Módulo 18: O Patrimônio Líquido
Certainty must be earned, not assumed.
Módulo 18: O Patrimônio Líquido
Módulo 18: O Patrimônio Líquido
🎯 Learning Objectives
- Identify how trial exclusion criteria create evidence gaps
- Aplicar a estrutura PROGRESS-Plus para avaliar a equidade em evidência
- Use PRISMA-Equity reporting guidelines
- Understand transportability: when trial findings fail in practice
- Design equity-sensitive search and synthesis strategies
SPRINT proved tight blood pressure control
saves lives. But whose lives?
O estudo histórico SPRINT excluiu pacientes com diabetes, acidente vascular cerebral prévio e insuficiência cardíaca. Mais de 75% dos pacientes hipertensos dos EUA não teriam se qualificado. A evidência era forte, mas a aplicabilidade era limitada.
O ensaio que excluiu a maioria de seus pacientes
O SPRINT inscreveu 9.361 pacientes e provou que o controle intensivo da pressão arterial (alvo <120 mmHg) reduziu os eventos cardiovasculares em 25% (HR 0,75, IC 95% 0,64–0,89). Mas os critérios de inclusão contaram uma história diferente.
Quem foi excluído:
- Diabetes — 35% dos adultos norte-americanos com hipertensão
- Prior stroke — 8% da população hipertensa
- Symptomatic heart failure — 6% of hypertensive adults
- Expected survival <3 years - os pacientes mais frágeis
- Nursing home residents — excluded entirely
- GFR <20 mL/min — advanced kidney disease
Resultado: Mais de 75% dos adultos norte-americanos com hipertensão NÃO se qualificariam. A evidência era forte. Mas para quem?
De onde vêm as evidências
78%
of cardiovascular mega-trial participants came from high-income countries (2000–2020).
6%
from sub-Saharan Africa — where cardiovascular disease is rising fastest.
Ensaios Polypill: 4 de 5 foram realizados em populações com IMC médio <25. O IMC médio dos EUA é 30. O metabolismo dos medicamentos, os padrões de comorbilidade, o acesso aos cuidados de saúde e a variação genética diferem entre as populações. Efficacy in one population does not guarantee effectiveness in another.
Referência: Ensaios multinacionais e a lacuna PROGRESS-Plus
PROGRESS-Plus Framework
Plus: Age, disability, sexual orientation, other vulnerable groups.
PRISMA-Equity & Transportability
PRISMA-Equity estende o PRISMA para exigir relatórios sobre como a equidade foi abordada na revisão: características da população, análises de subgrupos por desvantagem e avaliação da aplicabilidade a populações mal servidas.
Transportability: A eficácia do ensaio não é igual à eficácia no mundo real. Existem métodos para reponderar os dados dos ensaios para corresponder à distribuição da população-alvo.
From Trial to Real World: Transportability
Transportability = Os resultados da população experimental X podem ser aplicados à população-alvo Y? Esta não é uma questão filosófica – ela tem métodos formais.
Inverse Probability of Participation Weighting (IPPW)
Re-weights trial participants so they resemble the target population on key covariates.
Generalizability Index
Quantifica o quão semelhante a amostra do ensaio é à população-alvo nas características observadas.
Stuart et al. (2015, Stat Med): Quando os resultados do SPRINT foram reponderados para corresponder à população hipertensa dos EUA, o benefício estimado foi atenuado – HR 0,82 (vs 0,75 no ensaio). O tratamento ainda funciona. Mas a magnitude muda quando a população muda.
SPRINT e a maioria ausente
O SPRINT foi um ensaio bem desenhado com 9.361 pacientes. Seu resultado (HR 0,75 para controle intensivo versus controle padrão da PA) mudou as diretrizes em todo o mundo. Mas análises subsequentes mostraram que o benefício foi mais forte no subgrupo mais parecido com a população do ensaio – e incerto para os grupos excluídos.
Equidade na síntese de evidências significa perguntar não apenas “Funciona?” mas "Para quem isso funciona?"
Árvore de decisão: avaliação de patrimônio para sua revisão
ROOT: As evidências da sua revisão vêm de populações semelhantes ao seu alvo?
YES → Good. But check: Are subgroups (age, sex, ethnicity, SES) reported separately?
- Yes: Use subgroup effects for population-specific recommendations
- No: Flag as limitation — equity gap in reporting
NO → Does PROGRESS-Plus analysis reveal differential effects?
- Yes: Population-specific recommendations needed. Consider transportability re-weighting.
- No: Cautious generalization with explicit equity statement in discussion
Callback: The HRT Lesson Revisited
Lembra do Módulo 3? A história da HRT mostrou que healthy-user bias fez um tratamento prejudicial parecer benéfico. SPRINT pode ter o problema oposto – o efeito “voluntário saudável” pode fazer aparecer um tratamento eficaz more effective than it would be in the real world.
Toda meta-análise deveria perguntar: quem foi incluído? Quem foi excluído? E isso importa?
Module 18 Quiz
Q1. What does the PROGRESS-Plus framework help reviewers assess?
Module 18 Complete
“As evidências que excluem os vulneráveis não podem pretender servi-los”.
Nem todo sinal é verdade.
Módulo 19: A Máquina
O número sem proveniência não é um número.
Módulo 19: A Máquina
Módulo 19: A Máquina
🎯 Learning Objectives
- Describe how AI/ML is used in systematic review screening
- Explain active learning and human-in-the-loop workflows
- Assess automation validation: recall, workload savings, and risk
- Reconheça as limitações e preconceitos da triagem algorítmica
- Aplicar estruturas para uso responsável de IA na síntese de evidências
When COVID-19 hit,
papers arrived faster than humans could read.
Em 2021, existiam mais de 300.000 documentos COVID. A Cochrane usou classificadores de aprendizado de máquina para fazer a triagem de estudos para suas revisões rápidas, reduzindo a carga de trabalho de triagem em até 70% e mantendo >95% de recall.
The Flood
By April 2020, 4,000 COVID preprints appeared every week.
PubMed indexed 500 new COVID articles per day.
Cochrane's screening queue hit 10,000 unreviewed titles.
A pair of reviewers screens ~200 titles per day.
At 500 new articles/day, they fell further behind with every hour.
A revisão viva estava morrendo antes que pudesse viver.
As primeiras tentativas
A ideia não era nova. Cohen et al. (2006, JAMIA) mostraram pela primeira vez que a aprendizagem automática poderia reduzir a carga de trabalho de triagem em 50% – com menos de 5% de perda de recordação.
Mas a simulação não é realidade. COVID seria o primeiro teste verdadeiro em escala.
AI in Systematic Reviews
Screening Prioritization
Active learning ranks citations by relevance. Reviewers screen the most likely relevant first.
Assistência de extração de dados
A PNL extrai elementos, resultados e resultados do PICO. Sempre requer verificação humana.
Risk of Bias Assessment
ML classifiers predict RoB domains. Experimental—human judgment remains gold standard.
Validating Automation
A tensão fundamental: A automação economiza tempo, mas introduz uma nova fonte de erros. Sempre informe a ferramenta, a versão, os dados de treinamento e os critérios de parada.
Para saber se a máquina perdeu um estudo relevante, you need a human to screen everything.
But if humans screen everything, por que usar a máquina?
The solution: prospective holdout validation.
- Random 10% sample screened by both human and machine
- Compare: a máquina perdeu o que o humano encontrou?
- If recall drops below 95%, retrain and expand human screening
Confie, mas verifique. A máquina merece o seu papel – não o herda.
Cochrane's COVID Response
A Cochrane construiu o COVID-19 Study Register usando classificadores de aprendizado de máquina treinados em milhões de registros. O sistema alcançou 99% de sensibilidade e reduziu a triagem manual de semanas para dias.
Mas a máquina era uma ferramenta, não um substituto. Todos os estudos incluídos ainda foram verificados por revisores humanos. A lição: a IA amplia o revisor, não o substitui.
O estudo que quase não foi encontrado
Em junho de 2020, o estudo RECOVERY publicou seus resultados de dexametasona—the first treatment proven to reduce COVID mortality (28-day mortality: 22.9% vs 25.7%, RR 0.83).
A pré-impressão apareceu no medRxiv com um título fora do padrão. Cenários como este ocorreram repetidamente durante a pandemia: classificadores de ML, treinados na terminologia existente, classificaram enquadramentos desconhecidos como baixos.
Em várias revisões vivas, os revisores humanos que examinaram os títulos sinalizados reconheceram os principais nomes dos medicamentos e escalaram os estudos que os classificadores haviam desvalorizado.
Sem esses humanos, as descobertas marcantes do tratamento poderiam ter esperado semanas para entrar na revisão em tempo real.
A máquina lê mais rápido. O humano lê mais profundamente. Nenhum dos dois é suficiente por si só.
Decision Tree: When Should You Use AI?
Active learning prioritization. Dual-screen random 10% holdout. Stop when 3 consecutive batches yield 0 relevant studies.
Report: classifier type, training data, recall on holdout, stopping rule.
For <5,000 titles, dual human screening remains gold standard. AI adds complexity without proportionate benefit.
If yes → AI is especially valuable. Continuous classifier retraining on new evidence. But: nunca deixe a máquina tomar a decisão final de inclusão.
O padrão se repete
Lembra do Módulo 6? Poldermans fabricou dados do DECREASE que orientaram as diretrizes perioperatórias de betabloqueadores por uma década.
AI can now detect statistical anomalies automatically:
- GRIM test: As médias relatadas são consistentes com tamanhos de amostra inteiros?
- SPRITE: As estatísticas resumidas relatadas podem ser reconstruídas a partir de dados individuais plausíveis?
- Statcheck: Do reported p-values match the test statistics?
Essas ferramentas encontraram anomalias em hundreds of published papers—faster than any human auditor.
Mas a máquina sinaliza. Os juízes humanos. A decisão de retratar-se permanece profundamente humana.
Module 19 Quiz
Q1. Qual é o recall mínimo aceitável para triagem assistida por IA em revisões sistemáticas?
Module 19 Complete
"A máquina lê mais rápido. O humano lê mais profundamente. Juntos, eles leem a verdade."
Nem todo sinal é verdade.
Módulo 20: O Qualitativo
Os métodos protegem os pacientes de nossa confiança.
Módulo 20: O Qualitativo
Módulo 20: O Qualitativo
🎯 Learning Objectives
- Explain why some questions require qualitative evidence synthesis
- Describe meta-ethnography (Noblit & Hare) and thematic synthesis
- Apply the CERQual framework to assess confidence in qualitative findings
- Understand mixed-methods synthesis approaches
- Recognize when qualitative evidence changes practice
A OMS fez uma pergunta
nenhum RCT poderia responder.
Por que as mulheres em todo o mundo sofrem desrespeito e abuso durante o parto? Bohren et al. (2015) sintetizaram 65 estudos qualitativos de 34 países num quadro de sete domínios de maus-tratos.
Uma questão além da randomização
Em 2014, a OMS convocou um painel para abordar uma crise global: as mulheres eram vítimas de abusos físicos, humilhações verbais e eram-lhes negados cuidados durante o parto. Este não foi um evento raro – relatos vieram de 34 countries.
They needed to understand WHY. What drives disrespect and abuse in maternity care?
Nenhum RCT poderia responder a isso. Você não pode randomizar mulheres para cuidados abusivos ou respeitosos. Você não pode cegar parteiras. Você não pode medir “dignidade” em uma escala Likert. A evidência tinha que ser qualitativa.
Meta-Ethnography
Developed by Noblit & Hare (1988), meta-ethnography translates conceitos entre estudos, em vez de agregar números. Produz novas estruturas interpretativas (construções de terceira ordem) a partir de dados de primeira ordem (citações dos participantes) e de segunda ordem (interpretações dos autores).
argument
What Bohren Found: A Taxonomy of Mistreatment
Hitting, pinching, slapping during labor
Inappropriate touching, non-consensual procedures
Shouting, threats, judgmental comments
Based on HIV status, ethnicity, age, poverty
Neglect, lack of informed consent
Poor communication, dismissiveness
Overcrowding, understaffing, lack of supplies
65 estudos. 34 países. Os mesmos padrões repetidos em línguas, culturas e sistemas. Isto não foi uma anedota. Esta foi uma evidência sintetizada.
CERQual: Confiança em Evidências Qualitativas
CERQual assesses confidence in qualitative review findings across four components:
Methodological Limitations
Qualidade dos estudos contribuintes.
Coherence
Quão bem os dados apoiam a descoberta.
Adequacy
Riqueza de dados (não apenas número de estudos).
Relevance
Aplicabilidade ao contexto da questão de revisão.
When Qualitative Evidence Changes Practice
Bohren's synthesis informed the WHO's 2018 Recommendations on Intrapartum Care for a Positive Childbirth Experience. Specific changes grounded in qualitative evidence:
Estas recomendações – baseadas em evidências qualitativas – orientam agora os cuidados de maternidade em 194 estados membros da OMS. Nenhum lote florestal poderia tê-los produzido. Nenhuma estatística I² poderia tê-los revelado.
Bohren's Framework of Mistreatment
A síntese qualitativa de 2015 identificou sete domínios: abuso físico, abuso sexual, abuso verbal, estigma e discriminação, incumprimento dos padrões profissionais, má relação e condições do sistema de saúde. Esta estrutura informou as recomendações da OMS sobre cuidados intraparto (2018).
Nenhum valor p poderia capturar a experiência de levar um tapa durante o trabalho de parto. A síntese qualitativa deu voz ao que os números não conseguiram.
Decision Tree: When Is Qualitative Synthesis Appropriate?
ROOT: Sua questão de pesquisa é sobre experiências, percepções, barreiras ou facilitadores?
YES → Sua pergunta é sobre COMO ou POR QUE, e não apenas sobre QUEM?
- Yes: Qualitative evidence synthesis (meta-ethnography, thematic synthesis, or framework synthesis)
- No: Considere métodos mistos: quantitativo para efeito + qualitativo para mecanismo
NO → Sua pergunta é sobre eficácia/eficácia?
- Yes: Quantitative meta-analysis
- But: Complemente com revisão qualitativa das barreiras de implementação (avaliado pelo CERQual)
Key insight: As revisões sistemáticas mais fortes respondem AMBOS: Funciona? (quantitativo) E Por que funciona ou falha? (qualitativo)
Module 20 Quiz
Q1. What distinguishes meta-ethnography from quantitative meta-analysis?
Module 20 Complete
"Nem tudo que conta pode ser contado. Nem tudo que é contado conta."
A heterogeneidade é uma mensagem, não um ruído.
Módulo 21: O Multivariado
A heterogeneidade é uma mensagem, não um ruído.
Módulo 21: O Multivariado
Módulo 21: O Multivariado
🎯 Learning Objectives
- Reconhecer quando os resultados de um estudo estão correlacionados
- Explain multivariate random-effects models
- Apply robust variance estimation (RVE) for dependent effect sizes
- Entender modelos de três níveis para aninhados dados
- Choose between multivariate approaches based on data structure
Cardiovascular trials report
mortalidade, infarto do miocárdio, acidente vascular cerebral e muito mais.
Esses resultados estão correlacionados dentro dos pacientes. Um paciente que morre não pode ter um desfecho de IM. A meta-análise padrão trata cada resultado de forma independente, ignorando a dependência e potencialmente contando duas vezes as evidências.
A suposição que ninguém questiona
Abra qualquer livro de meta-análise padrão. Os modelos assumem que cada estudo contribui one independent effect size. But reality is different.
Um único ensaio cardiovascular relata mortalidade, infarto do miocárdio, acidente vascular cerebral e revascularização. Um único estudo de psicoterapia relata depressão, ansiedade e qualidade de vida aos 3, 6 e 12 meses.
Most analysts either: (a) treat all 120 as independent (inflating precision by a factor of √4), or (b) escolha um resultado e descarte o resto. Ambas as abordagens estão erradas.
O problema da dependência
In standard pairwise meta-analysis, each study contributes one effect size. But many studies report multiple outcomes, subgroups, timepoints, or arms—creating dependent tamanhos dos efeitos. Ignorar isso aumenta a precisão e distorce a inferência.
Robust Variance Estimation
RVE (Hedges, Tipton & Johnson, 2010) uses a sandwich-type estimador que fornece erros padrão válidos, independentemente da verdadeira correlação entre os efeitos dependentes. Não há necessidade de saber ou estimar a correlação dentro do estudo. Melhor para ≥20 estudos.
Small-sample correction: Tipton & Pustejovsky (2015) desenvolveram correções de amostras pequenas (CR2) para RVE, usando graus de liberdade de Satterthwaite quando o número de clusters é pequeno.
What Dependence Does to Your Confidence Intervals
Se 4 os resultados do mesmo estudo têm correlação dentro do estudo ρ = 0,5:
Treating as independent
CI width = X
Contabilização da dependência
CI width = 1.58X
Seu intervalo de confiança deve ser 58% wider. Cada meta-análise que ignorou isso publicou resultados falsamente precisos.
RVE (Hedges, Tipton & Johnson, 2010): Uses a “sandwich” variance estimator that produces correct standard errors without needing to know the exact within-study correlation.
Three-Level Models: Making Structure Explicit
Level 1: Sampling Variance
Measurement error within each effect size estimate.
Level 2: Within-Study Variance
Os resultados e os pontos de tempo variam dentro de um único estudo.
Level 3: Between-Study Variance
Os estudos diferem uns dos outros em populações, ambientes e métodos.
Example: Em uma meta-análise de psicoterapia para depressão (k = 50 estudos, 180 efeitos tamanhos), 35% de variância foi dentro do estudo (diferentes resultados) e 65% foi entre estudos (diferentes terapias, populações). Esta decomposição revela quanta heterogeneidade é within vs between studies.
Three-Level Models: Formal Framework
Quando os efeitos são aninhados (por exemplo, resultados múltiplos dentro de estudos ou estudos dentro de grupos de pesquisa), um three-level model divide a variância em: (1) variância amostral (nível 1), (2) variância dentro do estudo (nível 2) e (3) variância entre estudos (nível 3). Isso mantém a inferência correta enquanto empresta força entre os níveis.
O Desafio Cardiovascular
Uma meta-análise de estatinas pode incluir 30 ensaios, cada um relatando mortalidade, infarto do miocárdio, acidente vascular cerebral e revascularização. São 120 tamanhos de efeito de 30 clusters. Tratá-los como 120 estimativas independentes aumenta a precisão por um fator relacionado à correlação dentro do estudo.
RVE or multivariate models handle this correctly—producing wider, honest confidence intervals.
Decision Tree: Which Approach for Dependent Effect Sizes?
ROOT: Sua meta-análise tem múltiplos efeitos por estudo?
YES → Você conhece (ou pode estimar) as correlações dentro do estudo?
- Yes: Multivariate random-effects model (most efficient)
- No: RVE with small-sample correction (robust to unknown correlations)
NO → Standard univariate random-effects model
Sub-question: Seus múltiplos efeitos são de resultados diferentes, pontos de tempo ou subgrupos?
- Different outcomes → Three-level model or RVE with clustering
- Different timepoints → Network of timepoints with temporal correlation
- Different subgroups → Consider if subgroups are meaningful or should be averaged
Module 21 Quiz
Q1. What problem does Robust Variance Estimation (RVE) solve?
Module 21 Complete
"Quando os resultados estão emaranhados, fingir que são independentes é uma mentira de conveniência."
O número sem proveniência não é um número.
Módulo 22: O Prova
O número sem proveniência não é um número.
Módulo 22: O Prova
Módulo 22: O Prova
🎯 Learning Objectives
- Understand how computational errors propagate through policy
- Definir reprodutibilidade e distinguir da replicabilidade
- Aplicar hashing de evidências e transporte de provas números
- Use reproducibility checklists for meta-analysis
- Reconhecer o papel do pré-registro e dos dados abertos
A graduate student opened a spreadsheet
e descobriu que a era de austeridade foi construída sobre um erro.
Em 2010, Reinhart e Rogoff alegaram que países com índices de dívida em relação ao PIB >90% tiveram crescimento negativo. Isto influenciou as políticas de austeridade em toda a Europa. Em 2013, Thomas Herndon encontrou um erro no Excel que excluía 5 países da média. O resultado corrigido: crescimento positivo modesto, não colapso.
Reproducibility vs Replicability
Reproducibility is the minimum standard. Se outros não conseguirem reproduzir a sua estimativa agrupada a partir dos dados reportados, a análise não poderá ser verificada. As meta-análises devem compartilhar: dados extraídos, scripts de análise, versões de software e sementes aleatórias.
Proof-Carrying Numbers
Every number in a meta-analysis should carry its provenance: de onde veio, como foi transformado e qual código o produziu. Evidence hashing creates a cryptographic fingerprint of inputs so any change (accidental or deliberate) is detectable.
Input Hash
Hash SHA-256 de dados extraídos. Se uma célula mudar, o hash muda. Cadeia de proveniência: dados → código → resultado → hash.
Interactive: Reproducibility Checklist
Marque cada item para avaliar a reprodutibilidade de uma meta-análise. Qual é a pontuação da sua revisão?
O erro do Excel que mudou as economias
O "Crescimento em tempos de dívida" de Reinhart-Rogoff foi citado em depoimentos no Congresso, em relatórios da Comissão Europeia e em resumos de políticas do FMI. O erro do Excel (as linhas 30 a 34 foram excluídas de uma fórmula MÉDIA) significava que cinco países — Austrália, Áustria, Bélgica, Canadá e Dinamarca — simplesmente estavam faltando.
A média corrigida passou de -0,1% para +2,2%. As políticas de austeridade afectaram milhões de pessoas. Reprodutibilidade não é perfeccionismo acadêmico – é uma salvaguarda contra catástrofes.
Remember Module 5?
DECREASE Through the Lens of Reproducibility
Os ensaios DECREASE de Don Poldermans foram retirados devido a dados fabricados. Se existissem números de prova - entradas hash, cadeias de proveniência, cálculos verificados - a fabricação teria sido detectável before a evidência entrou em meta-análises e mudou as diretrizes cirúrgicas.
Module 22 Quiz
Q1. Qual foi o erro Reinhart-Rogoff?
Module 22 Complete
"O número sem proveniência não é um número. A análise sem reprodutibilidade não é evidência."
Certainty must be earned, not assumed.
Módulo 23: Seu primeiro meta-sprint
Certainty must be earned, not assumed.
Módulo 23: Seu primeiro meta-sprint
Módulo 23: Seu primeiro meta-sprint
🎯 Learning Objectives
- Entenda o fluxo de trabalho de revisão sistemática de 40 dias
- Map the Seven Principles to real practice phases
- Recognize Definition-of-Done (DoD) gates as quality checkpoints
- Appreciate why structure prevents the failures you've studied
- Graduate ready to conduct (not just understand) meta-analysis
Você aprendeu as histórias.
Agora você deve trilhar o caminho.
Todas as inversões de evidências que você estudou aconteceram porque as equipes knew os métodos, mas não follow them systematically.
A Estrutura META-SPRINT
Um fluxo de trabalho estruturado de 40 dias com portões de 5 fases. Cada portão é um ponto de verificação de Definição de Pronto (DoD) que impede você de avançar até que a qualidade seja garantida.
Why 40 days? Longo o suficiente para o rigor, curto o suficiente para evitar o deslocamento do escopo. Os sinais cardíacos da rosiglitazona ficaram ocultos durante anos porque não havia prazo que obrigasse à transparência.
Os Portões das Cinco Fases
DoD-A: Protocol Lock (Days 1-3)
PICOS defined, timepoint rules set, model choices pre-specified. No moving target.
DoD-B: Search Lock (Days 6-10)
All databases searched, grey literature checked, PRESS validated. No hidden studies.
DoD-C: Extraction Lock (Days 10-28)
Dual extraction, provenance linked, RoB assessed. No fabricated numbers.
The Five Phase Gates (continued)
DoD-D: bloqueio de análise (dias 21 a 33)
Forest plots generated, sensitivity analyses run, heterogeneity explored. No cherry-picking.
DoD-E: Submission Lock (Days 33-40)
GRADE certainty rated, clinical summary written, manuscript finalized. No overconfidence.
Day 34 Freeze: Nenhum novo estudo pode ser adicionado após o dia 34. Isso evita o “desvio de escopo armado” que atormentou as meta-análises de cirurgia de coluna BMP, onde a indústria continuou “encontrando” estudos favoráveis.
Os Sete Princípios na Prática
Every principle you learned maps to a specific phase gate:
O Princípio da Equipe Vermelha
Sua própria equipe tenta interromper seu trabalho.
Todos os dias, dois membros rotativos da equipe passam 12 minutos verificando a qualidade dos dados como adversários. Foi assim que a fraude de Boldt foi detectada – não através de uma análise amigável, mas através de uma verificação céptica que detectou taxas de recrutamento impossíveis.
CondGO: When Things Go Wrong
What happens when you discover a critical problem mid-sprint?
CondGO = Conditional Go
A bounded rescue protocol. You have exactly 72 hours para corrigir o problema usando apenas ações permitidas. Se você não conseguir consertar, deverá interromper a revisão.
📖 A lição de Avandia: A GSK detectou sinais cardiovasculares em 2000, mas não tinha um prazo obrigatório. Eles “observaram e esperaram” por 7 anos. Dezenas de milhares foram prejudicados. O CondGO existe porque “nós lidaremos com isso eventualmente” mata pessoas.
Você começou este curso com histórias.
Você termina pronto para praticar.
O fluxo de trabalho META-SPRINT pega tudo o que você aprendeu e estrutura em um sistema de 40 dias que evita as falhas que você estudou.
Quando estiver pronto para realizar uma revisão sistemática real, abra o aplicativo META-SPRINT. As histórias que você aprendeu aqui irão guiá-lo, aparecendo como lembretes a cada passo.
What does it look like when every principle is followed?
REAL DATA
A Colaboração dos Trialistas de Tratamento do Colesterol (CTT) é o padrão ouro da meta-análise. Eles obtiveram dados individuais de pacientes de mais de 170.000 participantes across 26 statin trials. Pre-specified protocol. IPD from all major trials. Standardized outcomes. Result: statins reduce major vascular events by 21% per mmol/L LDL reduction (RR 0.79, 95% CI 0.77-0.81), regardless of baseline risk. This finding, replicated across 5 meta-análises ao longo de 15 anos, has prevented an estimated millions of heart attacks and strokes worldwide.
Capstone Quiz
1. Qual é o propósito do "congelamento total" do Dia 34 no META-SPRINT?
2. The CondGO protocol gives teams how long to fix critical problems?
3. Red-team adversarial QA caught Joachim Boldt's fraud by noticing:
As histórias que você aprendeu não são história.
Eles são avisos que protegem seu trabalho futuro.
Quando você conduzir sua primeira meta-análise,
remember CAST before you trust a signal,
remember Poldermans before you skip provenance,
lembre-se da Reboxetina antes de ignorar o funil.
Agora você está pronto. Vá com estrutura. Vá com humildade. Vá com os Sete Princípios.
Nem todo sinal é verdade.
Módulo 24: Exame Final
Certainty must be earned, not assumed.
Final Examination
Final Exam: Part 1 of 2
Teste seu domínio dos princípios da meta-análise. Cada pergunta aborda um conceito central do curso.
Q1. Um pesquisador deseja estudar "os efeitos do exercício na saúde". Qual é o problema PRIMÁRIO com esta questão de pesquisa?
Q2. Um gráfico de funil mostra assimetria pronunciada com estudos faltantes na região inferior esquerda. O que isso sugere?
Q3. Uma meta-análise relata I² = 85% e τ² = 0,42. Qual é a interpretação MAIS apropriada?
Q4. No GRADE, qual é a certeza inicial para um conjunto de evidências de ensaios clínicos randomizados?
Q5. In RoB 2.0, which domain assesses whether outcome assessors knew the treatment allocation?
Final Exam: Part 2 of 2
Q6. O ensaio CAST mostrou que os medicamentos antiarrítmicos aumentaram a mortalidade apesar de suprimirem arritmias. Este é um exemplo de:
Q7. When should a random-effects model be preferred over a fixed-effect model?
Q8. According to ICEMAN criteria, which makes a subgroup analysis MORE credible?
Q9. What assumption must be checked in network meta-analysis to ensure valid indirect comparisons?
Q10. Na Análise Sequencial de Teste (TSA), o que indica cruzar o limite da futilidade?
Part 1 Complete — continue to Part 2 (Advanced Modules)
Final Exam: Part 2 of 2 (Advanced)
Questions 11–25 cover Modules 13–22 (Bayesian, NMA, IPD, Dose-Response, Fragility, Equity, AI, Qualitative, Multivariate, Reproducibility).
Q11. Na meta-análise bayesiana, o que acontece quando você usa um anterior vago em muitos estudos?
Q12. No antidepressivo NMA de Cipriani, por que nenhum medicamento foi declarado "o vencedor"?
Q13. Por que você nunca deve agrupar IPD como se fosse de um mega-ensaio?
Q14. What caused the alcohol "J-curve" to disappear in Stockwell's reanalysis?
Q15. Na saga do oseltamivir, o que Cochrane descobriu ao acessar relatórios de estudos clínicos não publicados?
Q16. Qual porcentagem de pacientes hipertensos dos EUA NÃO se qualificaria para o estudo SPRINT?
Q17. Why is AI considered an "augmenter" rather than a "replacer" in systematic reviews?
Q18. What does the "adequacy" component of CERQual assess?
Q19. A meta-analysis includes 30 statin trials, each reporting 4 correlated outcomes (120 effect sizes). Which approach is correct?
Q20. No erro Reinhart-Rogoff, qual foi a taxa de crescimento média corrigida para dívida alta países?
Passing Score: 15/20 across both parts
Revise quaisquer perguntas perdidas retornando ao módulo relevante. Cada pergunta testa um conceito central.
Nem todo sinal é verdade.
Os métodos protegem os pacientes de nossa confiança.
Congratulations
Você concluiu Reversão de evidências: um curso de meta-análise.
Que sua síntese seja guiada pela verdade, seu agrupamento pela sabedoria,
e suas conclusões pela humildade.
Os Sete Princípios:
"Nem todo sinal é verdade."
"Os métodos protegem os pacientes de nossa confiança."
"What was hidden in plain sight?"
"O número sem procedência não é um número."
"Heterogeneidade é uma mensagem, não ruído."
"Ausência de evidência não é evidência de ausência."
"Certainty must be earned, not assumed."
"Guie-nos para o caminho reto..."