Módulo 0: O Abertura

Nem todo sinal é verdade.

🎯 Learning Objectives

  • Definir meta-análise e explicar seu papel na síntese de evidências
  • Identificar quando os estudos NÃO devem ser agrupados
  • Descrever a hierarquia de evidências e onde as revisões sistemáticas sit
  • Recognize that meta-analysis can mislead when done poorly
  • Lembre-se dos Sete Princípios que ancoram este curso

Este curso existe porque

a medicina estava errada.

Nem uma vez. Não raramente. Repetidamente. De uma forma que matou pacientes que confiavam que as evidências eram sólidas.

Um método estatístico para combinar resultados de vários estudos independentes que abordam a mesma questão.

1976
Term coined by Gene Glass
~50,000
Published per year
#1
Evidence hierarchy*

*When well conducted. Quality of conduct matters more than study design alone — as GRADE recognizes.

1

Increase Statistical Power

Individual studies may be too small to detect effects.

2

Improve Precision

Narrower confidence intervals around effect estimates.

3

Resolve Disagreement

Quando os estudos entram em conflito, o agrupamento pode esclarecer o sinal.

4

Explore Heterogeneity

Identify why effects differ across populations or settings.

But meta-analysis can also

MISLEAD

When done poorly, it amplifies bias rather than truth.

1

Os estudos medem coisas fundamentalmente diferentes (maçãs e laranjas)

2

Extreme heterogeneity that cannot be explained

3

One study dominates all others (megastudy problem)

4

Os estudos apresentam alto risco de viés que não pode ser ajustado para

O agrupamento é um privilégio, não um direito.

The decision to combine must be defended.

Systematic Reviews & Meta-Analyses of RCTs

Randomized Controlled Trials

Cohort Studies

Case-Control Studies

Case Series / Expert Opinion

A posição na hierarquia depende da qualidade da metodologia, não do tipo de estudo sozinho.

Este curso ensina através de

evidence reversals.

Cada módulo abre com uma história de como a medicina errou. Então aprendemos o método que teria evitado o dano.

Essas frases retornarão ao longo de sua jornada:

1. "Nem todo sinal é verdade."

2. "Os métodos protegem os pacientes de nossa confiança."

3. "What was hidden in plain sight?"

4. "O número sem procedência não é um número."

5. "Heterogeneidade é uma mensagem, não ruído."

6. "Ausência de evidência não é evidência de ausência."

7. "Certainty must be earned, not assumed."

1. Por que às vezes você NÃO deve agrupar estudos em uma meta-análise?

A. Pooling is always better than single studies
B. When heterogeneity is extreme or studies measure different things
C. Pooling is always appropriate for RCTs
D. Statistical methods handle any situation

2. Onde estão as revisões sistemáticas de ECRs na hierarquia de evidências?

A. At the top
B. Same level as individual RCTs
C. Abaixo dos estudos de coorte
D. Same as expert opinion

Comece a jornada.

Módulo 1: A questão

Módulo 1: A questão (CAST)

Nem todo sinal é verdade.

Esta não é uma história sobre erro.

É uma história sobre certeza.

🎯 Learning Objectives

  • Formule uma pergunta PICO focada para uma revisão sistemática
  • Distinguish surrogate outcomes from patient-important outcomes
  • Explain why biological plausibility alone is insufficient evidence
  • Descreva o ensaio CAST e suas implicações para a análise baseada em evidências. medicina
  • Aplique o princípio: "Nem todo sinal brilhante é orientação"

excess deaths per year

From a treatment everyone believed worked.

Esta é a história de como acreditamos - e como estávamos errados.

Patients with frequent PVCs after MI had 2-5x higher mortality.

400,000+
MI survivors/year
~40%
com PVCs significativos
160,000
at elevated risk

A massive clinical need. A clear target.

Antiarrhythmic drugs were developed, FDA approved,
and prescribed to ~200,000 patients per year.

Nenhum vilão aparece neste história.

Todos agiram com base nas melhores evidências disponíveis.

PREMISE 1

PVCs after MI predict sudden cardiac death

PREMISE 2

Antiarrhythmic drugs suppress PVCs

PREMISE 3

Suppressing PVCs should prevent sudden death

A cadeia era lógica. A conclusão parecia inevitável.

Finally, someone asked: "Does suppressing PVCs actually save lives?"

Design
Randomized, double-blind, placebo-controlled
Population
Post-MI patients with asymptomatic PVCs
Intervention
Encainide, flecainide, or moricizine vs placebo
Run-in
Only patients with ≥80% PVC suppression randomized
Primary endpoint
Death or cardiac arrest with resuscitation
Sample size
1,498 patients (encainide/flecainide arms)

O Conselho de Monitoramento de Segurança de Dados interrompe o ensaio mais cedo.

Outcome Drug (n=755) Placebo (n=743)
Arrhythmic deaths 33 9
All cardiac deaths 43 16
Total deaths 56 22
Death rate 7.4% 3.0%
Relative Risk of Death: 2.5
95% CI: 1.6 - 4.5 | p < 0.001

Os medicamentos que suprimiam perfeitamente as arritmias aumentaram a mortalidade em 150%.

O Humano Custo

Before CAST, ~200,000 Americans per year received these drugs.

~9,000

excess deaths per year - possibly more

Vietnam War: ~6,000 US deaths/year • These drugs: ~9,000+ deaths/year

For every number, a name we will never know.

Look again.

PREMISE 1

PVCs after MI predict sudden cardiac death

PREMISE 2

Antiarrhythmic drugs suppress PVCs

← THE LEAP
PREMISE 3

Suppressing PVCs should prevent sudden death

A suposição de que a supressão do marcador corrigiria o resultado nunca foi testada.

1

Os CVPs eram um marcador de tecido danificado, não uma causa de morte

2

The drugs had proarrhythmic effects - triggering deadlier rhythms

3

O substituto melhorou enquanto o resultado piorou - um substituto dissociado

O substituto não mentiu. Fizemos a pergunta errada.

Every answerable clinical question has four components:

P - POPULATION
Quem são os pacientes? Quais são suas características?
I - INTERVENTION
What treatment or exposure is being evaluated?
C - COMPARATOR
What is the alternative? Placebo? Standard care?
O - OUTCOME
What matters to patients? Hard endpoints vs surrogates.
CAST PICO
Post-MI patients with PVCs | Antiarrhythmics | Placebo | Mortality
🔍

Exercício de investigação: as evidências antes do CAST

Você é cardiologista em 1988. Um paciente sobreviveu a um infarto do miocárdio, mas tem CVPs frequentes. A literatura observacional é clara...

StudyPacientes com CVPsMortality Risk
Lown (1977)High-grade PVCs2.4x higher
Bigger (1984)>10 PVCs/hour3.1x higher
Mukharji (1984)Complex PVCs4.8x higher

O sinal é claro. O mecanismo é plausível. Você prescreveria antiarrítmicos?

Before: Observational Logic

PVCs → Higher mortality

Drugs suppress PVCs

∴ Drugs should reduce mortality

After: CAST RCT (1989)

Death rate on drug: 7.4%

Death rate on placebo: 3.0%

RR = 2.5 (150% increase in deaths)

O substituto melhorou. Os pacientes morreram. É por isso que perguntamos: "Qual é o resultado que importa?"

1

Plausibilidade biológica não é prova

A logical mechanism doesn't guarantee the expected effect.

2

Surrogate endpoints can mislead

Improving a biomarker doesn't prove improvement in outcomes.

3

Ensaios randomizados fornecem a evidência causal mais forte

Os dados observacionais por si só raramente estabelecem causalidade para intervenções devido a confusão.

4

Consenso não é evidência

200.000 prescrições, aprovação da FDA e diretrizes estavam todas erradas.<

This is why we do meta-analysis: to see past apparent truths.

HISTÓRIA: A tragédia substituta do DES-II

E se a pergunta você perguntar determina quem vive e quem morre?

REAL DATA

Em 1989, os cardiologistas sabiam que a supressão de PVC era alcançável com encainida e flecainida. O desfecho substituto parecia perfeito: os medicamentos suprimiram os PVCs por 80%+. But CAST randomized 1,498 patients do medicamento ativo versus placebo. O estudo foi interrompido precocemente: 56 deaths in the drug group vs 22 in placebo. Mortality increased 2.5-fold. An estimated ~9,000 excess American deaths per year foram atribuíveis a esses medicamentos.

A Escolha do Cardiologista: 1987
Seu paciente pós-infarto do miocárdio tem CVPs frequentes. Você tem drogas que os suprimem completamente. O que você faz?
CAMINHO A: Tratar o substituto
Prescribe encainide — PVCs vanish, the ECG looks clean
O biomarcador melhora. Você se sente confiante. O paciente morre.
OUTCOME: An estimated 50,000+ excess deaths across the US during years of use
PATH B: Demand a Mortality Trial
Insista: "Mostre-me que a sobrevivência melhora, não apenas o ECG"
O ensaio revela danos. As drogas são retiradas. Vidas são salvas.
RESULTADO: A pergunta PICO certa evita uma catástrofe
THE REVELATION
A pergunta nunca foi "Podemos suprimir PVCs?" Era "A supressão do PVC salva vidas?" Um endpoint substituto respondeu à pergunta errada. O PICO certo teria exigido a mortalidade como resultado desde o início.

What appears certain may be wrong.

What everyone believes may be false.

Existem métodos para que os pacientes não paguem pela nossa confiança.

É por isso que você está aqui.

1. Qual foi o erro fundamental na lógica antiarrítmica?

A. Os ensaios não foram randomizados
B. Treating a surrogate (PVCs) was assumed to improve outcomes
C. O tamanho da amostra foi muito pequeno
D. A aprovação da FDA foi apressada

2. No PICO, o que significa o "O" e por que isso importa?

A. Observation - what researchers see
B. Objetivo - o objetivo da pesquisa
C. Outcome - what matters to patients
D. Organização - estrutura do estudo

Nem todo sinal é verdade.

Os métodos protegem os pacientes de nossa confiança.

Módulo 2: O Protocolo (HRT)

What was hidden in plain sight?

Esta é uma história sobre

observational evidence.

🎯 Learning Objectives

  • Explain why protocol pre-registration prevents bias
  • Identify key elements of a PROSPERO registration
  • Distinguish healthy user bias from true treatment effects
  • Describe why observational studies overestimated HRT benefits
  • Aplicar o princípio: "Os métodos protegem os pacientes de nossa confiança"

observational studies

All showing hormone replacement therapy protected postmenopausal women from heart disease.

As evidências pareciam esmagadoras. A conclusão parecia certa.

122,000 nurses followed for decades. HRT users had 40-50% lower cardiovascular mortality.

RR 0.56
Cardiovascular mortality
122,000
Women followed
20+ years
Follow-up

Landmark study. Impeccable methodology. Wrong conclusion.

1

Healthy User Bias: Women who chose HRT were healthier, wealthier, better educated

2

Compliance Bias: Women who took HRT consistently also took better care of themselves

3

Prescriber Bias: Doctors gave HRT to healthier women with fewer risk factors

O tratamento não os estava protegendo. Eles já estavam protegidos.

The largest randomized trial of HRT ever conducted.

Design
Randomized, double-blind, placebo-controlled
Population
Postmenopausal women aged 50-79
Intervention
Estrogen + Progestin vs Placebo
Sample size
16,608 women
Primary endpoint
Coronary heart disease
Planned duration
8.5 years

Trial stopped early after 5.2 years. Harm exceeded benefits.

Outcome Hazard Ratio Direction
Coronary heart disease 1.29 HARM
Stroke 1.41 HARM
Breast cancer 1.26 HARM
Pulmonary embolism 2.13 HARM
Complete Reversal
30 anos de evidências observacionais derrubadas

The Lesson

PRE-SPECIFY

A protocol written before the search begins prevents fishing, prevents bias, prevents hindsight distortion.

HISTÓRIA: A hipótese do sincronismo hormonal

E se o tratamento funcionar - mas apenas para algum?

REAL DATA

WHI showed HRT increased cardiovascular events overall. But later analyses revealed a critical pattern: women who started HRT within 10 years of menopause had REDUCED cardiovascular risk. Women starting 20+ years after menopause had INCREASED risk. The overall null/harm result hid a timing effect.

O Dilema do Analista
Você está analisando subgrupos WHI. O resultado geral mostra danos. Você vai mais fundo?
PATH A: Report Overall Only
Conclude HRT is harmful for all postmenopausal women
Simple message. Guidelines recommend against HRT universally.
OUTCOME: Deny potential benefit to younger menopausal women
PATH B: Pre-Specify Timing Subgroups
Analyze by years since menopause (biologically plausible)
Descubra a "janela de tempo" para o início seguro da TRH.
OUTCOME: Enable personalized recommendations
THE REVELATION
A análise de subgrupo é perigosa durante a pesca. É essencial quando a biologia prevê a modificação do efeito. A hipótese de tempo era biologicamente plausível - e deveria ter sido pré-especificada.
1

Registre-se antes de pesquisar

PROSPERO: International prospective register of systematic reviews

2

Bloqueie suas decisões

PICO, search strategy, outcomes, analysis plan - all pre-specified

3

Document Amendments

As alterações são permitidas, mas devem ser transparentes e justificadas

4

Prevent Duplication

Verifique se sua avaliação já existe antes começando

1. Por que o Nurses' Health Study mostrou benefícios da TRH que o WHI não mostrou?

A. Nurses' Health had too few patients
B. Healthy user bias in observational studies
C. Nurses' Health had shorter follow-up
D. Different hormone formulations were used

2. What is the primary purpose of PROSPERO registration?

A. To register clinical trials
B. Para acelerar a conclusão da revisão
C. Para pré-especificar métodos e evitar preconceitos
D. Para obter financiamento para revisões

A pré-especificação não é burocracia.

It is protection.

Against our own tendency to find what we expect.

Os métodos protegem os pacientes de nossa confiança.

What was hidden in plain sight?

Módulo 3: A Pesquisa

Módulo 3: A Pesquisa (Rosiglitazona)

What was hidden in plain sight?

Esta é uma história sobre

what they didn't publish.

🎯 Learning Objectives

  • Develop a comprehensive search strategy using PRESS guidelines
  • Search multiple databases including grey literature sources
  • Identify trial registries and regulatory databases (ClinicalTrials.gov, FDA)
  • Explain how the rosiglitazone case exposed hidden cardiovascular harms
  • Aplicar o princípio: "O que estava escondido à vista de todos?"

annual sales at peak

Avandia (rosiglitazona) foi um dos os medicamentos para diabetes mais vendidos no mundo.

Os ensaios publicados pareciam tranquilizadores. Os não publicados contaram uma história diferente.

Published trials showed rosiglitazone effectively lowered HbA1c. Cardiovascular outcomes were rarely reported.

1999
FDA approval
6M+
Patients treated
~0.7%
HbA1c reduction

O substituto parecia bom. Mas e quanto aos eventos cardiovasculares reais?

Dr. Steven Nissen obteve dados de ensaios não publicados no próprio website da GSK.

A GSK foi obrigada por acordo legal a publicar os resultados dos ensaios clínicos online. Nissen e Wolski analisaram 42 ensaios - muitos deles nunca publicados em periódicos.

Os dados eram tecnicamente públicos.

No one had systematically searched for it.

Outcome Odds Ratio 95% CI
Myocardial Infarction 1.43 1.03 - 1.98
CV Death 1.64 0.98 - 2.74
43% Increased Risk of Heart Attack
p = 0,03 para infarto do miocárdio

Published in NEJM. The FDA called an emergency advisory committee meeting.

The FDA Advisory Committee: July 2007

22-1
Voted: CV risk exists
20-3
Continue mercado com advertências

O comitê ficou dividido. Alguns queriam que fosse retirado. Some called the meta-analysis flawed.

Mas o sinal não poderia passar despercebido.

1

Black box warning added for heart failure risk (2007)

2

Severe restrictions on prescribing in the US (2010)

3

Withdrawn do mercado europeu inteiramente (2010)

4

FDA now requires cardiovascular outcome trials for all diabetes drugs

PUBLISHED
PubMed, Embase, CENTRAL, Web of Science
GREY LITERATURE
Conference abstracts, dissertations, regulatory docs
TRIAL REGISTRIES
ClinicalTrials.gov, WHO ICTRP, EU CTR
REGULATORY
FDA, EMA, Health Canada submissions
COMPANY DATA
GSK, Pfizer, Roche clinical trial registries
HAND SEARCH
Reference lists, contact authors, experts

Peer Review of Electronic Search Strategies

1

Tradução da Pergunta de Pesquisa

A pesquisa reflete o PICO elementos?

2

Operadores Booleanos e de Proximidade

E, OU, NÃO são usados corretamente?

3

Subject Headings

Os termos MeSH/Emtree são apropriados e explodidos?

4

Text Words

Synonyms, spelling variants, truncation?

5

Spelling, Syntax, Line Numbers

Existem erros que causariam recuperação falhas?

6

Limites e Filtros

Os limites de data, idioma e desenho do estudo são apropriados?

Peer-reviewed searches substantially improve retrieval of key studies.

PRESS guideline: McGowan et al., 2016

A mesma pesquisa deve ser adaptada para cada banco de dados:

PubMed

"diabetes mellitus, type 2"[MeSH] OR "type 2 diabetes"[tiab]

Embase

'non insulin dependent diabetes mellitus'/exp OR 'type 2 diabetes':ti,ab

Subject headings, field tags, and operators differ between databases.

HISTÓRIA: A Transparência Tamiflu Campanha

O que acontece quando você pesquisa — e não encontra nada?

REAL DATA

Governments stockpiled $9 billion de oseltamivir (Tamiflu) para gripe pandêmica. A Colaboração Cochrane tentou revisar as evidências. De 77 clinical trials, full reports existed for only 20. A Roche recusou-se a compartilhar dados para 5 years. Quando o BMJ e a Cochrane finalmente obtiveram over 160,000 pages of clinical study reports, they found: Tamiflu reduced symptoms by less than 1 day, with no evidence it prevented hospitalizations or complications.

O Dilema do Revisor: 2009
Você está atualizando uma revisão Cochrane do Tamiflu. Os ensaios publicados parecem positivos. Mas 57 ensaios não têm relatórios completos acessíveis. O que você faz?
PATH A: Analyze What's Published
Use the 20 available trials. Conclude Tamiflu is effective.
Sua análise apoia o armazenamento contínuo. US$ 9 bilhões gastos em evidências fracas.
OUTCOME: Billions wasted, true efficacy unknown
Caminho B: exigir dados completos
Refuse to publish until all trial data is accessible
5-year campaign. 160,000+ pages finally obtained. Truth emerges.
OUTCOME: Evidence policy changed; EMA now publishes all trial reports
THE REVELATION
Uma pesquisa é tão boa quanto o que pode ser encontrado. Quando a literatura cinzenta está escondida atrás dos muros corporativos, mesmo a pesquisa mais abrangente no PubMed deixará escapar a verdade. A saga Tamiflu mudou a política global: a EMA publica agora relatórios de estudos clínicos para todos os medicamentos.

If Nissen had searched only PubMed,

the signal would have remained hidden.

Comprehensive search is survival.

What was hidden in plain sight?

1. Que tipo de fonte de evidência revelou o sinal cardiovascular da rosiglitazona?

A. Published journal articles
B. Cochrane Library
C. Company clinical trial registry
D. FDA approval documents

2. What does PRESS stand for?

A. Revisão de Publicação de Padrões de Pesquisa de Evidências
B. Peer Review of Electronic Search Strategies
C. Protocolo para Relatórios de Estudos de Síntese de Evidências
D. Primary Research Evidence Search System

What was hidden in plain sight?

Módulo 4: A Triagem

Módulo 4: A triagem (Vioxx)

O número sem proveniência não é um número.

Esta é uma história sobre

what they chose to report.

🎯 Learning Objectives

  • Apply PRISMA flow diagram to document study selection
  • Implement dual-reviewer screening with conflict resolution
  • Identificar relatórios seletivos de resultados e manipulação de dados
  • Calculate inter-rater reliability (Cohen's kappa)
  • Aplicar o princípio: "O número sem proveniência não é um número"

heart attacks attributed to Vioxx

A blockbuster drug. A hidden signal. A preventable catastrophe.

Entre 1999 e Em 2004, milhões tomaram este analgésico. Alguns nunca voltaram para casa.

Rofecoxib (Vioxx) era um AINE seletivo para COX-2. Comercializado como mais seguro para o estômago do que os analgésicos tradicionais.

1999
FDA approval
$2.5B
Peak annual sales
80M+
Patients prescribed

Vioxx Gastrointestinal Outcomes Research

Design
Randomized, double-blind
Comparison
Vioxx vs Naproxen
Population
Rheumatoid arthritis
Sample
8,076 patients
Primary Outcome
GI events
Published
NEJM, November 2000
GI Outcome Vioxx Naproxen
Confirmed GI events 2.1 per 100 pt-yrs 4.5 per 100 pt-yrs
Reduction 54% fewer GI events

Isso foi o que os médicos disseram. Isso é o que os pacientes acreditavam.

CV Outcome Vioxx Naproxen
Myocardial Infarction 20 events 4 events
Relative Risk 5x higher in Vioxx group
5-fold Increase in Heart Attacks
Mentioned only briefly, attributed to naproxen being "cardioprotective"
1

Manipulação de corte de dados: 3 additional heart attacks occurred after the cutoff used in publication

2

Spin: O sinal CV foi explicado como o naproxeno sendo cardioprotetor (sem evidência)

3

Outcome switching: Os eventos CV foram pré-especificados, mas não enfatizados

4

Internal knowledge: Os e-mails da Merck mostram que eles sabiam sobre o sinal

O ensaio APPROVe (2004)

Um ensaio para prevenção de pólipos colorretais - interrompido precocemente por segurança.<

RR 1.92
CV events vs placebo
Sept 2004
Vioxx withdrawn

Four years after VIGOR showed a 5x risk. Four years too late.

HISTÓRIA: A árvore de decisão do Vioxx

Você já considerou o que acontece quando um sinal se esconde no ruído?

REAL DATA

Vioxx (rofecoxib) foi aprovado em 1999. By 2004, estimates suggest 88,000-140,000 excess heart attacks and 30,000-40,000 deaths. Merck's own VIGOR trial showed 5x cardiovascular risk in 2000—but it was dismissed as a "naproxen cardioprotective effect."

A bifurcação na estrada
Você é um revisor da FDA em 2001. Os dados do VIGOR mostram 5x o risco de ataque cardíaco com Vioxx vs. naproxeno.
CAMINHO A: Aceite a explicação
Believe Merck's hypothesis: naproxen is cardioprotective
No additional safety studies required. Drug stays on market at full speed.
RESULTADO: mais de 40.000 mortes em 4 anos
CAMINHO B: Exija evidências
Require a dedicated CV safety trial before continued marketing
Delay or restrict marketing until cardiovascular safety is established.
OUTCOME: Signal detected early, lives saved
THE REVELATION
O sinal estava lá em 2000. A explicação errada atrasou ação em 4 anos. Uma hipótese alternativa - aceita sem evidências - custou dezenas de milhares de vidas.

Every step of screening must be documented and transparent.

Identification
Records from databases + other sources
Screening
Title/abstract review (duplicates removed)
Eligibility
Full-text assessment (with exclusion reasons)
Included
Studies in synthesis
1

Reduces Selection Bias

One reviewer might unconsciously favor certain studies

2

Catches Errors

Fadiga, leitura incorreta e erros são inevitáveis

3

Forces Explicit Criteria

Disagreements reveal ambiguity in inclusion rules

Typical agreement: κ = 0.6-0.8

Disagreements resolved by discussion or third reviewer

Before screening thousands of records, reviewers should calibrate on a sample of 50-100 records.

1

Screen the same set independently

2

Compare decisions and discuss disagreements

3

Refine inclusion criteria until κ > 0.7

4

Documente o processo de calibração e qualquer regra mudanças

New in 2020
Separate reporting of database vs register searches
New in 2020
Ferramentas de automação devem ser relatadas
New in 2020
Citation searching documented separately
New in 2020
Reasons for exclusion at full-text mandatory

PRISMA 2020 revisou substancialmente a lista de verificação com relatórios expandidos sobre métodos de síntese, avaliação de certeza e registro de protocolo.

If Vioxx's cardiovascular data had been screened by independent reviewers,

if all pre-specified outcomes had been required to be reported,

88,000 heart attacks might have been prevented.

O número sem proveniência não é um número.

1. No estudo VIGOR, qual foi o risco relativo de IM no grupo Vioxx em comparação ao naproxeno?

A. 1.5x higher
B. 2x higher
C. 5x higher
D. 10x higher

2. Why is dual screening (two independent reviewers) important?

A. It makes screening faster
B. It reduces selection bias and catches errors
C. Reduz o número de estudos a serem revisados
D. It allows reviewers to skip full-text review

O número sem proveniência não é um número.

Módulo 5: A Extração

Módulo 5: A Extração (DIMINUIR)

O número sem proveniência não é um número.

Esta é uma história sobre

números que nunca existiram.

🎯 Learning Objectives

  • Projetar um formulário de extração de dados padronizado com campos de proveniência
  • Calculate effect sizes from various reported statistics (OR, RR, HR, SMD)
  • Implement dual-extraction with discrepancy resolution
  • Identificar sinais de alerta para fabricação de dados e má conduta
  • Explain how the DECREASE fraud affected clinical guidelines

possible excess deaths in Europe

A partir de diretrizes baseadas em ensaios clínicos fabricados dados.

Os ensaios DECREASE influenciaram os cuidados perioperatórios em todo o mundo. Os dados foram inventados.

Professor at Erasmus Medical Center, Rotterdam. Author of over 500 papers. Lead author of ESC guidelines on perioperative cardiac care.

500+
Publications
DECREASE
Trial series I-VI
ESC
Guideline chair

Uma fonte aparentemente incontestável. Até que alguém olhasse os dados.

Trial Finding Impact
DECREASE-I (1999) 90% reduction in cardiac death Changed guidelines
DECREASE-IV (2009) Beta-blockers safe in low-risk Expanded recommendations

Effect sizes were implausibly large.

90% reduction? Almost nothing in medicine works that well.

1

Erasmus MC investigated after whistleblower complaints

2

Dados fabricados do paciente: Patients who didn't exist or weren't enrolled

3

No informed consent: Many "participants" never consented

4

Poldermans dismissed: From Erasmus MC in 2011

A cascata de danos

Quando DECREASE foi removido de meta-análises...

Benefit → Harm
Direction reversed
27% ↑
Stroke risk increase

O ensaio POISE (2008) mostrou danos. Foi rejeitado porque entrou em conflito com DECREASE.

1

Trust in authority: Poldermans foi o autor da diretriz revisando suas próprias evidências

2

No data verification: Ninguém pediu dados individuais do paciente

3

Publication prestige: Published in top journals, assumed valid

4

Implausible effects accepted: 90% reductions should raise suspicion

1

Dual Extraction

Two extractors independently - catches transcription errors and forces scrutiny

2

Record Provenance

Table, page, paragraph - every number traceable to source

3

Verify Against Registry

Resultados do ClinicalTrials.gov vs publicação - discrepâncias são sinais de alerta

4

Request IPD

Individual patient data reveals what aggregate summaries hide

Durante a extração, você calcula os tamanhos dos efeitos a partir dos dados relatados:

BINARY OUTCOMES

Odds Ratio, Risk Ratio, Risk Difference from 2x2 tables

CONTINUOUS OUTCOMES

Diferença média, diferença média padronizada de médias e SDs

Sempre extraia da fonte mais confiável.

Prefer: ITT results > per-protocol > subgroups

!

Implausible effect sizes: 80-90% reductions should prompt scrutiny

!

Baseline imbalances: Grupos com correspondência "perfeita demais"

!

Round numbers: "Exactly 50" or "exactly 100" patients per arm

!

Registry discrepancies: N publicado difere do N registrado

Researcher

Os estudos relatam resultados em métricas diferentes. Para agrupá-los, muitas vezes você precisa de conversões:

FromToFormula
SMD (d)log-ORlog-OR = d × π / √3
log-ORSMD (d)d = log-OR × √3 / π
Correlation (r)Fisher zz = 0.5 × ln((1+r)/(1−r))
ORRRRR = OR / (1 − P₀ + P₀ × OR)
ORNNTNNT = 1 / (P₀ − OR×P₀ / (1−P₀+OR×P₀))

P₀ = risco de linha de base no grupo de controle. Estas fórmulas assumem condições aproximadas; veja Borenstein et al. (Cap. 7) para derivações exatas.

Researcher

Many trials report time-to-event outcomes using hazard ratios (HR). Pooling HRs in meta-analysis requires special handling:

1

O método log(HR) + SE

Extraia log(HR) e seu SE do teste. Se não for relatado, derive SE do IC: SE = (ln(superior) − ln(inferior)) / (2 × 1,96). Pool usando métodos de variância inversa padrão.

2

Quando a FC não é relatada

Existem métodos para reconstruir IPD a partir de curvas de Kaplan-Meier (Guyot et al. 2012) ou estimar a FC a partir de valores p e contagens de eventos (Parmar et al. 1998). Sempre prefira a FC ajustada relatada diretamente, quando disponível.

HR < 1 favors treatment; HR > 1 favors control. Do not convert HRs to ORs or RRs—they measure fundamentally different quantities.

HISTÓRIA: O escândalo do colóide Boldt

E se os dados que você extrai nunca fossem reais?

REAL DATA

Joachim Boldt foi o pesquisador mais prolífico no gerenciamento de fluidos anestésicos. Mais de 180 de suas publicações foram retratadas — um dos maiores casos de retratação na história da medicina. Seus dados fabricados mostraram que o hidroxietilamido (HES) era seguro. Metanálises que incluíram seus estudos concluíram que o HES era inofensivo. Quando os estudos de Boldt foram removidos, o efeito combinado foi revertido: HES increased kidney injury by 59% (RR 1.59, 95% CI 1.26-2.00) and mortality by ~9% (RR 1.09). An estimated thousands of patients received a harmful fluid based on fabricated evidence.

A Vigilância do Extrator: 2010
Você está extraindo dados para uma meta-análise de ressuscitação com fluidos. Os estudos de Boldt dominam a literatura (mais de 90 artigos). Um denunciante levantou preocupações. O que você faz?
PATH A: Extract as Published
Trust peer-reviewed publications. Extract Boldt's data like any other.
Your meta-analysis shows HES is safe. Guidelines recommend it.
OUTCOME: Thousands receive a nephrotoxic fluid
PATH B: Verify Provenance
Verificar aprovações éticas, solicitar dados de origem, realizar análises de sensibilidade excluindo estudos suspeitos
Discover missing ethics approvals. Flag studies. Re-analyze without them.
OUTCOME: True signal emerges — HES causes harm
THE REVELATION
Proveniência não é burocracia. É a diferença entre evidência e ficção. Cada número extraído deve ser atribuído a um estudo aprovado éticamente, com dados verificáveis ​​do paciente. Sem proveniência, o número sem dono pode se tornar uma arma.

Cada número em sua meta-análise

must trace back to a verifiable source.

O número sem proveniência não é um número.

Fraudulent data can kill as surely as fraudulent drugs.

1. O que aconteceu quando os dados do ensaio DECREASE foram removidos das meta-análises dos betabloqueadores?

A. The benefit became even larger
B. No change in conclusions
C. The direction reversed to show potential harm
D. Os resultados tornaram-se inconclusivos

2. Why should dual extraction be standard practice?

A. It catches transcription errors and forces scrutiny
B. It makes extraction faster
C. Isso ajuda a encontrar mais estudos
D. It reduces the amount of work needed

O número sem proveniência não é um número.

Módulo 6: O preconceito

Módulo 6: O preconceito (Aprotinina/BART)

Os métodos protegem os pacientes de nossa confiança.

Esta é uma história sobre

o viés que não podemos ver.

🎯 Learning Objectives

  • Apply Risk of Bias 2.0 (RoB 2) to randomized trials
  • Aplicar ROBINS-I a estudos não randomizados
  • Assess all five RoB 2 domains (randomization, deviations, missing data, measurement, selection)
  • Distinguish confounding by indication from true treatment effects
  • Explain how BART revealed hidden harms of aprotinin

anos no mercado

Aprotinina foi o padrão ouro para redução cirúrgica sangramento.

Então alguém executou um RCT. A verdade era diferente.

1

Sicker patients got aprotinin: Surgeons used it in complex, high-risk cases

2

Survivors bias: Dead patients can't report complications

3

Publication bias: Estudos negativos não foram publicados

Os estudos observacionais não conseguiram separar o efeito do medicamento do risco basal do paciente.

Blood Conservation Using Antifibrinolytics in a Randomized Trial

OutcomeAprotininAlternatives
30-day mortality6.0%3.9%
Relative Risk1.53 (53% increased death)
Trial Stopped Early for Harm
Retirado do mercado em novembro 2007
🔍

Investigação: avaliar o viés

Você está revisando os estudos observacionais. Aplique o pensamento de risco de preconceito:

QuestionObservationalBART (RCT)
Random allocation?❌ Surgeon choice✓ Yes
Baseline comparable?❌ Sicker got drug✓ Balanced
Blinding?❌ Open label✓ Double-blind

Confounding by indication: Os cirurgiões administraram aprotinina aos pacientes mais doentes. Os estudos observacionais atribuíram a sobrevivência ao medicamento, quando estavam medindo o viés de sobrevivência.

D1

Randomization Process

D2

Desvios das intervenções pretendidas

D3

Dados de resultados ausentes

D4

Medição do resultado

D5

Seleção do resultado relatado

Quando os RCTs não estiverem disponíveis, use ROBINS-I (risco de viés em estudos não randomizados de Intervenções)

1

Confounding

Baseline differences between groups

2

Selection of Participants

Exclusions related to intervention

3

Classification of Interventions

Misclassification of exposure status

4

Desvios das intervenções pretendidas

Co-interventions, contamination

5

Missing Data

Differential loss to follow-up

6

Measurement of Outcomes

Ascertainment bias

7

Selection of Reported Result

Selective reporting

Ratings: Low / Moderate / Serious / Critical / No information

HISTÓRIA: O ensaio Aprotinin BART

O que acontece quando 64 estudos concordam - e todos estão errados?

REAL DATA

A aprotinina foi usada em cirurgia cardíaca para reduzir o sangramento para 20 years. 64 small randomized trials sugeriu que era segura e eficaz. As meta-análises confirmaram o benefício. Então o BART trial (2008) randomized 2,331 patients: aprotinin vs. tranexamic acid vs. aminocaproic acid. Result: aprotinin increased mortality by 53% (RR 1,53, IC 95% 1,06-2,22). O ensaio foi interrompido antecipadamente por danos. A Bayer retirou a aprotinina do mercado em poucos meses.

A Evidência do Cirurgião: 2006
Você é um cirurgião cardíaco que escolhe um antifibrinolítico. 64 pequenos ensaios favorecem a aprotinina, mas nenhum foi capaz de detectar mortalidade. Um grande RCT (BART) está sendo inscrito. Você espera?
CAMINHO A: Confie na meta-análise
64 trials can't all be wrong. Continue prescribing aprotinin.
Pequenos ensaios mediram sangramento, não morte. Nenhum tinha poder adequado para mortalidade. A meta-análise reuniu resultados substitutos de baixa potência.
OUTCOME: Excess deaths in cardiac surgery patients
PATH B: Assess Risk of Bias First
Avalie todos os 64 ensaios com RoB. Observe que eles são pequenos, usam resultados substitutos e apresentam alto atrito. Aguarde o RCT com potência adequada.
BART reveals the truth. Switch to safer alternatives.
OUTCOME: Lives saved by demanding adequately powered evidence
THE REVELATION
A quantidade de evidências não é igual à qualidade. Sessenta e quatro ensaios com poder insuficiente que medem o resultado errado não superam um ensaio com poder adequado que mede a mortalidade. A avaliação do risco de viés não é uma formalidade - é o escudo entre os pacientes e conclusões enganosas de evidências pequenas e substitutas.

Sixty-four small trials measured bleeding, not death.

One adequately powered trial revealed 53% increased mortality.

A quantidade de evidências não pode substituir a qualidade e o poder.

1. Why did 64 small trials miss aprotinin's harm?

A. Underpowered for mortality; used surrogate outcomes
B. Confounding by indication
C. Outcome measured incorrectly
D. Follow-up too short

Os métodos protegem os pacientes de nossa confiança.

Módulo 7: A Síntese

Módulo 7: A Síntese (Magnésio/ISIS-4)

A heterogeneidade é uma mensagem, não um ruído.

A controvérsia do magnésio: 1991-1995

When pooling leads us astray.

🎯 Learning Objectives

  • Calculate pooled effect sizes using fixed-effect and random-effects models
  • Choose between DerSimonian-Laird and HKSJ estimators appropriately
  • Interpret forest plots including weights, confidence intervals, and diamonds
  • Explain why small-study effects can mislead meta-analyses
  • Aplique o princípio: "A heterogeneidade é uma mensagem, não ruído"

"Você está na encruzilhada de esperança e evidências..."

Heart disease kills more people worldwide than any other cause. In 1991, a new hope emerges: Could something as simple and cheap as intravenous magnesium save lives after myocardial infarction?

A justificativa biológica era sólida:

Magnesium stabilizes cardiac membranes, prevents arrhythmias, and vasodilates coronary arteries.

Leicester Intravenous Magnesium Intervention Trial, 1992

2,316
Patients enrolled
24%
Mortality reduction
p = 0.04
Statistically significant

A cheap, safe intervention that could save 250,000 lives per year globally.

A comunidade médica estava eletrificado.

Researchers pooled seven randomized trials of IV magnesium in MI:

Trial Year N Odds Ratio
Morton 19841984400.10
Rasmussen 198619862730.35
Smith 198619864000.48
Abraham 19871987940.87
Shechter 199019901030.27
Ceremuzynski 19891989480.22
LIMIT-219922,3160.74
🔍

Investigation Exercise: The Meta-Analyst's Dilemma

Você é um revisor da Cochrane em 1993. Você foi solicitado a sintetizar as evidências sobre magnésio para IM. Os dados de sete testes estão diante de você.

Você vê o padrão neste gráfico de floresta?

Pooled OR = 0.44 (95% CI: 0.27–0.71)
55% mortality reduction! Publish in the Lancet?

Mas espere... você notou alguma coisa sobre os tamanhos dos testes?

What should have given us pause?

1

Small sample sizes: Six of seven trials had <500 patients

2

Extreme effects: OR of 0.10 (90% reduction) is implausible for any drug

3

All positive: Onde estavam os ensaios negativos? O problema da gaveta de arquivos...

4

Funnel asymmetry: Small trials showed much larger effects than larger ones

🔍

O teste do gráfico de funil

Antes de agruparmos, devemos verificar se há viés de publicação. Vamos examinar o gráfico do funil.

"E então veio a verdade..."

The Fourth International Study of Infarct Survival (ISIS-4) enrolled 58,050 patients across 1,086 hospitals in 31 countries.

58,050
Patients
2,216
Deaths in Mg group
2,103
Deaths in placebo
OR = 1.06 (95% CI: 1.00–1.12)
No benefit. If anything, a trend toward harm.
📊

Antes e Depois: O Quadro Completo

Veja o que acontece quando adicionamos o mega-ensaio ao nosso terreno florestal...

BEFORE ISIS-4

7 small trials (N = 3,274)

OR = 0.44

Strong benefit signal

AFTER ISIS-4

8 trials (N = 61,324)

OR = 1.02

No effect

1

Publication Bias

Small negative trials were never published—they sat in file drawers

2

Small-Study Effects

Smaller trials tend to show larger effects due to methodological weaknesses

3

Random High Bias

Por acaso, alguns pequenos testes atingiram resultados extremos - e eles são publicados

4

Random-Effects Amplification

Random-effects models give more weight to small trials, amplifying bias

Which model should you choose?

FIXED EFFECT MODEL

Assumes one true effect. Weights studies by inverse variance (precision). Large trials dominate.

Magnesium result: OR = 0.96 (p = 0.52)

RANDOM EFFECTS MODEL

Assumes distribution of effects. Gives more weight to small trials. Wider confidence intervals.

Magnesium result: OR = 0.59 (p = 0.01)

⚠️ A escolha do modelo determinou a conclusão!

Efeitos aleatórios não corrigem preconceito; com efeitos de estudos pequenos, pode mudar o peso para ensaios menores e mudar as conclusões.

1. Verifique o viés de publicação antes de confiar em uma estimativa agrupada. Os gráficos de funil e o teste de Egger são suas ferramentas.

2. Be wary of small-study effects. If only small trials show benefit, wait for a large, well-conducted trial.

3. Model choice matters. Efeitos aleatórios podem amplificar evidências tendenciosas. Considere ambos os modelos e entenda as implicações.

4. One large trial can overturn many small ones. É por isso que megaensaios como o ISIS-4 são tão valiosos.

Researcher

Nem todos os ECRs usam desenhos de grupos paralelos padrão. Duas alternativas comuns exigem tratamento especial ao agrupar resultados:

1

Cluster-Randomized Trials

Randomizar grupos (hospitais, escolas), não indivíduos. O design effect = 1 + (m−1) × ICC reduz o tamanho efetivo da amostra. Divida N pelo efeito de design antes de agrupar ou use o SE ajustado do teste. Ignorar o agrupamento produz ICs artificialmente estreitos.

2

Crossover Trials

Cada paciente recebe ambos os tratamentos. O design emparelhado reduz a variação, mas você precisa do within-patient correlation (ou da análise emparelhada SE) para agrupar corretamente. Usar o grupo paralelo SE é conservador; usando N errados contagens duplas de pacientes.

Consulte o Cochrane Handbook v6.4, Capítulo 23 para fórmulas detalhadas e exemplos resolvidos.

HISTÓRIA: A reversão precoce do surfactante

E se a maneira como você combina os estudos determinar se um tratamento parece salvar vidas ou inútil?

REAL DATA

O surfactante precoce para bebês prematuros foi apoiado por 6 small trials showing reduced mortality (RR 0.84). A fixed-effect meta-analysis confirmed benefit (p=0.04). But a random-effects model showed no significance (p=0.12) — the confidence interval crossed 1.0. Later, SUPPORT (2010) and VON (2012), two large pragmatic trials with ~2,000 neonates combined, found no benefit de surfactante precoce versus posterior. A prática clínica foi alterada com base em pequenos ensaios e no modelo errado.

A Escolha do Modelo do Neonatologista: 2005
Você está atualizando uma revisão Cochrane sobre surfactante precoce. Seis pequenos ensaios mostram benefícios com um modelo de efeito fixo. O modelo de efeitos aleatórios não é significativo. Qual você relata?
PATH A: Report Fixed-Effect Only
Fixed-effect is significant. Report the positive result. Change practice.
NICUs adopt early surfactant. Later trials show no benefit. Practice reverses.
OUTCOME: Years of unnecessary intubation of premature infants
PATH B: Report Both Models
Mostrar resultados FE e RE. Sinalize que a importância depende da escolha do modelo. Solicite grandes ensaios.
Honest uncertainty. Large trials prioritized. True answer emerges faster.
OUTCOME: Premature babies spared unnecessary intervention
THE REVELATION
Quando uma conclusão muda dependendo se você usa efeitos fixos ou efeitos aleatórios, a conclusão é frágil. Informe ambos. Reconheça a incerteza. E lembre-se: um resultado frágil de pequenos ensaios não é uma obrigação para mudar a prática.

1. Por que a meta-análise de magnésio mostrou benefícios que o ISIS-4 não encontrou?

A. A metodologia ISIS-4 era falha
B. Calculation error in meta-analysis
C. Publication bias in small trials
D. LIMIT-2 tinha potência insuficiente

2. What warning sign should have alerted reviewers to potential bias?

A. Asymmetric funnel plot (small trials showing larger effects)
B. Low heterogeneity (I² = 0%)
C. Strong biological plausibility
D. Too few trials to analyze

3. When publication bias is suspected, which model may amplify the bias?

A. Fixed effect model
B. Random effects model
C. Bayesian model
D. Network meta-analysis

Small trials can show false signals.

Large trials anchor the truth.

A heterogeneidade é uma mensagem, não um ruído.

A heterogeneidade é uma mensagem, não um ruído.

Módulo 8: A heterogeneidade

Módulo 8: A Heterogeneidade (ACCORD)

A heterogeneidade é uma mensagem, não um ruído.

ACCORD: 2008

Quando a média esconde a verdade.

🎯 Learning Objectives

  • Calcule e interprete I², τ² e intervalos de previsão
  • Apply ICEMAN criteria to assess subgroup credibility
  • Distinguish between clinical, methodological, and statistical heterogeneity
  • Conduct and interpret leave-one-out sensitivity analyses
  • Explain how ACCORD revealed differential effects across subgroups

"Você está prestes a testemunhar um dos encerramentos de julgamento mais chocantes da história..."

Por décadas, a comunidade do diabetes tinha um princípio orientador: lower blood sugar is better. O marco DCCT (1993) e UKPDS (1998) mostraram que o controle intensivo da glicose reduziu complicações microvasculares – cegueira, insuficiência renal, danos aos nervos.

A extrapolação lógica:

If controlling glucose prevents complications, shouldn't intensive control prevent cardiovascular disease too?

The definitive test of intensive glucose control

10,251
Type 2 diabetics
HbA1c <6%
Intensive target
HbA1c 7-7.9%
Standard target

Todos os pacientes tinham diabetes tipo 2 com alto risco cardiovascular – seja doença cardiovascular estabelecida ou múltiplos fatores de risco. O ensaio foi projetado para 5,6 anos.

February 6, 2008

O Conselho de Monitoramento de Segurança de Dados convoca uma reunião de emergência.

After 3.5 years, they make an unprecedented decision:

PARE O TESTE.

Outcome Intensive Standard HR (95% CI)
Primary CV endpoint 352 events 371 events 0.90 (0.78–1.04)
All-cause mortality 257 deaths 203 deaths 1.22 (1.01–1.46)
Severe hypoglycemia 10.5% 3.5% 3.0× higher
22% increase in mortality
54 excess deaths in the intensive arm
🔍

Investigation Exercise: The Clinician's Dilemma

Você é um endocrinologista com 500 pacientes diabéticos. Os resultados do ACCORD são publicados. O que você diz aos seus pacientes que têm se esforçado para ter HbA1c <6%?

O controle intensivo é prejudicial para todos? Ou apenas para alguns?

Análise de subgrupo revelada:

SubgroupIntensive HRInterpretation
No prior CVD1.00 (0.76–1.32)No effect
Prior CVD1.45 (1.15–1.84)Significant harm
Baseline HbA1c <8%1.02 (0.75–1.40)No effect
Baseline HbA1c ≥8%1.29 (1.03–1.60)Harm

The average effect masked critical heterogeneity!

Para pacientes com DCV estabelecida ou controle basal deficiente, a terapia intensiva foi prejudicial.

Quando os estudos (ou subgrupos) mostram diferentes effects, we must quantify this variation.

I² = 0–25%: Low heterogeneity. Os efeitos são consistentes entre os estudos.

I² = 25–50%: Moderate. Look for sources of variation.

I² = 50–75%: Substantial. Consider whether pooling is appropriate.

I² = 75–100%: Considerable. A single pooled estimate may mislead.

Mas I² por si só não diz o que fazer - ele sinaliza que você precisa investigar mais.

Enquanto I² informa a proporção de variância devido à heterogeneidade, τ² informa a magnitude.

I² (percentage)

"Qual fração da variância total é devida a diferenças verdadeiras entre os estudos?"

Scale: 0% to 100%

τ² (absolute)

"Quanto os efeitos verdadeiros variam entre os estudos?"

Same scale as the effect measure

Use τ² to calculate prediction intervals

Um intervalo de previsão mostra a gama de efeitos que você esperaria em um novo estudo - geralmente muito mais amplo do que a confiança intervalo.

📊

The Prediction Interval: What ACCORD Really Tells Us

Consider a meta-analysis of intensive glucose control across multiple trials...

Confidence Interval

HR 1.10 (0.95–1.27)

"Nossa melhor estimativa do efeito médio"

Prediction Interval

HR 1.10 (0.70–1.73)

"The range of effects in a new setting"

O intervalo de previsão abrange benefícios e danos!

In some settings, intensive control might help. In others, it could kill.

Subgroup Credibility Criteria (adapted from ICEMAN, Schandelmaier 2020 & Sun 2012)

1

A análise de subgrupo foi pré-especificada?

Subgrupos post-hoc são propensos a dados dragagem

2

Is there a plausible biological rationale?

O mecanismo deve ser claro e independente dos dados

3

Is the effect consistent across related outcomes?

Se o dano aparecer para mortalidade, há dano semelhante para infarto do miocárdio, acidente vascular cerebral?

4

Is there independent replication?

O efeito do subgrupo foi confirmado em outros estudos?

CriterionAssessmentScore
Pre-specified? Sim - DCV anterior estava no protocolo
Biological rationale? Yes—hypoglycemia more dangerous with CVD
Consistent outcomes? Yes—CV mortality and all-cause mortality aligned
Independent replication? Partially—ADVANCE, VADT showed similar patterns ~

ICEMAN Rating: High Credibility

The differential harm in high-risk patients appears genuine.

Para pacientes sem DCV: Moderate glucose control (HbA1c ~7%) remains the goal. Intensive control may reduce microvascular complications.

Para pacientes com DCV estabelecida: Avoid intensive targets. Hypoglycemia is dangerous for damaged hearts.

Para pacientes idosos: Relaxed targets. Quality of life matters. Tight control causes falls, confusion, and excess mortality.

"One size fits all" treatment is not patient-centered medicine.

When heterogeneity is high, meta-regression can identify study-level covariates that explain variation.

THE QUESTION

O tamanho do efeito varia sistematicamente com o estudo características?

Covariates
Year, dose, duration, baseline risk, study quality
Output
Regression coefficient (slope), R², residual heterogeneity

Caution

A meta-regressão requer ≥10 estudos por covariável. Com poucos estudos, é apenas exploratório. Falácia ecológica: associações em nível de estudo podem não se aplicar a indivíduos.

Example: In ACCORD, meta-regression might test if treatment effect varies by baseline HbA1c, showing harm concentrated in patients with very high levels.

HISTÓRIA: A revolução da pressão arterial SPRINT

What number saves lives? Who decides?

REAL DATA

Durante décadas, a meta foi: tratar a pressão arterial para <140 mmHg systolic. Then came SPRINT (2015): 9,361 high-risk patients randomized to intensive (<120) vs standard (<140) targets. Intensive treatment reduced CV events by 25% and death by 27%. Trial stopped early for benefit. Guidelines changed worldwide.

Before SPRINT: The Guidelines Committee
Você está definindo diretrizes de pressão arterial em 2014. A meta tem sido <140 há anos. Você deveria esperar por evidências melhores?
PATH A: Maintain Status Quo
Keep <140 target (established practice, minimal controversy)
Guidelines unchanged. Physicians continue treating to <140.
OUTCOME: Miss opportunity to prevent deaths
PATH B: Fund the Definitive Trial
Aguarde pelos resultados do SPRINT antes de atualizar as metas
SPRINT demonstrates benefit. Update target to <120 for high-risk patients.
OUTCOME: Estimated 100,000+ lives saved globally
JNC 7 (2003): <140
Years of uncertainty
SPRINT (2015): <120 para alto risco
THE REVELATION
"Padrão de atendimento" não foi corrigido. Isso muda quando os julgamentos desafiam as suposições. Durante uma década, os pacientes podem ter sido subtratados porque ninguém testou a pergunta óbvia.

1. Por que o ensaio ACCORD foi interrompido precocemente?

A. Intensive control showed clear cardiovascular benefit
B. Intensive control increased mortality
C. A inscrição foi muito lenta
D. Budget ran out

2. What does a prediction interval tell us that a confidence interval doesn't?

A. The true effect is more precisely estimated
B. O tamanho da amostra é adequado
C. A gama de efeitos que esperaríamos em um novo estudo
D. A fórmula matemática usado

3. According to ICEMAN, which factor is MOST important for subgroup credibility?

A. Pré-especificação da hipótese do subgrupo
B. Large sample size in the subgroup
C. Statistically significant p-value
D. Multiple outcomes showing same direction

Quando os estudos discordam,

ouça a discordância.

A heterogeneidade é uma mensagem, não um ruído.

Ausência de evidência não é evidência de ausência.

Módulo 9: Os Estudos Ocultos

Módulo 9: Os Estudos Ocultos (Reboxetina)

Ausência de evidência não é evidência de ausência.

Reboxetine: 2010

Os 74% que nunca viram a luz.

🎯 Learning Objectives

  • Interpret funnel plots for asymmetry detection
  • Aplique o teste de Egger e outros testes estatísticos para viés de publicação
  • Implementar o método trim-and-fill para ajuste de viés
  • Critically appraise the limitations of publication bias tests
  • Aplicar o princípio: "Ausência de evidência não é evidência de ausência"

"A new hope for depression patients who cannot tolerate SSRIs..."

Reboxetina (Edronax) era um novo antidepressivo - um inibidor seletivo de recaptação de norepinefrina (NRI). Ao contrário dos ISRS, ele tinha como alvo um sistema neurotransmissor diferente. Para pacientes que falharam ou não toleraram fluoxetina ou sertralina, ele ofereceu um novo mecanismo.

1997
EU approval
50+
Countries approved
Millions
Prescriptions written

What doctors could find in medical journals:

ComparisonPublished TrialsPublished Result
Reboxetine vs Placebo 3 trials (n=507) Significantly better (SMD = 0.56)
Reboxetine vs SSRIs 4 trials (n=628) Equivalent or better

A literatura publicada contou uma história clara:

Reboxetine works. Patients benefit. Prescribe with confidence.

Mas e os ensaios que você não conseguiu ver?

In 2010, German researchers at IQWiG made a request to the European Medicines Agency...

They demanded access to all ensaio dados - publicados e não publicados.

What they found changed everything.

Eyding et al., BMJ 2010

ComparisonPublished OnlyALL DATA
Reboxetine vs Placebo SMD 0.56 (benefit) SMD 0.10 (no benefit)
Patients in analysis 507 (14%) 2,731 (100%)
Reboxetine vs SSRIs Equivalent Inferior (RR 1,23 para danos)
Patients in analysis 628 (26%) 2,411 (100%)
74% dos dados dos pacientes nunca foram publicados
Os ensaios ocultos não mostraram nenhum benefício e muito mais dano
🔍

Investigation Exercise: The File Drawer

Você é um revisor sistemático em 2008. Você pesquisa no PubMed, Embase e na Biblioteca Cochrane todos os ensaios de reboxetina. Você encontra 7 ensaios publicados mostrando benefícios.

Você pode confiar nessas evidências?

⚠️ O funil é drasticamente assimétrico!

Todos os estudos publicados estão agrupados em um lado. Onde estão os ensaios nulos e negativos?

1

Funnel Plot

Plot effect size vs. standard error. A symmetric funnel suggests no bias; asymmetry raises alarms.

2

Egger's Regression Test

Regress effect/SE on 1/SE. A non-zero intercept (P < 0.10) suggests small-study effects. Note: inflated false-positive rate with binary outcomes; use Peters' test instead.

3

Peters' Test

For binary outcomes, regresses log OR on inverse of total sample size. Less prone to false positives.

4

Trim-and-Fill

Imputa estudos "ausentes" para tornar o funil simétrico e, em seguida, recalcula o efeito agrupado.

📊

Interativo: análise de corte e preenchimento

Deixe aplicamos trim-and-fill aos dados da reboxetina e vemos qual seria a estimativa ajustada...

Published Only

7 trials

SMD = 0.56

Significant benefit

Trim-and-Fill

7 + 5 imputed = 12 trials

SMD = 0.23

Reduced, still nominally significant

But even trim-and-fill underestimated the problem!

O verdadeiro efeito com todos os dados foi SMD = 0,10 (essencialmente nulo).
Trim-and-fill is conservative—it doesn't fully correct for selective publication.

Os métodos de detecção de viés de publicação são imperfeitos. A verdadeira solução é prospective registration.

ClinicalTrials.gov
US registry (2000)
WHO ICTRP
Global portal
PROSPERO
Review registration

Ao pesquisar ensaios, sempre verifique os registros. Compare o número de registered ensaios com o número published. A lacuna é o seu sinal de alerta.

Since 2005, ICMJE requires trial registration as a condition of publication.

"All trials registered. All results reported."

O escândalo da reboxetina, juntamente com casos semelhantes em outras drogas, catalisou um movimento global:

2013: Política de Dados Clínicos da EMA

European Medicines Agency commits to publishing clinical study reports

2016: FDA Amendments Act enforcement

Mandatory results reporting on ClinicalTrials.gov within 12 months

AllTrials Coalition

Over 90,000 supporters, 700+ organizations demanding transparency

!

Germany's IQWiG recommended against reboxetine for depression

!

O NICE do Reino Unido rebaixou-o para "não recomendado"

!

O FDA rejeitou a reboxetina em 2001 (eles tiveram acesso a dados não publicados)

Por mais de uma década, os pacientes receberam um medicamento não melhor que placebo.

Porque apenas os ensaios positivos foram publicados.

HISTÓRIA: O Paroxetine Study 329 Deception

E se a conclusão publicada for o oposto dos dados reais?

REAL DATA

GlaxoSmithKline's Study 329 testado paroxetina em adolescent depression. O artigo publicado (2001) concluiu que a paroxetina era "generally well tolerated and effective." Os dados reais: paroxetina failed on all 8 pre-specified outcomes. When re-analyzed (RIAT 2015), suicidal/self-harm events: 23 no grupo de paroxetina vs 5 no grupo de placebo. O artigo publicado redefiniu resultados post-hoc para produzir significância. Em 2015, uma reanálise RIAT (Restoring Invisible and Abandoned Trials) usando o relatório de estudo clínico original concluiu: a paroxetina era neither safe nor effective for adolescents.

O quebra-cabeça do prescritor: 2003
Você é psiquiatra infantil. O Estudo 329 – o único grande ensaio – diz que a paroxetina funciona em adolescentes. Mas o FDA não o aprovou para adolescentes. Um pai pede que você prescreva. O que você faz?
CAMINHO A: Confie na publicação
A peer-reviewed JAACAP paper says it works. Prescribe off-label.
Millions of prescriptions worldwide. Suicidal events in adolescents.
OUTCOME: FDA issues black box warning for SSRIs in youth (2004)
PATH B: Check the Trial Registry
Pesquise ClinicalTrials.gov para endpoints originais. Observe que os resultados publicados não correspondem ao protocolo registrado.
Sinalizador vermelho: mudança de resultado detectada. Você retém a droga. O paciente fica mais seguro.
OUTCOME: Publication bias identified before harm
THE REVELATION
O viés de publicação não se trata apenas da falta de estudos. Trata-se de perder a verdade nos estudos publicados. A mudança de resultados, a escrita fantasma e os relatórios seletivos podem transformar um teste fracassado em uma ferramenta de marketing. Sempre compare os resultados publicados com os protocolos de registro de ensaios.

1. Qual porcentagem de dados de ensaios de reboxetina foi ocultada da literatura publicada?

A. 25%
B. 50%
C. 74%
D. 90%

2. Why can trim-and-fill underestimate the correction needed?

A. It assumes effects are normally distributed
B. Isso apenas imputa estudos para alcançar simetria, o que pode não refletir totalmente a realidade
C. Requer pelo menos 20 estudos
D. Só funciona com estudos muito grandes

3. What is the best prospective defense against publication bias?

A. Funnel plots in all meta-analyses
B. Egger's test before pooling
C. Prospective trial registration
D. More medical journals

O que você não pode consulte

may be more important than what you can.

Ausência de evidência não é evidência de ausência.

Certainty must be earned, not assumed.

Módulo 10: A Certeza

Módulo 10: A Certeza (Surfactante Precoce)

Certainty must be earned, not assumed.

Early Surfactant: 2012

Quando a evidência de alta qualidade evolui.

🎯 Learning Objectives

  • Aplique a estrutura GRADE completa para avaliar a certeza de evidências
  • Evaluate all five downgrade factors (RoB, inconsistency, indirectness, imprecision, publication bias)
  • Identify when to upgrade for large effect, dose-response, or confounding
  • Construct Summary of Findings tables with absolute effect estimates
  • Aplicar o princípio: "A certeza deve ser conquistada, não assumida"

"A revolution in neonatal care..."

A Síndrome do Desconforto Respiratório (SDR) foi a principal causa de morte em bebês prematuros. O desenvolvimento de surfactantexógeno - a substância que impede o colapso dos alvéolos - foi um dos grandes avanços na medicina neonatal.

A questão passou a ser: Quando devemos administrar surfactante?

Prophylactically (to all high-risk infants) or selectively (only after RDS develops)?

Multiple RCTs conducted before the era of routine CPAP

OutcomeProphylactic vs SelectiveCertainty
Neonatal mortality RR 0.73 (favors prophylactic) High
BPD or death RR 0.84 (favors prophylactic) High
Recommendation: Give surfactant prophylactically
Guidelines worldwide adopted this approach

Mas o mundo dos cuidados neonatais estava mudando...

A new technology emerged: Continuous Positive Airway Pressure (CPAP)

Non-invasive support that could help preterm lungs without intubation.

As evidências antigas ainda se aplicariam?

New trials conducted in the CPAP era

OutcomeOld TrialsNew Trials
BPD or death RR 0.84 (favors prophylactic) RR 1.12 (favors selective)
Necessidade de mecânica ventilação Baixe com profilático Maior com profilático!
Complete Reversal
In the CPAP era, prophylactic surfactant causes more harm
🔍

Investigation: Why Did Evidence Evolve?

Você é um neonatologista. Um colega pergunta: "Como os ensaios randomizados podem se contradizer?"

A evidência original estava errada?

1

Indirectness Changed

Old trials: No CPAP available. New trials: CPAP standard of care.

2

O comparador melhorado

Selective surfactant + CPAP is better than prophylactic intubation.

3

Context Matters

Evidências de uma época podem não se aplicar a outro.

This is why GRADE assesses Indirectness!

High-quality evidence can become inapplicable when context changes.

Grading of Recommendations, Assessment, Development and Evaluations

GRADE responde à pergunta: Quão confiantes estamos nesta estimativa?

⊕⊕⊕⊕ HIGH: Very confident. True effect is close to the estimate.

⊕⊕⊕◯ MODERATE: Moderately confident. True effect likely close, but may differ substantially.

⊕⊕◯◯ LOW: Limited confidence. True effect may differ substantially.

⊕◯◯◯ VERY LOW: Very little confidence. True effect likely substantially different.

A evidência do RCT começa em ALTO. Ele pode ser rebaixado para:

1

Risk of Bias

Flawed randomization, lack of blinding, incomplete follow-up, selective reporting

2

Inconsistency

Unexplained heterogeneity across studies (large I², non-overlapping CIs)

3

Indirectness

Diferenças na população, intervenção, comparador ou resultados da pergunta

4

Imprecision

Wide confidence intervals, small sample size, few events

5

Publication Bias

Asymmetric funnel plot, missing registered trials, sponsor influence

Each factor can downgrade by one or two levels

High → Moderate → Low → Very Low

Example: Uma meta-análise de ECRs (começa em ALTO) com alto risco de viés (↓1) e indireta grave (↓1) seria avaliado LOW.

📊

Interactive: Apply GRADE to Surfactant

Vamos avaliar a certeza da evidência para surfactante profilático usando ensaios antigos versus novos.

OLD TRIALS (Pre-CPAP)

Starting: HIGH (RCTs)

Risk of Bias: Low (−0)

Inconsistency: None (−0)

Indirectness: Serious (−1)

Different standard of care today

Final: ⊕⊕⊕◯ MODERATE

NEW TRIALS (CPAP Era)

Starting: HIGH (RCTs)

Risk of Bias: Low (−0)

Inconsistency: None (−0)

Indirectness: None (−0)

Matches current practice

Final: ⊕⊕⊕⊕ HIGH

A evidência observacional começa em BAIXO. Ele pode ser atualizado para:

+1

Large Magnitude of Effect

RR >2 ou <0,5 sem confusão plausível

+1

Dose-Response Gradient

Higher exposure = larger effect in a consistent pattern

+1

Residual Confounding

All plausible confounders would reduce the effect (strengthens causal inference)

GRADE requires transparent language about confidence:

HIGH: "Prophylactic surfactant reduces mortality..."

MODERATE: "Prophylactic surfactant probably reduces mortality..."

LOW: "Prophylactic surfactant may reduce mortality..."

VERY LOW: "We are uncertain whether prophylactic surfactant reduces mortality..."

Esta linguagem garante que os médicos entendam a força da evidência.

HISTÓRIA: O Paradoxo do Oxigênio em Bebês Prematuros

Can too much of a lifesaver become a killer?

REAL DATA

1940s-50s: High oxygen concentrations saved premature babies from respiratory failure. Then came an epidemic of blindness—retrolental fibroplasia (now called ROP). Doctors reduced oxygen dramatically. Blindness dropped. But then: increased deaths and brain damage da hipóxia. O nível ideal de oxigênio necessário decades of trials to find. Recent SUPPORT/BOOST II trials finally defined the therapeutic window: SpO2 91-95%.

O Dilema do Neonatologista: 1955
Você é um neonatologista. Bebês prematuros com alto teor de oxigênio estão ficando cegos. O que você faz?
PATH A: Dramatic Reduction
Drastically reduce oxygen to prevent blindness
Blindness rates drop. But some babies die or suffer brain damage from hypoxia.
OUTCOME: Trading one harm for another
CAMINHO B: Estudo Sistemático
Titular cuidadosamente o oxigênio, estudar a relação dose-resposta
Takes decades but eventually identifies the optimal range.
OUTCOME: Optimize both survival and vision
1940s: High O2 saves lives
1950s: Blindness epidemic
décadas de 1960-70: Mortes por baixo O2
2010s: SUPPORT/BOOST define optimal range
THE REVELATION
Cada intervenção tem uma janela terapêutica. Encontrá-lo requer medição, não suposição. O pêndulo oscilou por 60 anos antes que as evidências definissem o equilíbrio.

1. Por que a recomendação do surfactante foi revertida entre 2003 e 2012?

A. Os ensaios originais foram fraudulentos
B. CPAP changed the comparator (indirectness)
C. Not enough patients in original trials
D. O resultado foi medido de forma diferente

2. Qual das opções a seguir NÃO é um fator de downgrade GRADE?

A. Risk of bias
B. Imprecision
C. Publication bias
D. Large magnitude of effect

3. Que linguagem deve ser usada para evidências de qualidade BAIXA?

A. "A intervenção reduz..."
B. "A intervenção provavelmente reduz..."
C. "A intervenção pode reduzir..."
D. "Não temos certeza se..."

Um número não é suficiente.

Você deve comunicar o quão certo você está.

Certainty must be earned, not assumed.

Os métodos protegem os pacientes de nossa confiança.

Módulo 11: The Living Review

Módulo 11: The Living Review (COVID-19)

Os métodos protegem os pacientes de nossa confiança.

COVID-19 Hydroxychloroquine: 2020

Quando a urgência para evidências atendidas.

🎯 Learning Objectives

  • Aplicar análise sequencial de testes para determinar quando as evidências são suficientes
  • Projetar e manter uma revisão sistemática viva
  • Establish update triggers and futility/harm boundaries
  • Manage multiplicity and alpha-spending in sequential analyses
  • Explain how rapid evidence synthesis evolved during COVID-19

"O vírus se espalha mais rápido do que nossa compreensão..."

COVID-19 estava matando milhares de pessoas. As UTIs transbordaram. Não havia vacina, não havia tratamento. Então, um vislumbre de esperança: hydroxychloroquine (HCQ)—an old malaria drug—showed antiviral activity in lab studies.

March 20
Estudo de Gautret (França)
36 pts
Non-randomized
Viral
Clearance improved

Nas semanas do estudo de Gautret:

!

March 28: FDA issues Emergency Use Authorization for HCQ

!

April 4: India bans HCQ export (hoarding fears)

!

Global: Shortages affect lupus and rheumatoid arthritis patients

Millions received HCQ based on a 36-patient observational study

What could go wrong?

🔍

Investigação: The Gautret Estudo

Você é um especialista em MBE solicitado a avaliar o estudo francês HCQ. Examine o design...

IssueImpact
Non-randomizedSelection bias—who got HCQ?
6 patients excluded3 went to ICU, 1 died, 1 withdrew, 1 had nausea
Surrogate outcomeViral load, not clinical outcomes
Controle de hospital diferenteDifferent care, different testing
No blindingExpectation bias in lab testing

Este estudo teria uma pontuação ALTA de risco de viés em RoB 2.0

GRADE certainty: VERY LOW. Yet it changed global policy.

1

Immortal Time Bias

Patients must survive long enough to receive treatment. Survivors are compared to non-survivors.

2

Confounding by Indication

Sicker patients may get different treatments. Healthier patients received HCQ early.

3

Healthy User Effect

Patients who seek treatment tend to be healthier overall.

4

Outcome Reporting

Estudos com resultados positivos foram publicados mais rapidamente.

Large, rigorous trials completed at remarkable speed

TrialNResult
RECOVERY (UK) 4,716 No benefit on mortality (RR 1.09)
WHO SOLIDARITY 954 No benefit (RR 1.19)
ORCHID (US) 479 Interrompido para futilidade
HCQ provided no benefit—and may have caused harm
June 15, 2020: FDA revokes Emergency Use Authorization
📊

Linha do tempo: evidências observacionais vs. RCT

March-May 2020

Observational: ~20 studies

Suggest benefit

Pooled OR ~0.65

June-July 2020

RCTs: RECOVERY, SOLIDARITY

Show no benefit/harm

Pooled RR ~1.10

De "promissor" a "ineficaz" em 3 meses

É por isso que precisamos de randomização - e análises vivas para rastrear evidências em evolução.

Uma nova abordagem para evolução rápida evidências:

1

Continuous Surveillance

Pesquise na literatura semanalmente ou mesmo diariamente por novas evidências

2

Cumulative Meta-Analysis

Update pooled estimates as each new trial reports

3

Análise Sequencial de Teste (TSA)

Determine when sufficient information has accumulated to conclude

4

Transparent Versioning

Track every change, maintain full audit trail

When have we learned enough?

A TSA aplica limites de parada à meta-análise - semelhante à análise provisória em um único ensaio. É responsável pelo required information size (RIS) needed to detect or exclude a clinically meaningful effect.

RIS
Required sample size
α-spending
Controls type I error
Boundaries
Benefit / Harm / Futility

Para HCQ em COVID, a TSA mostrou que o limite de futilidade foi ultrapassado em junho de 2020.

1. Observational studies can mislead spectacularly quando o preconceito é predominante. Mesmo muitos estudos apontando na mesma direção podem estar errados.

2. RCTs can be conducted quickly when the will exists. RECOVERY enrolled 5,000+ patients in weeks.

3. Revisões vivas são essenciais for evolving topics. Fixed-point-in-time reviews become obsolete instantly.

4. Political pressure doesn't change biology. Métodos rigorosos protegem os pacientes mesmo quando sob pressão.

HISTÓRIA: A Revolução da Alergia ao Amendoim LEAP

E se a prevenção FOR a causa?

REAL DATA

For decades, pediatric guidelines recommended: avoid peanuts in infancy to prevent allergy. Meanwhile, peanut allergy rates tripled de 1997 a 2008. Então veio LEAP (2015): 640 high-risk infants randomized to early peanut introduction vs. avoidance. Result: Early introduction reduced peanut allergy by 81% (1,9% vs 13,7%). A estratégia de prevenção estava causando a epidemia.

The Allergist's Crossroads: 2010
Você é um alergista pediátrico. As alergias ao amendoim estão aumentando apesar das diretrizes para evitá-lo. Você questiona o dogma?
PATH A: Follow Guidelines
Continue recommending peanut avoidance in high-risk infants
Guidelines are "evidence-based." Safe to follow consensus.
OUTCOME: Peanut allergies continue to rise
CAMINHO B: Questione o Dogma
Design a trial to test if early introduction might be protective
LEAP trial reveals the truth. Guidelines reverse worldwide.
OUTCOME: Prevent an epidemic
2000: AAP recommends avoidance
2008: Allergy rates triple
2015: LEAP inverte as evidências
2017: Guidelines flip to early introduction
THE REVELATION
"Primeiro, não faça mal" requer evidências. Suposições, mesmo as bem-intencionadas, podem causar danos em grande escala. O sistema imunológico precisava de exposição para desenvolver tolerância – a evitação criava sensibilização.

1. Qual foi a principal falha no estudo da hidroxicloroquina de Gautret?

A. Too few patients
B. No blinding
C. Excluding patients who deteriorated
D. Too short follow-up

2. What does Trial Sequential Analysis help determine?

A. Which studies have high risk of bias
B. When enough evidence has accumulated
C. O grau de heterogeneidade
D. Which treatment is best

3. Por que os estudos observacionais de COVID mostraram benefícios de HCQ enquanto os ECRs não?

A. RCTs enrolled sicker patients
B. RCTs used different outcomes
C. Viés em estudos observacionais
D. Os estudos observacionais tiveram melhores dados

Speed cannot replace rigor.

But rigor can be fast.

Living reviews balance both.

Nem todo sinal é verdade.

Módulo 12: Métodos avançados

Módulo 12: Métodos avançados

Nem todo sinal é verdade.

Advanced Methods

Beyond pairwise meta-analysis.

🎯 Learning Objectives

  • Interpret network meta-analysis geometry and SUCRA rankings
  • Apply bivariate models for diagnostic test accuracy meta-analysis
  • Conduct dose-response meta-analysis with flexible splines
  • Understand when individual patient data (IPD) meta-analysis is needed
  • Reconhecer as suposições e limitações de cada um método avançado

"Às vezes a questão é mais complexa do que A versus B..."

Os métodos que você aprendeu formam a base. Mas a realidade clínica muitas vezes exige mais: Which of 10 antidepressants is best? What's the optimal dose of statin? Does this test accurately diagnose early cancer?

Este módulo apresenta quatro métodos avançados - cada um respondendo a diferentes questões complexas.

When you have many treatments but few head-to-head trials

NMA combines direct evidence (A vs B) with indirect evidence (A vs C, B vs C → inferred A vs B) to compare multiple treatments simultaneously.

SUCRA
Ranking probabilities, not effect size
Consistency
Direct = Indirect?
Networks
Visualize evidence
🔍

NMA Example: Antidepressants

The landmark Cipriani 2018 NMA compared 21 antidepressants using 522 trials.

The Challenge

21 drugs, but not every pair tested head-to-head

Many vs. placebo, few vs. each other

The Solution

NMA combina evidências diretas e indiretas em toda a rede

Classifica todos os 21 em termos de eficácia e aceitabilidade

Resultado: alguns medicamentos tiveram classificação mais alta em eficácia, outros em aceitabilidade

Nenhum medicamento é universalmente "melhor"; interpretar classificações com intervalos confiáveis, transitividade e compensações clínicas.

1

Transitivity

Effect modifiers should be similarly distributed across comparisons; otherwise indirect comparisons may be biased

2

Consistency

Evidências diretas e indiretas concordam (testáveis)

3

Connected Network

All treatments linked through at least one common comparator

When assumptions fail, NMA can mislead

Sempre avalie a transitividade e teste para inconsistência.

Encontrar a dose ideal

Uses the Greenland-Longnecker method com splines cúbicos restritos para modelar relações não lineares entre dose e efeito.

1

Non-linear patterns

J-shaped (alcohol & mortality), U-shaped (vitamin D), threshold (aspirin)

2

Clinical relevance

Encontre a dose com melhor equilíbrio benefício-dano, não apenas "mais é melhor"

O padrão ouro para o subgrupo análise

Instead of published summary data, obtain dados brutos em nível de paciente dos experimentadores. Permite análises precisas de subgrupos, modelagem de tempo até o evento e definições padronizadas.

One-Stage
Single hierarchical model (not mega-trial)
Two-Stage
Analyze, then pool
80%+ target
Meta de disponibilidade de dados

O Early Breast Cancer Trialists' Collaborative Group foi pioneiro no IPD MA na década de 1980.

Quando a "intervenção" é uma teste

DTA meta-analysis synthesizes sensitivity (taxa de verdadeiro positivo) e specificity (true negative rate)—two correlated outcomes requiring bivariate models.

1

Bivariate/HSROC Model

Conta para correlação entre sensibilidade e especificidade

2

SROC Curve

Curva ROC resumida com 95% de confiança e regiões de predição

3

QUADAS-2

Quality Assessment of Diagnostic Accuracy Studies

QuestionMethod
Does A beat B?Pairwise MA
Which of many treatments is best?Network MA (NMA)
Qual é a dose ideal?Dose-Response MA
Who benefits most? (subgroups)IPD MA
Quão preciso é este teste?DTA MA
Como o efeito evolui ao longo do tempo?Survival/Time-to-Event MA

O método deve corresponder à pergunta. Nunca force uma pergunta no método errado.

HISTÓRIA: Os esteróides na saga da sepse

Three large trials. Three different answers. What do you believe?

REAL DATA

CORTICUS (2008): 499 patients. Hydrocortisone in septic shock. No mortality benefit. ADRENAL (2018): 3,658 patients. Hydrocortisone. No mortality benefit. APROCCHSS (2018): 1,241 patients. Hydrocortisone + fludrocortisone. Mortality reduced (43% vs 49.1%, p=0.03). Same class of intervention. Different protocols. Different results.

O desafio do redator de diretrizes
Você está escrevendo diretrizes sobre sepse. Três grandes ensaios discordam. Como você recomenda?
PATH A: Simple Average
Pool all three trials. Overall effect uncertain. Conclude "evidence unclear."
Guidelines say steroids are optional. No strong recommendation.
OUTCOME: Clinicians left without clear guidance
PATH B: Investigate Heterogeneity
Analyze why APROCCHSS differed (fludrocortisone, longer duration, different population)
Identifique se o protocolo eficaz difere dos ineficazes.
OUTCOME: Recommend the specific effective protocol
THE REVELATION
Ensaios conflitantes não são falhas. São mapas de onde o tratamento funciona e onde não funciona. As diferenças entre os ensaios – dose, duração, cointervenções, população – são a chave para a compreensão.

1. Qual é a principal vantagem da metanálise de rede em relação aos pares?

A. Não requer extração de dados
B. It compares treatments not directly tested against each other
C. Elimina a necessidade de avaliação de risco de viés
D. It produces better forest plots

2. Why does DTA meta-analysis require bivariate models?

A. To handle more than two studies
B. Para ajustar o viés de publicação
C. Sensibilidade e especificidade são correlacionado
D. To generate forest plots

3. What does the "consistency" assumption in NMA require?

A. All studies must be high quality
B. Evidências diretas e indiretas devem concordar
C. Sample sizes must be similar
D. No missing studies
Methodologist

Este curso cobre todo o fluxo de trabalho da revisão sistemática. Para se aprofundar, explore os cursos complementares:

DTA Course
Bivariate/HSROC, SROC curves, QUADAS-2
Risk of Bias Mastery
RoB 2, ROBINS-I/E, domain-level assessment
GRADE Certainty
Full SoF tables, GRADE-CERQual
IPD Meta-Analysis
One-stage/two-stage, mixed-effects models
Publication Bias Detective
Copas, PET-PEESE, p-curve, selection models
Umbrella Reviews
AMSTAR 2, ROBIS, overlap correction
Prognostic Reviews
CHARMS, PROBAST, c-statistic pooling
Living Reviews + Rapid Reviews
TSA, update triggers, abbreviated methods

Module 12 Complete

"O método deve corresponder à pergunta. Os métodos avançados respondem a perguntas avançadas, mas os fundamentos nunca mudam."

Você dominou o fluxo de trabalho principal. Os próximos dez módulos exploram a fronteira: inferência bayesiana, meta-análise de rede, dados individuais de pacientes, modelagem dose-resposta, robustez e fragilidade, equidade, síntese assistida por IA, evidência qualitativa, métodos multivariados e reprodutibilidade.

Nem todo sinal é verdade.

Módulo 13: O bayesiano Turn

========================================================= MÓDULO 13: A VIRADA BAYESIANA (teste da plataforma STAMPEDE) =================================================

Nem todo sinal é verdade.

Módulo 13: O bayesiano Turn

🎯 Learning Objectives

  • Explique a diferença entre inferência frequentista e bayesiana
  • Interpret prior distributions, likelihoods, and posterior distributions
  • Distinguish credible intervals from confidence intervals
  • Understand when Bayesian meta-analysis offers advantages
  • Recognize how prior choice affects conclusions
Abridor de história: STAMPEDE

In 2005, a trial began

that would never truly end.

O estudo STAMPEDE para câncer de próstata usou um projeto de plataforma multi-braço e multi-estágio (MAMS). As armas poderiam ser adicionadas ou retiradas à medida que as evidências se acumulassem. Embora suas estatísticas fossem frequentistas, a filosofia adaptativa incorporava o espírito Bayesiano: atualizar decisões à medida que os dados se acumulam.

In frequentist statistics, probability means long-run frequency. Um IC de 95% NÃO significa "95% de probabilidade de o verdadeiro efeito estar dentro". Isso significa: se repetissemos o estudo infinitamente, 95% dos intervalos conteriam a verdade.

p-value
P(dados | H₀), não P(H₀ | dados)
95% CI
Propriedade de cobertura, não crença
Fixed
O parâmetro verdadeiro é fixo

In Bayesian statistics, probability represents degree of belief. We start with a prior (o que acreditamos antes dos dados), atualize com o likelihood (o que os dados nos dizem) e obtenha a posterior (updated belief).

1

Prior × Likelihood = Posterior

Teorema de Bayes: P(θ|dados) ∝ P(dados|θ) × P(θ)

2

Credible Intervals

Um intervalo de credibilidade de 95% é interpretável probabilisticamente, condicionado ao modelo especificado e anterior.

Researcher
1

Non-informative (Vague)

Normal(0, 10000) ou uniforme. Deixe os dados dominarem. Imita resultados frequentistas.

2

Weakly Informative

Normal(0, 1) for log-OR. Regularizes extreme estimates while remaining flexible.

3

Informative

Based on previous evidence. Powerful but controversial. Must be pre-specified.

4

Half-Cauchy for τ

Recommended for heterogeneity. Half-Cauchy(0, 0.5) allows large τ but concentrates near zero.

Researcher

Most Bayesian models cannot be solved analytically. We use Markov Chain Monte Carlo (MCMC) para extrair amostras da parte posterior. Ferramentas: JAGS, Stan, brms (R), PyMC (Python).

Chains
Multiple independent chains (typically 4)
Convergence: R̂ < 1.01 (strict; older texts use < 1.1)
ESS
Bulk-ESS > 400 para médias; tail-ESS > 400 para CIs
Methodologist

Instead of choosing between fixed-effect and random-effects models, Bayesian model averaging (BMA) pondera cada modelo por sua probabilidade posterior. Isso explica a incerteza do modelo na estimativa final.

BF

Bayes Factors

BF₁₀ > 10 = forte evidência para H₁. BF₁₀ < 1/10 = forte evidência para H₀.

Espaço de ferramenta interativa

Ajuste a força anterior para ver como ela afeta a parte posterior. Veja como mais dados superam os anteriores.



A história do STAMPEDE

STAMPEDE foi lançado em 2005 com 5 braços de pesquisa comparando tratamentos para câncer de próstata avançado. Em 2016, adicionou abiraterona e mostrou uma redução de 37% na mortalidade (HR 0,63, IC 95% 0,52–0,76).

O design da plataforma incorpora o pensamento adaptativo bayesiano: análises provisórias orientam a seleção de braços, novos braços podem entrar à medida que os tratamentos surgem e braços fúteis caem precocemente - salvando pacientes de ineficácia terapias.

STAMPEDE inscreveu mais de 10.000 pacientes em mais de 100 centros e mudou fundamentalmente o tratamento do câncer de próstata. A mentalidade Bayesiana permite que as evidências se acumulem e informem as decisões em tempo real.

Frequentist vs Bayesian Meta-Analysis
Escolha Bayesiano quando: (1) você tiver informações prévias genuínas, (2) precisar de declarações probabilísticas ("80% de efeito de chance > 0"), (3) poucos estudos tornam as propriedades frequentistas não confiáveis ou (4) você quiser fazer a média do modelo.
Bayesian with weakly informative prior
A common practical default. Regularizes extreme estimates without forcing strong prior conclusions.
Bayesiano com informações anterior
Somente quando a evidência anterior é forte e pré-especificada. Deve fazer análise de sensibilidade.
Stay frequentist
Simpler, well-understood. Preferred when k is large and no prior information.

Remember Module 1?

CAST Through a Bayesian Lens

Se uma análise Bayesiana do CAST tivesse usado um antecedente informativo da ciência básica (antiarrítmicos suprimem CVPs), a parte posterior ainda teria se deslocado fortemente em direção ao dano. Com dados suficientes, mesmo um anterior forte cede à probabilidade. A lição: os métodos bayesianos não protegem contra antecedentes ruins - mas eles fazem suposições transparent.

Q1. What does a 95% Bayesian credible interval mean?

A. 95% of repeated experiments would produce intervals containing the true value
B. Há uma probabilidade de 95% de que o parâmetro verdadeiro esteja dentro deste intervalo
C. The interval has a 95% chance of being correct
D. 95% dos dados futuros cairão neste intervalo

Q2. Qual é o prévio recomendado para heterogeneidade entre estudos (τ)?

A. Uniform(0, 100)
B. Normal(0, 1)
C. Half-Cauchy(0, 0.5)
D. Fixed at 0.5

Module 13 Complete

"A virada bayesiana não é sobre matemática. É sobre honestidade - tornar nossas suposições visíveis."

Nem todo sinal é verdade.

Módulo 14: O Rede

======================================================== MÓDULO 14: A REDE (Cipriani 2018 - 21 antidepressivos) ============================================

Os métodos protegem os pacientes de nossa confiança.

Módulo 14: O Rede

🎯 Learning Objectives

  • Explain why pairwise comparisons are insufficient when many treatments exist
  • Interpret network geometry (nodes, edges, thickness)
  • Entenda a transitividade, a consistência e o papel da evidência indireta
  • Interpret SUCRA rankings and league tables
  • Recognize when NMA assumptions are violated

A clinician faces a patient

com depressão. Qual medicamento?

Existem 21 antidepressivos comumente prescritos. A maioria dos ensaios comparativos compara apenas 2 ou 3. Cipriani et al. (2018, Lancet) conectou 522 ensaios e 116.477 pacientes em uma única rede.

1

Direct Evidence

Trials directly comparing A vs B give the most reliable estimate.

2

Indirect Evidence

Se A vs C e B vs C existem, podemos inferir A vs B. Esta é a suposição "transitiva".

3

Mixed Evidence

NMA combines both, weighted by precision, to rank all treatments simultaneously.

Cada nó é um tratamento. A espessura da borda representa o número de estudos comparando esses dois tratamentos.

Researcher

Transitivity: A estimativa indireta (via comparador comum) deve aproximar-se da estimativa direta. Isso requer que os modificadores de efeito sejam distribuídos de forma semelhante entre as comparações.

Consistency: Teste estatístico comparando evidências diretas e indiretas. Testes globais (interação projeto por tratamento) e locais (divisão de nós) ajudam a identificar loops de inconsistência.

Researcher
SUCRA
Surface Em Classificação Cumulativa. Valores mais altos indicam melhor probabilidade de classificação, não superioridade garantida.
P-score
Análogo freqüentista para resumos de probabilidade de classificação. Interprete com tamanhos de efeito e incerteza.

Caution: Ranking is seductive but misleading when differences between treatments are small or uncertain. Always report credible/confidence intervals alongside ranks.

Methodologist

When interventions are complex (e.g., behavioral + pharmacological), component NMA decomposes multi-component treatments to estimate the individual contribution of each component. Uses additive models: effect(A+B) = effect(A) + effect(B) + interaction.

A Rede Cipriani

A análise da Lancet de 2018 descobriu que todos os 21 antidepressivos foram mais eficazes que o placebo. Amitriptilina, mirtazapina e venlafaxina tiveram a melhor classificação em eficácia. A agomelatina, a fluoxetina e o escitalopram obtiveram a melhor classificação em termos de aceitabilidade (menos desistências).

Nenhum medicamento "ganhou" em todos os resultados. A rede revelou compensações invisíveis à análise pareada.

NMA Feasibility Check
Você tem 15 ECRs comparando 6 estatinas diferentes. Alguns pares têm evidências diretas, outros não.
Check transitivity, then fit NMA
Verifique se as populações de pacientes e os desenhos dos estudos são suficientemente semelhantes nas comparações.
Ignore as evidências indiretas
Perde poder estatístico e deixa lacunas na base de evidências.
Pool all into one pairwise comparison
Viola a estrutura do evidência. As estatinas são medicamentos diferentes.

Q1. Que suposição deve ser mantida para que a evidência indireta seja válida na NMA?

A. Transitivity — effect modifiers are balanced across comparisons
B. Homogeneity — I² must be below 25%
C. All studies must have similar sample sizes
D. Todos os estudos devem ser duplo-cegos

Module 14 Complete

"A rede vê o que as comparações entre pares não podem: todo o cenário da escolha do tratamento."

Nem todo sinal é verdade.

Módulo 15: O Indivíduo

========================================================= MÓDULO 15: O INDIVÍDUO (EBCTCG - meta-análise IPD) ========================================================

What was hidden in plain sight?

Módulo 15: O Indivíduo

🎯 Learning Objectives

  • Explain why aggregate data can mask treatment–covariate interactions
  • Distinguish one-stage from two-stage IPD models
  • Recognize ecological bias in aggregate meta-analysis
  • Understand the practical challenges of IPD collection
  • Interpret treatment–covariate interaction plots

For decades, breast cancer trials

resumos publicados. Não pacientes.

O Early Breast Cancer Trialists' Collaborative Group (EBCTCG) coletou registros individuais de mais de 100.000 mulheres em centenas de ensaios. Suas meta-análises de IPD mostraram que os benefícios do tamoxifeno dependem fortemente do status do receptor de estrogênio – algo invisível nos dados agregados.

Todos os ensaios publicados sobre tamoxifeno relataram um resultado geral. Em centenas de estudos, o tamoxifeno pareceu oferecer um benefício modesto. Mas o “benefício modesto” era uma média que escondia uma verdade profunda.

A divisão oculta do subgrupo

RR 0.59
ER-positive subgroup: 41% reduction in recurrence
RR 0.97
ER-negative subgroup: essentially no benefit at all

O efeito geral agrupado – misturando pacientes responsivos e não responsivos – era uma ficção estatística. Uma média “modesta” que exagerava o benefício para um grupo e implicava benefício onde nenhum existia para o outro.

AD
Aggregate: published effect + CI only
IPD
Individual: raw patient-level records

O IPD permite: (1) definições consistentes de resultados, (2) análise de subgrupos por características do paciente, (3) modelagem de tempo até o evento, (4) verificação de viés ecológico. É o gold standard for exploring treatment effect modification.

Researcher
1

Two-Stage

Analyze each study separately, then combine estimates (like standard MA). Simple but loses information.

2

One-Stage

Ajustar um único modelo de efeitos mistos a todos os dados do paciente simultaneamente. Mais poderoso para interações e eventos raros.

Key: Ambos devem levar em conta o agrupamento de estudos. Nunca agrupe a DPI como se fosse um mega-ensaio — isso introduz confusão (paradoxo de Simpson).

Methodologist

A meta-regression using study-level mean age might show older patients benefit more. But this could be ecological bias— a associação em nível de estudo não reflete a verdade em nível de paciente. Somente o IPD pode separar within-study from between-study effects.

Quando o todo reside em suas partes

Paradoxo de Simpson: uma tendência que aparece em dados agregados se inverte quando os dados são agrupados por uma variável de confusão.

O Paradoxo na Prática

A mega-trial analysis found Treatment X beneficial overall. But dentro de cada estudo, foi prejudicial. Como? As diferenças no risco de base entre os estudos criaram uma ilusão: populações mais doentes receberam mais tratamento, inflando o benefício agregado.

Cates (2002, BMJ) mostraram que o agrupamento entre estudos sem levar em conta o agrupamento pode reverter a direção aparente do efeito.

É por isso que os modelos de estágio único de IPD incluem o estudo como uma variável de agrupamento - para evitar que a confusão entre os estudos seja mascarada como tratamento efeito.

O Legado EBCTCG

As meta-análises de IPD da EBCTCG definiram o tratamento do câncer de mama há 40 anos. A análise de 2005 do tamoxifeno versus nenhum tratamento mostrou um claro benefício em tumores ER-positivos (RR 0,59), mas nenhum benefício em tumores ER-negativos (RR 0,97).

Sem a DPI, o efeito agregado global teria sido agrupado em ambos os grupos – diluindo o benefício e potencialmente negando aos pacientes RE-positivos a magnitude do seu ganho.

Do you suspect treatment–covariate interactions?
Yes →

Você pode obter DPI em >80% dos ensaios?

Yes → One-stage IPD meta-analysis with interaction terms
No → Duas etapas: solicitar IPD disponível + agregado para o restante
No →

Is ecological bias a concern?

Yes → IPD preferred even without interactions
No → Aggregate data meta-analysis may suffice

A EBCTCG coletou dados de centenas de ensaios ao longo de 40 anos. A maioria das meta-análises de DPI envolve de 5 a 20 ensaios. A decisão depende da questão e não da ambição.

Methodologist

Lembra do Módulo 3? A TRH pareceu benéfica em estudos observacionais, mas prejudicial em ECRs. Ocorreu o mesmo mascaramento agregado: o benefício geral escondeu os danos do subgrupo.

A análise do IPD da Iniciativa de Saúde da Mulher mostrou mais tarde que timing mattered—mulheres que iniciaram TRH dentro de 10 anos após a menopausa tiveram resultados diferentes daqueles que iniciaram mais tarde. A “hipótese temporal” era invisível nos resumos agregados publicados.

A lição se repete: dados agregados podem obscurecer interações críticas entre tratamento e covariáveis. Quer se trate do status do pronto-socorro no câncer de mama ou do momento da TRH, os dados de nível individual revelam o que os resumos ocultam.

Q1. Qual é a principal vantagem do IPD sobre a meta-análise de dados agregados?

A. Sempre inclui mais estudos
B. É mais barato e mais rápido
C. It can explore treatment–covariate interactions without ecological bias
D. Elimina a necessidade de modelos de efeitos aleatórios

Module 15 Complete

“Por trás de cada estimativa agrupada estão indivíduos cujas histórias o agregado não pode contar”.

A heterogeneidade é uma mensagem, não um ruído.

Módulo 16: A Dose

======================================================== MÓDULO 16: A DOSE (Álcool J-curva / Stockwell 2016) ==========================================================

A heterogeneidade é uma mensagem, não um ruído.

Módulo 16: A Dose

🎯 Learning Objectives

  • Explain why simple pairwise comparisons miss dose–response relationships
  • Distinguish linear, quadratic, and spline dose–response models
  • Interpret restricted cubic splines with knots
  • Identify threshold effects and J/U-shaped curves
  • Understand model comparison with AIC/BIC

Durante décadas, o consumo moderado

parecia proteger o coração.

A "curva em forma de J" mostrou que os que não bebem apresentam maior mortalidade cardiovascular do que os que bebem moderadamente. Mas Stockwell et al. (2016) demonstraram que a curva J era um artefato para classificar erroneamente ex-bebedores (que pararam devido a doença) como “abstêmios”.

Em 2010, mais de 100 estudos observacionais confirmaram a curva J. Os livros de medicina ensinavam isso. Os cardiologistas citaram isso. Os lobistas da indústria do vinho financiaram conferências em torno do assunto.

100+
Estudos observacionais confirmando a curva J
15–25%
Lower cardiovascular mortality in moderate drinkers vs abstainers

A evidência parecia esmagadora. Mas e se o grupo de comparação – “abstêmios” – estivesse contaminado?

O desistente doente

A Hidden Confounder

The Problem

People who stop drinking often do so because they are already ill—doença hepática, interações medicamentosas, diagnóstico de câncer. Esses “ex-bebedores” foram classificados como “abstêmios” na maioria dos estudos.

The Effect: The reference group (abstainers) appeared less healthy—não porque a abstinência fosse prejudicial, mas porque pessoas doentes haviam aderido a ela.

When Stockwell et al. (2016, J Stud Alcohol Drugs) removed former drinkers and applied appropriate study-quality corrections: a curva J desapareceu. O efeito protetor era um fantasma.

Standard meta-analysis asks: "Does treatment X work?" Dose–response meta-analysis asks: "At what dose o tratamento X funciona melhor?" Ele modela a relação entre o nível de dose e o resultado em vários estudos.

Linear
Simplest: log(RR) = β × dose
Spline
Flexible: piecewise polynomials with knots
Fractional
Polynomial: dose^p1 + dose^p2
Researcher

RCS place knots em pontos de dose pré-especificados e ajuste polinômios suaves entre eles. Normalmente 3–5 nós nos quantis da distribuição da dose. Linear além dos nós de limite. Os testes de não linearidade comparam o modelo spline com um modelo linear mais simples.

AIC

Model Comparison

AIC/BIC compara ajuste linear vs spline. Menor = melhor. Teste também o desvio da linearidade (valor p para termos spline).

Compare ajustes lineares vs quadráticos vs spline. Observe como o formato do modelo muda com diferentes suposições.

A curva J do álcool desmascarada

A reanálise de Stockwell de 2016 descobriu que quando ex-bebedores eram corretamente excluídos do grupo de referência de “abstêmios”, o efeito protetor do consumo moderado desaparecia. A curva J foi impulsionada pelo viés do abandono por doença.

A meta-análise dose-resposta revelou a verdade: o formato da curva depende criticamente de como você define "dose zero". A categoria de referência errada criou um benefício fantasma.

The phantom J-curve influenced alcohol guidelines worldwide:

UK

NHS Guidance (until 2016)

“Beber moderadamente pode proteger o coração” apareceu na orientação oficial. Após a correção de Stockwell, o Reino Unido revisou os limites para 14 unidades/semana para all bebedores (anteriormente 21 para homens). Nenhuma quantidade foi declarada “segura”.

US

Dietary Guidelines Advisory Committee

Estudos da curva J foram citados até 2015. O comitê de 2020 recomendou reduzir os limites para 1 bebida/dia para homens, reconhecendo o viés do grupo de referência.

AU

Australian Guidelines

Safe drinking limits were delayed by industry-funded J-curve research promoting “cardioprotective” moderate intake.

Você tem ≥3 níveis de exposição (não apenas exposto vs. não exposto)?
Yes →

O relacionamento é plausivelmente não linear?

Yes → Restricted cubic splines (3–5 knots). Compare AIC with linear model.
No → Linear dose-response meta-regression may suffice
No →

Standard pairwise meta-analysis (no dose-response possible with only two levels)

Warning: Sempre verifique se sua categoria de referência está limpa? A lição da curva J: um grupo de referência contaminado cria não linearidade fantasma.

Q1. What makes restricted cubic splines useful in dose–response meta-analysis?

A. They always produce a straight line
B. They flexibly capture non-linear dose–response curves
C. Eles reduzem o número de estudos necessários
D. They simplify the model to fewer parameters

Module 16 Complete

"A dose produz o veneno. E o formato da curva revela se o veneno é real."

Ausência de evidência não é evidência de ausência.

Módulo 17: O Fragilidade

========================================================== MÓDULO 17: A FRAGILIDADE (Oseltamivir/Jefferson 2014) ===================================================

Ausência de evidência não é evidência de ausência.

Módulo 17: O Fragilidade

🎯 Learning Objectives

  • Calcular e interpretar o índice de fragilidade
  • Use gráficos GOSH para identificar estudos e subconjuntos influentes efeitos
  • Interpret contour-enhanced funnel plots
  • Aplicar modelos de seleção Copas e PET-PEESE para viés de publicação
  • Understand how sensitivity analyses strengthen meta-analytic conclusions

Governments stockpiled billions

com base em evidências que eles não puderam ver.

Depois do H1N1, os governos gastaram bilhões em estoques de oseltamivir (Tamiflu). A equipa Cochrane (Jefferson et al. 2014) lutou durante anos para aceder a dados não publicados. Quando finalmente o fizeram, a evidência para prevenir complicações evaporou.

O índice de fragilidade pergunta: "How many patients would need to change outcome to flip a statistically significant result to non-significant?" Ele adiciona eventos iterativamente (converte não eventos em eventos) no grupo com menos eventos até p > 0,05.

FI = 1
Extremely fragile. One patient flip changes conclusion.
FI > 8
Reasonably robust. Less sensitive to individual outcomes.

Enter a 2×2 table to calculate the fragility index. Watch events shift until significance flips.

Events
Total N
Treatment
Control
Researcher

Visão geral gráfica da heterogeneidade do estudo (GOSH) ajusta modelos de meta-análise a todos os subconjuntos possíveis de estudos. Cada ponto representa graficamente o efeito combinado vs I² para um subconjunto. Os clusters sugerem subgrupos distintos; nuvens atípicas sugerem um estudo que impulsiona a heterogeneidade.

Para estudos k, há 2k−1 subsets. For k > 15, random sampling is used.

Researcher

Standard funnel plots show effect size vs standard error. Contour-enhanced versões que adicionam regiões sombreadas para p < 0,01, p < 0,05 e p < 0,10. Se os estudos faltantes caírem em regiões não significativas, é provável que haja viés de publicação. Se caírem em regiões significativas, outras causas (por exemplo, qualidade do estudo) podem explicar a assimetria.

Methodologist
1

Copas Selection Model

Modela a probabilidade de um estudo ser publicado em função de seu SE e tamanho do efeito. Estima conjuntamente o verdadeiro efeito e o mecanismo de seleção.

2

PET-PEESE

Precision-Effect Test (PET): regress effects on SE. If intercept = 0, no true effect. PEESE uses SE² for better performance when a true effect exists.

A Saga Oseltamivir

A meta-análise original financiada pela Roche (Kaiser 2003) mostrou que o oseltamivir reduziu as complicações da gripe em 67%. Mas 8 dos 10 ensaios nunca foram publicados. Depois que a Cochrane obteve os relatórios dos estudos clínicos, o benefício em termos de complicações caiu para 11%, não significativos.

A fragilidade não era apenas estatística – era informativa. A própria base de evidências estava faltando a maioria dos dados.

Você calculou o Índice de Fragilidade. O que significa o número?
FI ≤ 3

Highly fragile. Um punhado de eventos diferentes reverteria a conclusão. Interprete com extrema cautela.

FI 4–8

Moderately fragile. Sensível a pequenas perturbações. Existem ensaios não publicados que possam mudar isso?

FI > 8

Relatively robust. But remember: fragility is only one dimension. Publication bias can undermine even robust results.

Walsh et al. (2014, J Clin Epidemiol) descobriram que em 399 ensaios clínicos randomizados publicados nas principais revistas, o índice de fragilidade mediano era de apenas 8. Mais de 25% tinham FI ≤ 3. Os ensaios de referência que influenciavam a prática clínica estavam muitas vezes pendurados por um fio estatístico.

Methodologist

A saga do oseltamivir revelada three types of fragility—e o Índice de Fragilidade capta apenas o primeiro.

1

Statistical Fragility (FI)

Quantos eventos invertem o valor p? Isto é o que mede o Índice de Fragilidade. Ele quantifica a sensibilidade aos resultados individuais do paciente.

2

Informational Fragility

Quanto da evidência está oculta? Oito dos dez ensaios da Roche com oseltamivir não foram publicados. A base de evidências estava estruturalmente incompleta.

3

Analytical Fragility

Quantos graus de liberdade do pesquisador poderiam mudar a conclusão? Diferentes definições de resultados, populações de análise ou métodos estatísticos.

Retorno de chamada para Módulo 10 (Paroxetina): A reanálise com diferentes definições de resultados reverteu totalmente a conclusão. Isso foi uma fragilidade analítica – o IF nunca foi calculado porque o próprio ponto final era contestado. Uma avaliação completa da robustez examina todas as três dimensões.

Q1. Um ensaio tem 200 pacientes por braço, 12 eventos em tratamento, 25 em controle (p=0,03). O índice de fragilidade é 3. O que isso significa?

A. O tamanho do efeito é exatamente 3
B. Changing just 3 patient outcomes would flip the result to non-significant
C. O resultado é muito robusto com 3 estudos confirmatórios
D. Pelo menos 3 pacientes são necessários para o estudo

Module 17 Complete

“O número que sobrevive a cada tentativa de quebrá-lo é o número em que vale a pena confiar.”

Nem todo sinal é verdade.

Módulo 18: O Patrimônio Líquido

======================================================== MÓDULO 18: O PATRIMÔNIO (exclusões SPRINT / PROGRESS-Plus) ==========================================================

Certainty must be earned, not assumed.

Módulo 18: O Patrimônio Líquido

🎯 Learning Objectives

  • Identify how trial exclusion criteria create evidence gaps
  • Aplicar a estrutura PROGRESS-Plus para avaliar a equidade em evidência
  • Use PRISMA-Equity reporting guidelines
  • Understand transportability: when trial findings fail in practice
  • Design equity-sensitive search and synthesis strategies

SPRINT proved tight blood pressure control

saves lives. But whose lives?

O estudo histórico SPRINT excluiu pacientes com diabetes, acidente vascular cerebral prévio e insuficiência cardíaca. Mais de 75% dos pacientes hipertensos dos EUA não teriam se qualificado. A evidência era forte, mas a aplicabilidade era limitada.

Slide A: A maioria ausente

O SPRINT inscreveu 9.361 pacientes e provou que o controle intensivo da pressão arterial (alvo <120 mmHg) reduziu os eventos cardiovasculares em 25% (HR 0,75, IC 95% 0,64–0,89). Mas os critérios de inclusão contaram uma história diferente.

Quem foi excluído:

  • Diabetes — 35% dos adultos norte-americanos com hipertensão
  • Prior stroke — 8% da população hipertensa
  • Symptomatic heart failure — 6% of hypertensive adults
  • Expected survival <3 years - os pacientes mais frágeis
  • Nursing home residents — excluded entirely
  • GFR <20 mL/min — advanced kidney disease

Resultado: Mais de 75% dos adultos norte-americanos com hipertensão NÃO se qualificariam. A evidência era forte. Mas para quem?

Slide B: A Geografia das Evidências

De onde vêm as evidências

78%

of cardiovascular mega-trial participants came from high-income countries (2000–2020).

6%

from sub-Saharan Africa — where cardiovascular disease is rising fastest.

Ensaios Polypill: 4 de 5 foram realizados em populações com IMC médio <25. O IMC médio dos EUA é 30. O metabolismo dos medicamentos, os padrões de comorbilidade, o acesso aos cuidados de saúde e a variação genética diferem entre as populações. Efficacy in one population does not guarantee effectiveness in another.

Referência: Ensaios multinacionais e a lacuna PROGRESS-Plus

P
Place of residence
R
Race / ethnicity
O
Occupation
G
Gender / sex
R
Religion
E
Education
S
SES (socioeconomic)
S
Social capital

Plus: Age, disability, sexual orientation, other vulnerable groups.

Researcher

PRISMA-Equity estende o PRISMA para exigir relatórios sobre como a equidade foi abordada na revisão: características da população, análises de subgrupos por desvantagem e avaliação da aplicabilidade a populações mal servidas.

Transportability: A eficácia do ensaio não é igual à eficácia no mundo real. Existem métodos para reponderar os dados dos ensaios para corresponder à distribuição da população-alvo.

Slide C: A questão da transportabilidade
Researcher

Transportability = Os resultados da população experimental X podem ser aplicados à população-alvo Y? Esta não é uma questão filosófica – ela tem métodos formais.

1

Inverse Probability of Participation Weighting (IPPW)

Re-weights trial participants so they resemble the target population on key covariates.

2

Generalizability Index

Quantifica o quão semelhante a amostra do ensaio é à população-alvo nas características observadas.

Stuart et al. (2015, Stat Med): Quando os resultados do SPRINT foram reponderados para corresponder à população hipertensa dos EUA, o benefício estimado foi atenuado – HR 0,82 (vs 0,75 no ensaio). O tratamento ainda funciona. Mas a magnitude muda quando a população muda.

SPRINT e a maioria ausente

O SPRINT foi um ensaio bem desenhado com 9.361 pacientes. Seu resultado (HR 0,75 para controle intensivo versus controle padrão da PA) mudou as diretrizes em todo o mundo. Mas análises subsequentes mostraram que o benefício foi mais forte no subgrupo mais parecido com a população do ensaio – e incerto para os grupos excluídos.

Equidade na síntese de evidências significa perguntar não apenas “Funciona?” mas "Para quem isso funciona?"

ROOT: As evidências da sua revisão vêm de populações semelhantes ao seu alvo?

YES → Good. But check: Are subgroups (age, sex, ethnicity, SES) reported separately?

  • Yes: Use subgroup effects for population-specific recommendations
  • No: Flag as limitation — equity gap in reporting

NO → Does PROGRESS-Plus analysis reveal differential effects?

  • Yes: Population-specific recommendations needed. Consider transportability re-weighting.
  • No: Cautious generalization with explicit equity statement in discussion
Slide E: Retorno de chamada para o Módulo 3
Methodologist

Callback: The HRT Lesson Revisited

Lembra do Módulo 3? A história da HRT mostrou que healthy-user bias fez um tratamento prejudicial parecer benéfico. SPRINT pode ter o problema oposto – o efeito “voluntário saudável” pode fazer aparecer um tratamento eficaz more effective than it would be in the real world.

Toda meta-análise deveria perguntar: quem foi incluído? Quem foi excluído? E isso importa?

Q1. What does the PROGRESS-Plus framework help reviewers assess?

A. Statistical heterogeneity
B. Equity and applicability across disadvantaged populations
C. Validade interna dos estudos incluídos
D. Certeza geral da evidência

Module 18 Complete

“As evidências que excluem os vulneráveis ​​não podem pretender servi-los”.

Nem todo sinal é verdade.

Módulo 19: A Máquina

======================================================== MÓDULO 19: A MÁQUINA (triagem Cochrane COVID) ==========================================================

O número sem proveniência não é um número.

Módulo 19: A Máquina

🎯 Learning Objectives

  • Describe how AI/ML is used in systematic review screening
  • Explain active learning and human-in-the-loop workflows
  • Assess automation validation: recall, workload savings, and risk
  • Reconheça as limitações e preconceitos da triagem algorítmica
  • Aplicar estruturas para uso responsável de IA na síntese de evidências

When COVID-19 hit,

papers arrived faster than humans could read.

Em 2021, existiam mais de 300.000 documentos COVID. A Cochrane usou classificadores de aprendizado de máquina para fazer a triagem de estudos para suas revisões rápidas, reduzindo a carga de trabalho de triagem em até 70% e mantendo >95% de recall.

By April 2020, 4,000 COVID preprints appeared every week.

PubMed indexed 500 new COVID articles per day.

Cochrane's screening queue hit 10,000 unreviewed titles.

🔍 A Matemática da Impossibilidade

A pair of reviewers screens ~200 titles per day.

At 500 new articles/day, they fell further behind with every hour.

A revisão viva estava morrendo antes que pudesse viver.

As primeiras tentativas

A ideia não era nova. Cohen et al. (2006, JAMIA) mostraram pela primeira vez que a aprendizagem automática poderia reduzir a carga de trabalho de triagem em 50% – com menos de 5% de perda de recordação.

📅
2006: Cohen et al. — SVM classifiers for drug class reviews. Proof of concept.
📅
2016: RobotReviewer (Marshall et al., JMLR) — ML for risk of bias assessment. Inter-rater reliability comparable to human reviewers.
📅
2021: ASReview (van de Schoot et al., Nature Machine Intelligence) — active learning that simulated 95% workload reduction.

Mas a simulação não é realidade. COVID seria o primeiro teste verdadeiro em escala.

1

Screening Prioritization

Active learning ranks citations by relevance. Reviewers screen the most likely relevant first.

2

Assistência de extração de dados

A PNL extrai elementos, resultados e resultados do PICO. Sempre requer verificação humana.

3

Risk of Bias Assessment

ML classifiers predict RoB domains. Experimental—human judgment remains gold standard.

Researcher
Recall
>95% required. Missing 1 study can change conclusions.
WSS@95%
Work Saved over Sampling at 95% recall.
Stopping
When to stop screening? Consecutive irrelevant threshold.

A tensão fundamental: A automação economiza tempo, mas introduz uma nova fonte de erros. Sempre informe a ferramenta, a versão, os dados de treinamento e os critérios de parada.

A crise da validação
🔍 O Paradoxo da Validação

Para saber se a máquina perdeu um estudo relevante, you need a human to screen everything.

But if humans screen everything, por que usar a máquina?

The solution: prospective holdout validation.

  • Random 10% sample screened by both human and machine
  • Compare: a máquina perdeu o que o humano encontrou?
  • If recall drops below 95%, retrain and expand human screening

Confie, mas verifique. A máquina merece o seu papel – não o herda.

Cochrane's COVID Response

A Cochrane construiu o COVID-19 Study Register usando classificadores de aprendizado de máquina treinados em milhões de registros. O sistema alcançou 99% de sensibilidade e reduziu a triagem manual de semanas para dias.

Mas a máquina era uma ferramenta, não um substituto. Todos os estudos incluídos ainda foram verificados por revisores humanos. A lição: a IA amplia o revisor, não o substitui.

O estudo que quase não foi encontrado

Em junho de 2020, o estudo RECOVERY publicou seus resultados de dexametasona—the first treatment proven to reduce COVID mortality (28-day mortality: 22.9% vs 25.7%, RR 0.83).

A pré-impressão apareceu no medRxiv com um título fora do padrão. Cenários como este ocorreram repetidamente durante a pandemia: classificadores de ML, treinados na terminologia existente, classificaram enquadramentos desconhecidos como baixos.

Em várias revisões vivas, os revisores humanos que examinaram os títulos sinalizados reconheceram os principais nomes dos medicamentos e escalaram os estudos que os classificadores haviam desvalorizado.

Sem esses humanos, as descobertas marcantes do tratamento poderiam ter esperado semanas para entrar na revisão em tempo real.

A máquina lê mais rápido. O humano lê mais profundamente. Nenhum dos dois é suficiente por si só.

Sua crítica exibirá mais de 5.000 títulos?
Yes → Consider AI-assisted screening

Active learning prioritization. Dual-screen random 10% holdout. Stop when 3 consecutive batches yield 0 relevant studies.

Report: classifier type, training data, recall on holdout, stopping rule.

No → Manual screening is feasible

For <5,000 titles, dual human screening remains gold standard. AI adds complexity without proportionate benefit.

Esta é uma revisão viva ou rápida?

If yes → AI is especially valuable. Continuous classifier retraining on new evidence. But: nunca deixe a máquina tomar a decisão final de inclusão.

O padrão se repete
Methodologist

Lembra do Módulo 6? Poldermans fabricou dados do DECREASE que orientaram as diretrizes perioperatórias de betabloqueadores por uma década.

AI can now detect statistical anomalies automatically:

  • GRIM test: As médias relatadas são consistentes com tamanhos de amostra inteiros?
  • SPRITE: As estatísticas resumidas relatadas podem ser reconstruídas a partir de dados individuais plausíveis?
  • Statcheck: Do reported p-values match the test statistics?

Essas ferramentas encontraram anomalias em hundreds of published papers—faster than any human auditor.

Mas a máquina sinaliza. Os juízes humanos. A decisão de retratar-se permanece profundamente humana.

Q1. Qual é o recall mínimo aceitável para triagem assistida por IA em revisões sistemáticas?

A. 80%
B. 90%
C. >95%
D. 100%

Module 19 Complete

"A máquina lê mais rápido. O humano lê mais profundamente. Juntos, eles leem a verdade."

Nem todo sinal é verdade.

Módulo 20: O Qualitativo

======================================================== MÓDULO 20: O QUALITATIVO (Bohren 2015 — assistência à maternidade) ==========================================================

Os métodos protegem os pacientes de nossa confiança.

Módulo 20: O Qualitativo

🎯 Learning Objectives

  • Explain why some questions require qualitative evidence synthesis
  • Describe meta-ethnography (Noblit & Hare) and thematic synthesis
  • Apply the CERQual framework to assess confidence in qualitative findings
  • Understand mixed-methods synthesis approaches
  • Recognize when qualitative evidence changes practice

A OMS fez uma pergunta

nenhum RCT poderia responder.

Por que as mulheres em todo o mundo sofrem desrespeito e abuso durante o parto? Bohren et al. (2015) sintetizaram 65 estudos qualitativos de 34 países num quadro de sete domínios de maus-tratos.

Slide A: Uma questão além da randomização

Em 2014, a OMS convocou um painel para abordar uma crise global: as mulheres eram vítimas de abusos físicos, humilhações verbais e eram-lhes negados cuidados durante o parto. Este não foi um evento raro – relatos vieram de 34 countries.

They needed to understand WHY. What drives disrespect and abuse in maternity care?

Nenhum RCT poderia responder a isso. Você não pode randomizar mulheres para cuidados abusivos ou respeitosos. Você não pode cegar parteiras. Você não pode medir “dignidade” em uma escala Likert. A evidência tinha que ser qualitativa.

Developed by Noblit & Hare (1988), meta-ethnography translates conceitos entre estudos, em vez de agregar números. Produz novas estruturas interpretativas (construções de terceira ordem) a partir de dados de primeira ordem (citações dos participantes) e de segunda ordem (interpretações dos autores).

Reciprocal
Estudos se confirmam
Refutational
Estudos se contradizem
Line of
argument
Estudos constroem uma nova teoria

What Bohren Found: A Taxonomy of Mistreatment

1. Physical abuse

Hitting, pinching, slapping during labor

2. Sexual abuse

Inappropriate touching, non-consensual procedures

3. Verbal abuse

Shouting, threats, judgmental comments

4. Stigma & discrimination

Based on HIV status, ethnicity, age, poverty

5. Professional standards failure

Neglect, lack of informed consent

6. Poor rapport

Poor communication, dismissiveness

7. Health system conditions

Overcrowding, understaffing, lack of supplies

65 estudos. 34 países. Os mesmos padrões repetidos em línguas, culturas e sistemas. Isto não foi uma anedota. Esta foi uma evidência sintetizada.

Researcher

CERQual assesses confidence in qualitative review findings across four components:

1

Methodological Limitations

Qualidade dos estudos contribuintes.

2

Coherence

Quão bem os dados apoiam a descoberta.

3

Adequacy

Riqueza de dados (não apenas número de estudos).

4

Relevance

Aplicabilidade ao contexto da questão de revisão.

Slide C: Da Evidência à Ação

Bohren's synthesis informed the WHO's 2018 Recommendations on Intrapartum Care for a Positive Childbirth Experience. Specific changes grounded in qualitative evidence:

Rec. 15
Companionship during labor
Rec. 1
Respectful maternity care
Rec. 3
Effective communication
Rec. 12
Emotional support

Estas recomendações – baseadas em evidências qualitativas – orientam agora os cuidados de maternidade em 194 estados membros da OMS. Nenhum lote florestal poderia tê-los produzido. Nenhuma estatística I² poderia tê-los revelado.

Bohren's Framework of Mistreatment

A síntese qualitativa de 2015 identificou sete domínios: abuso físico, abuso sexual, abuso verbal, estigma e discriminação, incumprimento dos padrões profissionais, má relação e condições do sistema de saúde. Esta estrutura informou as recomendações da OMS sobre cuidados intraparto (2018).

Nenhum valor p poderia capturar a experiência de levar um tapa durante o trabalho de parto. A síntese qualitativa deu voz ao que os números não conseguiram.

ROOT: Sua questão de pesquisa é sobre experiências, percepções, barreiras ou facilitadores?

YES → Sua pergunta é sobre COMO ou POR QUE, e não apenas sobre QUEM?

  • Yes: Qualitative evidence synthesis (meta-ethnography, thematic synthesis, or framework synthesis)
  • No: Considere métodos mistos: quantitativo para efeito + qualitativo para mecanismo

NO → Sua pergunta é sobre eficácia/eficácia?

  • Yes: Quantitative meta-analysis
  • But: Complemente com revisão qualitativa das barreiras de implementação (avaliado pelo CERQual)

Key insight: As revisões sistemáticas mais fortes respondem AMBOS: Funciona? (quantitativo) E Por que funciona ou falha? (qualitativo)

Q1. What distinguishes meta-ethnography from quantitative meta-analysis?

A. Inclui apenas 3–5 estudos
B. It translates concepts across studies rather than pooling numbers
C. It does not require a systematic search
D. It is less rigorous than quantitative synthesis

Module 20 Complete

"Nem tudo que conta pode ser contado. Nem tudo que é contado conta."

A heterogeneidade é uma mensagem, não um ruído.

Módulo 21: O Multivariado

========================================================== MÓDULO 21: O MULTIVARIADO (resultados correlacionados / RVE) ============================================

A heterogeneidade é uma mensagem, não um ruído.

Módulo 21: O Multivariado

🎯 Learning Objectives

  • Reconhecer quando os resultados de um estudo estão correlacionados
  • Explain multivariate random-effects models
  • Apply robust variance estimation (RVE) for dependent effect sizes
  • Entender modelos de três níveis para aninhados dados
  • Choose between multivariate approaches based on data structure

Cardiovascular trials report

mortalidade, infarto do miocárdio, acidente vascular cerebral e muito mais.

Esses resultados estão correlacionados dentro dos pacientes. Um paciente que morre não pode ter um desfecho de IM. A meta-análise padrão trata cada resultado de forma independente, ignorando a dependência e potencialmente contando duas vezes as evidências.

Slide A: A mentira de conveniência

Abra qualquer livro de meta-análise padrão. Os modelos assumem que cada estudo contribui one independent effect size. But reality is different.

Um único ensaio cardiovascular relata mortalidade, infarto do miocárdio, acidente vascular cerebral e revascularização. Um único estudo de psicoterapia relata depressão, ansiedade e qualidade de vida aos 3, 6 e 12 meses.

30 trials
× 4 outcomes
= 120
effect sizes

Most analysts either: (a) treat all 120 as independent (inflating precision by a factor of √4), or (b) escolha um resultado e descarte o resto. Ambas as abordagens estão erradas.

In standard pairwise meta-analysis, each study contributes one effect size. But many studies report multiple outcomes, subgroups, timepoints, or arms—creating dependent tamanhos dos efeitos. Ignorar isso aumenta a precisão e distorce a inferência.

RVE
Robust Variance Estimation. Sandwich estimator handles unknown correlation.
3-Level
Study → Outcome nesting modeled explicitly.
Researcher

RVE (Hedges, Tipton & Johnson, 2010) uses a sandwich-type estimador que fornece erros padrão válidos, independentemente da verdadeira correlação entre os efeitos dependentes. Não há necessidade de saber ou estimar a correlação dentro do estudo. Melhor para ≥20 estudos.

Small-sample correction: Tipton & Pustejovsky (2015) desenvolveram correções de amostras pequenas (CR2) para RVE, usando graus de liberdade de Satterthwaite quando o número de clusters é pequeno.

Slide B: A verdade matemática
Researcher

What Dependence Does to Your Confidence Intervals

Se 4 os resultados do mesmo estudo têm correlação dentro do estudo ρ = 0,5:

Treating as independent

CI width = X

Contabilização da dependência

CI width = 1.58X

Seu intervalo de confiança deve ser 58% wider. Cada meta-análise que ignorou isso publicou resultados falsamente precisos.

RVE (Hedges, Tipton & Johnson, 2010): Uses a “sandwich” variance estimator that produces correct standard errors without needing to know the exact within-study correlation.

Researcher
1

Level 1: Sampling Variance

Measurement error within each effect size estimate.

2

Level 2: Within-Study Variance

Os resultados e os pontos de tempo variam dentro de um único estudo.

3

Level 3: Between-Study Variance

Os estudos diferem uns dos outros em populações, ambientes e métodos.

Example: Em uma meta-análise de psicoterapia para depressão (k = 50 estudos, 180 efeitos tamanhos), 35% de variância foi dentro do estudo (diferentes resultados) e 65% foi entre estudos (diferentes terapias, populações). Esta decomposição revela quanta heterogeneidade é within vs between studies.

Methodologist

Quando os efeitos são aninhados (por exemplo, resultados múltiplos dentro de estudos ou estudos dentro de grupos de pesquisa), um three-level model divide a variância em: (1) variância amostral (nível 1), (2) variância dentro do estudo (nível 2) e (3) variância entre estudos (nível 3). Isso mantém a inferência correta enquanto empresta força entre os níveis.

O Desafio Cardiovascular

Uma meta-análise de estatinas pode incluir 30 ensaios, cada um relatando mortalidade, infarto do miocárdio, acidente vascular cerebral e revascularização. São 120 tamanhos de efeito de 30 clusters. Tratá-los como 120 estimativas independentes aumenta a precisão por um fator relacionado à correlação dentro do estudo.

RVE or multivariate models handle this correctly—producing wider, honest confidence intervals.

ROOT: Sua meta-análise tem múltiplos efeitos por estudo?

YES → Você conhece (ou pode estimar) as correlações dentro do estudo?

  • Yes: Multivariate random-effects model (most efficient)
  • No: RVE with small-sample correction (robust to unknown correlations)

NO → Standard univariate random-effects model

Sub-question: Seus múltiplos efeitos são de resultados diferentes, pontos de tempo ou subgrupos?

  • Different outcomes → Three-level model or RVE with clustering
  • Different timepoints → Network of timepoints with temporal correlation
  • Different subgroups → Consider if subgroups are meaningful or should be averaged

Q1. What problem does Robust Variance Estimation (RVE) solve?

A. Publication bias
B. Dependência entre vários tamanhos de efeito do mesmo estudo
C. Between-study heterogeneity
D. Small-study effects

Module 21 Complete

"Quando os resultados estão emaranhados, fingir que são independentes é uma mentira de conveniência."

O número sem proveniência não é um número.

Módulo 22: O Prova

========================================================== MÓDULO 22: A PROVA (erro Reinhart-Rogoff Excel) ============================================

O número sem proveniência não é um número.

Módulo 22: O Prova

🎯 Learning Objectives

  • Understand how computational errors propagate through policy
  • Definir reprodutibilidade e distinguir da replicabilidade
  • Aplicar hashing de evidências e transporte de provas números
  • Use reproducibility checklists for meta-analysis
  • Reconhecer o papel do pré-registro e dos dados abertos

A graduate student opened a spreadsheet

e descobriu que a era de austeridade foi construída sobre um erro.

Em 2010, Reinhart e Rogoff alegaram que países com índices de dívida em relação ao PIB >90% tiveram crescimento negativo. Isto influenciou as políticas de austeridade em toda a Europa. Em 2013, Thomas Herndon encontrou um erro no Excel que excluía 5 países da média. O resultado corrigido: crescimento positivo modesto, não colapso.

Reproducible
Same data + same code = same result
Replicable
Novos dados + mesmos métodos = resultado consistente

Reproducibility is the minimum standard. Se outros não conseguirem reproduzir a sua estimativa agrupada a partir dos dados reportados, a análise não poderá ser verificada. As meta-análises devem compartilhar: dados extraídos, scripts de análise, versões de software e sementes aleatórias.

Researcher

Every number in a meta-analysis should carry its provenance: de onde veio, como foi transformado e qual código o produziu. Evidence hashing creates a cryptographic fingerprint of inputs so any change (accidental or deliberate) is detectable.

SHA

Input Hash

Hash SHA-256 de dados extraídos. Se uma célula mudar, o hash muda. Cadeia de proveniência: dados → código → resultado → hash.

Marque cada item para avaliar a reprodutibilidade de uma meta-análise. Qual é a pontuação da sua revisão?

O erro do Excel que mudou as economias

O "Crescimento em tempos de dívida" de Reinhart-Rogoff foi citado em depoimentos no Congresso, em relatórios da Comissão Europeia e em resumos de políticas do FMI. O erro do Excel (as linhas 30 a 34 foram excluídas de uma fórmula MÉDIA) significava que cinco países — Austrália, Áustria, Bélgica, Canadá e Dinamarca — simplesmente estavam faltando.

A média corrigida passou de -0,1% para +2,2%. As políticas de austeridade afectaram milhões de pessoas. Reprodutibilidade não é perfeccionismo acadêmico – é uma salvaguarda contra catástrofes.

Remember Module 5?

DECREASE Through the Lens of Reproducibility

Os ensaios DECREASE de Don Poldermans foram retirados devido a dados fabricados. Se existissem números de prova - entradas hash, cadeias de proveniência, cálculos verificados - a fabricação teria sido detectável before a evidência entrou em meta-análises e mudou as diretrizes cirúrgicas.

Q1. Qual foi o erro Reinhart-Rogoff?

A. They used too small a sample
B. An Excel formula excluded 5 countries, reversing the conclusion
C. They studied the wrong time period
D. They used the wrong statistical test

Module 22 Complete

"O número sem proveniência não é um número. A análise sem reprodutibilidade não é evidência."

Certainty must be earned, not assumed.

Módulo 23: Seu primeiro meta-sprint

Módulo 23: Conclusão - Seu primeiro meta-sprint

Certainty must be earned, not assumed.

Módulo 23: Seu primeiro meta-sprint

🎯 Learning Objectives

  • Entenda o fluxo de trabalho de revisão sistemática de 40 dias
  • Map the Seven Principles to real practice phases
  • Recognize Definition-of-Done (DoD) gates as quality checkpoints
  • Appreciate why structure prevents the failures you've studied
  • Graduate ready to conduct (not just understand) meta-analysis
A jornada Completo

Você aprendeu as histórias.

Agora você deve trilhar o caminho.

Todas as inversões de evidências que você estudou aconteceram porque as equipes knew os métodos, mas não follow them systematically.

A Estrutura META-SPRINT

Um fluxo de trabalho estruturado de 40 dias com portões de 5 fases. Cada portão é um ponto de verificação de Definição de Pronto (DoD) que impede você de avançar até que a qualidade seja garantida.

40
Days to Completion
5
DoD Phase Gates
Day 34
Hard Freeze

Why 40 days? Longo o suficiente para o rigor, curto o suficiente para evitar o deslocamento do escopo. Os sinais cardíacos da rosiglitazona ficaram ocultos durante anos porque não havia prazo que obrigasse à transparência.

Os Cinco Portões
A

DoD-A: Protocol Lock (Days 1-3)

PICOS defined, timepoint rules set, model choices pre-specified. No moving target.

B

DoD-B: Search Lock (Days 6-10)

All databases searched, grey literature checked, PRESS validated. No hidden studies.

C

DoD-C: Extraction Lock (Days 10-28)

Dual extraction, provenance linked, RoB assessed. No fabricated numbers.

D

DoD-D: bloqueio de análise (dias 21 a 33)

Forest plots generated, sensitivity analyses run, heterogeneity explored. No cherry-picking.

E

DoD-E: Submission Lock (Days 33-40)

GRADE certainty rated, clinical summary written, manuscript finalized. No overconfidence.

Day 34 Freeze: Nenhum novo estudo pode ser adicionado após o dia 34. Isso evita o “desvio de escopo armado” que atormentou as meta-análises de cirurgia de coluna BMP, onde a indústria continuou “encontrando” estudos favoráveis.

Every principle you learned maps to a specific phase gate:

DoD-A "Nem todo sinal é verdade" — Pré-especifique o que conta como evidência
DoD-B "What was hidden in plain sight?" — Search comprehensively
DoD-C "O número sem proveniência não é um número" — Vincule todos os pontos de dados
DoD-D "A heterogeneidade é uma mensagem, não um ruído" — Investigate, don't ignore
DoD-E "Certainty must be earned, not assumed" — GRADE everything

O Princípio da Equipe Vermelha

Sua própria equipe tenta interromper seu trabalho.

Todos os dias, dois membros rotativos da equipe passam 12 minutos verificando a qualidade dos dados como adversários. Foi assim que a fraude de Boldt foi detectada – não através de uma análise amigável, mas através de uma verificação céptica que detectou taxas de recrutamento impossíveis.

What happens when you discover a critical problem mid-sprint?

CondGO = Conditional Go

A bounded rescue protocol. You have exactly 72 hours para corrigir o problema usando apenas ações permitidas. Se você não conseguir consertar, deverá interromper a revisão.

📖 A lição de Avandia: A GSK detectou sinais cardiovasculares em 2000, mas não tinha um prazo obrigatório. Eles “observaram e esperaram” por 7 anos. Dezenas de milhares foram prejudicados. O CondGO existe porque “nós lidaremos com isso eventualmente” mata pessoas.

Você começou este curso com histórias.

Você termina pronto para praticar.

O fluxo de trabalho META-SPRINT pega tudo o que você aprendeu e estrutura em um sistema de 40 dias que evita as falhas que você estudou.

Quando estiver pronto para realizar uma revisão sistemática real, abra o aplicativo META-SPRINT. As histórias que você aprendeu aqui irão guiá-lo, aparecendo como lembretes a cada passo.

HISTÓRIA: A Colaboração CTT — Quando os Métodos Economizam Milhões

What does it look like when every principle is followed?

REAL DATA

A Colaboração dos Trialistas de Tratamento do Colesterol (CTT) é o padrão ouro da meta-análise. Eles obtiveram dados individuais de pacientes de mais de 170.000 participantes across 26 statin trials. Pre-specified protocol. IPD from all major trials. Standardized outcomes. Result: statins reduce major vascular events by 21% per mmol/L LDL reduction (RR 0.79, 95% CI 0.77-0.81), regardless of baseline risk. This finding, replicated across 5 meta-análises ao longo de 15 anos, has prevented an estimated millions of heart attacks and strokes worldwide.

Os Sete Princípios Aplicados
A história dos CTT mostra o que acontece quando todos os princípios deste curso são seguidos. Considere a alternativa:
CAMINHO A: Sem os Princípios
No protocol. Published data only. No RoB. No heterogeneity investigation. No GRADE.
Conflicting small trials. Statin controversy persists. Millions untreated.
OUTCOME: Preventable cardiovascular deaths continue
CAMINHO B: O Jeito CTT
Protocolo pré-registrado. IPD de todos os ensaios. Resultados padronizados. Métodos transparentes. GRAU Alta certeza.
Resposta definitiva. As diretrizes globais mudam. Estatinas prescritas para aqueles que se beneficiam.
OUTCOME: Millions of lives saved by rigorous evidence synthesis
THE REVELATION
Todos os princípios deste curso existem porque sua ausência causou danos. A Colaboração CTT prova que quando os métodos são rigorosos, quando os dados têm proveniência, quando o preconceito é avaliado e a certeza é obtida, a meta-análise torna-se a ferramenta mais poderosa na medicina. Você agora carrega esses princípios. Use-os.

1. Qual é o propósito do "congelamento total" do Dia 34 no META-SPRINT?

A. Para dar tempo para revisão por pares
B. Para evitar que estudos adicionados tardiamente manipulem os resultados
C. To speed up publication
D. Para coordenar com os prazos do diário

2. The CondGO protocol gives teams how long to fix critical problems?

A. 24 hours
B. 48 hours
C. 72 hours
D. 1 week

3. Red-team adversarial QA caught Joachim Boldt's fraud by noticing:

A. Impossible patient recruitment rates
B. p-hacking in statistical tests
C. Inconsistent effect sizes
D. Whistleblower testimony

As histórias que você aprendeu não são história.

Eles são avisos que protegem seu trabalho futuro.

Quando você conduzir sua primeira meta-análise,
remember CAST before you trust a signal,
remember Poldermans before you skip provenance,
lembre-se da Reboxetina antes de ignorar o funil.

Agora você está pronto. Vá com estrutura. Vá com humildade. Vá com os Sete Princípios.

Nem todo sinal é verdade.

Módulo 24: Exame Final

Certainty must be earned, not assumed.

Final Examination

Teste seu domínio dos princípios da meta-análise. Cada pergunta aborda um conceito central do curso.

Q1. Um pesquisador deseja estudar "os efeitos do exercício na saúde". Qual é o problema PRIMÁRIO com esta questão de pesquisa?

A. It lacks randomization
B. Sample size is too small
C. It is not answerable—lacks specific PICO elements
D. It lacks ethical approval

Q2. Um gráfico de funil mostra assimetria pronunciada com estudos faltantes na região inferior esquerda. O que isso sugere?

A. Large studies have more precise estimates
B. Pequenos estudos negativos provavelmente não foram publicados
C. The true effect is stronger than estimated
D. Random sampling error

Q3. Uma meta-análise relata I² = 85% e τ² = 0,42. Qual é a interpretação MAIS apropriada?

A. There is an 85% chance of a true effect
B. The effect size is very large
C. Substantial between-study variance exists; investigate sources
D. Os resultados são clinicamente importantes

Q4. No GRADE, qual é a certeza inicial para um conjunto de evidências de ensaios clínicos randomizados?

A. High
B. Moderate
C. Low
D. Very low

Q5. In RoB 2.0, which domain assesses whether outcome assessors knew the treatment allocation?

A. D1: Randomization process
B. D2: Desvios das intervenções pretendidas
C. D3: Resultado ausente dados
D. D4: Medição do resultado

Q6. O ensaio CAST mostrou que os medicamentos antiarrítmicos aumentaram a mortalidade apesar de suprimirem arritmias. Este é um exemplo de:

A. Random sampling error
B. Surrogate outcome failure
C. Confounding by indication
D. Reverse causation

Q7. When should a random-effects model be preferred over a fixed-effect model?

A. When sample sizes are large
B. Quando os resultados são binários
C. When between-study heterogeneity is expected
D. When publication bias is suspected

Q8. According to ICEMAN criteria, which makes a subgroup analysis MORE credible?

A. Hypothesis specified a priori
B. Large number of subgroups tested
C. No biological rationale
D. Inconsistent effects across trials within subgroup

Q9. What assumption must be checked in network meta-analysis to ensure valid indirect comparisons?

A. All studies have equal sample sizes
B. Todos os estudos medem o mesmo resultado
C. Transitivity (consistency of effect modifiers)
D. Double-blinding in all trials

Q10. Na Análise Sequencial de Teste (TSA), o que indica cruzar o limite da futilidade?

A. As causas do tratamento dano
B. É improvável que estudos adicionais mostrem um efeito significativo
C. A evidência é conclusiva para o benefício
D. A meta-análise é insuficiente

Part 1 Complete — continue to Part 2 (Advanced Modules)

Parte 2: Perguntas do módulo avançado (Q11-Q25)

Questions 11–25 cover Modules 13–22 (Bayesian, NMA, IPD, Dose-Response, Fragility, Equity, AI, Qualitative, Multivariate, Reproducibility).

Q11. Na meta-análise bayesiana, o que acontece quando você usa um anterior vago em muitos estudos?

A. O posterior corresponde de perto ao resultado frequentista
B. O anterior domina o posterior
C. The credible interval becomes infinitely wide
D. O modelo falha em converge

Q12. No antidepressivo NMA de Cipriani, por que nenhum medicamento foi declarado "o vencedor"?

A. Poucos estudos
B. Different drugs ranked best on different outcomes
C. Nenhuma evidência indireta estava disponível
D. SUCRA não pôde ser calculado

Q13. Por que você nunca deve agrupar IPD como se fosse de um mega-ensaio?

A. IPD always has fewer studies than aggregate
B. Ele ignora o agrupamento de estudos e introduz confusão
C. Ele não pode lidar com dados de tempo até o evento
D. Binary outcomes cannot be pooled

Q14. What caused the alcohol "J-curve" to disappear in Stockwell's reanalysis?

A. Novos estudos foram adicionados que não mostraram benefício
B. Ex-bebedores foram corretamente removidos do grupo de referência de abstêmios
C. O tamanho da amostra foi aumentado
D. Melhor ajuste para fatores de confusão

Q15. Na saga do oseltamivir, o que Cochrane descobriu ao acessar relatórios de estudos clínicos não publicados?

A. O medicamento foi completamente ineficaz
B. O efeito foi maior do que se pensava originalmente
C. O benefício para complicações desapareceu em grande parte
D. Side effects were more common than reported

Q16. Qual porcentagem de pacientes hipertensos dos EUA NÃO se qualificaria para o estudo SPRINT?

A. About 25%
B. About 50%
C. Over 75%
D. Nearly 100%

Q17. Why is AI considered an "augmenter" rather than a "replacer" in systematic reviews?

A. AI is slower than human reviewers
B. AI has perfect recall
C. AI screens fast but cannot make human-level contextual judgments
D. AI is too expensive for most reviews

Q18. What does the "adequacy" component of CERQual assess?

A. O número de estudos apenas
B. A riqueza e a quantidade de dados que apoiam a descoberta
C. Consistência das descobertas entre os estudos
D. Generalizability to other populations

Q19. A meta-analysis includes 30 statin trials, each reporting 4 correlated outcomes (120 effect sizes). Which approach is correct?

A. Treat all 120 as independent effect sizes
B. Use RVE with small-sample correction
C. Pick only one outcome per study
D. Média dos 4 resultados em cada estudo

Q20. No erro Reinhart-Rogoff, qual foi a taxa de crescimento média corrigida para dívida alta países?

A. −0.1% (same as claimed)
B. +2.2%
C. 0%
D. +5%

Passing Score: 15/20 across both parts

Revise quaisquer perguntas perdidas retornando ao módulo relevante. Cada pergunta testa um conceito central.

Nem todo sinal é verdade.

Os métodos protegem os pacientes de nossa confiança.

Congratulations

Você concluiu Reversão de evidências: um curso de meta-análise.

Que sua síntese seja guiada pela verdade, seu agrupamento pela sabedoria,
e suas conclusões pela humildade.

Os Sete Princípios:

"Nem todo sinal é verdade."

"Os métodos protegem os pacientes de nossa confiança."

"What was hidden in plain sight?"

"O número sem procedência não é um número."

"Heterogeneidade é uma mensagem, não ruído."

"Ausência de evidência não é evidência de ausência."

"Certainty must be earned, not assumed."

"Guie-nos para o caminho reto..."