==================== MÓDULO 1: A FRAUDE (Theranos) ==================
Você não ouviu a história da mulher
who promised to mude o mundo com uma gota de sangue,
who raised billions on a test that never worked?
Palo Alto, 2003
STANFORD UNIVERSITY
Um jovem de dezenove anos desistiu com uma visão: centenas de exames de sangue com uma única gota.

Investors believed. Walgreens believed. The Pentagon believed.

They gave her $9 billion.

Mas os testes deram resultados errados. Os pacientes foram informados de que tinham HIV, quando na verdade não tinham. Os pacientes foram informados de que seu sangue estava normal quando foram dying.
Carreyrou J. Bad Blood. 2018
A árvore de decisão do engano

What Theranos Did vs. What Should Happen

New Diagnostic Test
SHOULD DO
Validate Against Gold Standard
Publish TP/FP/FN/TN
FDA Approval
THERANOS DID
Skip Validation
Hide Failures
Harm Patients
"E o teste mentiu,
e a mentira estava vestida de certeza,
e ninguém pediu a mesa 2×2.”

É por isso que estudamos a precisão dos testes de diagnóstico.

==================== MÓDULO 2: OS QUATRO RESULTADOS ====================
When a test speaks,
existem apenas four possible truths.

Dois são bênçãos. Dois são maldições.

O que acontece quando uma revisão sistemática confia igualmente em todos os estudos?

REAL DATA

As análises de sensibilidade nas revisões sistemáticas de DTA demonstram consistentemente que a exclusão de estudos de alto risco de viés altera as estimativas agrupadas. Na triagem mamográfica, os desenhos de caso-controle com interpretação não cega tendem a aumentar a sensibilidade. O princípio geral está bem documentado: a avaliação da qualidade do QUADAS-2 pode alterar a sensibilidade agrupada em 10-15 percentage points quando estudos tendenciosos são removidos.

A Auditoria Mamográfica QUADAS-2
Uma equipe de revisão reúne 15 estudos DTA de mamografia. Cinco apresentam alto risco de viés devido ao desenho de caso-controle e interpretação não cega.
CAMINHO A: Agrupar todos os estudos
Include all 15 studies regardless of quality
Biased 2x2 tables inflate TP counts, producing a pooled sensitivity of 87%
OUTCOME: Overconfidence in screening accuracy
PATH B: Apply Quality Assessment
Exclude high risk-of-bias studies using QUADAS-2
Remaining 10 low-RoB studies yield sensitivity of approximately 75%
OUTCOME: Honest numbers guide honest decisions
THE REVELATION
Os quatro resultados (TP, FP, FN, TN) só são confiáveis ​​se o estudo que os produziu for confiável. Um estudo tendencioso contamina toda a tabela 2x2.
A Árvore dos Resultados

Every Test Result Has a Reality Behind It

Patient Tested
Qual é a VERDADE?
Has Disease
D+
TPTest +
FNTest -
No Disease
D-
FPTest +
TNTest -
A Sagrada Mesa 2×2

HIV Rapid Test Example (Real Data)

HIV+HIV-Total
Test +983101
Test -2895897
Total100898998
DESTA MESA VEM TODA A VERDADE
Sensitivity = 98/100 = 98%
Specificity = 895/898 = 99.7%
"Two outcomes save. Two outcomes harm.
TP, TN: o teste falou verdade.
FP, FN: o teste mentiu.
Know them by name, for they determine fate."
==================== MÓDULO 3: PERÍODO DE JANELA DO HIV ====================
Você não ouviu falar do sangue que foi testado,
found clean,
e dado a milhares -
while death swam within it?
A crise do abastecimento de sangue, 1985
UNITED STATES
When HIV testing began, doctors celebrated: they could now screen the blood supply.

Mas o teste teve um window period—semanas após a infecção, quando o vírus estava presente, mas undetectable.

O sangue foi testado. O sangue era "negativo". O sangue foi transfundido.

8,000-12,000 Americans foram infectados por meio de transfusões antes que testes melhores fechassem a janela.
CDC. MMWR. 1987;36(49):833-840
The Window Period Decision Tree

Why False Negatives Are Deadly

Person Recently Infected
Time Since Infection?
< 2 weeks
Test NEGATIVEVirus present!
Blood DonatedOthers infected
> 4 weeks
Test POSITIVECorrectly detected
Blood DiscardedSupply safe
A sensibilidade muda ao longo do tempo
0%
Day 1-7
Eclipse period
~50%
Day 14
Seroconversion
~95%
Day 21
Most detected
99.9%
Day 45+
Window closed
THE LESSON
A sensibilidade não é fixa. It depends on when you test. A "99% sensitive" test may be 0% sensitive in early infection.
"E o teste disse 'limpo',
pois o vírus ainda não tinha mostrado a sua cara.
E o sangue foi compartilhado,
e a infecção se espalhou para os inocentes."
==================== MÓDULO 4: DES TRAGÉDIA ==================
Você não ouviu falar da pílula dada às mães
to protect their pregnancies,
that planted cancer in their daughters
twenty years before it bloomed?
A tragédia do DES, 1938-1971
UNITED STATES & EUROPE
Diethylstilbestrol (DES) was given to millions of pregnant women to prevent miscarriage.

No proper clinical trial was ever conducted. Doctors assumed it worked because it seemed reasonable.

Decades later, their daughters developed a rare cancer: clear cell adenocarcinoma of the vagina. A cancer so rare it was a diagnostic signal in itself.

5-10 million women foram expostas. gerações.
Herbst AL et al. N Engl J Med. 1971;284:878-881
A árvore de decisão de validação

What Should Have Happened

New Medical Intervention
Foi testada corretamente?
YES
Randomized Trial
Long-term Follow-up
Know True EffectsBenefícios E danos
NO (DES)
Assumption Only
Widespread Use
Hidden HarmDiscovered too late
O sinal de diagnóstico
QUANDO A RARIDADE SE TORNA EVIDÊNCIA
O adenocarcinoma de células claras da vagina era tão raro em mulheres jovens que 7 cases in one hospital triggered an investigation.

O cluster em si era o teste de diagnóstico:
Sensitivity to DES exposure: nearly 100%
Se você tem esse câncer nessa idade, é quase certo que você foi exposto.
1:1000
Risk of clear cell
cancer in DES daughters
5-10M
Women exposed
worldwide
"E as mães tomaram a pílula em esperança,
e as filhas cresceram na sombra,
e vinte anos depois o câncer floresceu—
a diagnosis that indicted a generation of medicine."
==================== MÓDULO 5: SENSIBILIDADE E ESPECIFICIDADE ==================
A test has two virtues and two vices.

Sensitivity: Pode encontrar os doentes?

Specificity: Pode poupar os saudáveis?

É possível confiar em um número de sensibilidade de um laboratório quando o teste é usado no mundo real?

REAL DATA

The BinaxNOW COVID-19 rapid antigen test reported sensitivity of approximately 84-97% in symptomatic individuals in manufacturer studies. However, real-world evaluations found sensitivity as low as 35-64% em indivíduos assintomáticos, dependendo da carga viral e do momento. A revisão Cochrane de testes rápidos de antígeno (Dinnes 2022) confirmou a sensibilidade média de 73% em sintomáticos e apenas 55% em populações assintomáticas em mais de 100 avaliações de estudos.

The COVID Rapid Test Paradox: 2020-2021
A university plans to screen asymptomatic students weekly before allowing campus access. They read the manufacturer's claim of high sensitivity.
PATH A: Trust Lab Sensitivity
Rely on manufacturer's high sensitivity figure
Portadores assintomáticos com baixas cargas virais testam negativo e frequentam as aulas, espalhando o vírus
OUTCOME: False sense of safety; campus outbreaks
CAMINHO B: Exigir dados do mundo real
Buscar estudos na população-alvo real (estudantes assintomáticos)
Discover sensitivity is roughly 55% in asymptomatic people; add serial testing and other safeguards
OUTCOME: Layered safety catches more cases
THE REVELATION
A sensibilidade não é uma propriedade fixa de um teste. Muda com a população, o estágio da doença e o ambiente. Sempre pergunte: sensibilidade em whom?
Sensibilidade: O Caçador
THE FORMULA
Sensitivity = TP / (TP + FN)
"Of all the sick, how many did we catch?"

Worked Example: COVID PCR Test

Given: 200 infected patients tested
TP = 196 (correctly positive), FN = 4 (missed)
Sensitivity = 196 / (196 + 4) = 196/200 = 98%
Interpretation: Test catches 98 of every 100 infected people
Especificidade: O Guardião
THE FORMULA
Specificity = TN / (TN + FP)
"Of all the healthy, how many did we spare?"

Worked Example: Same COVID PCR Test

Given: 1000 uninfected people tested
TN = 999 (correctly negative), FP = 1 (false alarm)
Specificity = 999 / (999 + 1) = 999/1000 = 99.9%
Interpretation: Test correctly clears 999 of every 1000 healthy people
As Regras da Memória

When to Use Which Test

O que você precisa?
RULE OUT disease
Use HIGH SENSITIVITY
SnNoutSensitive Negative = OUT
RULE IN disease
Use HIGH SPECIFICITY
SpPinSpecific Positive = IN
"A sensibilidade pega os doentes.
A especificidade poupa o bem.
But no test masters both perfectly—
este é o fardo que carregamos."
================== MÓDULO 6: A FALÁCIA DA TAXA BASE ===================
Você não viu o médico
who saw 99% accurate
and believed a positive result meant 99% certainty?

Este é o erro mais mortal da medicina.
A falácia da taxa básica
THE PUZZLE
A disease affects 1 in 1000 people.
Um teste é 99% sensível e 99% específico.
A patient tests positive.

Qual é a probabilidade de eles terem a doença?

Most doctors say ~99%. A verdadeira resposta é cerca de 9%.
A matemática revelada

Testing 100,000 People (Prevalence 1/1000)

Step 1: 100 have disease, 99,900 healthy
Step 2: Of 100 sick: 99 test positive (TP), 1 negative (FN)
Step 3: Of 99,900 healthy: 999 test positive (FP), 98,901 negative (TN)
Step 4: Total positives = 99 + 999 = 1,098
PPV = TP / All Positives = 99 / 1,098 = 9%
91% dos resultados positivos são FALSOS POSITIVOS!
Interactive Base Rate Calculator

See How Prevalence Changes PPV

Prevalence:
1%
Sensitivity:
99%
Specificity:
99%
9%
Positive Predictive Value (PPV)
91% dos positivos são falsos alarmes
A Árvore de Decisão de Prevalência

Same Test, Different Settings

Test: 99% Sens, 99% Spec
Where Is Testing Done?
General Pop
0.1%
PPV = 9%91% false +
High-Risk
10%
PPV = 92%8% false +
Confirmatory
50%
PPV = 99%1% false +
“E o médico disse '99% de precisão',
e o paciente ouviu '99% de certeza',
e ambos foram enganados -
pois esqueceram de perguntar: Quão rara é esta doença?
Você nunca ouviu falar da máquina
that could find TB in two hours,
que foi chamada revolutionary
mas perdeu a drug-resistant strains?
A história do GeneXpert, África do Sul
CAPE TOWN, 2010
Durante um século, o diagnóstico de TB exigiu o crescimento de bactérias durante semanas. Depois veio o GeneXpert: resultados em 2 hours.

South Africa deployed it nationwide. The WHO endorsed it.

Mas em pacientes com low bacterial loads—often HIV co-infected— sensitivity dropped to 67%. One in three cases missed.

E para detectar resistência à rifampicina, ele perdeu 5% de casos resistentes. Esses pacientes receberam o tratamento errado. A propagação da TB resistente.
Steingart KR et al. Cochrane Database Syst Rev. 2014;1:CD009593
TB Diagnosis Decision Tree

Quando o GeneXpert não é suficiente

Suspected TB Patient
GeneXpert Test
Positive
Rifampicin?
SensitiveStandard Tx
ResistantMDR-TB Tx
Negative
HIV+ or High Suspicion?
YesCulture needed
NoLikely negative
Sensitivity by Patient Type
98%
Smear-positive
(high bacterial load)
67%
Smear-negative
(low bacterial load)
61%
HIV co-infected
(immune suppressed)
THE LESSON
A sensibilidade de um teste em ensaios clínicos pode não corresponder à sensibilidade dos seus pacientes. Conheça a sua população.
"E a máquina disse 'negativo',
e o médico acreditou na máquina,
e o paciente foi para casa com tuberculose nos pulmões,
tosse resistência para o mundo."
===================== MÓDULO 8: CONTROVÉRSIA PSA ====================
Você não ouviu falar do teste para homens
que encontrou cânceres que never kill,
e levou a tratamentos que destroyed lives?
A tragédia da triagem PSA
UNITED STATES, 1990s-2010s
PSA (Prostate-Specific Antigen) could detect prostate cancer early.

Os médicos examinaram milhões de homens. Cânceres foram encontrados. As próstatas foram removidas.

Mas muitos destes “cancros” nunca teriam causado sintomas. A cirurgia causou impotência e incontinência in men who would have died of old age, not cancer.
Moyer VA. Ann Intern Med. 2012;157:120-134
O dilema da triagem de PSA: 2012
Um homem de 60 anos pergunta ao seu médico sobre a triagem de PSA. PSA no ponto de corte de 4,0 ng/mL tem sensibilidade de aproximadamente 21% para câncer de alto grau, mas detecta muitos cânceres indolentes.
PATH A: Screen All Men
Rastreio de PSA de rotina para todos os homens com mais de 50 anos
Por 1.000 rastreados ao longo de 13 anos: 1-2 mortes evitadas, mas mais de 100 alarmes falsos e 30-40 homens ficaram impotentes ou incontinentes devido ao tratamento de cânceres indolentes
OUTCOME: Net harm exceeds benefit at population level
PATH B: Shared Decision-Making
Discutir danos versus benefícios; individualize com fatores de risco, expectativa de vida e valores do paciente
High-risk men can choose screening; low-risk men can decline; active surveillance replaces immediate surgery for low-grade findings
OUTCOME: Fewer unnecessary treatments; patient autonomy preserved
THE REVELATION
Um teste com altas taxas de detecção pode causar mais danos do que benefícios quando encontra condições que não precisam ser encontradas. O sobrediagnóstico é o custo oculto da alta sensibilidade em doenças indolentes.
Os números do dano
1
Vida salva de
prostate cancer
per 1000 screened
30-40
Men made impotent
or incontinent
per 1000 screened
100+
False positives
(biopsies, anxiety)
per 1000 screened
THE REVERSAL
In 2012, the US Preventive Services Task Force recommended against triagem de PSA de rotina. O teste consistia em encontrar muitas coisas que não precisavam ser encontradas.
Patient Decision Aid: PSA Screening

Se 1.000 homens de 55 a 69 anos forem examinados por 13 anos

Deaths from prostate cancer prevented
1-2 men
Men who will have false positive requiring biopsy
100-120 men
Homens diagnosticados com câncer que nunca os prejudicariam
20-50 men
Men left impotent or incontinent from treatment
30-40 men
Essa compensação é aceitável para você?
"E o teste encontrou a sombra,
e o cirurgião cortou,
e o homem viveu – impotente, incontinente –
de um câncer que nunca teria acordado."
==================== MÓDULO 9: TROPONINA E ATAQUES CARDÍACOS ===================
Você nunca ouviu falar do homem com dor no peito
cuja primeira troponina foi normal,
que foi mandado para casa—
e morreu antes manhã?
O problema do tempo de troponina
EMERGENCY DEPARTMENTS WORLDWIDE
A troponina é o padrão ouro para o diagnóstico de ataque cardíaco. Mas é preciso 3-6 hours to rise after myocardial injury.

A patient arrives one hour after chest pain begins. Troponin is tested: normal. "You're fine. Go home."

O coração estava morrendo. A proteína ainda não havia vazado.

Studies show 2-5% of MI patients sent home from ED die within 30 days.
Pope JH et al. N Engl J Med. 2000;342:1163-1170
Serial Testing Decision Tree

O Protocolo de Duas Troponinas

Chest Pain Patient
First Troponin
Elevated
Treat as MI
Normal
When Did Pain Start?
<6 hrs
Wait 3 hrsRepeat troponin
>6 hrs
Low riskConsider d/c
High-Sensitivity Troponin
~70%
Conventional troponin
sensitivity at 0 hrs
~95%
hs-Troponin
sensitivity at 0 hrs
99%
hs-Troponin
at 3 hrs serial
THE TRADE-OFF
High-sensitivity troponin catches more heart attacks early. But it also has more false positives—elevated in kidney disease, heart failure, sepsis, and marathon runners.
"E o teste disse 'normal',
pois o coração estava apenas começando a morrer.
E o paciente estava tranquilizado,
and went home to finish dying."
==================== MÓDULO 10: RELAÇÕES DE PROBABILIDADE ===================
A sensibilidade descreve o teste.
A especificidade descreve o teste.

Mas o paciente pergunta:
"I tested positive. What are MY chances?"

E se a sensibilidade publicada de um teste for maior que a verdade e as razões de verossimilhança que você calcula estiverem, portanto, erradas?

REAL DATA

Rapid strep tests (RADT) showed pooled sensitivity of approximately 86% em estudos publicados incluídos nas revisões Cochrane. No entanto, as submissões regulatórias da FDA 510(k), que incluem dados não publicados do fabricante, revelaram estimativas de sensibilidade de apenas 70-75%. Estudos publicados com maior sensibilidade tiveram maior probabilidade de serem submetidos para publicação – um caso clássico de viés de publicação que inflaciona a precisão aparente.

The Rapid Strep Test Publication Gap
Um médico calcula LR+ a partir de dados publicados (sensibilidade 86%, especificidade 95%) para decidir se deve tratar a dor de garganta de uma criança. Mas a verdadeira sensibilidade pode ser de apenas 70%.
PATH A: Trust Published Meta-Analysis
Usar LR+ de dados publicados (86/5 = 17,2)
LR+ superestimado leva ao excesso de confiança em um resultado negativo; crianças com estreptococos são mandadas para casa sem antibióticos
OUTCOME: Missed strep leads to rheumatic fever risk
CAMINHO B: buscar dados regulatórios
Use LR+ dos envios da FDA (70/5 = 14) e observe que o LR- é pior (0,32 vs 0,15)
Recognize a negative RADT cannot confidently exclude strep; back up with throat culture when clinical suspicion is high
OUTCOME: Appropriate caution protects children
THE REVELATION
As razões de verossimilhança são tão honestas quanto a sensibilidade e a especificidade que as produzem. O viés de publicação aumenta a precisão, tornando o LR+ demasiado optimista e o LR- demasiado tranquilizador. Sempre pergunte: faltam estudos não publicados?
Likelihood Ratios
POSITIVE LIKELIHOOD RATIO
LR+ = Sensitivity / (1 - Specificity)
How much more likely is a + result in sick vs healthy?
NEGATIVE LIKELIHOOD RATIO
LR- = (1 - Sensitivity) / Specificity
How much more likely is a - result in sick vs healthy?
O Nomograma Fagan

Da probabilidade pré-teste ao pós-teste

Pre-Test
Probability
99%
50%
20%
5%
1%
Likelihood
Ratio
100
10
1
0.1
0.01
Post-Test
Probability
99%
80%
50%
20%
1%
Draw a line from pre-test through LR to find post-test probability
Interpreting Likelihood Ratios

Quão poderoso é este teste?

LR+ Value?
LR+ > 10Strong rule-in
5-10Moderate
2-5Weak
1-2Useless
LR- Value?
< 0.1Strong rule-out
0.1-0.2Moderate
0.2-0.5Weak
0.5-1Useless
"A sensibilidade fala dos doentes.
A especificidade fala do poço.
But the likelihood ratio answers:
O que esse resultado significa para ESTE paciente?"
==================== MÓDULO 11: RDTs de MALÁRIA ===================
Você não viu a criança com febre na aldeia,
o teste rápido que dizia negative,
and the Plasmodium que continuou se multiplicando?
O problema do RDT da malária
SUB-SAHARAN AFRICA
Malaria kills 600,000 people yearly, mostly children under 5.

Rapid Diagnostic Tests were meant to guide treatment in remote areas without microscopes or laboratories.

But when parasitemia is low—o RDT perde casos. And when P. falciparum exclui o gene HRP2— the RDT sees nothing at all.
WHO. Malaria RDT Performance. 2022
A árvore de decisão clínica

Child with Fever in Malaria-Endemic Area

Febrile Child
Perform RDT
RDT Positive
Tratamento para malária
RDT Negative
Clinical Suspicion?
High
Treat Anywayor Microscopy
Low
Look forOther Cause
Sensitivity Varies by Parasitemia
95%
High parasitemia
(>200/μL)
75%
Low parasitemia
(100-200/μL)
50%
Very low
(<100/μL)
A LIÇÃO CLÍNICA
A negative RDT does not rule out malaria in endemic areas. Clinical judgment must override the test when suspicion is high.
"E o teste disse 'negativo',
e a criança foi mandada para casa,
e os parasitas se multiplicaram no escuro,
e pela manhã a criança não conseguia acordar."
=================== MÓDULO 12: TESTES RÁPIDOS DE COVID ====================
No ano da pestilência,
o mundo precisava de um teste que fosse fast.

Mas rápido não é o mesmo que accurate.

Quando chega uma nova geração de testes com maior sensibilidade, isso automaticamente o torna melhor?

REAL DATA

Os ensaios de troponina de alta sensibilidade (hs-cTn) aumentaram a sensibilidade para infarto agudo do miocárdio de aproximadamente 70% (troponina convencional na apresentação) para mais 95%. But specificity dropped from approximately 95% to around 80% porque a hs-cTn detecta lesão miocárdica de muitas causas não relacionadas ao IM (insuficiência cardíaca, sepse, doença renal, embolia pulmonar). O efeito clínico líquido exigiu modelagem HSROC em vários estudos para compreender a compensação.

A mudança na geração da troponina: década de 2010
An emergency department adopts hs-troponin. More patients now test positive, but many do not have acute MI.
PATH A: Adopt Based on Sensitivity Alone
Comemore que a detecção de MI saltou de 70% para mais de 95%
Mais falsos positivos levam a cateterismos desnecessários, internações hospitalares e ansiedade do paciente por elevações de troponina não cardíaca
OUTCOME: Overdiagnosis and wasted resources
CAMINHO B: Modelar a compensação
Use serial measurements (0h/1h or 0h/3h protocols) and clinical context to maintain specificity
Rapid rule-out algorithms safely discharge low-risk patients; sensitivity remains high while managing the false positive rate
OUTCOME: Faster, safer triage of chest pain
THE REVELATION
Sensibilidade e especificidade se contrapõem. Uma nova geração de testes que aumenta a sensibilidade irá muitas vezes diminuir a especificidade. A curva HSROC é a ferramenta que revela se o tradeoff líquido ajuda ou prejudica os pacientes.
O veredicto Cochrane

COVID-19 Rapid Antigen Tests (Dinnes 2022 Cochrane Review)

PopulationSensitivityMissed
Symptomatic73%27%
Asymptomatic55%45%
First 7 days80%20%

Dinnes J et al. Cochrane Database Syst Rev. 2022;7:CD013705

The False Security Decision Tree

Thanksgiving 2020: What Happened

Family Member Tests Negative
Truly Negative?
55% if asymptomatic
True NegativeSafe to gather
45% if asymptomatic
FALSE NegativeInfectious!
Reúne-se com a famíliaGrandparents infected
"E o teste disse 'negativo',
e a família se abraçou,
e no final do inverno,
o avô foi enterrado."
Você não ouviu falar da triagem
que encontrou cânceres que would never kill,
e levou a tratamentos que caused more harm than the disease?

Can you trust a DTA meta-analysis done in a spreadsheet?

REAL DATA

A metanálise de DTA requer o modelo bivariado ou HSROC – ambos precisam de estimativa de máxima verossimilhança de sensibilidade e especificidade correlacionadas na escala logit. A investigação documentou que os cálculos manuais do Excel introduzem frequentemente erros: um estudo histórico realizado por Reinhart & Rogoff (2010, economia) demonstrou como um simples erro numa folha de cálculo levou a mudanças nas políticas globais. No DTA, a aplicação manual de transformações logit e o agrupamento de sensibilidade/especificidade separadamente no Excel ignora a correlação entre eles e pode produzir estimativas agrupadas que diferem significativamente dos modelos bivariados validados em software (R mada/reitsma, Stata metandi, SAS NLMIXED).

O erro QUADAS Excel
Uma equipe de pesquisa precisa reunir sensibilidade e especificidade para uma revisão sistemática da DTA. Eles têm 12 estudos. Um membro da equipe constrói um modelo Excel; outro usa o pacote mada do R.
CAMINHO A: Use a planilha
Pool sensitivity and specificity separately in Excel using simple averages or fixed-effect formulas
Ignora a correlação entre sensibilidade e especificidade; compostos de erros de transformação logit; sensibilidade agrupada reduzida em aproximadamente 12 pontos percentuais
OUTCOME: Wrong numbers published; clinical guidelines misled
PATH B: Use Validated Software
Use R (mada/reitsma), Stata (metandi) ou SAS (NLMIXED) com o modelo bivariado
O GLMM bivariado adequado leva em conta a compensação sensibilidade-especificidade, produz regiões de confiança válidas e lida com a heterogeneidade entre estudos
OUTCOME: Reproducible, auditable, correct results
THE REVELATION
A meta-análise do DTA não é um simples agrupamento. A natureza bivariada dos dados (sensibilidade e especificidade emparelhadas) requer software estatístico especializado. Um erro na planilha não é apenas um inconveniente – ele pode mudar a prática clínica.
O problema do sobrediagnóstico
3-4
Lives saved
per 10,000 screened
50-130
Overdiagnosed
(treated unnecessarily)
~500
False alarms
(anxiety, biopsies)
THE QUESTION
Para salvar 3 a 4 vidas, estima-se que 50 a 130 mulheres sejam submetidas a cirurgia, radioterapia ou quimioterapia para cancros que nunca as teriam prejudicado.

Essa troca vale a pena?
Patient Decision Aid: Mammography

Se 10.000 mulheres de 50 a 69 anos são examinadas por 10 anos

Deaths from breast cancer prevented
3-4 women
Women called back for false alarms
~500 women
Unnecessary biopsies
~200 women
Mulheres tratadas de câncer que nunca as prejudicaria
~15 women
O rastreamento é adequado para você?
The Screening Cascade Decision Tree

10.000 mulheres examinadas ao longo de 10 anos

10,000 Women
~1,000 RecalledAbnormal
~500 False
Alarm
~500 Biopsy
~50 cancer
~9,000 Cleared
Of ~50 Cancers Found
~35 Would Kill3-4 saved
~15 Would Never KillOverdiagnosed
"E o teste encontrou a sombra,
e chamou isso de câncer,
e a mulher foi cortada e queimada -
por uma sombra que nunca teria obscurecido seus dias."
==================== MÓDULO 14: AMILOIDE DE ALZHEIMER ===================
Você nunca ouviu falar do exame
que encontra as placas no cérebro,
mas não pode te dizer
se a mente irá fade?
O Paradoxo Amiloide
ALZHEIMER'S RESEARCH, 2010s-2020s
PET scans can now detect amyloid plaques—the hallmark of Alzheimer's.

But 30% of cognitively normal elderly have amyloid plaques. They may never develop dementia.

And 10-20% das pessoas com demência have no amyloid.

O teste encontra as placas, mas as placas não são a doença. Estamos testando um substituto, não o. resultado.
Jack CR et al. Lancet Neurol. 2018;17:760-773
Surrogate vs. Outcome Decision Tree

O que estamos realmente testando?

Diagnostic Test
What Does It Detect?
Outcome itself
Direct Diagnosispor exemplo, biópsia para câncer
High clinical value
Surrogate marker
Indirect Signalpor exemplo, amilóide para demência
Validated link?
YesUse cautiously
NoLimited value
"E a varredura encontrou o placas,
e o médico chamou de Alzheimer,
e o paciente vivia aterrorizado—
of a forgetting that might never come."
==================== MÓDULO 15: QUALIDADE QUADAS-2 ==================
Nem todos os estudos são criados iguais.

Some are biased.
Some are poorly designed.
Alguns não deveriam ser trusted.

Como separamos o trigo do joio?

E se a maioria dos estudos de DTA nem sequer reportarem informações suficientes para avaliar a sua qualidade?

REAL DATA

Antes da publicação da iniciativa STARD em 2003, uma avaliação sistemática concluiu que menos de half dos estudos de DTA relataram se a interpretação do teste de índice era cega e as descrições dos padrões de referência eram frequentemente inadequadas. Após o STARD, a notificação melhorou: múltiplas avaliações meta-epidemiológicas revelaram que a adesão aos itens do STARD aumentou substancialmente, embora muitos estudos ainda tenham ficado aquém em itens-chave, como diagramas de fluxo e tratamento de resultados indeterminados.

A Revolução STARD: 2003
Uma equipe conclui um estudo DTA de um novo teste no local de atendimento. Eles estão ansiosos para publicar rapidamente. Eles têm os dados 2x2, mas não documentaram o cegamento, o fluxo do paciente ou os resultados indeterminados.
PATH A: Publish Quickly
Enviar sem um diagrama de fluxo STARD ou relatório completo dos métodos
Os leitores não podem avaliar o cegamento, o espectro do paciente ou a verificação. A avaliação QUADAS-2 classifica todos os domínios como “pouco claros”. O estudo pode ser excluído de futuras revisões sistemáticas ou, pior, incluído com peso inflacionado.
OUTCOME: Waste of research; uninterpretable results
PATH B: Follow STARD Guidelines
Preencher a lista de verificação STARD, criar um diagrama de fluxo do paciente, relatar resultados indeterminados e descrever o cegamento
Os revisores podem avaliar completamente a qualidade. Os domínios QUADAS-2 são responsáveis. O estudo contribui significativamente para revisões sistemáticas e diretrizes clínicas.
RESULTADO: Evidência confiável que promove o cuidado
THE REVELATION
Você não pode avaliar a qualidade se o estudo não relatar seus métodos. STARD garante que os estudos DTA sejam completos o suficiente para serem julgados pelo QUADAS-2. Relatórios incompletos não são neutros – eles escondem preconceitos.
QUADAS-2: A lista de verificação de qualidade

Four Domains of Risk of Bias

1
Patient Selection

Foi inscrita uma amostra consecutiva ou aleatória? Foi evitado um desenho caso-controle?

2
Index Test

O teste foi interpretado sem conhecimento do padrão de referência? O limite foi pré-especificado?

3
Reference Standard

É provável que o padrão de referência classifique corretamente a condição? Foi interpretado às cegas?

4
Fluxo e temporização

Houve intervalo adequado entre os testes? Todos os pacientes receberam o mesmo padrão de referência?

QUADAS-2 Decision Tree

Você deve confiar neste estudo?

DTA Study
Check All 4 Domains
All Low Risk
High QualityTrust results
Some Unclear
ModerateUsar com cautela
Any High Risk
Low QualityOs resultados podem ser tendenciosos
Vieses comuns no DTA Estudos
!

Verification Bias

Only positive tests get the reference standard → inflates sensitivity

!

Spectrum Bias

A população do estudo difere da realidade clínica → os resultados não generalizam

!

Incorporation Bias

Index test is part of reference standard → artificially high accuracy

!

Review Bias

Index test interpreted knowing reference result → inflates both metrics

"Antes de confiar nos números,
ask: How were they gathered?
Um estudo tendencioso fala com confiança—
but its confidence is a lie."
===================== MÓDULO 16: META-ANÁLISE E SROC ====================
Um estudo pode enganar.
Um estudo pode ser lisonjeiro.

Mas quando você se reúne todas as evidências
the truth becomes harder to hide.

O que acontece quando estudos diferentes usam limites diferentes para o mesmo teste e você tenta agrupá-los?

REAL DATA

D-dimer testing for pulmonary embolism (PE) traditionally used a fixed cutoff of 500 µg/L. O estudo ADJUST-PE (Righini et al., JAMA 2014) mostrou que um ponto de corte ajustado por idade (age × 10 µg/L para pacientes com mais de 50 anos) aumentou a proporção de pacientes idosos com resultados negativos de dímero D de ~6% to ~30%, com um risco de TEV em 3 meses de apenas 0,3% no grupo negativo ajustado por idade. Uma meta-análise DTA de estudos de dímero D deve usar o modelo bivariado porque diferentes limiares criam uma compensação sensibilidade-especificidade visível na curva SROC.

The D-dimer Threshold Dilemma: ADJUST-PE 2014
Um paciente idoso (75 anos) se apresenta ao pronto-socorro com possível EP. O dímero D é 620 µg/L. Usando o ponto de corte fixo, isso é positivo. Usando o ponto de corte ajustado para idade (750 µg/L), isso é negativo.
PATH A: Use Fixed Cutoff (500 µg/L)
Apply one threshold to all patients regardless of age
Pacientes idosos quase sempre excedem 500 µg/L. A especificidade cai abaixo de 10% em pessoas com mais de 80 anos. Quase todos os pacientes idosos fazem uma angiografia pulmonar por TC — com contraste, radiação e achados incidentais.
OUTCOME: D-dimer becomes useless in the elderly
PATH B: Use Bivariate Model with Threshold Covariate
Aplique o ponto de corte ajustado à idade; variação do limiar do modelo na meta-análise
A curva SROC mostra que os limiares ajustados à idade se movem ao longo da curva, trocando uma pequena quantidade de sensibilidade por um grande ganho em especificidade. 30% mais pacientes idosos evitam com segurança a tomografia computadorizada.
OUTCOME: Fewer unnecessary scans; no missed PEs
THE REVELATION
A variação do limiar é a razão pela qual a meta-análise do DTA precisa do modelo bivariado. Diferentes estudos utilizam diferentes pontos de corte, criando um equilíbrio entre sensibilidade e especificidade. A curva SROC é o mapa dessa compensação.
Why DTA Meta-Analysis Is Different
THE PROBLEM
Sensibilidade e especificidade são correlated. When one goes up, the other tends to go down.

Você não pode agrupá-los separadamente como efeitos de tratamento. Você precisa do bivariate model.
A Curva SROC

Summary Receiver Operating Characteristic

Sensitivity
1 - Specificity (False Positive Rate)
Individual studies
Summary estimate
Lendo o SROC

O que a curva diz Você?

SROC Curve Position
Top-Left Corner
Excellent TestHigh sens + spec
Near Diagonal
Useless TestNo better than chance
Points Scattered
High HeterogeneityInvestigate sources
"Um estudo pode enganar.
Muitos estudos, ponderados juntos,
traçar o caminho da verdade -
a curva SROC que revela o que o teste pode realmente fazer."
Mas e se os estudos disagree?

One says sensitivity is 95%.
Another says 60%.

Em qual verdade você acredita?

E se um teste funcionar bem na população em geral, mas falhar nos pacientes que mais precisam dele?

REAL DATA

HRP2-based malaria rapid diagnostic tests (RDTs) achieve sensitivity of approximately 95% in the general population in endemic areas. However, in pregnant women, sensitivity can drop to as low as 56-76% devido ao sequestro placentário de parasitas – os parasitas se escondem na placenta, mantendo a parasitemia no sangue periférico baixa e abaixo do limiar de detecção do RDT. Uma revisão Cochrane de RDTs sobre malária encontrou heterogeneidade substancial (I² frequentemente excedendo 80%) impulsionada por subgrupos populacionais, incluindo gravidez, crianças menores de 5 anos e co-infecção por HIV.

O RDT Malária na Gravidez
Uma meta-análise reúne 25 estudos RDT sobre malária e relata uma sensibilidade combinada de 93%. Um médico em uma clínica pré-natal usa isso para tranquilizar uma mulher grávida com um RDT negativo.<
PATH A: Trust the Overall Pooled Estimate
Aplique a sensibilidade de 93% da meta-análise da população em geral
Em mulheres grávidas, a verdadeira sensibilidade pode ser tão baixa quanto 56-76%. Uma proporção substancial de mulheres grávidas infectadas são falsamente tranquilizadas. A malária não tratada durante a gravidez causa anemia materna grave, baixo peso à nascença e nado-morto.
OUTCOME: Preventable maternal and neonatal deaths
PATH B: Investigate Heterogeneity by Subgroup
Realizar meta-análise de subgrupos para mulheres grávidas; explorar I² e fontes de variação
Descubra que a gravidez é uma importante fonte de heterogeneidade. Recomendar confirmação microscópica para todas as mulheres grávidas com RDT negativos em áreas endémicas.
OUTCOME: Targeted protocols save mothers and babies
THE REVELATION
A heterogeneidade não é apenas ruído estatístico. Muitas vezes sinaliza que o teste tem desempenho diferente em populações diferentes. Ignorar I² e agrupar tudo pode ser fatal para subgrupos vulneráveis.
Sources of Heterogeneity

Por que os estudos discordam

Mesmo teste, resultados diferentes?
ThresholdDifferent cutoffs
PopulationSeverity, age
SettingPrimary vs specialist
QualityBias, blinding
Measuring Disagreement: I²
I² < 25%
Low
Studies agree
I² 25-75%
Moderate
Some variation
I² > 75%
High
Major disagreement
THE WARNING
When I² > 75%, the pooled estimate may be meaningless. Explain the disagreement before averaging.
“Quando os estudos discordam,
não silencie a dissidência.
Ask: Why do they see differently?
A própria discordância ensina."
==================== MÓDULO 18: O KIT DE FERRAMENTAS ===================
Seu kit de ferramentas DTA
As medidas essenciais e quando usá-las

Quando uma IA afirma diagnosticar melhor que os médicos, você deveria confiar na AUC geral?

REAL DATA

Deep learning models for skin cancer detection have reported AUC values as high as 0.91-0.94 in development datasets. However, external validation revealed alarming disparities: Daneshjou et al. (2022, Nature Medicine) descobriram que as ferramentas comerciais de dermatologia de IA funcionaram em níveis quase aleatórios na pele mais escura (tipos V-VI de Fitzpatrick), com AUC tão baixa quanto 0.50-0.57 - essencialmente aleatório. Os conjuntos de dados de treinamento foram fortemente influenciados por tons de pele mais claros, o que significa que a tabela 2x2 nunca foi preenchida adequadamente para todas as populações.

A promessa da dermatologia da IA: 2020
Um hospital considera implantar uma ferramenta de rastreamento de câncer de pele com IA em uma clínica dermatológica que atende uma população urbana diversificada. O fabricante relata AUC de 0,94.
PATH A: Deploy Based on Overall AUC
Confie na AUC do título de 0,94 e implemente para todos os pacientes
Os melanomas na pele mais escura passam despercebidos em taxas mais elevadas. O valor global da sensibilidade esconde uma lacuna perigosa. Os pacientes com maior mortalidade por diagnóstico tardio são aqueles que a IA mais falha.
OUTCOME: Health disparity amplified by technology
PATH B: Demand Fairness-Stratified Evaluation
Exigem sensibilidade e especificidade discriminadas por tom de pele (escala de Fitzpatrick), idade e localização da lesão
Descubra a lacuna de desempenho. Exigir reciclagem em diversos conjuntos de dados ou restringir o uso a populações validadas. Combine a IA com a supervisão de dermatologistas para grupos sub-representados.
OUTCOME: Equitable deployment; no one left behind
THE REVELATION
Um único número AUC pode esconder disparidades perigosas. As ferramentas de diagnóstico emergentes baseadas em IA devem ser avaliadas com o mesmo rigor que qualquer teste de diagnóstico: estratificadas por população, validadas externamente e mantidas de acordo com os padrões STARD e QUADAS-2.
The Checklist

Was there a valid reference standard?

Gold standard applied to ALL patients?

Os intérpretes ficaram cegos?

Test readers unaware of diagnosis?

O espectro era apropriado?

Pacientes semelhantes à sua população?

O limite foi pré-especificado?

Ou escolhido para maximizar resultados?

When Results Don't Match Suspicion

The Clinical Override Decision Tree

Test Negative, High Suspicion
What Is the LR-?
LR- < 0.1
Strong rule-outAccept negative
LR- 0.1-0.5
Repeat testOr different test
LR- > 0.5
Trust judgmentTest is weak
Sequential Testing Decision Tree

When One Test Isn't Enough

Initial Screening Test
Positive
Confirmatory TestHigh specificity
PositiveDiagnose
NegativeFalse alarm
Negative
Likely negativeIf high sens screen
"Armed with sensitivity, specificity, likelihood,
armado com o SROC e a medida de acordo,
você pode ver através da mentira do teste -
e julgue a sua verdade por si mesmo."
==================== MÓDULO 19: SANGUE ERROS DE TRANSFUSÃO ===================
Você não ouviu falar do paciente
que recebeu o wrong blood,
não porque o teste estava errado,
but because no one performed it?
O teste que não foi Feito
HOSPITALS WORLDWIDE
ABO blood typing is nearly 100% accurate when performed.

Yet transfusion reactions still kill—não por falha no teste, mas por human failure:

• Wrong blood drawn from wrong patient
• Etiquetas trocadas no laboratório
• Bedside check skipped in emergency

In the UK, 1 in 13,000 transfusions vai para o paciente errado O teste funcionou.
Bolton-Maggs PHB. Transfus Med. 2016;26:303-311
Test vs. System Decision Tree

Where Can Things Go Wrong?

Diagnostic Process
Error Source?
Test itself
Analytical ErrorSens/Spec issue
Better test needed
Pre-analytical
Wrong sampleID error
System fix needed
Post-analytical
Wrong actionReporting error
Process fix needed
"The perfect test means nothing
se o sangue errado for. desenhado,
a etiqueta errada é aplicada,
a bolsa errada é pendurada."

Os estudos do DTA medem a precisão do teste. Eles não medem a precisão do sistema.

==================== MÓDULO 20: TESTE E REFERÊNCIAS ====================
References

Key Sources

  1. Carreyrou J. Bad Blood. Knopf, 2018. [Theranos]
  2. CDC. MMWR. 1987;36(49):833-840. [HIV blood supply]
  3. Herbst AL et al. N Engl J Med. 1971;284:878-881. [DES]
  4. Moyer VA. Ann Intern Med. 2012;157:120-134. [PSA]
  5. Pope JH et al. N Engl J Med. 2000;342:1163-1170. [Troponin]
  6. Steingart KR et al. Cochrane 2014;1:CD009593. [GeneXpert]
  7. Dinnes J et al. Cochrane 2022;7:CD013705. [COVID RAT]
  8. UK Panel. Lancet. 2012;380:1778-1786. [Mammography]
  9. Jack CR et al. Lancet Neurol. 2018;17:760-773. [Amyloid]
  10. WHO. Malaria RDT Performance. 2022.
  11. Reitsma JB et al. J Clin Epidemiol. 2005;58:982-990. [Bivariate]
  12. Whiting PF et al. Ann Intern Med. 2011;155:529-536. [QUADAS-2]
  13. Bolton-Maggs PHB. Transfus Med. 2016;26:303-311.
Um teste é 99% sensível e 99% específico. A prevalência da doença é de 1/1000. Um paciente testa positivo. Qual é a probabilidade de eles terem a doença?
99%
90%
About 9%
50%
What does "SnNout" mean?
A highly Sensitive test, when Negative, rules OUT disease
A highly Specific test, when Negative, rules OUT disease
Sensitivity should be used for screening
Specificity should be above 90%
Por que o suprimento de sangue foi contaminado com HIV apesar dos testes?
The tests had low specificity
Tests had a window period with zero sensitivity in early infection
Os testes não foram realizados corretamente
Os testes foram muito caros
Qual domínio do QUADAS-2 avalia se o exame foi interpretado sem o conhecimento do diagnóstico?
Patient Selection
Index Test
Reference Standard
Fluxo e temporização
Course Complete
"Agora você conhece os quatro resultados,
as duas virtudes de um teste,
a falácia da base taxa,
a arte de reunir evidências,
e os preconceitos que escondem a verdade.

Quando o próximo teste estiver para você—
você saberá."