Quando o teste está: Curso Ultimate DTA (V4)

Você não ouviu a história da mulher
who promised to mude o mundo com uma gota de sangue,
who raised billions on a test that never worked?

Palo Alto, 2003

STANFORD UNIVERSITY

Um jovem de dezenove anos desistiu com uma visão: centenas de exames de sangue com uma única gota.

Investors believed. Walgreens believed. The Pentagon believed.

They gave her $9 billion.

Mas os testes deram resultados errados. Os pacientes foram informados de que tinham HIV, quando na verdade não tinham. Os pacientes foram informados de que seu sangue estava normal quando foram dying.

Carreyrou J. Bad Blood. 2018

A árvore de decisão do engano

What Theranos Did vs. What Should Happen

New Diagnostic Test

↓

SHOULD DO

Validate Against Gold Standard

↓

Publish TP/FP/FN/TN

↓

FDA Approval

THERANOS DID

Skip Validation

↓

Hide Failures

↓

Harm Patients

"E o teste mentiu,
e a mentira estava vestida de certeza,
e ninguém pediu a mesa 2×2.”

É por isso que estudamos a precisão dos testes de diagnóstico.

When a test speaks,
existem apenas four possible truths.

Dois são bênçãos. Dois são maldições.

O que acontece quando uma revisão sistemática confia igualmente em todos os estudos?

REAL DATA

As análises de sensibilidade nas revisões sistemáticas de DTA demonstram consistentemente que a exclusão de estudos de alto risco de viés altera as estimativas agrupadas. Na triagem mamográfica, os desenhos de caso-controle com interpretação não cega tendem a aumentar a sensibilidade. O princípio geral está bem documentado: a avaliação da qualidade do QUADAS-2 pode alterar a sensibilidade agrupada em 10-15 percentage points quando estudos tendenciosos são removidos.

A Auditoria Mamográfica QUADAS-2

Uma equipe de revisão reúne 15 estudos DTA de mamografia. Cinco apresentam alto risco de viés devido ao desenho de caso-controle e interpretação não cega.

CAMINHO A: Agrupar todos os estudos

Include all 15 studies regardless of quality

↓

Biased 2x2 tables inflate TP counts, producing a pooled sensitivity of 87%

OUTCOME: Overconfidence in screening accuracy

PATH B: Apply Quality Assessment

Exclude high risk-of-bias studies using QUADAS-2

↓

Remaining 10 low-RoB studies yield sensitivity of approximately 75%

OUTCOME: Honest numbers guide honest decisions

THE REVELATION

Os quatro resultados (TP, FP, FN, TN) só são confiáveis se o estudo que os produziu for confiável. Um estudo tendencioso contamina toda a tabela 2x2.

A Árvore dos Resultados

Every Test Result Has a Reality Behind It

Patient Tested

↓

Qual é a VERDADE?

Has Disease

D+

↓

TPTest +

FNTest -

No Disease

D-

↓

FPTest +

TNTest -

A Sagrada Mesa 2×2

HIV Rapid Test Example (Real Data)

	HIV+	HIV-	Total
Test +	98	3	101
Test -	2	895	897
Total	100	898	998

DESTA MESA VEM TODA A VERDADE

Sensitivity = 98/100 = 98%
Specificity = 895/898 = 99.7%

"Two outcomes save. Two outcomes harm.
TP, TN: o teste falou verdade.
FP, FN: o teste mentiu.
Know them by name, for they determine fate."

Você não ouviu falar do sangue que foi testado,
found clean,
e dado a milhares -
while death swam within it?

A crise do abastecimento de sangue, 1985

UNITED STATES

When HIV testing began, doctors celebrated: they could now screen the blood supply.

Mas o teste teve um window period—semanas após a infecção, quando o vírus estava presente, mas undetectable.

O sangue foi testado. O sangue era "negativo". O sangue foi transfundido.

8,000-12,000 Americans foram infectados por meio de transfusões antes que testes melhores fechassem a janela.

CDC. MMWR. 1987;36(49):833-840

The Window Period Decision Tree

Why False Negatives Are Deadly

Person Recently Infected

↓

Time Since Infection?

< 2 weeks

Test NEGATIVEVirus present!

↓

Blood DonatedOthers infected

> 4 weeks

Test POSITIVECorrectly detected

↓

Blood DiscardedSupply safe

A sensibilidade muda ao longo do tempo

0%

Day 1-7
Eclipse period

~50%

Day 14
Seroconversion

~95%

Day 21
Most detected

99.9%

Day 45+
Window closed

THE LESSON

A sensibilidade não é fixa. It depends on when you test. A "99% sensitive" test may be 0% sensitive in early infection.

"E o teste disse 'limpo',
pois o vírus ainda não tinha mostrado a sua cara.
E o sangue foi compartilhado,
e a infecção se espalhou para os inocentes."

Você não ouviu falar da pílula dada às mães
to protect their pregnancies,
that planted cancer in their daughters
twenty years before it bloomed?

A tragédia do DES, 1938-1971

UNITED STATES & EUROPE

Diethylstilbestrol (DES) was given to millions of pregnant women to prevent miscarriage.

No proper clinical trial was ever conducted. Doctors assumed it worked because it seemed reasonable.

Decades later, their daughters developed a rare cancer: clear cell adenocarcinoma of the vagina. A cancer so rare it was a diagnostic signal in itself.

5-10 million women foram expostas. gerações.

Herbst AL et al. N Engl J Med. 1971;284:878-881

A árvore de decisão de validação

What Should Have Happened

New Medical Intervention

↓

Foi testada corretamente?

YES

Randomized Trial

↓

Long-term Follow-up

↓

Know True EffectsBenefícios E danos

NO (DES)

Assumption Only

↓

Widespread Use

↓

Hidden HarmDiscovered too late

O sinal de diagnóstico

QUANDO A RARIDADE SE TORNA EVIDÊNCIA

O adenocarcinoma de células claras da vagina era tão raro em mulheres jovens que 7 cases in one hospital triggered an investigation.

O cluster em si era o teste de diagnóstico:
Sensitivity to DES exposure: nearly 100%
Se você tem esse câncer nessa idade, é quase certo que você foi exposto.

1:1000

Risk of clear cell
cancer in DES daughters

5-10M

Women exposed
worldwide

"E as mães tomaram a pílula em esperança,
e as filhas cresceram na sombra,
e vinte anos depois o câncer floresceu—
a diagnosis that indicted a generation of medicine."

A test has two virtues and two vices.

Sensitivity: Pode encontrar os doentes?

Specificity: Pode poupar os saudáveis?

É possível confiar em um número de sensibilidade de um laboratório quando o teste é usado no mundo real?

REAL DATA

The BinaxNOW COVID-19 rapid antigen test reported sensitivity of approximately 84-97% in symptomatic individuals in manufacturer studies. However, real-world evaluations found sensitivity as low as 35-64% em indivíduos assintomáticos, dependendo da carga viral e do momento. A revisão Cochrane de testes rápidos de antígeno (Dinnes 2022) confirmou a sensibilidade média de 73% em sintomáticos e apenas 55% em populações assintomáticas em mais de 100 avaliações de estudos.

The COVID Rapid Test Paradox: 2020-2021

A university plans to screen asymptomatic students weekly before allowing campus access. They read the manufacturer's claim of high sensitivity.

PATH A: Trust Lab Sensitivity

Rely on manufacturer's high sensitivity figure

↓

Portadores assintomáticos com baixas cargas virais testam negativo e frequentam as aulas, espalhando o vírus

OUTCOME: False sense of safety; campus outbreaks

CAMINHO B: Exigir dados do mundo real

Buscar estudos na população-alvo real (estudantes assintomáticos)

↓

Discover sensitivity is roughly 55% in asymptomatic people; add serial testing and other safeguards

OUTCOME: Layered safety catches more cases

THE REVELATION

A sensibilidade não é uma propriedade fixa de um teste. Muda com a população, o estágio da doença e o ambiente. Sempre pergunte: sensibilidade em whom?

Sensibilidade: O Caçador

THE FORMULA

Sensitivity = TP / (TP + FN)

"Of all the sick, how many did we catch?"

Worked Example: COVID PCR Test

Given: 200 infected patients tested

TP = 196 (correctly positive), FN = 4 (missed)

Sensitivity = 196 / (196 + 4) = 196/200 = 98%

Interpretation: Test catches 98 of every 100 infected people

Especificidade: O Guardião

THE FORMULA

Specificity = TN / (TN + FP)

"Of all the healthy, how many did we spare?"

Worked Example: Same COVID PCR Test

Given: 1000 uninfected people tested

TN = 999 (correctly negative), FP = 1 (false alarm)

Specificity = 999 / (999 + 1) = 999/1000 = 99.9%

Interpretation: Test correctly clears 999 of every 1000 healthy people

As Regras da Memória

When to Use Which Test

O que você precisa?

RULE OUT disease

Use HIGH SENSITIVITY

↓

SnNoutSensitive Negative = OUT

RULE IN disease

Use HIGH SPECIFICITY

↓

SpPinSpecific Positive = IN

"A sensibilidade pega os doentes.
A especificidade poupa o bem.
But no test masters both perfectly—
este é o fardo que carregamos."

Você não viu o médico
who saw 99% accurate
and believed a positive result meant 99% certainty?

Este é o erro mais mortal da medicina.

A falácia da taxa básica

THE PUZZLE

A disease affects 1 in 1000 people.
Um teste é 99% sensível e 99% específico.
A patient tests positive.

Qual é a probabilidade de eles terem a doença?

Most doctors say ~99%. A verdadeira resposta é cerca de 9%.

A matemática revelada

Testing 100,000 People (Prevalence 1/1000)

Step 1: 100 have disease, 99,900 healthy

Step 2: Of 100 sick: 99 test positive (TP), 1 negative (FN)

Step 3: Of 99,900 healthy: 999 test positive (FP), 98,901 negative (TN)

Step 4: Total positives = 99 + 999 = 1,098

PPV = TP / All Positives = 99 / 1,098 = 9%

91% dos resultados positivos são FALSOS POSITIVOS!

Interactive Base Rate Calculator

See How Prevalence Changes PPV

Prevalence:

1%

Sensitivity:

99%

Specificity:

99%

9%

Positive Predictive Value (PPV)

91% dos positivos são falsos alarmes

A Árvore de Decisão de Prevalência

Same Test, Different Settings

Test: 99% Sens, 99% Spec

↓

Where Is Testing Done?

General Pop
0.1%

PPV = 9%91% false +

High-Risk
10%

PPV = 92%8% false +

Confirmatory
50%

PPV = 99%1% false +

“E o médico disse '99% de precisão',
e o paciente ouviu '99% de certeza',
e ambos foram enganados -
pois esqueceram de perguntar: Quão rara é esta doença?

Você nunca ouviu falar da máquina
that could find TB in two hours,
que foi chamada revolutionary—
mas perdeu a drug-resistant strains?

A história do GeneXpert, África do Sul

CAPE TOWN, 2010

Durante um século, o diagnóstico de TB exigiu o crescimento de bactérias durante semanas. Depois veio o GeneXpert: resultados em 2 hours.

South Africa deployed it nationwide. The WHO endorsed it.

Mas em pacientes com low bacterial loads—often HIV co-infected— sensitivity dropped to 67%. One in three cases missed.

E para detectar resistência à rifampicina, ele perdeu 5% de casos resistentes. Esses pacientes receberam o tratamento errado. A propagação da TB resistente.

Steingart KR et al. Cochrane Database Syst Rev. 2014;1:CD009593

TB Diagnosis Decision Tree

Quando o GeneXpert não é suficiente

Suspected TB Patient

↓

GeneXpert Test

↓

Positive

↓

Rifampicin?

SensitiveStandard Tx

ResistantMDR-TB Tx

Negative

↓

HIV+ or High Suspicion?

YesCulture needed

NoLikely negative

Sensitivity by Patient Type

98%

Smear-positive
(high bacterial load)

67%

Smear-negative
(low bacterial load)

61%

HIV co-infected
(immune suppressed)

THE LESSON

A sensibilidade de um teste em ensaios clínicos pode não corresponder à sensibilidade dos seus pacientes. Conheça a sua população.

"E a máquina disse 'negativo',
e o médico acreditou na máquina,
e o paciente foi para casa com tuberculose nos pulmões,
tosse resistência para o mundo."

Você não ouviu falar do teste para homens
que encontrou cânceres que never kill,
e levou a tratamentos que destroyed lives?

A tragédia da triagem PSA

UNITED STATES, 1990s-2010s

PSA (Prostate-Specific Antigen) could detect prostate cancer early.

Os médicos examinaram milhões de homens. Cânceres foram encontrados. As próstatas foram removidas.

Mas muitos destes “cancros” nunca teriam causado sintomas. A cirurgia causou impotência e incontinência in men who would have died of old age, not cancer.

Moyer VA. Ann Intern Med. 2012;157:120-134

O dilema da triagem de PSA: 2012

Um homem de 60 anos pergunta ao seu médico sobre a triagem de PSA. PSA no ponto de corte de 4,0 ng/mL tem sensibilidade de aproximadamente 21% para câncer de alto grau, mas detecta muitos cânceres indolentes.

PATH A: Screen All Men

Rastreio de PSA de rotina para todos os homens com mais de 50 anos

↓

Por 1.000 rastreados ao longo de 13 anos: 1-2 mortes evitadas, mas mais de 100 alarmes falsos e 30-40 homens ficaram impotentes ou incontinentes devido ao tratamento de cânceres indolentes

OUTCOME: Net harm exceeds benefit at population level

PATH B: Shared Decision-Making

Discutir danos versus benefícios; individualize com fatores de risco, expectativa de vida e valores do paciente

↓

High-risk men can choose screening; low-risk men can decline; active surveillance replaces immediate surgery for low-grade findings

OUTCOME: Fewer unnecessary treatments; patient autonomy preserved

THE REVELATION

Um teste com altas taxas de detecção pode causar mais danos do que benefícios quando encontra condições que não precisam ser encontradas. O sobrediagnóstico é o custo oculto da alta sensibilidade em doenças indolentes.

Os números do dano

1

Vida salva de
prostate cancer
per 1000 screened

30-40

Men made impotent
or incontinent
per 1000 screened

100+

False positives
(biopsies, anxiety)
per 1000 screened

THE REVERSAL

In 2012, the US Preventive Services Task Force recommended against triagem de PSA de rotina. O teste consistia em encontrar muitas coisas que não precisavam ser encontradas.

Patient Decision Aid: PSA Screening

Se 1.000 homens de 55 a 69 anos forem examinados por 13 anos

Deaths from prostate cancer prevented

1-2 men

Men who will have false positive requiring biopsy

100-120 men

Homens diagnosticados com câncer que nunca os prejudicariam

20-50 men

Men left impotent or incontinent from treatment

30-40 men

Essa compensação é aceitável para você?

"E o teste encontrou a sombra,
e o cirurgião cortou,
e o homem viveu – impotente, incontinente –
de um câncer que nunca teria acordado."

Você nunca ouviu falar do homem com dor no peito
cuja primeira troponina foi normal,
que foi mandado para casa—
e morreu antes manhã?

O problema do tempo de troponina

EMERGENCY DEPARTMENTS WORLDWIDE

A troponina é o padrão ouro para o diagnóstico de ataque cardíaco. Mas é preciso 3-6 hours to rise after myocardial injury.

A patient arrives one hour after chest pain begins. Troponin is tested: normal. "You're fine. Go home."

O coração estava morrendo. A proteína ainda não havia vazado.

Studies show 2-5% of MI patients sent home from ED die within 30 days.

Pope JH et al. N Engl J Med. 2000;342:1163-1170

Serial Testing Decision Tree

O Protocolo de Duas Troponinas

Chest Pain Patient

↓

First Troponin

↓

Elevated

↓

Treat as MI

Normal

↓

When Did Pain Start?

<6 hrs

Wait 3 hrsRepeat troponin

>6 hrs

Low riskConsider d/c

High-Sensitivity Troponin

~70%

Conventional troponin
sensitivity at 0 hrs

~95%

hs-Troponin
sensitivity at 0 hrs

99%

hs-Troponin
at 3 hrs serial

THE TRADE-OFF

High-sensitivity troponin catches more heart attacks early. But it also has more false positives—elevated in kidney disease, heart failure, sepsis, and marathon runners.

"E o teste disse 'normal',
pois o coração estava apenas começando a morrer.
E o paciente estava tranquilizado,
and went home to finish dying."

A sensibilidade descreve o teste.
A especificidade descreve o teste.

Mas o paciente pergunta:
"I tested positive. What are MY chances?"

E se a sensibilidade publicada de um teste for maior que a verdade e as razões de verossimilhança que você calcula estiverem, portanto, erradas?

REAL DATA

Rapid strep tests (RADT) showed pooled sensitivity of approximately 86% em estudos publicados incluídos nas revisões Cochrane. No entanto, as submissões regulatórias da FDA 510(k), que incluem dados não publicados do fabricante, revelaram estimativas de sensibilidade de apenas 70-75%. Estudos publicados com maior sensibilidade tiveram maior probabilidade de serem submetidos para publicação – um caso clássico de viés de publicação que inflaciona a precisão aparente.

The Rapid Strep Test Publication Gap

Um médico calcula LR+ a partir de dados publicados (sensibilidade 86%, especificidade 95%) para decidir se deve tratar a dor de garganta de uma criança. Mas a verdadeira sensibilidade pode ser de apenas 70%.

PATH A: Trust Published Meta-Analysis

Usar LR+ de dados publicados (86/5 = 17,2)

↓

LR+ superestimado leva ao excesso de confiança em um resultado negativo; crianças com estreptococos são mandadas para casa sem antibióticos

OUTCOME: Missed strep leads to rheumatic fever risk

CAMINHO B: buscar dados regulatórios

Use LR+ dos envios da FDA (70/5 = 14) e observe que o LR- é pior (0,32 vs 0,15)

↓

Recognize a negative RADT cannot confidently exclude strep; back up with throat culture when clinical suspicion is high

OUTCOME: Appropriate caution protects children

THE REVELATION

As razões de verossimilhança são tão honestas quanto a sensibilidade e a especificidade que as produzem. O viés de publicação aumenta a precisão, tornando o LR+ demasiado optimista e o LR- demasiado tranquilizador. Sempre pergunte: faltam estudos não publicados?

Likelihood Ratios

POSITIVE LIKELIHOOD RATIO

LR+ = Sensitivity / (1 - Specificity)

How much more likely is a + result in sick vs healthy?

NEGATIVE LIKELIHOOD RATIO

LR- = (1 - Sensitivity) / Specificity

How much more likely is a - result in sick vs healthy?

O Nomograma Fagan

Da probabilidade pré-teste ao pós-teste

Pre-Test
Probability

99%

50%

20%

5%

1%

Likelihood
Ratio

100

10

1

0.1

0.01

Post-Test
Probability

99%

80%

50%

20%

1%

Draw a line from pre-test through LR to find post-test probability

Interpreting Likelihood Ratios

Quão poderoso é este teste?

LR+ Value?

LR+ > 10Strong rule-in

5-10Moderate

2-5Weak

1-2Useless

LR- Value?

< 0.1Strong rule-out

0.1-0.2Moderate

0.2-0.5Weak

0.5-1Useless

"A sensibilidade fala dos doentes.
A especificidade fala do poço.
But the likelihood ratio answers:
O que esse resultado significa para ESTE paciente?"

Você não viu a criança com febre na aldeia,
o teste rápido que dizia negative,
and the Plasmodium que continuou se multiplicando?

O problema do RDT da malária

SUB-SAHARAN AFRICA

Malaria kills 600,000 people yearly, mostly children under 5.

Rapid Diagnostic Tests were meant to guide treatment in remote areas without microscopes or laboratories.

But when parasitemia is low—o RDT perde casos. And when P. falciparum exclui o gene HRP2— the RDT sees nothing at all.

WHO. Malaria RDT Performance. 2022

A árvore de decisão clínica

Child with Fever in Malaria-Endemic Area

Febrile Child

↓

Perform RDT

↓

RDT Positive

↓

Tratamento para malária

RDT Negative

↓

Clinical Suspicion?

High

Treat Anywayor Microscopy

Low

Look forOther Cause

Sensitivity Varies by Parasitemia

95%

High parasitemia
(>200/μL)

75%

Low parasitemia
(100-200/μL)

50%

Very low
(<100/μL)

A LIÇÃO CLÍNICA

A negative RDT does not rule out malaria in endemic areas. Clinical judgment must override the test when suspicion is high.

"E o teste disse 'negativo',
e a criança foi mandada para casa,
e os parasitas se multiplicaram no escuro,
e pela manhã a criança não conseguia acordar."

No ano da pestilência,
o mundo precisava de um teste que fosse fast.

Mas rápido não é o mesmo que accurate.

Quando chega uma nova geração de testes com maior sensibilidade, isso automaticamente o torna melhor?

REAL DATA

Os ensaios de troponina de alta sensibilidade (hs-cTn) aumentaram a sensibilidade para infarto agudo do miocárdio de aproximadamente 70% (troponina convencional na apresentação) para mais 95%. But specificity dropped from approximately 95% to around 80% porque a hs-cTn detecta lesão miocárdica de muitas causas não relacionadas ao IM (insuficiência cardíaca, sepse, doença renal, embolia pulmonar). O efeito clínico líquido exigiu modelagem HSROC em vários estudos para compreender a compensação.

A mudança na geração da troponina: década de 2010

An emergency department adopts hs-troponin. More patients now test positive, but many do not have acute MI.

PATH A: Adopt Based on Sensitivity Alone

Comemore que a detecção de MI saltou de 70% para mais de 95%

↓

Mais falsos positivos levam a cateterismos desnecessários, internações hospitalares e ansiedade do paciente por elevações de troponina não cardíaca

OUTCOME: Overdiagnosis and wasted resources

CAMINHO B: Modelar a compensação

Use serial measurements (0h/1h or 0h/3h protocols) and clinical context to maintain specificity

↓

Rapid rule-out algorithms safely discharge low-risk patients; sensitivity remains high while managing the false positive rate

OUTCOME: Faster, safer triage of chest pain

THE REVELATION

Sensibilidade e especificidade se contrapõem. Uma nova geração de testes que aumenta a sensibilidade irá muitas vezes diminuir a especificidade. A curva HSROC é a ferramenta que revela se o tradeoff líquido ajuda ou prejudica os pacientes.

O veredicto Cochrane

COVID-19 Rapid Antigen Tests (Dinnes 2022 Cochrane Review)

Population	Sensitivity	Missed
Symptomatic	73%	27%
Asymptomatic	55%	45%
First 7 days	80%	20%

Dinnes J et al. Cochrane Database Syst Rev. 2022;7:CD013705

The False Security Decision Tree

Thanksgiving 2020: What Happened

Family Member Tests Negative

↓

Truly Negative?

55% if asymptomatic

True NegativeSafe to gather

45% if asymptomatic

FALSE NegativeInfectious!

↓

Reúne-se com a famíliaGrandparents infected

"E o teste disse 'negativo',
e a família se abraçou,
e no final do inverno,
o avô foi enterrado."

Você não ouviu falar da triagem
que encontrou cânceres que would never kill,
e levou a tratamentos que caused more harm than the disease?

Can you trust a DTA meta-analysis done in a spreadsheet?

REAL DATA

A metanálise de DTA requer o modelo bivariado ou HSROC – ambos precisam de estimativa de máxima verossimilhança de sensibilidade e especificidade correlacionadas na escala logit. A investigação documentou que os cálculos manuais do Excel introduzem frequentemente erros: um estudo histórico realizado por Reinhart & Rogoff (2010, economia) demonstrou como um simples erro numa folha de cálculo levou a mudanças nas políticas globais. No DTA, a aplicação manual de transformações logit e o agrupamento de sensibilidade/especificidade separadamente no Excel ignora a correlação entre eles e pode produzir estimativas agrupadas que diferem significativamente dos modelos bivariados validados em software (R mada/reitsma, Stata metandi, SAS NLMIXED).

O erro QUADAS Excel

Uma equipe de pesquisa precisa reunir sensibilidade e especificidade para uma revisão sistemática da DTA. Eles têm 12 estudos. Um membro da equipe constrói um modelo Excel; outro usa o pacote mada do R.

CAMINHO A: Use a planilha

Pool sensitivity and specificity separately in Excel using simple averages or fixed-effect formulas

↓

Ignora a correlação entre sensibilidade e especificidade; compostos de erros de transformação logit; sensibilidade agrupada reduzida em aproximadamente 12 pontos percentuais

OUTCOME: Wrong numbers published; clinical guidelines misled

PATH B: Use Validated Software

Use R (mada/reitsma), Stata (metandi) ou SAS (NLMIXED) com o modelo bivariado

↓

O GLMM bivariado adequado leva em conta a compensação sensibilidade-especificidade, produz regiões de confiança válidas e lida com a heterogeneidade entre estudos

OUTCOME: Reproducible, auditable, correct results

THE REVELATION

A meta-análise do DTA não é um simples agrupamento. A natureza bivariada dos dados (sensibilidade e especificidade emparelhadas) requer software estatístico especializado. Um erro na planilha não é apenas um inconveniente – ele pode mudar a prática clínica.

O problema do sobrediagnóstico

3-4

Lives saved
per 10,000 screened

50-130

Overdiagnosed
(treated unnecessarily)

~500

False alarms
(anxiety, biopsies)

THE QUESTION

Para salvar 3 a 4 vidas, estima-se que 50 a 130 mulheres sejam submetidas a cirurgia, radioterapia ou quimioterapia para cancros que nunca as teriam prejudicado.

Essa troca vale a pena?

Patient Decision Aid: Mammography

Se 10.000 mulheres de 50 a 69 anos são examinadas por 10 anos

Deaths from breast cancer prevented

3-4 women

Women called back for false alarms

~500 women

Unnecessary biopsies

~200 women

Mulheres tratadas de câncer que nunca as prejudicaria

~15 women

O rastreamento é adequado para você?

The Screening Cascade Decision Tree

10.000 mulheres examinadas ao longo de 10 anos

10,000 Women

↓

~1,000 RecalledAbnormal

↓

~500 False
Alarm

~500 Biopsy
~50 cancer

~9,000 Cleared

Of ~50 Cancers Found

~35 Would Kill3-4 saved

~15 Would Never KillOverdiagnosed

"E o teste encontrou a sombra,
e chamou isso de câncer,
e a mulher foi cortada e queimada -
por uma sombra que nunca teria obscurecido seus dias."

Você nunca ouviu falar do exame
que encontra as placas no cérebro,
mas não pode te dizer
se a mente irá fade?

O Paradoxo Amiloide

ALZHEIMER'S RESEARCH, 2010s-2020s

PET scans can now detect amyloid plaques—the hallmark of Alzheimer's.

But 30% of cognitively normal elderly have amyloid plaques. They may never develop dementia.

And 10-20% das pessoas com demência have no amyloid.

O teste encontra as placas, mas as placas não são a doença. Estamos testando um substituto, não o. resultado.

Jack CR et al. Lancet Neurol. 2018;17:760-773

Surrogate vs. Outcome Decision Tree

O que estamos realmente testando?

Diagnostic Test

↓

What Does It Detect?

Outcome itself

Direct Diagnosispor exemplo, biópsia para câncer

↓

High clinical value

Surrogate marker

Indirect Signalpor exemplo, amilóide para demência

↓

Validated link?

YesUse cautiously

NoLimited value

"E a varredura encontrou o placas,
e o médico chamou de Alzheimer,
e o paciente vivia aterrorizado—
of a forgetting that might never come."

Nem todos os estudos são criados iguais.

Some are biased.
Some are poorly designed.
Alguns não deveriam ser trusted.

Como separamos o trigo do joio?

E se a maioria dos estudos de DTA nem sequer reportarem informações suficientes para avaliar a sua qualidade?

REAL DATA

Antes da publicação da iniciativa STARD em 2003, uma avaliação sistemática concluiu que menos de half dos estudos de DTA relataram se a interpretação do teste de índice era cega e as descrições dos padrões de referência eram frequentemente inadequadas. Após o STARD, a notificação melhorou: múltiplas avaliações meta-epidemiológicas revelaram que a adesão aos itens do STARD aumentou substancialmente, embora muitos estudos ainda tenham ficado aquém em itens-chave, como diagramas de fluxo e tratamento de resultados indeterminados.

A Revolução STARD: 2003

Uma equipe conclui um estudo DTA de um novo teste no local de atendimento. Eles estão ansiosos para publicar rapidamente. Eles têm os dados 2x2, mas não documentaram o cegamento, o fluxo do paciente ou os resultados indeterminados.

PATH A: Publish Quickly

Enviar sem um diagrama de fluxo STARD ou relatório completo dos métodos

↓

Os leitores não podem avaliar o cegamento, o espectro do paciente ou a verificação. A avaliação QUADAS-2 classifica todos os domínios como “pouco claros”. O estudo pode ser excluído de futuras revisões sistemáticas ou, pior, incluído com peso inflacionado.

OUTCOME: Waste of research; uninterpretable results

PATH B: Follow STARD Guidelines

Preencher a lista de verificação STARD, criar um diagrama de fluxo do paciente, relatar resultados indeterminados e descrever o cegamento

↓

Os revisores podem avaliar completamente a qualidade. Os domínios QUADAS-2 são responsáveis. O estudo contribui significativamente para revisões sistemáticas e diretrizes clínicas.

RESULTADO: Evidência confiável que promove o cuidado

THE REVELATION

Você não pode avaliar a qualidade se o estudo não relatar seus métodos. STARD garante que os estudos DTA sejam completos o suficiente para serem julgados pelo QUADAS-2. Relatórios incompletos não são neutros – eles escondem preconceitos.

QUADAS-2: A lista de verificação de qualidade

Four Domains of Risk of Bias

1

Patient Selection

Foi inscrita uma amostra consecutiva ou aleatória? Foi evitado um desenho caso-controle?

2

Index Test

O teste foi interpretado sem conhecimento do padrão de referência? O limite foi pré-especificado?

3

Reference Standard

É provável que o padrão de referência classifique corretamente a condição? Foi interpretado às cegas?

4

Fluxo e temporização

Houve intervalo adequado entre os testes? Todos os pacientes receberam o mesmo padrão de referência?

QUADAS-2 Decision Tree

Você deve confiar neste estudo?

DTA Study

↓

Check All 4 Domains

All Low Risk

High QualityTrust results

Some Unclear

ModerateUsar com cautela

Any High Risk

Low QualityOs resultados podem ser tendenciosos

Vieses comuns no DTA Estudos

!

Verification Bias

Only positive tests get the reference standard → inflates sensitivity

!

Spectrum Bias

A população do estudo difere da realidade clínica → os resultados não generalizam

!

Incorporation Bias

Index test is part of reference standard → artificially high accuracy

!

Review Bias

Index test interpreted knowing reference result → inflates both metrics

"Antes de confiar nos números,
ask: How were they gathered?
Um estudo tendencioso fala com confiança—
but its confidence is a lie."

Um estudo pode enganar.
Um estudo pode ser lisonjeiro.

Mas quando você se reúne todas as evidências—
the truth becomes harder to hide.

O que acontece quando estudos diferentes usam limites diferentes para o mesmo teste e você tenta agrupá-los?

REAL DATA

D-dimer testing for pulmonary embolism (PE) traditionally used a fixed cutoff of 500 µg/L. O estudo ADJUST-PE (Righini et al., JAMA 2014) mostrou que um ponto de corte ajustado por idade (age × 10 µg/L para pacientes com mais de 50 anos) aumentou a proporção de pacientes idosos com resultados negativos de dímero D de ~6% to ~30%, com um risco de TEV em 3 meses de apenas 0,3% no grupo negativo ajustado por idade. Uma meta-análise DTA de estudos de dímero D deve usar o modelo bivariado porque diferentes limiares criam uma compensação sensibilidade-especificidade visível na curva SROC.

The D-dimer Threshold Dilemma: ADJUST-PE 2014

Um paciente idoso (75 anos) se apresenta ao pronto-socorro com possível EP. O dímero D é 620 µg/L. Usando o ponto de corte fixo, isso é positivo. Usando o ponto de corte ajustado para idade (750 µg/L), isso é negativo.

PATH A: Use Fixed Cutoff (500 µg/L)

Apply one threshold to all patients regardless of age

↓

Pacientes idosos quase sempre excedem 500 µg/L. A especificidade cai abaixo de 10% em pessoas com mais de 80 anos. Quase todos os pacientes idosos fazem uma angiografia pulmonar por TC — com contraste, radiação e achados incidentais.

OUTCOME: D-dimer becomes useless in the elderly

PATH B: Use Bivariate Model with Threshold Covariate

Aplique o ponto de corte ajustado à idade; variação do limiar do modelo na meta-análise

↓

A curva SROC mostra que os limiares ajustados à idade se movem ao longo da curva, trocando uma pequena quantidade de sensibilidade por um grande ganho em especificidade. 30% mais pacientes idosos evitam com segurança a tomografia computadorizada.

OUTCOME: Fewer unnecessary scans; no missed PEs

THE REVELATION

A variação do limiar é a razão pela qual a meta-análise do DTA precisa do modelo bivariado. Diferentes estudos utilizam diferentes pontos de corte, criando um equilíbrio entre sensibilidade e especificidade. A curva SROC é o mapa dessa compensação.

Why DTA Meta-Analysis Is Different

THE PROBLEM

Sensibilidade e especificidade são correlated. When one goes up, the other tends to go down.

Você não pode agrupá-los separadamente como efeitos de tratamento. Você precisa do bivariate model.

A Curva SROC

Summary Receiver Operating Characteristic

Sensitivity

1 - Specificity (False Positive Rate)

Individual studies

Summary estimate

Lendo o SROC

O que a curva diz Você?

SROC Curve Position

↓

Top-Left Corner

Excellent TestHigh sens + spec

Near Diagonal

Useless TestNo better than chance

Points Scattered

High HeterogeneityInvestigate sources

"Um estudo pode enganar.
Muitos estudos, ponderados juntos,
traçar o caminho da verdade -
a curva SROC que revela o que o teste pode realmente fazer."

Mas e se os estudos disagree?

One says sensitivity is 95%.
Another says 60%.

Em qual verdade você acredita?

E se um teste funcionar bem na população em geral, mas falhar nos pacientes que mais precisam dele?

REAL DATA

HRP2-based malaria rapid diagnostic tests (RDTs) achieve sensitivity of approximately 95% in the general population in endemic areas. However, in pregnant women, sensitivity can drop to as low as 56-76% devido ao sequestro placentário de parasitas – os parasitas se escondem na placenta, mantendo a parasitemia no sangue periférico baixa e abaixo do limiar de detecção do RDT. Uma revisão Cochrane de RDTs sobre malária encontrou heterogeneidade substancial (I² frequentemente excedendo 80%) impulsionada por subgrupos populacionais, incluindo gravidez, crianças menores de 5 anos e co-infecção por HIV.

O RDT Malária na Gravidez

Uma meta-análise reúne 25 estudos RDT sobre malária e relata uma sensibilidade combinada de 93%. Um médico em uma clínica pré-natal usa isso para tranquilizar uma mulher grávida com um RDT negativo.<

PATH A: Trust the Overall Pooled Estimate

Aplique a sensibilidade de 93% da meta-análise da população em geral

↓

Em mulheres grávidas, a verdadeira sensibilidade pode ser tão baixa quanto 56-76%. Uma proporção substancial de mulheres grávidas infectadas são falsamente tranquilizadas. A malária não tratada durante a gravidez causa anemia materna grave, baixo peso à nascença e nado-morto.

OUTCOME: Preventable maternal and neonatal deaths

PATH B: Investigate Heterogeneity by Subgroup

Realizar meta-análise de subgrupos para mulheres grávidas; explorar I² e fontes de variação

↓

Descubra que a gravidez é uma importante fonte de heterogeneidade. Recomendar confirmação microscópica para todas as mulheres grávidas com RDT negativos em áreas endémicas.

OUTCOME: Targeted protocols save mothers and babies

THE REVELATION

A heterogeneidade não é apenas ruído estatístico. Muitas vezes sinaliza que o teste tem desempenho diferente em populações diferentes. Ignorar I² e agrupar tudo pode ser fatal para subgrupos vulneráveis.

Sources of Heterogeneity

Por que os estudos discordam

Mesmo teste, resultados diferentes?

ThresholdDifferent cutoffs

PopulationSeverity, age

SettingPrimary vs specialist

QualityBias, blinding

Measuring Disagreement: I²

I² < 25%

Low
Studies agree

I² 25-75%

Moderate
Some variation

I² > 75%

High
Major disagreement

THE WARNING

When I² > 75%, the pooled estimate may be meaningless. Explain the disagreement before averaging.

“Quando os estudos discordam,
não silencie a dissidência.
Ask: Why do they see differently?
A própria discordância ensina."

Seu kit de ferramentas DTA

As medidas essenciais e quando usá-las

Quando uma IA afirma diagnosticar melhor que os médicos, você deveria confiar na AUC geral?

REAL DATA

Deep learning models for skin cancer detection have reported AUC values as high as 0.91-0.94 in development datasets. However, external validation revealed alarming disparities: Daneshjou et al. (2022, Nature Medicine) descobriram que as ferramentas comerciais de dermatologia de IA funcionaram em níveis quase aleatórios na pele mais escura (tipos V-VI de Fitzpatrick), com AUC tão baixa quanto 0.50-0.57 - essencialmente aleatório. Os conjuntos de dados de treinamento foram fortemente influenciados por tons de pele mais claros, o que significa que a tabela 2x2 nunca foi preenchida adequadamente para todas as populações.

A promessa da dermatologia da IA: 2020

Um hospital considera implantar uma ferramenta de rastreamento de câncer de pele com IA em uma clínica dermatológica que atende uma população urbana diversificada. O fabricante relata AUC de 0,94.

PATH A: Deploy Based on Overall AUC

Confie na AUC do título de 0,94 e implemente para todos os pacientes

↓

Os melanomas na pele mais escura passam despercebidos em taxas mais elevadas. O valor global da sensibilidade esconde uma lacuna perigosa. Os pacientes com maior mortalidade por diagnóstico tardio são aqueles que a IA mais falha.

OUTCOME: Health disparity amplified by technology

PATH B: Demand Fairness-Stratified Evaluation

Exigem sensibilidade e especificidade discriminadas por tom de pele (escala de Fitzpatrick), idade e localização da lesão

↓

Descubra a lacuna de desempenho. Exigir reciclagem em diversos conjuntos de dados ou restringir o uso a populações validadas. Combine a IA com a supervisão de dermatologistas para grupos sub-representados.

OUTCOME: Equitable deployment; no one left behind

THE REVELATION

Um único número AUC pode esconder disparidades perigosas. As ferramentas de diagnóstico emergentes baseadas em IA devem ser avaliadas com o mesmo rigor que qualquer teste de diagnóstico: estratificadas por população, validadas externamente e mantidas de acordo com os padrões STARD e QUADAS-2.

The Checklist

✓

Was there a valid reference standard?

Gold standard applied to ALL patients?

✓

Os intérpretes ficaram cegos?

Test readers unaware of diagnosis?

✓

O espectro era apropriado?

Pacientes semelhantes à sua população?

✓

O limite foi pré-especificado?

Ou escolhido para maximizar resultados?

When Results Don't Match Suspicion

The Clinical Override Decision Tree

Test Negative, High Suspicion

↓

What Is the LR-?

LR- < 0.1

Strong rule-outAccept negative

LR- 0.1-0.5

Repeat testOr different test

LR- > 0.5

Trust judgmentTest is weak

Sequential Testing Decision Tree

When One Test Isn't Enough

Initial Screening Test

↓

Positive

↓

Confirmatory TestHigh specificity

↓

PositiveDiagnose

NegativeFalse alarm

Negative

↓

Likely negativeIf high sens screen

"Armed with sensitivity, specificity, likelihood,
armado com o SROC e a medida de acordo,
você pode ver através da mentira do teste -
e julgue a sua verdade por si mesmo."

Você não ouviu falar do paciente
que recebeu o wrong blood,
não porque o teste estava errado,
but because no one performed it?

O teste que não foi Feito

HOSPITALS WORLDWIDE

ABO blood typing is nearly 100% accurate when performed.

Yet transfusion reactions still kill—não por falha no teste, mas por human failure:

• Wrong blood drawn from wrong patient
• Etiquetas trocadas no laboratório
• Bedside check skipped in emergency

In the UK, 1 in 13,000 transfusions vai para o paciente errado O teste funcionou.

Bolton-Maggs PHB. Transfus Med. 2016;26:303-311

Test vs. System Decision Tree

Where Can Things Go Wrong?

Diagnostic Process

↓

Error Source?

Test itself

Analytical ErrorSens/Spec issue

↓

Better test needed

Pre-analytical

Wrong sampleID error

↓

System fix needed

Post-analytical

Wrong actionReporting error

↓

Process fix needed

"The perfect test means nothing
se o sangue errado for. desenhado,
a etiqueta errada é aplicada,
a bolsa errada é pendurada."

Os estudos do DTA medem a precisão do teste. Eles não medem a precisão do sistema.

References

Key Sources

Carreyrou J. Bad Blood. Knopf, 2018. [Theranos]
CDC. MMWR. 1987;36(49):833-840. [HIV blood supply]
Herbst AL et al. N Engl J Med. 1971;284:878-881. [DES]
Moyer VA. Ann Intern Med. 2012;157:120-134. [PSA]
Pope JH et al. N Engl J Med. 2000;342:1163-1170. [Troponin]
Steingart KR et al. Cochrane 2014;1:CD009593. [GeneXpert]
Dinnes J et al. Cochrane 2022;7:CD013705. [COVID RAT]
UK Panel. Lancet. 2012;380:1778-1786. [Mammography]
Jack CR et al. Lancet Neurol. 2018;17:760-773. [Amyloid]
WHO. Malaria RDT Performance. 2022.
Reitsma JB et al. J Clin Epidemiol. 2005;58:982-990. [Bivariate]
Whiting PF et al. Ann Intern Med. 2011;155:529-536. [QUADAS-2]
Bolton-Maggs PHB. Transfus Med. 2016;26:303-311.

Um teste é 99% sensível e 99% específico. A prevalência da doença é de 1/1000. Um paciente testa positivo. Qual é a probabilidade de eles terem a doença?

99%

90%

About 9%

50%

What does "SnNout" mean?

A highly Sensitive test, when Negative, rules OUT disease

A highly Specific test, when Negative, rules OUT disease

Sensitivity should be used for screening

Specificity should be above 90%

Por que o suprimento de sangue foi contaminado com HIV apesar dos testes?

The tests had low specificity

Tests had a window period with zero sensitivity in early infection

Os testes não foram realizados corretamente

Os testes foram muito caros

Qual domínio do QUADAS-2 avalia se o exame foi interpretado sem o conhecimento do diagnóstico?

Patient Selection

Index Test

Reference Standard

Fluxo e temporização

✔

Course Complete

"Agora você conhece os quatro resultados,
as duas virtudes de um teste,
a falácia da base taxa,
a arte de reunir evidências,
e os preconceitos que escondem a verdade.

Quando o próximo teste estiver para você—
você saberá."