Cuando está la prueba: Curso definitivo de DTA (V4)

¿No has oído la historia de la mujer
who promised to cambia el mundo con una gota de sangre,
who raised billions on a test that never worked?

Palo Alto, 2003

STANFORD UNIVERSITY

Un joven de diecinueve años abandonó el programa con una visión: cientos de análisis de sangre con una sola gota.

Investors believed. Walgreens believed. The Pentagon believed.

They gave her $9 billion.

Pero las pruebas dieron resultados erróneos. A los pacientes se les dijo que tenían VIH cuando no era así. A los pacientes se les dijo que su sangre era normal cuando fueron dying.

Carreyrou J. Bad Blood. 2018

El árbol de decisiones del engaño

What Theranos Did vs. What Should Happen

New Diagnostic Test

↓

SHOULD DO

Validate Against Gold Standard

↓

Publish TP/FP/FN/TN

↓

FDA Approval

THERANOS DID

Skip Validation

↓

Hide Failures

↓

Harm Patients

"Y la prueba mintió,
y la mentira se vistió de certeza,
y nadie pidió la mesa de 2×2."

Es por eso que estudiamos la precisión de las pruebas de diagnóstico.

When a test speaks,
hay solo four possible truths.

Dos son bendiciones. Dos son maldiciones.

¿Qué sucede cuando una revisión sistemática confía en todos los estudios por igual?

REAL DATA

Los análisis de sensibilidad en las revisiones sistemáticas de DTA demuestran consistentemente que la exclusión de estudios con alto riesgo de sesgo cambia las estimaciones agrupadas. En el cribado mamográfico, los diseños de casos y controles con interpretación no ciega tienden a inflar la sensibilidad. El principio general está bien documentado: la evaluación de la calidad de QUADAS-2 puede cambiar la sensibilidad agrupada en 10-15 percentage points cuando se eliminan los estudios sesgados.

La auditoría de mamografía de QUADAS-2

Un equipo de revisión agrupa 15 estudios de DTA de mamografía. Cinco tienen un alto riesgo de sesgo debido al diseño de casos y controles y a la interpretación no cegada.

RUTA A: agrupar todos los estudios

Include all 15 studies regardless of quality

↓

Biased 2x2 tables inflate TP counts, producing a pooled sensitivity of 87%

OUTCOME: Overconfidence in screening accuracy

PATH B: Apply Quality Assessment

Exclude high risk-of-bias studies using QUADAS-2

↓

Remaining 10 low-RoB studies yield sensitivity of approximately 75%

OUTCOME: Honest numbers guide honest decisions

THE REVELATION

Los cuatro resultados (TP, FP, FN, TN) solo son confiables si el estudio que los produjo es confiable. Un estudio sesgado contamina toda la tabla 2x2.

El árbol de resultados

Every Test Result Has a Reality Behind It

Patient Tested

↓

¿Cuál es la VERDAD?

Has Disease

D+

↓

TPTest +

FNTest -

No Disease

D-

↓

FPTest +

TNTest -

La Mesa Sagrada 2×2

HIV Rapid Test Example (Real Data)

	HIV+	HIV-	Total
Test +	98	3	101
Test -	2	895	897
Total	100	898	998

DE ESTA TABLA Surge TODA LA VERDAD

Sensitivity = 98/100 = 98%
Specificity = 895/898 = 99.7%

"Two outcomes save. Two outcomes harm.
TP, TN: la prueba decía la verdad.
FP, FN: la prueba mintió.
Know them by name, for they determine fate."

¿No has oído hablar de la sangre que se analizó?
found clean,
y entregado a miles—
while death swam within it?

La crisis del suministro de sangre, 1985

UNITED STATES

When HIV testing began, doctors celebrated: they could now screen the blood supply.

Pero la prueba tuvo un window period—semanas después de la infección cuando el virus estaba presente pero undetectable.

Se analizó la sangre. La sangre era "negativa". Se transfundió sangre.

8,000-12,000 Americans se infectaron a través de transfusiones antes de que mejores pruebas cerraran la ventana.

CDC. MMWR. 1987;36(49):833-840

The Window Period Decision Tree

Why False Negatives Are Deadly

Person Recently Infected

↓

Time Since Infection?

< 2 weeks

Test NEGATIVEVirus present!

↓

Blood DonatedOthers infected

> 4 weeks

Test POSITIVECorrectly detected

↓

Blood DiscardedSupply safe

Cambios de sensibilidad con el tiempo

0%

Day 1-7
Eclipse period

~50%

Day 14
Seroconversion

~95%

Day 21
Most detected

99.9%

Day 45+
Window closed

THE LESSON

La sensibilidad no es fija. It depends on when you test. A "99% sensitive" test may be 0% sensitive in early infection.

"Y la prueba dijo 'limpio',
porque el virus aún no había mostrado su cara.
Y la sangre fue compartida,
y la infección se extendió a los inocentes."

¿No has oído hablar de la pastilla que se les da a las madres?
to protect their pregnancies,
that planted cancer in their daughters
twenty years before it bloomed?

La tragedia del DES, 1938-1971

UNITED STATES & EUROPE

Diethylstilbestrol (DES) was given to millions of pregnant women to prevent miscarriage.

No proper clinical trial was ever conducted. Doctors assumed it worked because it seemed reasonable.

Decades later, their daughters developed a rare cancer: clear cell adenocarcinoma of the vagina. A cancer so rare it was a diagnostic signal in itself.

5-10 million women quedaron expuestos. El daño cruzó generaciones.

Herbst AL et al. N Engl J Med. 1971;284:878-881

El árbol de decisión de validación

What Should Have Happened

New Medical Intervention

↓

¿Se probó adecuadamente?

YES

Randomized Trial

↓

Long-term Follow-up

↓

Know True EffectsBeneficios y daños

NO (DES)

Assumption Only

↓

Widespread Use

↓

Hidden HarmDiscovered too late

La señal de diagnóstico

CUANDO LA RARIDAD SE CONVIERTE EN EVIDENCIA

El adenocarcinoma de células claras de vagina era tan raro en mujeres jóvenes que 7 cases in one hospital triggered an investigation.

El cluster en sí fue la prueba diagnóstica:
Sensitivity to DES exposure: nearly 100%
Si usted tiene este cáncer a esta edad, es casi seguro que estuvo expuesto.

1:1000

Risk of clear cell
cancer in DES daughters

5-10M

Women exposed
worldwide

"Y las madres tomaron la pastilla con esperanza,
y las hijas crecieron en la sombra,
y veinte años después el cáncer floreció...
a diagnosis that indicted a generation of medicine."

A test has two virtues and two vices.

Sensitivity: ¿Puede encontrar a los enfermos?

Specificity: ¿Puede perdonar a los sanos?

¿Se puede confiar en un número de sensibilidad de un laboratorio cuando la prueba se utiliza en el mundo real?

REAL DATA

The BinaxNOW COVID-19 rapid antigen test reported sensitivity of approximately 84-97% in symptomatic individuals in manufacturer studies. However, real-world evaluations found sensitivity as low as 35-64% en individuos asintomáticos, dependiendo de la carga viral y el momento. La revisión Cochrane de pruebas rápidas de antígenos (Dinnes 2022) confirmó la sensibilidad promedio de 73% en poblaciones sintomáticas y solo 55% en poblaciones asintomáticas en más de 100 evaluaciones de estudios.

The COVID Rapid Test Paradox: 2020-2021

A university plans to screen asymptomatic students weekly before allowing campus access. They read the manufacturer's claim of high sensitivity.

PATH A: Trust Lab Sensitivity

Rely on manufacturer's high sensitivity figure

↓

Los portadores asintomáticos con cargas virales bajas dan negativo y asisten a clases, propagando el virus

OUTCOME: False sense of safety; campus outbreaks

RUTA B: Exigir datos del mundo real

Buscar estudios en la población objetivo real (estudiantes asintomáticos)

↓

Discover sensitivity is roughly 55% in asymptomatic people; add serial testing and other safeguards

OUTCOME: Layered safety catches more cases

THE REVELATION

La sensibilidad no es una propiedad fija de una prueba. Cambia con la población, el estadio de la enfermedad y el entorno. Pregunte siempre: sensibilidad en whom?

Sensibilidad: El Cazador

THE FORMULA

Sensitivity = TP / (TP + FN)

"Of all the sick, how many did we catch?"

Worked Example: COVID PCR Test

Given: 200 infected patients tested

TP = 196 (correctly positive), FN = 4 (missed)

Sensitivity = 196 / (196 + 4) = 196/200 = 98%

Interpretation: Test catches 98 of every 100 infected people

Especificidad: El guardián

THE FORMULA

Specificity = TN / (TN + FP)

"Of all the healthy, how many did we spare?"

Worked Example: Same COVID PCR Test

Given: 1000 uninfected people tested

TN = 999 (correctly negative), FP = 1 (false alarm)

Specificity = 999 / (999 + 1) = 999/1000 = 99.9%

Interpretation: Test correctly clears 999 of every 1000 healthy people

Las reglas de la memoria

When to Use Which Test

¿Qué necesitas?

RULE OUT disease

Use HIGH SENSITIVITY

↓

SnNoutSensitive Negative = OUT

RULE IN disease

Use HIGH SPECIFICITY

↓

SpPinSpecific Positive = IN

"La sensibilidad atrapa a los enfermos.
La especificidad salva el pozo.
But no test masters both perfectly—
ésta es la carga que llevamos."

¿No has visto al médico?
who saw 99% accurate
and believed a positive result meant 99% certainty?

Este es el error más mortal en medicina.

La falacia de la tasa base

THE PUZZLE

A disease affects 1 in 1000 people.
Una prueba tiene un 99% de sensibilidad y un 99% de especificidad.
A patient tests positive.

¿Cuál es la probabilidad de que tengan la enfermedad?

Most doctors say ~99%. La verdadera respuesta es alrededor del 9%.

Las matemáticas reveladas

Testing 100,000 People (Prevalence 1/1000)

Step 1: 100 have disease, 99,900 healthy

Step 2: Of 100 sick: 99 test positive (TP), 1 negative (FN)

Step 3: Of 99,900 healthy: 999 test positive (FP), 98,901 negative (TN)

Step 4: Total positives = 99 + 999 = 1,098

PPV = TP / All Positives = 99 / 1,098 = 9%

¡El 91% de los resultados positivos son FALDOS POSITIVOS!

Interactive Base Rate Calculator

See How Prevalence Changes PPV

Prevalence:

1%

Sensitivity:

99%

Specificity:

99%

9%

Positive Predictive Value (PPV)

El 91% de los positivos son falsas alarmas

El árbol de decisión de prevalencia

Same Test, Different Settings

Test: 99% Sens, 99% Spec

↓

Where Is Testing Done?

General Pop
0.1%

PPV = 9%91% false +

High-Risk
10%

PPV = 92%8% false +

Confirmatory
50%

PPV = 99%1% false +

"Y el médico dijo '99% exacto',
y el paciente escuchó '99% seguro',
y ambos fueron engañados—
porque olvidaron preguntar: ¿Qué tan raro es esto? enfermedad?"

¿No has oído hablar de la máquina?
that could find TB in two hours,
eso fue llamado revolutionary—
pero se perdió el drug-resistant strains?

La historia de GeneXpert, Sudáfrica

CAPE TOWN, 2010

Durante un siglo, el diagnóstico de tuberculosis requirió el crecimiento de bacterias durante semanas. Luego vino GeneXpert: da como resultado 2 hours.

South Africa deployed it nationwide. The WHO endorsed it.

Pero en pacientes con low bacterial loads—often HIV co-infected— sensitivity dropped to 67%. One in three cases missed.

Y para detectar la resistencia a la rifampicina, falló 5% de casos resistentes. Esos pacientes recibieron el tratamiento equivocado. La tuberculosis resistente se propaga.

Steingart KR et al. Cochrane Database Syst Rev. 2014;1:CD009593

TB Diagnosis Decision Tree

Cuando GeneXpert no es suficiente

Suspected TB Patient

↓

GeneXpert Test

↓

Positive

↓

Rifampicin?

SensitiveStandard Tx

ResistantMDR-TB Tx

Negative

↓

HIV+ or High Suspicion?

YesCulture needed

NoLikely negative

Sensitivity by Patient Type

98%

Smear-positive
(high bacterial load)

67%

Smear-negative
(low bacterial load)

61%

HIV co-infected
(immune suppressed)

THE LESSON

Es posible que la sensibilidad de una prueba en ensayos clínicos no coincida con la sensibilidad en sus pacientes. Conozca su población.

"Y la máquina dijo 'negativo'.
y el doctor le creyó a la máquina,
y el paciente se fue a casa con tuberculosis en los pulmones,
resistencia a la tos en el mundo."

¿No has oído hablar de la prueba para hombres
que encontró cánceres que never kill,
y condujo a tratamientos que destroyed lives?

La tragedia de la detección del PSA

UNITED STATES, 1990s-2010s

PSA (Prostate-Specific Antigen) could detect prostate cancer early.

Los médicos examinaron a millones de hombres. Se encontraron cánceres. Se extirparon las próstatas.

Pero muchos de estos "cánceres" nunca habrían causado síntomas. La cirugía causó impotencia e incontinencia in men who would have died of old age, not cancer.

Moyer VA. Ann Intern Med. 2012;157:120-134

El dilema de la detección del PSA: 2012

Un hombre de 60 años le pregunta a su médico sobre la detección del PSA. El PSA con un límite de 4,0 ng/mL tiene una sensibilidad de aproximadamente el 21 % para el cáncer de alto grado, pero detecta muchos cánceres indolentes.

PATH A: Screen All Men

Examen de rutina de PSA para todos los hombres mayores de 50 años

↓

Por cada 1000 examinados durante 13 años: 1 o 2 muertes evitadas, pero más de 100 falsas alarmas y 30-40 hombres quedaron impotentes o incontinentes debido al tratamiento de cánceres indolentes

OUTCOME: Net harm exceeds benefit at population level

PATH B: Shared Decision-Making

Discute los daños versus los beneficios; individualice con factores de riesgo, esperanza de vida y valores del paciente

↓

High-risk men can choose screening; low-risk men can decline; active surveillance replaces immediate surgery for low-grade findings

OUTCOME: Fewer unnecessary treatments; patient autonomy preserved

THE REVELATION

Una prueba con altas tasas de detección puede causar más daño que bien cuando encuentra condiciones que no necesitan ser encontradas. El sobrediagnóstico es el costo oculto de la alta sensibilidad en la enfermedad indolente.

Los números de daño

1

Vidas salvadas de
prostate cancer
per 1000 screened

30-40

Men made impotent
or incontinent
per 1000 screened

100+

False positives
(biopsies, anxiety)
per 1000 screened

THE REVERSAL

In 2012, the US Preventive Services Task Force recommended against examen de rutina de PSA. La prueba estaba encontrando demasiadas cosas que no era necesario encontrar.

Patient Decision Aid: PSA Screening

Si 1.000 hombres de entre 55 y 69 años se someten a pruebas de detección durante 13 años

Deaths from prostate cancer prevented

1-2 men

Men who will have false positive requiring biopsy

100-120 men

Hombres diagnosticados con un cáncer que nunca les haría daño

20-50 men

Men left impotent or incontinent from treatment

30-40 men

¿Es esta compensación aceptable para usted?

"Y la prueba encontró la sombra,
y el cirujano cortado,
y el hombre vivió—impotente, incontinente—
de un cáncer que nunca habría despertado."

¿No has oído hablar del hombre con dolor en el pecho
cuya primera troponina fue normal,
que fue enviado a casa—
y murió antes ¿Mañana?

El problema de sincronización de la troponina

EMERGENCY DEPARTMENTS WORLDWIDE

La troponina es el estándar de oro para el diagnóstico de ataque cardíaco. Pero hace falta 3-6 hours to rise after myocardial injury.

A patient arrives one hour after chest pain begins. Troponin is tested: normal. "You're fine. Go home."

El corazón estaba muriendo. La proteína aún no se había filtrado.

Studies show 2-5% of MI patients sent home from ED die within 30 days.

Pope JH et al. N Engl J Med. 2000;342:1163-1170

Serial Testing Decision Tree

El protocolo de dos troponinas

Chest Pain Patient

↓

First Troponin

↓

Elevated

↓

Treat as MI

Normal

↓

When Did Pain Start?

<6 hrs

Wait 3 hrsRepeat troponin

>6 hrs

Low riskConsider d/c

High-Sensitivity Troponin

~70%

Conventional troponin
sensitivity at 0 hrs

~95%

hs-Troponin
sensitivity at 0 hrs

99%

hs-Troponin
at 3 hrs serial

THE TRADE-OFF

High-sensitivity troponin catches more heart attacks early. But it also has more false positives—elevated in kidney disease, heart failure, sepsis, and marathon runners.

"Y la prueba dijo 'normal',
porque el corazón acababa de comenzar a morir.
Y el paciente estaba tranquilo,
and went home to finish dying."

La sensibilidad describe la prueba.
La especificidad describe la prueba.

Pero el paciente pregunta:
"I tested positive. What are MY chances?"

¿Qué pasa si la sensibilidad publicada de una prueba es mayor que la verdad y, por lo tanto, los índices de probabilidad que usted calcula son incorrectos?

REAL DATA

Rapid strep tests (RADT) showed pooled sensitivity of approximately 86% en estudios publicados incluidos en revisiones Cochrane. Sin embargo, las presentaciones regulatorias 510(k) de la FDA, que incluyen datos no publicados del fabricante, revelaron estimaciones de sensibilidad de solo 70-75%. Los estudios publicados con mayor sensibilidad tenían más probabilidades de ser enviados para su publicación, un caso clásico de sesgo de publicación que infla la precisión aparente.

The Rapid Strep Test Publication Gap

Un médico calcula LR+ a partir de los datos publicados (sensibilidad 86 %, especificidad 95 %) para decidir si debe tratar el dolor de garganta de un niño. Pero la verdadera sensibilidad puede ser sólo del 70%.

PATH A: Trust Published Meta-Analysis

Utilice LR+ de datos publicados (86/5 = 17,2)

↓

El LR+ sobreestimado conduce a un exceso de confianza en un resultado negativo; los niños con estreptococos son enviados a casa sin antibióticos

OUTCOME: Missed strep leads to rheumatic fever risk

RUTA B: buscar datos regulatorios

Utilice LR+ de las presentaciones de la FDA (70/5 = 14) y observe que LR- es peor (0,32 frente a 0,15)

↓

Recognize a negative RADT cannot confidently exclude strep; back up with throat culture when clinical suspicion is high

OUTCOME: Appropriate caution protects children

THE REVELATION

Los ratios de verosimilitud son tan honestos como la sensibilidad y especificidad que los producen. El sesgo de publicación aumenta la precisión, haciendo que LR+ sea demasiado optimista y LR- demasiado tranquilizador. Pregunte siempre: ¿faltan estudios no publicados?

Likelihood Ratios

POSITIVE LIKELIHOOD RATIO

LR+ = Sensitivity / (1 - Specificity)

How much more likely is a + result in sick vs healthy?

NEGATIVE LIKELIHOOD RATIO

LR- = (1 - Sensitivity) / Specificity

How much more likely is a - result in sick vs healthy?

El Fagan Nomograma

De la probabilidad previa a la prueba posterior

Pre-Test
Probability

99%

50%

20%

5%

1%

Likelihood
Ratio

100

10

1

0.1

0.01

Post-Test
Probability

99%

80%

50%

20%

1%

Draw a line from pre-test through LR to find post-test probability

Interpreting Likelihood Ratios

¿Qué potencia tiene esta prueba?

LR+ Value?

LR+ > 10Strong rule-in

5-10Moderate

2-5Weak

1-2Useless

LR- Value?

< 0.1Strong rule-out

0.1-0.2Moderate

0.2-0.5Weak

0.5-1Useless

"La sensibilidad habla de los enfermos.
La especificidad habla de los enfermos. bueno.
But the likelihood ratio answers:
¿Qué significa este resultado para ESTE paciente?"

¿No has visto al niño con fiebre en el pueblo,
la prueba rápida dicho eso negative,
and the Plasmodium ¿eso siguió multiplicándose?

El problema de la PDR de la malaria

SUB-SAHARAN AFRICA

Malaria kills 600,000 people yearly, mostly children under 5.

Rapid Diagnostic Tests were meant to guide treatment in remote areas without microscopes or laboratories.

But when parasitemia is low—la PDR omite casos. And when P. falciparum elimina el gen HRP2— the RDT sees nothing at all.

WHO. Malaria RDT Performance. 2022

La decisión clínica Árbol

Child with Fever in Malaria-Endemic Area

Febrile Child

↓

Perform RDT

↓

RDT Positive

↓

Tratamiento para la malaria

RDT Negative

↓

Clinical Suspicion?

High

Treat Anywayor Microscopy

Low

Look forOther Cause

Sensitivity Varies by Parasitemia

95%

High parasitemia
(>200/μL)

75%

Low parasitemia
(100-200/μL)

50%

Very low
(<100/μL)

LA LECCIÓN CLÍNICA

A negative RDT does not rule out malaria in endemic areas. Clinical judgment must override the test when suspicion is high.

"Y la prueba dijo 'negativo',
y el niño fue enviado a casa,
y los parásitos se multiplicaron en la oscuridad,
y por la mañana el niño no podía despertar."

En el año de la pestilencia,
el mundo necesitaba una prueba que era fast.

Pero rápido no es lo mismo que accurate.

Cuando llega una nueva generación de pruebas con mayor sensibilidad, ¿eso automáticamente las hace mejores?

REAL DATA

Los análisis de troponina de alta sensibilidad (hs-cTn) aumentaron la sensibilidad para el infarto agudo de miocardio desde aproximadamente 70% (troponina convencional en presentación) a over 95%. But specificity dropped from approximately 95% to around 80% porque hs-cTn detecta lesión miocárdica por muchas causas distintas al IM (insuficiencia cardíaca, sepsis, enfermedad renal, embolia pulmonar). El efecto clínico neto requirió el modelado HSROC en múltiples estudios para comprender la compensación.

El cambio de generación de troponina: década de 2010

An emergency department adopts hs-troponin. More patients now test positive, but many do not have acute MI.

PATH A: Adopt Based on Sensitivity Alone

Celebre que la detección de IM saltó del 70% a más del 95%

↓

Más falsos positivos conducen a cateterismos innecesarios, admisiones hospitalarias y ansiedad del paciente por elevaciones de troponina no cardíacas

OUTCOME: Overdiagnosis and wasted resources

RUTA B: Modelar la compensación

Use serial measurements (0h/1h or 0h/3h protocols) and clinical context to maintain specificity

↓

Rapid rule-out algorithms safely discharge low-risk patients; sensitivity remains high while managing the false positive rate

OUTCOME: Faster, safer triage of chest pain

THE REVELATION

La sensibilidad y la especificidad se compensan entre sí. Una nueva generación de pruebas que aumenta la sensibilidad a menudo reducirá la especificidad. La curva HSROC es la herramienta que revela si la compensación neta ayuda o perjudica a los pacientes.

El veredicto Cochrane

COVID-19 Rapid Antigen Tests (Dinnes 2022 Cochrane Review)

Population	Sensitivity	Missed
Symptomatic	73%	27%
Asymptomatic	55%	45%
First 7 days	80%	20%

Dinnes J et al. Cochrane Database Syst Rev. 2022;7:CD013705

The False Security Decision Tree

Thanksgiving 2020: What Happened

Family Member Tests Negative

↓

Truly Negative?

55% if asymptomatic

True NegativeSafe to gather

45% if asymptomatic

FALSE NegativeInfectious!

↓

Se reúne con la familiaGrandparents infected

"Y la prueba dijo 'negativo',
y la familia abrazado,
y al final del invierno,
el abuelo fue enterrado."

¿No has oído hablar del examen
que encontró cánceres que would never kill,
y condujo a tratamientos que caused more harm than the disease?

Can you trust a DTA meta-analysis done in a spreadsheet?

REAL DATA

El metanálisis DTA requiere el modelo bivariado o HSROC; ambos necesitan una estimación de máxima verosimilitud de la sensibilidad y especificidad correlacionadas en la escala logit. Las investigaciones han documentado que los cálculos manuales en Excel con frecuencia introducen errores: un estudio histórico realizado por Reinhart y Rogoff (2010, economía) demostró cómo un simple error en una hoja de cálculo condujo a cambios de políticas globales. En DTA, la aplicación manual de transformaciones logit y la combinación de sensibilidad/especificidad por separado en Excel ignora la correlación entre ellas y puede producir estimaciones agrupadas que difieren significativamente de los modelos bivariados validados en software (R mada/reitsma, Stata metandi, SAS NLMIXED).

El error de Excel de QUADAS

Un equipo de investigación necesita sensibilidad y especificidad agrupadas para una Revisión sistemática del DTA. Tienen 12 estudios. Un miembro del equipo construye un modelo de Excel; otro usa el paquete mada de R.

RUTA A: Usar la hoja de cálculo

Pool sensitivity and specificity separately in Excel using simple averages or fixed-effect formulas

↓

Ignora la correlación entre sensibilidad y especificidad; errores de transformación logit compuestos; la sensibilidad agrupada se desvía en aproximadamente 12 puntos porcentuales

OUTCOME: Wrong numbers published; clinical guidelines misled

PATH B: Use Validated Software

Utilice R (mada/reitsma), Stata (metandi) o SAS (NLMIXED) con el modelo bivariado

↓

El GLMM bivariado adecuado tiene en cuenta el equilibrio entre sensibilidad y especificidad, produce regiones de confianza válidas y maneja entre estudios heterogeneidad

OUTCOME: Reproducible, auditable, correct results

THE REVELATION

El metanálisis de DTA no es una simple combinación. La naturaleza bivariada de los datos (sensibilidad y especificidad emparejadas) requiere software estadístico especializado. Un error en una hoja de cálculo no es solo un inconveniente: puede cambiar la práctica clínica.

El sobrediagnóstico Problema

3-4

Lives saved
per 10,000 screened

50-130

Overdiagnosed
(treated unnecessarily)

~500

False alarms
(anxiety, biopsies)

THE QUESTION

Para salvar de 3 a 4 vidas, se estima que entre 50 y 130 mujeres reciben cirugía, radiación o quimioterapia para cánceres que nunca las habrían dañado.

¿Vale la pena esta compensación?

Patient Decision Aid: Mammography

Si 10,000 mujeres entre 50 y 69 años son examinadas durante 10 años

Deaths from breast cancer prevented

3-4 women

Women called back for false alarms

~500 women

Unnecessary biopsies

~200 women

Mujeres tratadas por un cáncer que nunca les haría daño

~15 women

¿Las pruebas de detección son adecuadas para usted?

The Screening Cascade Decision Tree

10,000 mujeres examinadas durante 10 años Años

10,000 Women

↓

~1,000 RecalledAbnormal

↓

~500 False
Alarm

~500 Biopsy
~50 cancer

~9,000 Cleared

Of ~50 Cancers Found

~35 Would Kill3-4 saved

~15 Would Never KillOverdiagnosed

"Y la prueba encontró la sombra,
y lo llamó cáncer,
y la mujer fue cortada y quemada—
por una sombra que nunca la habría oscurecido días."

¿No has oído hablar del escáner
que encuentra las placas en el cerebro,
pero no puedo decirte
si la mente fade?

La paradoja del amiloide

ALZHEIMER'S RESEARCH, 2010s-2020s

PET scans can now detect amyloid plaques—the hallmark of Alzheimer's.

But 30% of cognitively normal elderly have amyloid plaques. They may never develop dementia.

And 10-20% de las personas con demencia have no amyloid.

La prueba encuentra las placas, pero las placas no son la enfermedad. Estamos probando un sustituto, no el. resultado.

Jack CR et al. Lancet Neurol. 2018;17:760-773

Surrogate vs. Outcome Decision Tree

¿Qué estamos probando realmente?

Diagnostic Test

↓

What Does It Detect?

Outcome itself

Direct Diagnosisp. ej., biopsia para cáncer

↓

High clinical value

Surrogate marker

Indirect Signalp. ej., amiloide para demencia

↓

Validated link?

YesUse cautiously

NoLimited value

"Y la exploración encontró el placas,
y el médico lo llamó Alzheimer,
y el paciente vivía aterrorizado—
of a forgetting that might never come."

No todos los estudios son iguales.

Some are biased.
Some are poorly designed.
Algunos no deberían ser trusted.

¿Cómo separamos el trigo de la paja?

¿Qué pasa si la mayoría de los estudios de DTA ni siquiera brindan suficiente información para juzgar su impacto? ¿Calidad?

REAL DATA

Antes de que se publicara la iniciativa STARD en 2003, una evaluación sistemática encontró que menos de half de los estudios DTA informaban si la interpretación de la prueba índice era ciega, y las descripciones de los estándares de referencia eran frecuentemente inadecuadas. Después de STARD, los informes mejoraron: múltiples evaluaciones metaepidemiológicas encontraron que la adherencia a los ítems de STARD aumentó sustancialmente, aunque muchos estudios aún no alcanzaron puntos clave como diagramas de flujo y manejo de resultados indeterminados.

La revolución STARD: 2003

Un equipo completa un estudio DTA de una nueva prueba en el punto de atención. Están ansiosos por publicar rápidamente. Tienen los datos 2x2 pero no han documentado el cegamiento, el flujo de pacientes ni los resultados indeterminados.

PATH A: Publish Quickly

Envíe sin un diagrama de flujo STARD ni un informe completo de los métodos

↓

Los lectores no pueden evaluar el cegamiento, el espectro de pacientes ni la verificación. La evaluación QUADAS-2 califica cada dominio como "poco claro". El estudio puede excluirse de futuras revisiones sistemáticas o, peor aún, incluirse con un peso inflado.

OUTCOME: Waste of research; uninterpretable results

PATH B: Follow STARD Guidelines

Complete la lista de verificación STARD, cree un diagrama de flujo de pacientes, informe resultados indeterminados y describa el cegamiento

↓

Los revisores pueden evaluar completamente la calidad. Los dominios QUADAS-2 son responsables. El estudio contribuye significativamente a las revisiones sistemáticas y las guías clínicas.

RESULTADO: Evidencia confiable que mejora la atención

THE REVELATION

No se puede evaluar la calidad si el estudio no informa sus métodos. STARD garantiza que los estudios DTA sean lo suficientemente completos como para ser evaluados por QUADAS-2. Los informes incompletos no son neutrales: ocultan sesgos.

QUADAS-2: La lista de control de calidad

Four Domains of Risk of Bias

1

Patient Selection

¿Se inscribió una muestra consecutiva o aleatoria? ¿Se evitó un diseño de casos y controles?

2

Index Test

¿Se interpretó la prueba sin conocimiento del estándar de referencia? ¿Se especificó previamente el umbral?

3

Reference Standard

¿Es probable que el estándar de referencia clasifique correctamente la condición? ¿Se interpretó a ciegas?

4

Flujo y sincronización

¿Hubo un intervalo adecuado entre las pruebas? ¿Recibieron todos los pacientes el mismo estándar de referencia?

QUADAS-2 Decision Tree

¿Debería confiar en este estudio?

DTA Study

↓

Check All 4 Domains

All Low Risk

High QualityTrust results

Some Unclear

ModerateÚselo con precaución

Any High Risk

Low QualityLos resultados pueden estar sesgados

Sesgos comunes en la DTA Estudios

!

Verification Bias

Only positive tests get the reference standard → inflates sensitivity

!

Spectrum Bias

La población del estudio difiere de la realidad clínica → los resultados no se generalizan

!

Incorporation Bias

Index test is part of reference standard → artificially high accuracy

!

Review Bias

Index test interpreted knowing reference result → inflates both metrics

"Antes de confiar en los números,
ask: How were they gathered?
Un estudio sesgado habla con confianza—
but its confidence is a lie."

Un estudio puede engañar.
Un estudio puede halagar.

Pero cuando reúnes todos los evidencia—
the truth becomes harder to hide.

¿Qué sucede cuando diferentes estudios utilizan diferentes umbrales para la misma prueba y usted intenta agruparlos?

REAL DATA

D-dimer testing for pulmonary embolism (PE) traditionally used a fixed cutoff of 500 µg/L. El ensayo ADJUST-PE (Righini et al., JAMA 2014) demostró que un punto de corte ajustado por edad (age × 10 µg/L para pacientes mayores de 50 años) aumentó la proporción de pacientes de edad avanzada con resultados negativos del dímero D de ~6% to ~30%, con un riesgo de TEV a 3 meses de solo el 0,3 % en el grupo negativo ajustado por edad. Un metanálisis DTA de estudios de dímero D debe utilizar el modelo bivariado porque diferentes umbrales crean un equilibrio entre sensibilidad y especificidad visible en la curva SROC.

The D-dimer Threshold Dilemma: ADJUST-PE 2014

Un paciente anciano (75 años) acude al servicio de urgencias con posible EP. El dímero D es de 620 µg/L. Usando el límite fijo, esto es positivo. Utilizando el límite ajustado por edad (750 µg/L), esto es negativo.

PATH A: Use Fixed Cutoff (500 µg/L)

Apply one threshold to all patients regardless of age

↓

Los pacientes de edad avanzada casi siempre superan los 500 µg/L. La especificidad cae por debajo del 10% en personas mayores de 80 años. Casi todos los pacientes de edad avanzada reciben una angiografía pulmonar por TC, con medio de contraste, radiación y hallazgos incidentales.

OUTCOME: D-dimer becomes useless in the elderly

PATH B: Use Bivariate Model with Threshold Covariate

Aplique el límite ajustado por edad; variación del umbral del modelo en el metanálisis

↓

La curva SROC muestra que los umbrales ajustados por edad se mueven a lo largo de la curva, intercambiando una pequeña cantidad de sensibilidad por una gran ganancia en especificidad. Un 30 % más de pacientes de edad avanzada evitan de forma segura las imágenes por TC.

OUTCOME: Fewer unnecessary scans; no missed PEs

THE REVELATION

La variación del umbral es la razón por la que el metanálisis de DTA necesita el modelo bivariado. Diferentes estudios utilizan diferentes puntos de corte, lo que crea un equilibrio entre sensibilidad y especificidad. La curva SROC es el mapa de esa compensación.

Why DTA Meta-Analysis Is Different

THE PROBLEM

La sensibilidad y la especificidad son correlated. When one goes up, the other tends to go down.

No se pueden agrupar por separado como los efectos del tratamiento. Necesitas bivariate model.

La curva SROC

Summary Receiver Operating Characteristic

Sensitivity

1 - Specificity (False Positive Rate)

Individual studies

Summary estimate

Lectura del SROC

¿Qué te dice la curva?

SROC Curve Position

↓

Top-Left Corner

Excellent TestHigh sens + spec

Near Diagonal

Useless TestNo better than chance

Points Scattered

High HeterogeneityInvestigate sources

"Un estudio puede engañar.
Muchos estudios, ponderados juntos,
trazamos el camino de la verdad:
la curva SROC que revela lo que la prueba realmente puede hacer."

Pero ¿y si los estudios disagree?

One says sensitivity is 95%.
Another says 60%.

¿Qué verdad crees?

¿Qué pasa si una prueba funciona bien en la población general pero falla en los pacientes que más la necesitan?

REAL DATA

HRP2-based malaria rapid diagnostic tests (RDTs) achieve sensitivity of approximately 95% in the general population in endemic areas. However, in pregnant women, sensitivity can drop to as low as 56-76% debido al secuestro placentario de parásitos: los parásitos se esconden en la placenta, lo que mantiene la parasitemia en sangre periférica baja y por debajo del umbral de detección de la PDR. Una revisión Cochrane de las PDR de malaria encontró una heterogeneidad sustancial (I² que a menudo supera el 80 %) impulsada por subgrupos de población que incluyen embarazo, niños menores de 5 años y coinfección por VIH.

Las PDR de malaria en el embarazo

Un metanálisis agrupa 25 estudios de PDR de malaria e informa una sensibilidad combinada del 93 %. Un médico de una clínica prenatal utiliza esto para tranquilizar a una mujer embarazada con una PDR negativa.

PATH A: Trust the Overall Pooled Estimate

Aplicar la sensibilidad del 93% del metanálisis de la población general

↓

En mujeres embarazadas, la verdadera sensibilidad puede ser tan baja como 56-76%. Una proporción sustancial de mujeres embarazadas infectadas reciben falsas garantías. La malaria no tratada durante el embarazo causa anemia materna grave, bajo peso al nacer y muerte fetal.

OUTCOME: Preventable maternal and neonatal deaths

PATH B: Investigate Heterogeneity by Subgroup

Realizar un metanálisis de subgrupos para mujeres embarazadas; explorar I² y fuentes de variación

↓

Descubra que el embarazo es una fuente importante de heterogeneidad. Recomendar la confirmación microscópica para todas las mujeres embarazadas con PDR negativas en áreas endémicas.

OUTCOME: Targeted protocols save mothers and babies

THE REVELATION

La heterogeneidad no es solo ruido estadístico. A menudo indica que la prueba funciona de manera diferente en diferentes poblaciones. Ignorar I² y agrupar todo puede ser fatal para los subgrupos vulnerables.

Sources of Heterogeneity

Por qué los estudios no están de acuerdo

¿Misma prueba, diferentes resultados?

ThresholdDifferent cutoffs

PopulationSeverity, age

SettingPrimary vs specialist

QualityBias, blinding

Measuring Disagreement: I²

I² < 25%

Low
Studies agree

I² 25-75%

Moderate
Some variation

I² > 75%

High
Major disagreement

THE WARNING

When I² > 75%, the pooled estimate may be meaningless. Explain the disagreement before averaging.

"Cuando los estudios no están de acuerdo,
no silenciar el disenso.
Ask: Why do they see differently?
El desacuerdo en sí enseña."

Su kit de herramientas DTA

Las medidas esenciales y cuándo usarlas

Cuando una IA afirma diagnosticar mejor que los médicos, ¿debería confiar en el AUC general?

REAL DATA

Deep learning models for skin cancer detection have reported AUC values as high as 0.91-0.94 in development datasets. However, external validation revealed alarming disparities: Daneshjou et al. (2022, Nature Medicine) descubrió que las herramientas dermatológicas comerciales de IA funcionaban en niveles casi aleatorios en pieles más oscuras (tipos Fitzpatrick V-VI), con un AUC tan bajo. como 0.50-0.57 — esencialmente aleatorio. Los conjuntos de datos de entrenamiento estaban muy sesgados hacia los tonos de piel más claros, lo que significa que la tabla 2x2 nunca se llenó adecuadamente para todas las poblaciones.

La promesa de la dermatología de IA: 2020

Un hospital considera implementar una herramienta de detección de cáncer de piel con IA en una clínica de dermatología que atiende a una población urbana diversa. El fabricante informa un AUC de 0,94.

PATH A: Deploy Based on Overall AUC

Confíe en el AUC del titular de 0,94 y distribúyalo para todos los pacientes

↓

Los melanomas en pieles más oscuras se pasan por alto en mayor proporción. La cifra de sensibilidad general oculta una brecha peligrosa. Los pacientes con la mayor mortalidad por diagnóstico tardío son en los que la IA falla más.

OUTCOME: Health disparity amplified by technology

PATH B: Demand Fairness-Stratified Evaluation

Requieren sensibilidad y especificidad desglosadas por tono de piel (escala de Fitzpatrick), edad y ubicación de la lesión

↓

Descubra la brecha de rendimiento. Requerir reentrenamiento en diversos conjuntos de datos o restringir el uso a poblaciones validadas. Combine la IA con la supervisión de un dermatólogo para los grupos subrepresentados.

OUTCOME: Equitable deployment; no one left behind

THE REVELATION

Un solo número de AUC puede ocultar disparidades peligrosas. Las herramientas de diagnóstico emergentes basadas en IA deben evaluarse con el mismo rigor que cualquier prueba de diagnóstico: estratificadas por población, validadas externamente y sujetas a los estándares STARD y QUADAS-2.

The Checklist

✓

Was there a valid reference standard?

Gold standard applied to ALL patients?

✓

¿Estaban cegados los intérpretes?

Test readers unaware of diagnosis?

✓

¿Fue apropiado el espectro?

¿Pacientes similares a su población?

✓

¿Fue el ¿umbral preespecificado?

¿O elegidos para maximizar los resultados?

When Results Don't Match Suspicion

The Clinical Override Decision Tree

Test Negative, High Suspicion

↓

What Is the LR-?

LR- < 0.1

Strong rule-outAccept negative

LR- 0.1-0.5

Repeat testOr different test

LR- > 0.5

Trust judgmentTest is weak

Sequential Testing Decision Tree

When One Test Isn't Enough

Initial Screening Test

↓

Positive

↓

Confirmatory TestHigh specificity

↓

PositiveDiagnose

NegativeFalse alarm

Negative

↓

Likely negativeIf high sens screen

"Armed with sensitivity, specificity, likelihood,
armado con el SROC y la medida de acuerdo,
puedes ver más allá de la mentira de la prueba—
y juzgar su verdad por "

¿No has oído hablar del paciente
que recibió el wrong blood,
no porque la prueba fue incorrecta,
but because no one performed it?

La prueba que no fue Hecho

HOSPITALS WORLDWIDE

ABO blood typing is nearly 100% accurate when performed.

Yet transfusion reactions still kill: no por falla de la prueba, sino por human failure:

• Wrong blood drawn from wrong patient
• Las etiquetas cambiadas en el laboratorio
• Bedside check skipped in emergency

In the UK, 1 in 13,000 transfusions va al paciente equivocado. La prueba funcionó. El sistema falló.

Bolton-Maggs PHB. Transfus Med. 2016;26:303-311

Test vs. System Decision Tree

Where Can Things Go Wrong?

Diagnostic Process

↓

Error Source?

Test itself

Analytical ErrorSens/Spec issue

↓

Better test needed

Pre-analytical

Wrong sampleID error

↓

System fix needed

Post-analytical

Wrong actionReporting error

↓

Process fix needed

"The perfect test means nothing
si se trata de sangre incorrecta. dibujado,
se aplica la etiqueta incorrecta,
se cuelga la bolsa incorrecta."

Los estudios DTA miden la precisión de las pruebas. No miden la precisión del sistema.

References

Key Sources

Carreyrou J. Bad Blood. Knopf, 2018. [Theranos]
CDC. MMWR. 1987;36(49):833-840. [HIV blood supply]
Herbst AL et al. N Engl J Med. 1971;284:878-881. [DES]
Moyer VA. Ann Intern Med. 2012;157:120-134. [PSA]
Pope JH et al. N Engl J Med. 2000;342:1163-1170. [Troponin]
Steingart KR et al. Cochrane 2014;1:CD009593. [GeneXpert]
Dinnes J et al. Cochrane 2022;7:CD013705. [COVID RAT]
UK Panel. Lancet. 2012;380:1778-1786. [Mammography]
Jack CR et al. Lancet Neurol. 2018;17:760-773. [Amyloid]
WHO. Malaria RDT Performance. 2022.
Reitsma JB et al. J Clin Epidemiol. 2005;58:982-990. [Bivariate]
Whiting PF et al. Ann Intern Med. 2011;155:529-536. [QUADAS-2]
Bolton-Maggs PHB. Transfus Med. 2016;26:303-311.

Una prueba es 99% sensible y 99% específica. La prevalencia de la enfermedad es 1/1000. Un paciente da positivo. ¿Cuál es la probabilidad de que tengan la enfermedad?

99%

90%

About 9%

50%

What does "SnNout" mean?

A highly Sensitive test, when Negative, rules OUT disease

A highly Specific test, when Negative, rules OUT disease

Sensitivity should be used for screening

Specificity should be above 90%

¿Por qué el suministro de sangre se contaminó con VIH a pesar de las pruebas?

The tests had low specificity

Tests had a window period with zero sensitivity in early infection

Las pruebas no se realizaron correctamente

Las pruebas fueron demasiado caras

Qué dominio QUADAS-2 evalúa si la prueba se interpretó sin conocer el ¿Diagnóstico?

Patient Selection

Index Test

Reference Standard

Flujo y sincronización

✔

Course Complete

"Ahora conoces los cuatro resultados,
las dos virtudes de una prueba,
la falacia de la base tasa,
el arte de reunir pruebas,
y los prejuicios que ocultan la verdad.

Cuando la próxima prueba te miente—
lo sabrás."