==================== MÓDULO 1: EL FRAUDE (Theranos) ====================
¿No has oído la historia de la mujer
who promised to cambia el mundo con una gota de sangre,
who raised billions on a test that never worked?
Palo Alto, 2003
STANFORD UNIVERSITY
Un joven de diecinueve años abandonó el programa con una visión: cientos de análisis de sangre con una sola gota.
Investors believed. Walgreens believed. The Pentagon believed.
They gave her $9 billion.
Pero las pruebas dieron resultados erróneos. A los pacientes se les dijo que tenían VIH cuando no era así. A los pacientes se les dijo que su sangre era normal cuando fueron dying.
Carreyrou J. Bad Blood. 2018
El árbol de decisiones del engaño
What Theranos Did vs. What Should Happen
New Diagnostic Test
↓
SHOULD DO
Validate Against Gold Standard
↓
Publish TP/FP/FN/TN
↓
FDA Approval
THERANOS DID
Skip Validation
↓
Hide Failures
↓
Harm Patients
"Y la prueba mintió,
y la mentira se vistió de certeza,
y nadie pidió la mesa de 2×2."
Es por eso que estudiamos la precisión de las pruebas de diagnóstico.
===================== MÓDULO 2: LOS CUATRO RESULTADOS ====================
When a test speaks,
hay solo four possible truths.
Dos son bendiciones. Dos son maldiciones.
¿Qué sucede cuando una revisión sistemática confía en todos los estudios por igual?
REAL DATA
Los análisis de sensibilidad en las revisiones sistemáticas de DTA demuestran consistentemente que la exclusión de estudios con alto riesgo de sesgo cambia las estimaciones agrupadas. En el cribado mamográfico, los diseños de casos y controles con interpretación no ciega tienden a inflar la sensibilidad. El principio general está bien documentado: la evaluación de la calidad de QUADAS-2 puede cambiar la sensibilidad agrupada en 10-15 percentage points cuando se eliminan los estudios sesgados.
La auditoría de mamografía de QUADAS-2
Un equipo de revisión agrupa 15 estudios de DTA de mamografía. Cinco tienen un alto riesgo de sesgo debido al diseño de casos y controles y a la interpretación no cegada.
RUTA A: agrupar todos los estudios
Include all 15 studies regardless of quality
↓
Biased 2x2 tables inflate TP counts, producing a pooled sensitivity of 87%
OUTCOME: Overconfidence in screening accuracy
PATH B: Apply Quality Assessment
Exclude high risk-of-bias studies using QUADAS-2
↓
Remaining 10 low-RoB studies yield sensitivity of approximately 75%
OUTCOME: Honest numbers guide honest decisions
THE REVELATION
Los cuatro resultados (TP, FP, FN, TN) solo son confiables si el estudio que los produjo es confiable. Un estudio sesgado contamina toda la tabla 2x2.
"Two outcomes save. Two outcomes harm.
TP, TN: la prueba decía la verdad.
FP, FN: la prueba mintió.
Know them by name, for they determine fate."
==================== MÓDULO 3: PERÍODO DE VENTANA DEL VIH =====================
¿No has oído hablar de la sangre que se analizó?
found clean,
y entregado a miles—
while death swam within it?
La crisis del suministro de sangre, 1985
UNITED STATES
When HIV testing began, doctors celebrated: they could now screen the blood supply.
Pero la prueba tuvo un window period—semanas después de la infección cuando el virus estaba presente pero undetectable.
Se analizó la sangre. La sangre era "negativa". Se transfundió sangre.
8,000-12,000 Americans se infectaron a través de transfusiones antes de que mejores pruebas cerraran la ventana.
CDC. MMWR. 1987;36(49):833-840
The Window Period Decision Tree
Why False Negatives Are Deadly
Person Recently Infected
↓
Time Since Infection?
< 2 weeks
Test NEGATIVEVirus present!
↓
Blood DonatedOthers infected
> 4 weeks
Test POSITIVECorrectly detected
↓
Blood DiscardedSupply safe
Cambios de sensibilidad con el tiempo
0%
Day 1-7 Eclipse period
~50%
Day 14 Seroconversion
~95%
Day 21 Most detected
99.9%
Day 45+ Window closed
THE LESSON
La sensibilidad no es fija. It depends on when you test.
A "99% sensitive" test may be 0% sensitive in early infection.
"Y la prueba dijo 'limpio',
porque el virus aún no había mostrado su cara.
Y la sangre fue compartida,
y la infección se extendió a los inocentes."
==================== MÓDULO 4: DES TRAGEDIA ====================
¿No has oído hablar de la pastilla que se les da a las madres?
to protect their pregnancies,
that planted cancer in their daughters
twenty years before it bloomed?
La tragedia del DES, 1938-1971
UNITED STATES & EUROPE
Diethylstilbestrol (DES) was given to millions of pregnant women to prevent miscarriage.
No proper clinical trial was ever conducted. Doctors assumed it worked
because it seemed reasonable.
Decades later, their daughters developed a rare cancer: clear cell adenocarcinoma
of the vagina. A cancer so rare it was a diagnostic signal in itself.
5-10 million women quedaron expuestos. El daño cruzó generaciones.
Herbst AL et al. N Engl J Med. 1971;284:878-881
El árbol de decisión de validación
What Should Have Happened
New Medical Intervention
↓
¿Se probó adecuadamente?
YES
Randomized Trial
↓
Long-term Follow-up
↓
Know True EffectsBeneficios y daños
NO (DES)
Assumption Only
↓
Widespread Use
↓
Hidden HarmDiscovered too late
La señal de diagnóstico
CUANDO LA RARIDAD SE CONVIERTE EN EVIDENCIA
El adenocarcinoma de células claras de vagina era tan raro en mujeres jóvenes que
7 cases in one hospital triggered an investigation.
El cluster en sí fue la prueba diagnóstica:
Sensitivity to DES exposure: nearly 100% Si usted tiene este cáncer a esta edad, es casi seguro que estuvo expuesto.
1:1000
Risk of clear cell cancer in DES daughters
5-10M
Women exposed worldwide
"Y las madres tomaron la pastilla con esperanza,
y las hijas crecieron en la sombra,
y veinte años después el cáncer floreció...
a diagnosis that indicted a generation of medicine."
==================== MÓDULO 5: SENSIBILIDAD Y ESPECIFICIDAD =====================
A test has two virtues and two vices.
Sensitivity: ¿Puede encontrar a los enfermos?
Specificity: ¿Puede perdonar a los sanos?
¿Se puede confiar en un número de sensibilidad de un laboratorio cuando la prueba se utiliza en el mundo real?
REAL DATA
The BinaxNOW COVID-19 rapid antigen test reported sensitivity of approximately 84-97% in symptomatic individuals in manufacturer studies. However, real-world evaluations found sensitivity as low as 35-64% en individuos asintomáticos, dependiendo de la carga viral y el momento. La revisión Cochrane de pruebas rápidas de antígenos (Dinnes 2022) confirmó la sensibilidad promedio de 73% en poblaciones sintomáticas y solo 55% en poblaciones asintomáticas en más de 100 evaluaciones de estudios.
The COVID Rapid Test Paradox: 2020-2021
A university plans to screen asymptomatic students weekly before allowing campus access. They read the manufacturer's claim of high sensitivity.
PATH A: Trust Lab Sensitivity
Rely on manufacturer's high sensitivity figure
↓
Los portadores asintomáticos con cargas virales bajas dan negativo y asisten a clases, propagando el virus
OUTCOME: False sense of safety; campus outbreaks
RUTA B: Exigir datos del mundo real
Buscar estudios en la población objetivo real (estudiantes asintomáticos)
↓
Discover sensitivity is roughly 55% in asymptomatic people; add serial testing and other safeguards
OUTCOME: Layered safety catches more cases
THE REVELATION
La sensibilidad no es una propiedad fija de una prueba. Cambia con la población, el estadio de la enfermedad y el entorno. Pregunte siempre: sensibilidad en whom?
Sensibilidad: El Cazador
THE FORMULA
Sensitivity = TP / (TP + FN)
"Of all the sick, how many did we catch?"
Worked Example: COVID PCR Test
Given: 200 infected patients tested
TP = 196 (correctly positive), FN = 4 (missed)
Sensitivity = 196 / (196 + 4) = 196/200 = 98%
Interpretation: Test catches 98 of every 100 infected people
Interpretation: Test correctly clears 999 of every 1000 healthy people
Las reglas de la memoria
When to Use Which Test
¿Qué necesitas?
RULE OUT disease
Use HIGH SENSITIVITY
↓
SnNoutSensitive Negative = OUT
RULE IN disease
Use HIGH SPECIFICITY
↓
SpPinSpecific Positive = IN
"La sensibilidad atrapa a los enfermos.
La especificidad salva el pozo.
But no test masters both perfectly—
ésta es la carga que llevamos."
==================== MÓDULO 6: LA FALACIA DE LA TASA BASE ====================
¿No has visto al médico?
who saw 99% accurate
and believed a positive result meant 99% certainty?
Este es el error más mortal en medicina.
La falacia de la tasa base
THE PUZZLE
A disease affects 1 in 1000 people.
Una prueba tiene un 99% de sensibilidad y un 99% de especificidad.
A patient tests positive.
¿Cuál es la probabilidad de que tengan la enfermedad?
Most doctors say ~99%. La verdadera respuesta es alrededor del 9%.
Las matemáticas reveladas
Testing 100,000 People (Prevalence 1/1000)
Step 1: 100 have disease, 99,900 healthy
Step 2: Of 100 sick: 99 test positive (TP), 1 negative (FN)
Step 3: Of 99,900 healthy: 999 test positive (FP), 98,901 negative (TN)
Step 4: Total positives = 99 + 999 = 1,098
PPV = TP / All Positives = 99 / 1,098 = 9%
¡El 91% de los resultados positivos son FALDOS POSITIVOS!
Interactive Base Rate Calculator
See How Prevalence Changes PPV
Prevalence:
1%
Sensitivity:
99%
Specificity:
99%
9%
Positive Predictive Value (PPV)
El 91% de los positivos son falsas alarmas
El árbol de decisión de prevalencia
Same Test, Different Settings
Test: 99% Sens, 99% Spec
↓
Where Is Testing Done?
General Pop 0.1%
PPV = 9%91% false +
High-Risk 10%
PPV = 92%8% false +
Confirmatory 50%
PPV = 99%1% false +
"Y el médico dijo '99% exacto',
y el paciente escuchó '99% seguro',
y ambos fueron engañados—
porque olvidaron preguntar: ¿Qué tan raro es esto? enfermedad?"
¿No has oído hablar de la máquina?
that could find TB in two hours,
eso fue llamado revolutionary—
pero se perdió el drug-resistant strains?
La historia de GeneXpert, Sudáfrica
CAPE TOWN, 2010
Durante un siglo, el diagnóstico de tuberculosis requirió el crecimiento de bacterias durante semanas. Luego vino GeneXpert: da como resultado 2 hours.
South Africa deployed it nationwide. The WHO endorsed it.
Pero en pacientes con low bacterial loads—often HIV co-infected—
sensitivity dropped to 67%. One in three cases missed.
Y para detectar la resistencia a la rifampicina, falló 5% de casos resistentes. Esos pacientes recibieron el tratamiento equivocado. La tuberculosis resistente se propaga.
Steingart KR et al. Cochrane Database Syst Rev. 2014;1:CD009593
TB Diagnosis Decision Tree
Cuando GeneXpert no es suficiente
Suspected TB Patient
↓
GeneXpert Test
↓
Positive
↓
Rifampicin?
SensitiveStandard Tx
ResistantMDR-TB Tx
Negative
↓
HIV+ or High Suspicion?
YesCulture needed
NoLikely negative
Sensitivity by Patient Type
98%
Smear-positive (high bacterial load)
67%
Smear-negative (low bacterial load)
61%
HIV co-infected (immune suppressed)
THE LESSON
Es posible que la sensibilidad de una prueba en ensayos clínicos no coincida con la sensibilidad en sus pacientes.
Conozca su población.
"Y la máquina dijo 'negativo'.
y el doctor le creyó a la máquina,
y el paciente se fue a casa con tuberculosis en los pulmones,
resistencia a la tos en el mundo."
==================== MÓDULO 8: CONTROVERSIA DEL PSA =====================
¿No has oído hablar de la prueba para hombres
que encontró cánceres que never kill,
y condujo a tratamientos que destroyed lives?
La tragedia de la detección del PSA
UNITED STATES, 1990s-2010s
PSA (Prostate-Specific Antigen) could detect prostate cancer early.
Los médicos examinaron a millones de hombres. Se encontraron cánceres. Se extirparon las próstatas.
Pero muchos de estos "cánceres" nunca habrían causado síntomas. La cirugía causó impotencia e incontinencia in men who
would have died of old age, not cancer.
Moyer VA. Ann Intern Med. 2012;157:120-134
El dilema de la detección del PSA: 2012
Un hombre de 60 años le pregunta a su médico sobre la detección del PSA. El PSA con un límite de 4,0 ng/mL tiene una sensibilidad de aproximadamente el 21 % para el cáncer de alto grado, pero detecta muchos cánceres indolentes.
PATH A: Screen All Men
Examen de rutina de PSA para todos los hombres mayores de 50 años
↓
Por cada 1000 examinados durante 13 años: 1 o 2 muertes evitadas, pero más de 100 falsas alarmas y 30-40 hombres quedaron impotentes o incontinentes debido al tratamiento de cánceres indolentes
OUTCOME: Net harm exceeds benefit at population level
PATH B: Shared Decision-Making
Discute los daños versus los beneficios; individualice con factores de riesgo, esperanza de vida y valores del paciente
↓
High-risk men can choose screening; low-risk men can decline; active surveillance replaces immediate surgery for low-grade findings
Una prueba con altas tasas de detección puede causar más daño que bien cuando encuentra condiciones que no necesitan ser encontradas. El sobrediagnóstico es el costo oculto de la alta sensibilidad en la enfermedad indolente.
Los números de daño
1
Vidas salvadas de prostate cancer per 1000 screened
30-40
Men made impotent or incontinent per 1000 screened
100+
False positives (biopsies, anxiety) per 1000 screened
THE REVERSAL
In 2012, the US Preventive Services Task Force recommended against
examen de rutina de PSA. La prueba estaba encontrando demasiadas cosas que no era necesario encontrar.
Patient Decision Aid: PSA Screening
Si 1.000 hombres de entre 55 y 69 años se someten a pruebas de detección durante 13 años
Deaths from prostate cancer prevented
1-2 men
Men who will have false positive requiring biopsy
100-120 men
Hombres diagnosticados con un cáncer que nunca les haría daño
20-50 men
Men left impotent or incontinent from treatment
30-40 men
¿Es esta compensación aceptable para usted?
"Y la prueba encontró la sombra,
y el cirujano cortado,
y el hombre vivió—impotente, incontinente—
de un cáncer que nunca habría despertado."
===================== MÓDULO 9: TROPONINA Y ATAQUES CARDÍACOS ====================
¿No has oído hablar del hombre con dolor en el pecho
cuya primera troponina fue normal,
que fue enviado a casa—
y murió antes ¿Mañana?
El problema de sincronización de la troponina
EMERGENCY DEPARTMENTS WORLDWIDE
La troponina es el estándar de oro para el diagnóstico de ataque cardíaco. Pero hace falta 3-6 hours to rise after myocardial injury.
A patient arrives one hour after chest pain begins.
Troponin is tested: normal.
"You're fine. Go home."
El corazón estaba muriendo. La proteína aún no se había filtrado.
Studies show 2-5% of MI patients sent home from ED die within 30 days.
Pope JH et al. N Engl J Med. 2000;342:1163-1170
Serial Testing Decision Tree
El protocolo de dos troponinas
Chest Pain Patient
↓
First Troponin
↓
Elevated
↓
Treat as MI
Normal
↓
When Did Pain Start?
<6 hrs
Wait 3 hrsRepeat troponin
>6 hrs
Low riskConsider d/c
High-Sensitivity Troponin
~70%
Conventional troponin sensitivity at 0 hrs
~95%
hs-Troponin sensitivity at 0 hrs
99%
hs-Troponin at 3 hrs serial
THE TRADE-OFF
High-sensitivity troponin catches more heart attacks early.
But it also has more false positives—elevated in kidney disease,
heart failure, sepsis, and marathon runners.
"Y la prueba dijo 'normal',
porque el corazón acababa de comenzar a morir.
Y el paciente estaba tranquilo,
and went home to finish dying."
=========================== MÓDULO 10: RATIOS DE PROBABILIDAD =====================
La sensibilidad describe la prueba.
La especificidad describe la prueba.
Pero el paciente pregunta: "I tested positive. What are MY chances?"
¿Qué pasa si la sensibilidad publicada de una prueba es mayor que la verdad y, por lo tanto, los índices de probabilidad que usted calcula son incorrectos?
REAL DATA
Rapid strep tests (RADT) showed pooled sensitivity of approximately 86% en estudios publicados incluidos en revisiones Cochrane. Sin embargo, las presentaciones regulatorias 510(k) de la FDA, que incluyen datos no publicados del fabricante, revelaron estimaciones de sensibilidad de solo 70-75%. Los estudios publicados con mayor sensibilidad tenían más probabilidades de ser enviados para su publicación, un caso clásico de sesgo de publicación que infla la precisión aparente.
The Rapid Strep Test Publication Gap
Un médico calcula LR+ a partir de los datos publicados (sensibilidad 86 %, especificidad 95 %) para decidir si debe tratar el dolor de garganta de un niño. Pero la verdadera sensibilidad puede ser sólo del 70%.
PATH A: Trust Published Meta-Analysis
Utilice LR+ de datos publicados (86/5 = 17,2)
↓
El LR+ sobreestimado conduce a un exceso de confianza en un resultado negativo; los niños con estreptococos son enviados a casa sin antibióticos
OUTCOME: Missed strep leads to rheumatic fever risk
RUTA B: buscar datos regulatorios
Utilice LR+ de las presentaciones de la FDA (70/5 = 14) y observe que LR- es peor (0,32 frente a 0,15)
↓
Recognize a negative RADT cannot confidently exclude strep; back up with throat culture when clinical suspicion is high
OUTCOME: Appropriate caution protects children
THE REVELATION
Los ratios de verosimilitud son tan honestos como la sensibilidad y especificidad que los producen. El sesgo de publicación aumenta la precisión, haciendo que LR+ sea demasiado optimista y LR- demasiado tranquilizador. Pregunte siempre: ¿faltan estudios no publicados?
Likelihood Ratios
POSITIVE LIKELIHOOD RATIO
LR+ = Sensitivity / (1 - Specificity)
How much more likely is a + result in sick vs healthy?
NEGATIVE LIKELIHOOD RATIO
LR- = (1 - Sensitivity) / Specificity
How much more likely is a - result in sick vs healthy?
El Fagan Nomograma
De la probabilidad previa a la prueba posterior
Pre-Test Probability
99%
50%
20%
5%
1%
Likelihood Ratio
100
10
1
0.1
0.01
Post-Test Probability
99%
80%
50%
20%
1%
Draw a line from pre-test through LR to find post-test probability
Interpreting Likelihood Ratios
¿Qué potencia tiene esta prueba?
LR+ Value?
LR+ > 10Strong rule-in
5-10Moderate
2-5Weak
1-2Useless
LR- Value?
< 0.1Strong rule-out
0.1-0.2Moderate
0.2-0.5Weak
0.5-1Useless
"La sensibilidad habla de los enfermos.
La especificidad habla de los enfermos. bueno.
But the likelihood ratio answers: ¿Qué significa este resultado para ESTE paciente?"
===================== MÓDULO 11: PDR de MALARIA ====================
¿No has visto al niño con fiebre en el pueblo,
la prueba rápida dicho eso negative,
and the Plasmodium ¿eso siguió multiplicándose?
El problema de la PDR de la malaria
SUB-SAHARAN AFRICA
Malaria kills 600,000 people yearly, mostly children under 5.
Rapid Diagnostic Tests were meant to guide treatment in remote areas
without microscopes or laboratories.
But when parasitemia is low—la PDR omite casos.
And when P. falciparum elimina el gen HRP2—
the RDT sees nothing at all.
WHO. Malaria RDT Performance. 2022
La decisión clínica Árbol
Child with Fever in Malaria-Endemic Area
Febrile Child
↓
Perform RDT
↓
RDT Positive
↓
Tratamiento para la malaria
RDT Negative
↓
Clinical Suspicion?
High
Treat Anywayor Microscopy
Low
Look forOther Cause
Sensitivity Varies by Parasitemia
95%
High parasitemia (>200/μL)
75%
Low parasitemia (100-200/μL)
50%
Very low (<100/μL)
LA LECCIÓN CLÍNICA
A negative RDT does not rule out malaria in endemic areas.
Clinical judgment must override the test when suspicion is high.
"Y la prueba dijo 'negativo',
y el niño fue enviado a casa,
y los parásitos se multiplicaron en la oscuridad,
y por la mañana el niño no podía despertar."
==================== MÓDULO 12: PRUEBAS RÁPIDAS DE COVID =====================
En el año de la pestilencia,
el mundo necesitaba una prueba que era fast.
Pero rápido no es lo mismo que accurate.
Cuando llega una nueva generación de pruebas con mayor sensibilidad, ¿eso automáticamente las hace mejores?
REAL DATA
Los análisis de troponina de alta sensibilidad (hs-cTn) aumentaron la sensibilidad para el infarto agudo de miocardio desde aproximadamente 70% (troponina convencional en presentación) a over 95%. But specificity dropped from approximately 95% to around 80% porque hs-cTn detecta lesión miocárdica por muchas causas distintas al IM (insuficiencia cardíaca, sepsis, enfermedad renal, embolia pulmonar). El efecto clínico neto requirió el modelado HSROC en múltiples estudios para comprender la compensación.
El cambio de generación de troponina: década de 2010
An emergency department adopts hs-troponin. More patients now test positive, but many do not have acute MI.
PATH A: Adopt Based on Sensitivity Alone
Celebre que la detección de IM saltó del 70% a más del 95%
↓
Más falsos positivos conducen a cateterismos innecesarios, admisiones hospitalarias y ansiedad del paciente por elevaciones de troponina no cardíacas
OUTCOME: Overdiagnosis and wasted resources
RUTA B: Modelar la compensación
Use serial measurements (0h/1h or 0h/3h protocols) and clinical context to maintain specificity
↓
Rapid rule-out algorithms safely discharge low-risk patients; sensitivity remains high while managing the false positive rate
OUTCOME: Faster, safer triage of chest pain
THE REVELATION
La sensibilidad y la especificidad se compensan entre sí. Una nueva generación de pruebas que aumenta la sensibilidad a menudo reducirá la especificidad. La curva HSROC es la herramienta que revela si la compensación neta ayuda o perjudica a los pacientes.
Dinnes J et al. Cochrane Database Syst Rev. 2022;7:CD013705
The False Security Decision Tree
Thanksgiving 2020: What Happened
Family Member Tests Negative
↓
Truly Negative?
55% if asymptomatic
True NegativeSafe to gather
45% if asymptomatic
FALSE NegativeInfectious!
↓
Se reúne con la familiaGrandparents infected
"Y la prueba dijo 'negativo',
y la familia abrazado,
y al final del invierno,
el abuelo fue enterrado."
¿No has oído hablar del examen
que encontró cánceres que would never kill,
y condujo a tratamientos que caused more harm than the disease?
Can you trust a DTA meta-analysis done in a spreadsheet?
REAL DATA
El metanálisis DTA requiere el modelo bivariado o HSROC; ambos necesitan una estimación de máxima verosimilitud de la sensibilidad y especificidad correlacionadas en la escala logit. Las investigaciones han documentado que los cálculos manuales en Excel con frecuencia introducen errores: un estudio histórico realizado por Reinhart y Rogoff (2010, economía) demostró cómo un simple error en una hoja de cálculo condujo a cambios de políticas globales. En DTA, la aplicación manual de transformaciones logit y la combinación de sensibilidad/especificidad por separado en Excel ignora la correlación entre ellas y puede producir estimaciones agrupadas que difieren significativamente de los modelos bivariados validados en software (R mada/reitsma, Stata metandi, SAS NLMIXED).
El error de Excel de QUADAS
Un equipo de investigación necesita sensibilidad y especificidad agrupadas para una Revisión sistemática del DTA. Tienen 12 estudios. Un miembro del equipo construye un modelo de Excel; otro usa el paquete mada de R.
RUTA A: Usar la hoja de cálculo
Pool sensitivity and specificity separately in Excel using simple averages or fixed-effect formulas
↓
Ignora la correlación entre sensibilidad y especificidad; errores de transformación logit compuestos; la sensibilidad agrupada se desvía en aproximadamente 12 puntos porcentuales
Utilice R (mada/reitsma), Stata (metandi) o SAS (NLMIXED) con el modelo bivariado
↓
El GLMM bivariado adecuado tiene en cuenta el equilibrio entre sensibilidad y especificidad, produce regiones de confianza válidas y maneja entre estudios heterogeneidad
OUTCOME: Reproducible, auditable, correct results
THE REVELATION
El metanálisis de DTA no es una simple combinación. La naturaleza bivariada de los datos (sensibilidad y especificidad emparejadas) requiere software estadístico especializado. Un error en una hoja de cálculo no es solo un inconveniente: puede cambiar la práctica clínica.
El sobrediagnóstico Problema
3-4
Lives saved per 10,000 screened
50-130
Overdiagnosed (treated unnecessarily)
~500
False alarms (anxiety, biopsies)
THE QUESTION
Para salvar de 3 a 4 vidas, se estima que entre 50 y 130 mujeres reciben cirugía, radiación o quimioterapia para cánceres que nunca las habrían dañado.
¿Vale la pena esta compensación?
Patient Decision Aid: Mammography
Si 10,000 mujeres entre 50 y 69 años son examinadas durante 10 años
Deaths from breast cancer prevented
3-4 women
Women called back for false alarms
~500 women
Unnecessary biopsies
~200 women
Mujeres tratadas por un cáncer que nunca les haría daño
~15 women
¿Las pruebas de detección son adecuadas para usted?
The Screening Cascade Decision Tree
10,000 mujeres examinadas durante 10 años Años
10,000 Women
↓
~1,000 RecalledAbnormal
↓
~500 False Alarm
~500 Biopsy ~50 cancer
~9,000 Cleared
Of ~50 Cancers Found
~35 Would Kill3-4 saved
~15 Would Never KillOverdiagnosed
"Y la prueba encontró la sombra,
y lo llamó cáncer,
y la mujer fue cortada y quemada—
por una sombra que nunca la habría oscurecido días."
===================== MÓDULO 14: AMILOIDE DE ALZHEIMER ====================
¿No has oído hablar del escáner
que encuentra las placas en el cerebro,
pero no puedo decirte
si la mente fade?
La paradoja del amiloide
ALZHEIMER'S RESEARCH, 2010s-2020s
PET scans can now detect amyloid plaques—the hallmark of Alzheimer's.
But 30% of cognitively normal elderly have amyloid plaques.
They may never develop dementia.
And 10-20% de las personas con demencia have no amyloid.
La prueba encuentra las placas, pero las placas no son la enfermedad.
Estamos probando un sustituto, no el. resultado.
Jack CR et al. Lancet Neurol. 2018;17:760-773
Surrogate vs. Outcome Decision Tree
¿Qué estamos probando realmente?
Diagnostic Test
↓
What Does It Detect?
Outcome itself
Direct Diagnosisp. ej., biopsia para cáncer
↓
High clinical value
Surrogate marker
Indirect Signalp. ej., amiloide para demencia
↓
Validated link?
YesUse cautiously
NoLimited value
"Y la exploración encontró el placas,
y el médico lo llamó Alzheimer,
y el paciente vivía aterrorizado—
of a forgetting that might never come."
Some are biased.
Some are poorly designed.
Algunos no deberían ser trusted.
¿Cómo separamos el trigo de la paja?
¿Qué pasa si la mayoría de los estudios de DTA ni siquiera brindan suficiente información para juzgar su impacto? ¿Calidad?
REAL DATA
Antes de que se publicara la iniciativa STARD en 2003, una evaluación sistemática encontró que menos de half de los estudios DTA informaban si la interpretación de la prueba índice era ciega, y las descripciones de los estándares de referencia eran frecuentemente inadecuadas. Después de STARD, los informes mejoraron: múltiples evaluaciones metaepidemiológicas encontraron que la adherencia a los ítems de STARD aumentó sustancialmente, aunque muchos estudios aún no alcanzaron puntos clave como diagramas de flujo y manejo de resultados indeterminados.
La revolución STARD: 2003
Un equipo completa un estudio DTA de una nueva prueba en el punto de atención. Están ansiosos por publicar rápidamente. Tienen los datos 2x2 pero no han documentado el cegamiento, el flujo de pacientes ni los resultados indeterminados.
PATH A: Publish Quickly
Envíe sin un diagrama de flujo STARD ni un informe completo de los métodos
↓
Los lectores no pueden evaluar el cegamiento, el espectro de pacientes ni la verificación. La evaluación QUADAS-2 califica cada dominio como "poco claro". El estudio puede excluirse de futuras revisiones sistemáticas o, peor aún, incluirse con un peso inflado.
OUTCOME: Waste of research; uninterpretable results
PATH B: Follow STARD Guidelines
Complete la lista de verificación STARD, cree un diagrama de flujo de pacientes, informe resultados indeterminados y describa el cegamiento
↓
Los revisores pueden evaluar completamente la calidad. Los dominios QUADAS-2 son responsables. El estudio contribuye significativamente a las revisiones sistemáticas y las guías clínicas.
RESULTADO: Evidencia confiable que mejora la atención
THE REVELATION
No se puede evaluar la calidad si el estudio no informa sus métodos. STARD garantiza que los estudios DTA sean lo suficientemente completos como para ser evaluados por QUADAS-2. Los informes incompletos no son neutrales: ocultan sesgos.
QUADAS-2: La lista de control de calidad
Four Domains of Risk of Bias
1
Patient Selection
¿Se inscribió una muestra consecutiva o aleatoria? ¿Se evitó un diseño de casos y controles?
2
Index Test
¿Se interpretó la prueba sin conocimiento del estándar de referencia? ¿Se especificó previamente el umbral?
3
Reference Standard
¿Es probable que el estándar de referencia clasifique correctamente la condición? ¿Se interpretó a ciegas?
4
Flujo y sincronización
¿Hubo un intervalo adecuado entre las pruebas? ¿Recibieron todos los pacientes el mismo estándar de referencia?
QUADAS-2 Decision Tree
¿Debería confiar en este estudio?
DTA Study
↓
Check All 4 Domains
All Low Risk
High QualityTrust results
Some Unclear
ModerateÚselo con precaución
Any High Risk
Low QualityLos resultados pueden estar sesgados
Sesgos comunes en la DTA Estudios
!
Verification Bias
Only positive tests get the reference standard → inflates sensitivity
!
Spectrum Bias
La población del estudio difiere de la realidad clínica → los resultados no se generalizan
!
Incorporation Bias
Index test is part of reference standard → artificially high accuracy
!
Review Bias
Index test interpreted knowing reference result → inflates both metrics
"Antes de confiar en los números,
ask: How were they gathered?
Un estudio sesgado habla con confianza—
but its confidence is a lie."
========================== MÓDULO 16: META-ANÁLISIS Y SROC ====================
Un estudio puede engañar.
Un estudio puede halagar.
Pero cuando reúnes todos los evidencia—
the truth becomes harder to hide.
¿Qué sucede cuando diferentes estudios utilizan diferentes umbrales para la misma prueba y usted intenta agruparlos?
REAL DATA
D-dimer testing for pulmonary embolism (PE) traditionally used a fixed cutoff of 500 µg/L. El ensayo ADJUST-PE (Righini et al., JAMA 2014) demostró que un punto de corte ajustado por edad (age × 10 µg/L para pacientes mayores de 50 años) aumentó la proporción de pacientes de edad avanzada con resultados negativos del dímero D de ~6% to ~30%, con un riesgo de TEV a 3 meses de solo el 0,3 % en el grupo negativo ajustado por edad. Un metanálisis DTA de estudios de dímero D debe utilizar el modelo bivariado porque diferentes umbrales crean un equilibrio entre sensibilidad y especificidad visible en la curva SROC.
The D-dimer Threshold Dilemma: ADJUST-PE 2014
Un paciente anciano (75 años) acude al servicio de urgencias con posible EP. El dímero D es de 620 µg/L. Usando el límite fijo, esto es positivo. Utilizando el límite ajustado por edad (750 µg/L), esto es negativo.
PATH A: Use Fixed Cutoff (500 µg/L)
Apply one threshold to all patients regardless of age
↓
Los pacientes de edad avanzada casi siempre superan los 500 µg/L. La especificidad cae por debajo del 10% en personas mayores de 80 años. Casi todos los pacientes de edad avanzada reciben una angiografía pulmonar por TC, con medio de contraste, radiación y hallazgos incidentales.
OUTCOME: D-dimer becomes useless in the elderly
PATH B: Use Bivariate Model with Threshold Covariate
Aplique el límite ajustado por edad; variación del umbral del modelo en el metanálisis
↓
La curva SROC muestra que los umbrales ajustados por edad se mueven a lo largo de la curva, intercambiando una pequeña cantidad de sensibilidad por una gran ganancia en especificidad. Un 30 % más de pacientes de edad avanzada evitan de forma segura las imágenes por TC.
OUTCOME: Fewer unnecessary scans; no missed PEs
THE REVELATION
La variación del umbral es la razón por la que el metanálisis de DTA necesita el modelo bivariado. Diferentes estudios utilizan diferentes puntos de corte, lo que crea un equilibrio entre sensibilidad y especificidad. La curva SROC es el mapa de esa compensación.
Why DTA Meta-Analysis Is Different
THE PROBLEM
La sensibilidad y la especificidad son correlated.
When one goes up, the other tends to go down.
No se pueden agrupar por separado como los efectos del tratamiento. Necesitas bivariate model.
La curva SROC
Summary Receiver Operating Characteristic
Sensitivity
1 - Specificity (False Positive Rate)
Individual studies
Summary estimate
Lectura del SROC
¿Qué te dice la curva?
SROC Curve Position
↓
Top-Left Corner
Excellent TestHigh sens + spec
Near Diagonal
Useless TestNo better than chance
Points Scattered
High HeterogeneityInvestigate sources
"Un estudio puede engañar.
Muchos estudios, ponderados juntos,
trazamos el camino de la verdad:
la curva SROC que revela lo que la prueba realmente puede hacer."
Pero ¿y si los estudios disagree?
One says sensitivity is 95%.
Another says 60%.
¿Qué verdad crees?
¿Qué pasa si una prueba funciona bien en la población general pero falla en los pacientes que más la necesitan?
REAL DATA
HRP2-based malaria rapid diagnostic tests (RDTs) achieve sensitivity of approximately 95% in the general population in endemic areas. However, in pregnant women, sensitivity can drop to as low as 56-76% debido al secuestro placentario de parásitos: los parásitos se esconden en la placenta, lo que mantiene la parasitemia en sangre periférica baja y por debajo del umbral de detección de la PDR. Una revisión Cochrane de las PDR de malaria encontró una heterogeneidad sustancial (I² que a menudo supera el 80 %) impulsada por subgrupos de población que incluyen embarazo, niños menores de 5 años y coinfección por VIH.
Las PDR de malaria en el embarazo
Un metanálisis agrupa 25 estudios de PDR de malaria e informa una sensibilidad combinada del 93 %. Un médico de una clínica prenatal utiliza esto para tranquilizar a una mujer embarazada con una PDR negativa.
PATH A: Trust the Overall Pooled Estimate
Aplicar la sensibilidad del 93% del metanálisis de la población general
↓
En mujeres embarazadas, la verdadera sensibilidad puede ser tan baja como 56-76%. Una proporción sustancial de mujeres embarazadas infectadas reciben falsas garantías. La malaria no tratada durante el embarazo causa anemia materna grave, bajo peso al nacer y muerte fetal.
OUTCOME: Preventable maternal and neonatal deaths
PATH B: Investigate Heterogeneity by Subgroup
Realizar un metanálisis de subgrupos para mujeres embarazadas; explorar I² y fuentes de variación
↓
Descubra que el embarazo es una fuente importante de heterogeneidad. Recomendar la confirmación microscópica para todas las mujeres embarazadas con PDR negativas en áreas endémicas.
OUTCOME: Targeted protocols save mothers and babies
THE REVELATION
La heterogeneidad no es solo ruido estadístico. A menudo indica que la prueba funciona de manera diferente en diferentes poblaciones. Ignorar I² y agrupar todo puede ser fatal para los subgrupos vulnerables.
Sources of Heterogeneity
Por qué los estudios no están de acuerdo
¿Misma prueba, diferentes resultados?
ThresholdDifferent cutoffs
PopulationSeverity, age
SettingPrimary vs specialist
QualityBias, blinding
Measuring Disagreement: I²
I² < 25%
Low Studies agree
I² 25-75%
Moderate Some variation
I² > 75%
High Major disagreement
THE WARNING
When I² > 75%, the pooled estimate may be meaningless.
Explain the disagreement before averaging.
"Cuando los estudios no están de acuerdo,
no silenciar el disenso.
Ask: Why do they see differently?
El desacuerdo en sí enseña."
===================== MÓDULO 18: EL KIT DE HERRAMIENTAS ====================
Su kit de herramientas DTA
Las medidas esenciales y cuándo usarlas
Cuando una IA afirma diagnosticar mejor que los médicos, ¿debería confiar en el AUC general?
REAL DATA
Deep learning models for skin cancer detection have reported AUC values as high as 0.91-0.94 in development datasets. However, external validation revealed alarming disparities: Daneshjou et al. (2022, Nature Medicine) descubrió que las herramientas dermatológicas comerciales de IA funcionaban en niveles casi aleatorios en pieles más oscuras (tipos Fitzpatrick V-VI), con un AUC tan bajo. como 0.50-0.57 — esencialmente aleatorio. Los conjuntos de datos de entrenamiento estaban muy sesgados hacia los tonos de piel más claros, lo que significa que la tabla 2x2 nunca se llenó adecuadamente para todas las poblaciones.
La promesa de la dermatología de IA: 2020
Un hospital considera implementar una herramienta de detección de cáncer de piel con IA en una clínica de dermatología que atiende a una población urbana diversa. El fabricante informa un AUC de 0,94.
PATH A: Deploy Based on Overall AUC
Confíe en el AUC del titular de 0,94 y distribúyalo para todos los pacientes
↓
Los melanomas en pieles más oscuras se pasan por alto en mayor proporción. La cifra de sensibilidad general oculta una brecha peligrosa. Los pacientes con la mayor mortalidad por diagnóstico tardío son en los que la IA falla más.
OUTCOME: Health disparity amplified by technology
PATH B: Demand Fairness-Stratified Evaluation
Requieren sensibilidad y especificidad desglosadas por tono de piel (escala de Fitzpatrick), edad y ubicación de la lesión
↓
Descubra la brecha de rendimiento. Requerir reentrenamiento en diversos conjuntos de datos o restringir el uso a poblaciones validadas. Combine la IA con la supervisión de un dermatólogo para los grupos subrepresentados.
OUTCOME: Equitable deployment; no one left behind
THE REVELATION
Un solo número de AUC puede ocultar disparidades peligrosas. Las herramientas de diagnóstico emergentes basadas en IA deben evaluarse con el mismo rigor que cualquier prueba de diagnóstico: estratificadas por población, validadas externamente y sujetas a los estándares STARD y QUADAS-2.
The Checklist
✓
Was there a valid reference standard?
Gold standard applied to ALL patients?
✓
¿Estaban cegados los intérpretes?
Test readers unaware of diagnosis?
✓
¿Fue apropiado el espectro?
¿Pacientes similares a su población?
✓
¿Fue el ¿umbral preespecificado?
¿O elegidos para maximizar los resultados?
When Results Don't Match Suspicion
The Clinical Override Decision Tree
Test Negative, High Suspicion
↓
What Is the LR-?
LR- < 0.1
Strong rule-outAccept negative
LR- 0.1-0.5
Repeat testOr different test
LR- > 0.5
Trust judgmentTest is weak
Sequential Testing Decision Tree
When One Test Isn't Enough
Initial Screening Test
↓
Positive
↓
Confirmatory TestHigh specificity
↓
PositiveDiagnose
NegativeFalse alarm
Negative
↓
Likely negativeIf high sens screen
"Armed with sensitivity, specificity, likelihood,
armado con el SROC y la medida de acuerdo,
puedes ver más allá de la mentira de la prueba—
y juzgar su verdad por "
===================== MÓDULO 19: ERRORES EN LA TRANSFUSIÓN DE SANGRE ====================
¿No has oído hablar del paciente
que recibió el wrong blood,
no porque la prueba fue incorrecta,
but because no one performed it?
La prueba que no fue Hecho
HOSPITALS WORLDWIDE
ABO blood typing is nearly 100% accurate when performed.
Yet transfusion reactions still kill: no por falla de la prueba, sino por human failure:
• Wrong blood drawn from wrong patient
• Las etiquetas cambiadas en el laboratorio
• Bedside check skipped in emergency
In the UK, 1 in 13,000 transfusions va al paciente equivocado. La prueba funcionó. El sistema falló.
Bolton-Maggs PHB. Transfus Med. 2016;26:303-311
Test vs. System Decision Tree
Where Can Things Go Wrong?
Diagnostic Process
↓
Error Source?
Test itself
Analytical ErrorSens/Spec issue
↓
Better test needed
Pre-analytical
Wrong sampleID error
↓
System fix needed
Post-analytical
Wrong actionReporting error
↓
Process fix needed
"The perfect test means nothing
si se trata de sangre incorrecta. dibujado,
se aplica la etiqueta incorrecta,
se cuelga la bolsa incorrecta."
Los estudios DTA miden la precisión de las pruebas. No miden la precisión del sistema.
===================== MÓDULO 20: CUESTIONARIO Y REFERENCIAS =====================
Herbst AL et al. N Engl J Med. 1971;284:878-881. [DES]
Moyer VA. Ann Intern Med. 2012;157:120-134. [PSA]
Pope JH et al. N Engl J Med. 2000;342:1163-1170. [Troponin]
Steingart KR et al. Cochrane 2014;1:CD009593. [GeneXpert]
Dinnes J et al. Cochrane 2022;7:CD013705. [COVID RAT]
UK Panel. Lancet. 2012;380:1778-1786. [Mammography]
Jack CR et al. Lancet Neurol. 2018;17:760-773. [Amyloid]
WHO. Malaria RDT Performance. 2022.
Reitsma JB et al. J Clin Epidemiol. 2005;58:982-990. [Bivariate]
Whiting PF et al. Ann Intern Med. 2011;155:529-536. [QUADAS-2]
Bolton-Maggs PHB. Transfus Med. 2016;26:303-311.
Una prueba es 99% sensible y 99% específica. La prevalencia de la enfermedad es 1/1000. Un paciente da positivo. ¿Cuál es la probabilidad de que tengan la enfermedad?
99%
90%
About 9%
50%
What does "SnNout" mean?
A highly Sensitive test, when Negative, rules OUT disease
A highly Specific test, when Negative, rules OUT disease
Sensitivity should be used for screening
Specificity should be above 90%
¿Por qué el suministro de sangre se contaminó con VIH a pesar de las pruebas?
The tests had low specificity
Tests had a window period with zero sensitivity in early infection
Las pruebas no se realizaron correctamente
Las pruebas fueron demasiado caras
Qué dominio QUADAS-2 evalúa si la prueba se interpretó sin conocer el ¿Diagnóstico?
Patient Selection
Index Test
Reference Standard
Flujo y sincronización
✔
Course Complete
"Ahora conoces los cuatro resultados,
las dos virtudes de una prueba,
la falacia de la base tasa,
el arte de reunir pruebas,
y los prejuicios que ocultan la verdad.