==================== MÓDULO 1: EL FRAUDE (Theranos) ====================
¿No has oído la historia de la mujer
who promised to cambia el mundo con una gota de sangre,
who raised billions on a test that never worked?
Palo Alto, 2003
STANFORD UNIVERSITY
Un joven de diecinueve años abandonó el programa con una visión: cientos de análisis de sangre con una sola gota.

Investors believed. Walgreens believed. The Pentagon believed.

They gave her $9 billion.

Pero las pruebas dieron resultados erróneos. A los pacientes se les dijo que tenían VIH cuando no era así. A los pacientes se les dijo que su sangre era normal cuando fueron dying.
Carreyrou J. Bad Blood. 2018
El árbol de decisiones del engaño

What Theranos Did vs. What Should Happen

New Diagnostic Test
SHOULD DO
Validate Against Gold Standard
Publish TP/FP/FN/TN
FDA Approval
THERANOS DID
Skip Validation
Hide Failures
Harm Patients
"Y la prueba mintió,
y la mentira se vistió de certeza,
y nadie pidió la mesa de 2×2."

Es por eso que estudiamos la precisión de las pruebas de diagnóstico.

===================== MÓDULO 2: LOS CUATRO RESULTADOS ====================
When a test speaks,
hay solo four possible truths.

Dos son bendiciones. Dos son maldiciones.
El árbol de resultados

Every Test Result Has a Reality Behind It

Patient Tested
¿Cuál es la VERDAD?
Has Disease
D+
TPTest +
FNTest -
No Disease
D-
FPTest +
TNTest -
La Mesa Sagrada 2×2

HIV Rapid Test Example (Real Data)

HIV+HIV-Total
Test +983101
Test -2895897
Total100898998
DE ESTA TABLA Surge TODA LA VERDAD
Sensitivity = 98/100 = 98%
Specificity = 895/898 = 99.7%
"Two outcomes save. Two outcomes harm.
TP, TN: la prueba decía la verdad.
FP, FN: la prueba mintió.
Know them by name, for they determine fate."
==================== MÓDULO 3: PERÍODO DE VENTANA DEL VIH =====================
¿No has oído hablar de la sangre que se analizó?
found clean,
y entregado a miles—
while death swam within it?
La crisis del suministro de sangre, 1985
UNITED STATES
When HIV testing began, doctors celebrated: they could now screen the blood supply.

Pero la prueba tuvo un window period—semanas después de la infección cuando el virus estaba presente pero undetectable.

Se analizó la sangre. La sangre era "negativa". Se transfundió sangre.

8,000-12,000 Americans se infectaron a través de transfusiones antes de que mejores pruebas cerraran la ventana.
CDC. MMWR. 1987;36(49):833-840
The Window Period Decision Tree

Why False Negatives Are Deadly

Person Recently Infected
Time Since Infection?
< 2 weeks
Test NEGATIVEVirus present!
Blood DonatedOthers infected
> 4 weeks
Test POSITIVECorrectly detected
Blood DiscardedSupply safe
Cambios de sensibilidad con el tiempo
0%
Day 1-7
Eclipse period
~50%
Day 14
Seroconversion
~95%
Day 21
Most detected
99.9%
Day 45+
Window closed
THE LESSON
La sensibilidad no es fija. It depends on when you test. A "99% sensitive" test may be 0% sensitive in early infection.
"Y la prueba dijo 'limpio',
porque el virus aún no había mostrado su cara.
Y la sangre fue compartida,
y la infección se extendió a los inocentes."
==================== MÓDULO 4: DES TRAGEDIA ====================
¿No has oído hablar de la pastilla que se les da a las madres?
to protect their pregnancies,
that planted cancer in their daughters
twenty years before it bloomed?
La tragedia del DES, 1938-1971
UNITED STATES & EUROPE
Diethylstilbestrol (DES) was given to millions of pregnant women to prevent miscarriage.

No proper clinical trial was ever conducted. Doctors assumed it worked because it seemed reasonable.

Decades later, their daughters developed a rare cancer: clear cell adenocarcinoma of the vagina. A cancer so rare it was a diagnostic signal in itself.

5-10 million women quedaron expuestos. El daño cruzó generaciones.
Herbst AL et al. N Engl J Med. 1971;284:878-881
El árbol de decisión de validación

What Should Have Happened

New Medical Intervention
¿Se probó adecuadamente?
YES
Randomized Trial
Long-term Follow-up
Know True EffectsBeneficios y daños
NO (DES)
Assumption Only
Widespread Use
Hidden HarmDiscovered too late
La señal de diagnóstico
CUANDO LA RARIDAD SE CONVIERTE EN EVIDENCIA
El adenocarcinoma de células claras de vagina era tan raro en mujeres jóvenes que 7 cases in one hospital triggered an investigation.

El cluster en sí fue la prueba diagnóstica:
Sensitivity to DES exposure: nearly 100%
Si usted tiene este cáncer a esta edad, es casi seguro que estuvo expuesto.
1:1000
Risk of clear cell
cancer in DES daughters
5-10M
Women exposed
worldwide
"Y las madres tomaron la pastilla con esperanza,
y las hijas crecieron en la sombra,
y veinte años después el cáncer floreció...
a diagnosis that indicted a generation of medicine."
==================== MÓDULO 5: SENSIBILIDAD Y ESPECIFICIDAD =====================
A test has two virtues and two vices.

Sensitivity: ¿Puede encontrar a los enfermos?

Specificity: ¿Puede perdonar a los sanos?
Sensibilidad: El Cazador
THE FORMULA
Sensitivity = TP / (TP + FN)
"Of all the sick, how many did we catch?"

Worked Example: COVID PCR Test

Given: 200 infected patients tested
TP = 196 (correctly positive), FN = 4 (missed)
Sensitivity = 196 / (196 + 4) = 196/200 = 98%
Interpretation: Test catches 98 of every 100 infected people
Especificidad: El guardián
THE FORMULA
Specificity = TN / (TN + FP)
"Of all the healthy, how many did we spare?"

Worked Example: Same COVID PCR Test

Given: 1000 uninfected people tested
TN = 999 (correctly negative), FP = 1 (false alarm)
Specificity = 999 / (999 + 1) = 999/1000 = 99.9%
Interpretation: Test correctly clears 999 of every 1000 healthy people
Las reglas de la memoria

When to Use Which Test

¿Qué necesitas?
RULE OUT disease
Use HIGH SENSITIVITY
SnNoutSensitive Negative = OUT
RULE IN disease
Use HIGH SPECIFICITY
SpPinSpecific Positive = IN
"La sensibilidad atrapa a los enfermos.
La especificidad salva el pozo.
But no test masters both perfectly—
ésta es la carga que llevamos."
==================== MÓDULO 6: LA FALACIA DE LA TASA BASE ====================
¿No has visto al médico?
who saw 99% accurate
and believed a positive result meant 99% certainty?

Este es el error más mortal en medicina.
La falacia de la tasa base
THE PUZZLE
A disease affects 1 in 1000 people.
Una prueba tiene un 99% de sensibilidad y un 99% de especificidad.
A patient tests positive.

¿Cuál es la probabilidad de que tengan la enfermedad?

Most doctors say ~99%. La verdadera respuesta es alrededor del 9%.
Las matemáticas reveladas

Testing 100,000 People (Prevalence 1/1000)

Step 1: 100 have disease, 99,900 healthy
Step 2: Of 100 sick: 99 test positive (TP), 1 negative (FN)
Step 3: Of 99,900 healthy: 999 test positive (FP), 98,901 negative (TN)
Step 4: Total positives = 99 + 999 = 1,098
PPV = TP / All Positives = 99 / 1,098 = 9%
¡El 91% de los resultados positivos son FALDOS POSITIVOS!
Interactive Base Rate Calculator

See How Prevalence Changes PPV

Prevalence:
1%
Sensitivity:
99%
Specificity:
99%
9%
Positive Predictive Value (PPV)
El 91% de los positivos son falsas alarmas
El árbol de decisión de prevalencia

Same Test, Different Settings

Test: 99% Sens, 99% Spec
Where Is Testing Done?
General Pop
0.1%
PPV = 9%91% false +
High-Risk
10%
PPV = 92%8% false +
Confirmatory
50%
PPV = 99%1% false +
"Y el médico dijo '99% exacto',
y el paciente escuchó '99% seguro',
y ambos fueron engañados—
porque olvidaron preguntar: ¿Qué tan raro es esto? enfermedad?"
¿No has oído hablar de la máquina?
that could find TB in two hours,
eso fue llamado revolutionary
pero se perdió el drug-resistant strains?
La historia de GeneXpert, Sudáfrica
CAPE TOWN, 2010
Durante un siglo, el diagnóstico de tuberculosis requirió el crecimiento de bacterias durante semanas. Luego vino GeneXpert: da como resultado 2 hours.

South Africa deployed it nationwide. The WHO endorsed it.

Pero en pacientes con low bacterial loads—often HIV co-infected— sensitivity dropped to 67%. One in three cases missed.

Y para detectar la resistencia a la rifampicina, falló 5% de casos resistentes. Esos pacientes recibieron el tratamiento equivocado. La tuberculosis resistente se propaga.
Steingart KR et al. Cochrane Database Syst Rev. 2014;1:CD009593
TB Diagnosis Decision Tree

Cuando GeneXpert no es suficiente

Suspected TB Patient
GeneXpert Test
Positive
Rifampicin?
SensitiveStandard Tx
ResistantMDR-TB Tx
Negative
HIV+ or High Suspicion?
YesCulture needed
NoLikely negative
Sensitivity by Patient Type
98%
Smear-positive
(high bacterial load)
67%
Smear-negative
(low bacterial load)
61%
HIV co-infected
(immune suppressed)
THE LESSON
Es posible que la sensibilidad de una prueba en ensayos clínicos no coincida con la sensibilidad en sus pacientes. Conozca su población.
"Y la máquina dijo 'negativo'.
y el doctor le creyó a la máquina,
y el paciente se fue a casa con tuberculosis en los pulmones,
resistencia a la tos en el mundo."
==================== MÓDULO 8: CONTROVERSIA DEL PSA =====================
¿No has oído hablar de la prueba para hombres
que encontró cánceres que never kill,
y condujo a tratamientos que destroyed lives?
La tragedia de la detección del PSA
UNITED STATES, 1990s-2010s
PSA (Prostate-Specific Antigen) could detect prostate cancer early.

Los médicos examinaron a millones de hombres. Se encontraron cánceres. Se extirparon las próstatas.

Pero muchos de estos "cánceres" nunca habrían causado síntomas. La cirugía causó impotencia e incontinencia in men who would have died of old age, not cancer.
Moyer VA. Ann Intern Med. 2012;157:120-134
Los números de daño
1
Vidas salvadas de
prostate cancer
per 1000 screened
30-40
Men made impotent
or incontinent
per 1000 screened
100+
False positives
(biopsies, anxiety)
per 1000 screened
THE REVERSAL
In 2012, the US Preventive Services Task Force recommended against examen de rutina de PSA. La prueba estaba encontrando demasiadas cosas que no era necesario encontrar.
Patient Decision Aid: PSA Screening

Si 1.000 hombres de entre 55 y 69 años se someten a pruebas de detección durante 13 años

Deaths from prostate cancer prevented
1-2 men
Men who will have false positive requiring biopsy
100-120 men
Hombres diagnosticados con un cáncer que nunca les haría daño
20-50 men
Men left impotent or incontinent from treatment
30-40 men
¿Es esta compensación aceptable para usted?
"Y la prueba encontró la sombra,
y el cirujano cortado,
y el hombre vivió—impotente, incontinente—
de un cáncer que nunca habría despertado."
===================== MÓDULO 9: TROPONINA Y ATAQUES CARDÍACOS ====================
¿No has oído hablar del hombre con dolor en el pecho
cuya primera troponina fue normal,
que fue enviado a casa—
y murió antes ¿Mañana?
El problema de sincronización de la troponina
EMERGENCY DEPARTMENTS WORLDWIDE
La troponina es el estándar de oro para el diagnóstico de ataque cardíaco. Pero hace falta 3-6 hours to rise after myocardial injury.

A patient arrives one hour after chest pain begins. Troponin is tested: normal. "You're fine. Go home."

El corazón estaba muriendo. La proteína aún no se había filtrado.

Studies show 2-5% of MI patients sent home from ED die within 30 days.
Pope JH et al. N Engl J Med. 2000;342:1163-1170
Serial Testing Decision Tree

El protocolo de dos troponinas

Chest Pain Patient
First Troponin
Elevated
Treat as MI
Normal
When Did Pain Start?
<6 hrs
Wait 3 hrsRepeat troponin
>6 hrs
Low riskConsider d/c
High-Sensitivity Troponin
~70%
Conventional troponin
sensitivity at 0 hrs
~95%
hs-Troponin
sensitivity at 0 hrs
99%
hs-Troponin
at 3 hrs serial
THE TRADE-OFF
High-sensitivity troponin catches more heart attacks early. But it also has more false positives—elevated in kidney disease, heart failure, sepsis, and marathon runners.
"Y la prueba dijo 'normal',
porque el corazón acababa de comenzar a morir.
Y el paciente estaba tranquilo,
and went home to finish dying."
=========================== MÓDULO 10: RATIOS DE PROBABILIDAD =====================
La sensibilidad describe la prueba.
La especificidad describe la prueba.

Pero el paciente pregunta:
"I tested positive. What are MY chances?"
Likelihood Ratios
POSITIVE LIKELIHOOD RATIO
LR+ = Sensitivity / (1 - Specificity)
How much more likely is a + result in sick vs healthy?
NEGATIVE LIKELIHOOD RATIO
LR- = (1 - Sensitivity) / Specificity
How much more likely is a - result in sick vs healthy?
El Fagan Nomograma

De la probabilidad previa a la prueba posterior

Pre-Test
Probability
99%
50%
20%
5%
1%
Likelihood
Ratio
100
10
1
0.1
0.01
Post-Test
Probability
99%
80%
50%
20%
1%
Draw a line from pre-test through LR to find post-test probability
Interpreting Likelihood Ratios

¿Qué potencia tiene esta prueba?

LR+ Value?
LR+ > 10Strong rule-in
5-10Moderate
2-5Weak
1-2Useless
LR- Value?
< 0.1Strong rule-out
0.1-0.2Moderate
0.2-0.5Weak
0.5-1Useless
"La sensibilidad habla de los enfermos.
La especificidad habla de los enfermos. bueno.
But the likelihood ratio answers:
¿Qué significa este resultado para ESTE paciente?"
===================== MÓDULO 11: PDR de MALARIA ====================
¿No has visto al niño con fiebre en el pueblo,
la prueba rápida dicho eso negative,
and the Plasmodium ¿eso siguió multiplicándose?
El problema de la PDR de la malaria
SUB-SAHARAN AFRICA
Malaria kills 600,000 people yearly, mostly children under 5.

Rapid Diagnostic Tests were meant to guide treatment in remote areas without microscopes or laboratories.

But when parasitemia is low—la PDR omite casos. And when P. falciparum elimina el gen HRP2— the RDT sees nothing at all.
WHO. Malaria RDT Performance. 2022
La decisión clínica Árbol

Child with Fever in Malaria-Endemic Area

Febrile Child
Perform RDT
RDT Positive
Tratamiento para la malaria
RDT Negative
Clinical Suspicion?
High
Treat Anywayor Microscopy
Low
Look forOther Cause
Sensitivity Varies by Parasitemia
95%
High parasitemia
(>200/μL)
75%
Low parasitemia
(100-200/μL)
50%
Very low
(<100/μL)
LA LECCIÓN CLÍNICA
A negative RDT does not rule out malaria in endemic areas. Clinical judgment must override the test when suspicion is high.
"Y la prueba dijo 'negativo',
y el niño fue enviado a casa,
y los parásitos se multiplicaron en la oscuridad,
y por la mañana el niño no podía despertar."
==================== MÓDULO 12: PRUEBAS RÁPIDAS DE COVID =====================
En el año de la pestilencia,
el mundo necesitaba una prueba que era fast.

Pero rápido no es lo mismo que accurate.
El veredicto Cochrane

COVID-19 Rapid Antigen Tests (155 Studies)

PopulationSensitivityMissed
Symptomatic73%27%
Asymptomatic55%45%
First 7 days80%20%

Dinnes J et al. Cochrane Database Syst Rev. 2022;7:CD013705

The False Security Decision Tree

Thanksgiving 2020: What Happened

Family Member Tests Negative
Truly Negative?
55% if asymptomatic
True NegativeSafe to gather
45% if asymptomatic
FALSE NegativeInfectious!
Se reúne con la familiaGrandparents infected
"Y la prueba dijo 'negativo',
y la familia abrazado,
y al final del invierno,
el abuelo fue enterrado."
¿No has oído hablar del examen
que encontró cánceres que would never kill,
y condujo a tratamientos que caused more harm than the disease?
El sobrediagnóstico Problema
3-4
Lives saved
per 10,000 screened
~15
Overdiagnosed
(treated unnecessarily)
~500
False alarms
(anxiety, biopsies)
THE QUESTION
Para salvar de 3 a 4 vidas, ~15 mujeres reciben cirugía, radiación y quimioterapia para cánceres que nunca las habrían dañado.

¿Vale la pena esta compensación?
Patient Decision Aid: Mammography

Si 10,000 mujeres entre 50 y 69 años son examinadas durante 10 años

Deaths from breast cancer prevented
3-4 women
Women called back for false alarms
~500 women
Unnecessary biopsies
~200 women
Mujeres tratadas por un cáncer que nunca les haría daño
~15 women
¿Las pruebas de detección son adecuadas para usted?
The Screening Cascade Decision Tree

10,000 mujeres examinadas durante 10 años Años

10,000 Women
~1,000 RecalledAbnormal
~500 False
Alarm
~500 Biopsy
~50 cancer
~9,000 Cleared
Of ~50 Cancers Found
~35 Would Kill3-4 saved
~15 Would Never KillOverdiagnosed
"Y la prueba encontró la sombra,
y lo llamó cáncer,
y la mujer fue cortada y quemada—
por una sombra que nunca la habría oscurecido días."
===================== MÓDULO 14: AMILOIDE DE ALZHEIMER ====================
¿No has oído hablar del escáner
que encuentra las placas en el cerebro,
pero no puedo decirte
si la mente fade?
La paradoja del amiloide
ALZHEIMER'S RESEARCH, 2010s-2020s
PET scans can now detect amyloid plaques—the hallmark of Alzheimer's.

But 30% of cognitively normal elderly have amyloid plaques. They may never develop dementia.

And 10-20% de las personas con demencia have no amyloid.

La prueba encuentra las placas, pero las placas no son la enfermedad. Estamos probando un sustituto, no el. resultado.
Jack CR et al. Lancet Neurol. 2018;17:760-773
Surrogate vs. Outcome Decision Tree

¿Qué estamos probando realmente?

Diagnostic Test
What Does It Detect?
Outcome itself
Direct Diagnosisp. ej., biopsia para cáncer
High clinical value
Surrogate marker
Indirect Signalp. ej., amiloide para demencia
Validated link?
YesUse cautiously
NoLimited value
"Y la exploración encontró el placas,
y el médico lo llamó Alzheimer,
y el paciente vivía aterrorizado—
of a forgetting that might never come."
===================== MÓDULO 15: CALIDAD QUADAS-2 ====================
No todos los estudios son iguales.

Some are biased.
Some are poorly designed.
Algunos no deberían ser trusted.

¿Cómo separamos el trigo de la paja?
QUADAS-2: La lista de control de calidad

Four Domains of Risk of Bias

1
Patient Selection

¿Se inscribió una muestra consecutiva o aleatoria? ¿Se evitó un diseño de casos y controles?

2
Index Test

¿Se interpretó la prueba sin conocimiento del estándar de referencia? ¿Se especificó previamente el umbral?

3
Reference Standard

¿Es probable que el estándar de referencia clasifique correctamente la condición? ¿Se interpretó a ciegas?

4
Flujo y sincronización

¿Hubo un intervalo adecuado entre las pruebas? ¿Recibieron todos los pacientes el mismo estándar de referencia?

QUADAS-2 Decision Tree

¿Debería confiar en este estudio?

DTA Study
Check All 4 Domains
All Low Risk
High QualityTrust results
Some Unclear
ModerateÚselo con precaución
Any High Risk
Low QualityLos resultados pueden estar sesgados
Sesgos comunes en la DTA Estudios
!

Verification Bias

Only positive tests get the reference standard → inflates sensitivity

!

Spectrum Bias

La población del estudio difiere de la realidad clínica → los resultados no se generalizan

!

Incorporation Bias

Index test is part of reference standard → artificially high accuracy

!

Review Bias

Index test interpreted knowing reference result → inflates both metrics

"Antes de confiar en los números,
ask: How were they gathered?
Un estudio sesgado habla con confianza—
but its confidence is a lie."
========================== MÓDULO 16: META-ANÁLISIS Y SROC ====================
Un estudio puede engañar.
Un estudio puede halagar.

Pero cuando reúnes todos los evidencia
the truth becomes harder to hide.
Why DTA Meta-Analysis Is Different
THE PROBLEM
La sensibilidad y la especificidad son correlated. When one goes up, the other tends to go down.

No se pueden agrupar por separado como los efectos del tratamiento. Necesitas bivariate model.
La curva SROC

Summary Receiver Operating Characteristic

Sensitivity
1 - Specificity (False Positive Rate)
Individual studies
Summary estimate
Lectura del SROC

¿Qué te dice la curva?

SROC Curve Position
Top-Left Corner
Excellent TestHigh sens + spec
Near Diagonal
Useless TestNo better than chance
Points Scattered
High HeterogeneityInvestigate sources
"Un estudio puede engañar.
Muchos estudios, ponderados juntos,
trazamos el camino de la verdad:
la curva SROC que revela lo que la prueba realmente puede hacer."
Pero ¿y si los estudios disagree?

One says sensitivity is 95%.
Another says 60%.

¿Qué verdad crees?
Sources of Heterogeneity

Por qué los estudios no están de acuerdo

¿Misma prueba, diferentes resultados?
ThresholdDifferent cutoffs
PopulationSeverity, age
SettingPrimary vs specialist
QualityBias, blinding
Measuring Disagreement: I²
I² < 25%
Low
Studies agree
I² 25-75%
Moderate
Some variation
I² > 75%
High
Major disagreement
THE WARNING
When I² > 75%, the pooled estimate may be meaningless. Explain the disagreement before averaging.
"Cuando los estudios no están de acuerdo,
no silenciar el disenso.
Ask: Why do they see differently?
El desacuerdo en sí enseña."
===================== MÓDULO 18: EL KIT DE HERRAMIENTAS ====================
Su kit de herramientas DTA
Las medidas esenciales y cuándo usarlas
The Checklist

Was there a valid reference standard?

Gold standard applied to ALL patients?

¿Estaban cegados los intérpretes?

Test readers unaware of diagnosis?

¿Fue apropiado el espectro?

¿Pacientes similares a su población?

¿Fue el ¿umbral preespecificado?

¿O elegidos para maximizar los resultados?

When Results Don't Match Suspicion

The Clinical Override Decision Tree

Test Negative, High Suspicion
What Is the LR-?
LR- < 0.1
Strong rule-outAccept negative
LR- 0.1-0.5
Repeat testOr different test
LR- > 0.5
Trust judgmentTest is weak
Sequential Testing Decision Tree

When One Test Isn't Enough

Initial Screening Test
Positive
Confirmatory TestHigh specificity
PositiveDiagnose
NegativeFalse alarm
Negative
Likely negativeIf high sens screen
"Armed with sensitivity, specificity, likelihood,
armado con el SROC y la medida de acuerdo,
puedes ver más allá de la mentira de la prueba—
y juzgar su verdad por "
===================== MÓDULO 19: ERRORES EN LA TRANSFUSIÓN DE SANGRE ====================
¿No has oído hablar del paciente
que recibió el wrong blood,
no porque la prueba fue incorrecta,
but because no one performed it?
La prueba que no fue Hecho
HOSPITALS WORLDWIDE
ABO blood typing is nearly 100% accurate when performed.

Yet transfusion reactions still kill: no por falla de la prueba, sino por human failure:

• Wrong blood drawn from wrong patient
• Las etiquetas cambiadas en el laboratorio
• Bedside check skipped in emergency

In the UK, 1 in 13,000 transfusions va al paciente equivocado. La prueba funcionó. El sistema falló.
Bolton-Maggs PHB. Transfus Med. 2016;26:303-311
Test vs. System Decision Tree

Where Can Things Go Wrong?

Diagnostic Process
Error Source?
Test itself
Analytical ErrorSens/Spec issue
Better test needed
Pre-analytical
Wrong sampleID error
System fix needed
Post-analytical
Wrong actionReporting error
Process fix needed
"The perfect test means nothing
si se trata de sangre incorrecta. dibujado,
se aplica la etiqueta incorrecta,
se cuelga la bolsa incorrecta."

Los estudios DTA miden la precisión de las pruebas. No miden la precisión del sistema.

¿No has visto el algoritmo
que aprendió de biased data,
y difundió ese sesgo
to every patient it touched?
La revolución del diagnóstico de IA
STANFORD & BEYOND, 2017-PRESENT
Deep learning algorithms now match dermatologists at detecting skin cancer.

Pero los datos de entrenamiento fue predominantly light skin. On dark skin, performance dropped significantly.

El algoritmo aprendió los patrones, pero también el biases.

Y cuando se implementó sin validación externa, tuvo un rendimiento peor de lo esperado porque training population didn't match the clinical population.
Esteva A et al. Nature. 2017;542:115-118; Adamson AS. JAMA Dermatol. 2018
AI Validation Decision Tree

¿Está esta IA lista para uso clínico?

AI Diagnostic Tool
Validation Type?
Internal only
High RiskOverfitting likely
Not ready
External validation
BetterBut check population
Coincide con su ¿pacientes?
YesConsider use
NoCaution
Prospective RCT
Gold StandardPatient outcomes
Calibración de IA: el problema oculto
DISCRIMINATION VS. CALIBRATION
Discrimination (AUC/ROC): Can the AI rank patients by risk?

Calibration: When the AI says "80% risk," do 80% actually have disease?

Muchas herramientas de IA tienen good AUC but poor calibration. Ésta es la falacia de la tasa base en forma algorítmica.
AUC
Can it rank?
(usually reported)
CAL
Is probability accurate?
(often ignored)
"Y el algoritmo aprendió de los datos,
y los datos estaban sesgados,
y el sesgo se extendió a cada predicción—
y nadie preguntó: ¿Quién faltaba en el entrenamiento? set?"
==================== MÓDULO 21: COMUNICACIÓN DEL PACIENTE ====================
El paciente pregunta: "Is my test positive?"

But what they mean is:
"¿Tengo el enfermedad?"

¿Cómo se puede cerrar esta brecha?
Communication Scripts
SCRIPT 1: EXPLAINING A POSITIVE RESULT
"Su prueba resultó positiva. Pero quiero explicar lo que eso significa."

"Esta prueba es buena para encontrar personas con la afección, pero también tiene falsas alarmas".

"Según sus factores de riesgo, existe una [X]% posibilidad de que sea un verdadero positivo."

"We'll do a confirmatory test to be certain before any treatment."
Communication Scripts
SCRIPT 2: EXPLAINING A NEGATIVE RESULT (HIGH SUSPICION)
"Your test came back negative, but I'm still concerned."

"Esta prueba puede pasar por alto casos, especialmente en las primeras etapas de la enfermedad."

"Dados sus síntomas, me gustaría repetir la prueba en unos días o probar una prueba diferente".

"A negative test doesn't always mean you're clear—su los síntomas también importan."
Communication Decision Tree

Cómo explicar los resultados de la prueba

Test Result
Positive
PPV?
>90%"Very likely true"
<90%"Need to confirm"
Negative
NPV?
>95%"Very reassuring"
<95%"Still watch symptoms"
Preguntas para hacerle a su médico
1

"¿Qué tan precisa es esta prueba?"

Pregunte sobre sensibilidad y especificidad en lenguaje sencillo

2

"¿Qué pasa si el resultado es ¿Está mal?"

Comprender las consecuencias de los falsos positivos y negativos

3

"What happens next?"

Will there be a confirmatory test? Repeat test? Treatment?

4

"What if I don't get tested at all?"

Comprender las ventajas y desventajas de realizar pruebas versus no realizar pruebas

"La prueba habla en números.
El paciente escucha con miedo y esperanzas.
La tarea del sanador es la traducción—
cerrar la brecha entre estadística y alma."
==================== MÓDULO 22: COSTO-EFICACIA Y CALIDAD ====================
A test may be accurate.
But is it worth it?

What does it cost—in money,
in anxiety, in harm?
El umbral de prueba-tratamiento

When Is Testing Worthwhile?

Pre-Test Probability
Very Low
Below Test ThresholdDon't test, reassure
Intermediate
Testing ZoneTest will change management
Very High
Above Treat ThresholdDon't test, treat
THE PRINCIPLE
Test only when the result will cambia lo que haces. If you'd treat regardless, or not treat regardless—why test?
GRADE Calidad de la evidencia

Calificación del DTA Evidencia

⊕⊕⊕⊕
HIGH

Múltiples estudios de alta calidad, resultados consistentes, directamente aplicables

⊕⊕⊕○
MODERATE

Some limitations in study quality, consistency, or applicability

⊕⊕○○
LOW

Serious limitations—may need to downgrade recommendations

⊕○○○
VERY LOW

Very serious limitations—evidence uncertain

Cost-Consequence Analysis

Example: Universal vs. Targeted Screening

Cost per case detected (universal)
$50,000
Cost per case detected (high-risk only)
$5,000
Cases missed by targeted approach
~10%
False positives avoided by targeted
~90%
¿Qué enfoque es el adecuado para su población?
"A test is not just accurate or inaccurate.
It has costs—in money, in worry, in harm.
El médico sabio sopesa todo esto—
y realiza pruebas solo cuando las pruebas sirven para paciente."
==================== MÓDULO 23: SROC AVANZADO =====================
La curva SROC muestra where la prueba realiza.

But how certain are we?
Y cuánto será vary in practice?
Confidence vs. Prediction Regions

Two Types of Uncertainty

95% CI (summary estimate)
95% de predicción (estudios futuros)
What Each Region Tells You
CI

Confidence Region (smaller ellipse)

Donde estamos 95% seguros de que reside la true average sensibilidad/especificidad. Incertidumbre sobre la estimación resumida.

PI

Prediction Region (larger ellipse)

Where we expect 95% of future studies caerá. Tiene en cuenta la heterogeneidad entre los estudios.

CLINICAL IMPLICATION
Si la región de predicción es grande, la prueba puede funcionar de manera muy diferente en su entorno de lo que sugiere el promedio. Wide prediction = high heterogeneity = investigate sources.
Bivariate Model Interpretation

Lectura de los resultados del metanálisis

Summary Sens/Spec
Check Regions
CI narrow, PI narrow
ConsistentConfíe en el promedio
CI narrow, PI wide
HeterogeneousEl promedio puede no aplicar
CI wide
UncertainNecesita más estudios
"La región de confianza te dice: ¿Qué tan seguros estamos?
La región de predicción te dice: ¿Cuánto variará?
Both questions matter—
para la prueba que uses mañana puede no ser la promedio."
==================== MÓDULO 24: EXAMEN Y REFERENCIAS =====================
References

Key Sources

  1. Carreyrou J. Bad Blood. Knopf, 2018. [Theranos]
  2. CDC. MMWR. 1987;36(49):833-840. [HIV blood supply]
  3. Herbst AL et al. N Engl J Med. 1971;284:878-881. [DES]
  4. Moyer VA. Ann Intern Med. 2012;157:120-134. [PSA]
  5. Pope JH et al. N Engl J Med. 2000;342:1163-1170. [Troponin]
  6. Steingart KR et al. Cochrane 2014;1:CD009593. [GeneXpert]
  7. Dinnes J et al. Cochrane 2022;7:CD013705. [COVID RAT]
  8. UK Panel. Lancet. 2012;380:1778-1786. [Mammography]
  9. Jack CR et al. Lancet Neurol. 2018;17:760-773. [Amyloid]
  10. WHO. Malaria RDT Performance. 2022.
  11. Reitsma JB et al. J Clin Epidemiol. 2005;58:982-990. [Bivariate]
  12. Whiting PF et al. Ann Intern Med. 2011;155:529-536. [QUADAS-2]
  13. Bolton-Maggs PHB. Transfus Med. 2016;26:303-311.
Una prueba es 99% sensible y 99% específica. La prevalencia de la enfermedad es 1/1000. Un paciente da positivo. ¿Cuál es la probabilidad de que tengan la enfermedad?
99%
90%
About 9%
50%
What does "SnNout" mean?
A highly Sensitive test, when Negative, rules OUT disease
A highly Specific test, when Negative, rules OUT disease
Sensitivity should be used for screening
Specificity should be above 90%
¿Por qué el suministro de sangre se contaminó con VIH a pesar de las pruebas?
The tests had low specificity
Tests had a window period with zero sensitivity in early infection
Las pruebas no se realizaron correctamente
Las pruebas fueron demasiado caras
Qué dominio QUADAS-2 evalúa si la prueba se interpretó sin conocer el ¿Diagnóstico?
Patient Selection
Index Test
Reference Standard
Flujo y sincronización
Course Complete
"Ahora conoces los cuatro resultados,
las dos virtudes de una prueba,
la falacia de la base tasa,
el arte de reunir pruebas,
y los prejuicios que ocultan la verdad.

Cuando la próxima prueba te miente—
lo sabrás."