who promised to cambia el mundo con una gota de sangre,
who raised billions on a test that never worked?
No more needles. No more vials. No more waiting.
Investors believed. Walgreens believed. The Pentagon believed.
They gave her $9 billion.
La prueba fue incorrecta. El bebé estaba sano.
But how many women, receiving the same news, made different decisions?
y la mentira se vistió de certeza,
y nadie cuestionó el números."
Es por eso que estudiamos la precisión de las pruebas de diagnóstico.
hay solo four possible truths.
Dos son bendiciones. Dos son maldiciones.
Every Test Result Has a Reality Behind It
Test: Positive
Test: Positive
Test: Negative
Test: Negative
True Positive (TP)
Sick person correctly identified.
La prueba dijo la verdad.
False Positive (FP)
Healthy person wrongly alarmed.
La prueba mintió.
False Negative (FN)
Sick person wrongly reassured.
La mentira más mortífera.
True Negative (TN)
Healthy person correctly cleared.
La prueba dijo la verdad.
La matriz de confusión 2x2
| Disease Present | Disease Absent | |
|---|---|---|
| Test Positive | TP True Positive |
FP False Positive |
| Test Negative | FN False Negative |
TN True Negative |
Know them by name.
TP, TN: la prueba decía la verdad.
FP, FN: la prueba mintió."
Sensitivity asks: Can it find the sick?
Specificity asks: Can it spare the healthy?
High sensitivity = few false negatives = few missed cases.
High specificity = few false positives = few false alarms.
Lower the threshold to catch more sick people? You'll alarm more healthy people.
Raise the threshold to spare healthy people? You'll miss more sick people.
This is the threshold effect—el balancín del diagnóstico.
SnNout: Sensitive tests rule OUT
A highly sensitive test, when negative, rules out disease. If it didn't find it, it's probably not there.
SpPin: Specific tests rule IN
Una prueba altamente específica, cuando es positiva, gobierna la enfermedad. Si dice que lo tienes, probablemente lo tengas.
SpPin: Specific Positive rules IN
La especificidad salva el pozo.
But no test masters both perfectly—
Esta es la carga que debemos oso."
el mundo necesitaba una prueba que pudiera encontrar a los infectados rápidamente.
But what if the rapid test missed too many?
En personas CON síntomas:
Sensitivity: 73% (missed 27% of cases)
In people WITHOUT symptoms:
Sensitivity: 55% (missed 45% of cases)
Casi la mitad de los infectados asintomáticos a las personas se les dijo que estaban claros.
Thanksgiving Dinners
Families tested negative in the morning, gathered indoors, unknowingly infected grandparents
Workplace Outbreaks
Workers tested negative, came to work, infected colleagues in the break room
Hospital Transmission
Patients tested negative, admitted to wards, infected vulnerable patients
y la familia se reunieron,
y el abuelo abrazó a sus nietos,
y al final del invierno, ya no estaba."
Pero el paciente hace una pregunta diferente:
"I tested positive. What are my chances?"
Su paciente da positivo para una enfermedad rara (prevalencia 1 en 1000).
Question: ¿Cuál es la probabilidad de que realmente tenga la enfermedad?
La mayoría de los médicos dicen que 95%. ¿La verdadera respuesta? About 2%.
Specificity tells how many well it will spare.
But only the likelihood ratio answers:
¿Qué significa este resultado para ESTE paciente?"
that found too much?
When does finding disease become causing harm?
Mammography could detect tumors too small to feel.
A las mujeres se les dijo: "Annual mammograms save lives."
But what if some of those "cancers" would never have killed?
La mujer es diagnosticada, tratada con cirugía, radiación, quimioterapia— para una enfermedad que nunca la habría dañado.
Independent UK Panel on Breast Cancer Screening. Lancet. 2012;380:1778-1786
de cáncer de mama
(treated unnecessarily)
(anxiety, biopsies)
¿Es este un buen intercambio? La respuesta depende de los valores, no solo números.
y lo llamó enfermedad,
y la mujer fue cortada, quemada y envenenada—
por una sombra que nunca la habría oscurecido días."
Este es el problema del sobrediagnóstico.
Pero cuando reúnes todos los estudios,
cuando sopesas su evidencia en conjunto—
The truth becomes harder to hide.
More Precision
Combining studies gives narrower confidence intervals, reducing uncertainty
Detect Heterogeneity
Why do different studies give different answers? Setting? Population? Threshold?
Expose Publication Bias
¿Se están ocultando los estudios negativos? Los gráficos de embudo revelan asimetría
Explore Thresholds
Build SROC curves to understand the sensitivity-specificity trade-off
They are correlated: cuando una sube, la otra tiende a bajar (el umbral efecto).
The bivariate model tiene en cuenta esta correlación, dando estimaciones agrupadas válidas.
Reitsma JB et al. J Clin Epidemiol. 2005;58:982-990
ROC Space
La curva muestra la compensación
Higher = better test
Diagonal line = useless test (random guessing)
The curve = resumen del rendimiento de todos los estudios
comienzan a revelar la verdad.
La curva SROC es el camino de evidencia—
showing what the test can truly do."
Un estudio dice que la sensibilidad es del 95%.
Another says 60%.
¿Qué verdad crees?
High heterogeneity means los estudios miden diferentes cosas— or the test performs differently in different settings.
Threshold Differences
Diferentes límites para un resultado "positivo" (por ejemplo, diferentes umbrales de HbA1c para la diabetes)
Population Differences
Disease severity, age, comorbidities differ between studies
Setting Differences
Primary care vs. specialist clinic vs. emergency room
Quality Differences
Risk of bias, verification bias, spectrum bias
Studies agree
Some disagreement
Major disagreement
No se pueden promediar manzanas y naranjas. Debes explain why studies differ before pooling them.
no silenciar el disenso.
Ask: Why do they see differently?
El desacuerdo en sí enseña."
Sensitivity & Specificity
How well the test performs on sick vs. healthy people
Likelihood Ratios (LR+, LR-)
How much a result changes the probability of disease
Diagnostic Odds Ratio (DOR)
Single measure of test discrimination (DOR = LR+ / LR-)
Área bajo el SROC Curva (AUC)
Overall test performance across all thresholds (0.5 = useless, 1.0 = perfect)
bivariate meta-analysis
para revisiones de DTA
herramienta de acceso abierto
Rutter & Gatsonis 2001 - HSROC model
Cochrane Handbook Ch. 10 - DTA methods
Was there a valid reference standard?
Gold standard test applied to all patients?
¿Estaban cegados los intérpretes?
Test readers unaware of diagnosis, and vice versa?
¿Fue apropiado el espectro?
Patients similar to your clinical population?
¿Fue el ¿umbral preespecificado?
¿O se eligió para maximizar los resultados?
armado con el SROC y la medida de acuerdo,
puedes ver más allá de la mentira de la prueba—
y juzgar su verdad por "
When a machine claims to see what no other machine can see,
y nadie pregunta: "Muéstrame la prueba"?
FDA found:
• Results varied by 146% between runs on the same sample
• Edison machines failed 87% of proficiency tests
• Zero estudios de validación revisados por pares publicados
• Los pacientes recibieron resultados positivos para el VIH en muestras que fueron negativas
Sources: FDA Warning Letter 2016; Carreyrou J. Bad Blood. 2018; CMS Inspection Reports.
¿Qué elige?
Face lawsuits
Harm patients
Proteja a sus pacientes
Avoid Scandal
A $9 billion valuation became a criminal fraud conviction.
Cada hospital que exigió datos de validación antes de firmar
fue protegido de la mentira.
Cada hospital que confió en el marketing
became complicit in harming patients.
La ausencia de evidencia no es un problema de marketing.
It is a patient safety emergency.
quién paga el precio?
The test result comes in 15 minutes.
Pero ¿qué pasa si el resultado es 15 minutes of false confidence?
Real-world performance (Cochrane 2022):
• Symptomatic individuals: 73% sensitivity (missed 27%)
• Asymptomatic individuals: 58% sensitivity (missed 42%)
• Early infection (days 0-3): ~50% sensitivity
A casi la mitad de las personas infectadas asintomáticas se les dijo que estaban "limpias".
Source: Dinnes J et al. Cochrane Database Syst Rev. 2022;7:CD013705
¿Qué elige?
School closure
Three hospitalizations
Teacher isolates
Outbreak prevented
It means: "not detected."
La diferencia entre estas dos frases
is measured in lives.
is almost meaningless.
SnNout only works when sensitivity is HIGH.
Know your test's limits before trusting its verdict.
still cause harm?
¿Qué pasa si el cáncer que encuentra
would never have hurt you?
Sensitivity: ~85% | Specificity: ~90%
Para 1.000 mujeres examinadas anualmente durante 10 años:
• 1 death prevented de cáncer de mama
• 5 women overtreated para cánceres que nunca les habrían hecho daño
• 100-500 false alarms leading to biopsies, anxiety, repeat imaging
Overdiagnosis rate: 19-30% of screen-detected cancers
Source: Independent UK Panel on Breast Cancer Screening. Lancet. 2012;380:1778-1786
¿Qué elige?
El tumor era indolente (DCIS)
Would never have harmed her
Comprende los beneficios Y los daños
Autonomy preserved
A test can be accurate y aún causa harm.
When overdiagnosis exceeds lives saved,
we must ask: Is finding always helping?
puede exceder el beneficio de true positives.
Always weigh benefits against harms.
La detección no siempre es salvadora.
is worse than missing it?
What if the treatment causes more suffering
than the disease ever would?
• Sensibilidad para el cáncer de alto grado: 21%
• Detects many indolent cancers that would never harm
Lower cutoff to 2.5 ng/mL:
• Sensitivity rises to: 40%
• But overdiagnosis doubles
Treatment consequences:
• 20-30% of men experience incontinence after prostatectomy
• 30-70% experience erectile dysfunction
Source: US Preventive Services Task Force. JAMA. 2018;319(18):1901-1913
¿Qué umbral eliges?
Thousands of unnecessary
biopsias y tratamientos
But most missed are indolent
Fewer unnecessary treatments
Some preventable deaths
No overtreatment harm
Every threshold trades sensibilidad para especificidad,
detección de sobrediagnóstico.
La elección no es médica. Es ethical.
Depende de los daños que estés dispuesto a aceptar.
It is a values problem.
Before choosing a cutoff, ask:
What is worse: missing disease or overtreating the healthy?
Different truths.
How can identical numbers
mean opposite things?
Sensitivity: ~80% | Specificity: ~95%
In high-prevalence setting (TB prevalence 10%):
• Positive Predictive Value: 85%
• A positive test usually means TB
In low-prevalence setting (TB prevalence 0.1%):
• Positive Predictive Value: 15%
• A positive test is usually a false positive
Source: Pai M et al. Lancet Infect Dis. 2014;14(8):765-773
¿Qué concluyes?
Patient infects family
Retrasa el diagnóstico por meses
Chest X-ray, sputum
Treat early if confirmed
PPV y VPN are properties of the population.
El mismo resultado significa different things
in different people.
A positive test in a high-risk patient means disease.
The same positive in a low-risk patient means probably nothing.
Context is everything.
Theranos: Demand Validation
No peer-reviewed data = no trust, regardless of marketing claims
COVID Rapid Tests: Know Sensitivity Limits
"No detectado" no es lo mismo que "no infectado"
Mammography: Weigh Benefits vs. Harms
Finding is not always helping; overdiagnosis causes real harm
PSA: The Threshold is a Values Choice
Cada el límite intercambia sensibilidad por especificidad; no hay una respuesta "correcta"
TB Test: Context Determines Meaning
The same result means different things in different populations
Fuentes clave citadas en este Curso
- Carreyrou J. Bad Blood: Secrets and Lies in a Silicon Valley Startup. Knopf, 2018.
- Dinnes J, et al. Rapid, point-of-care antigen tests for diagnosis of SARS-CoV-2 infection. Cochrane Database Syst Rev. 2022;7:CD013705.
- Panel Independiente del Reino Unido sobre Detección de Cáncer de Mama. Los beneficios y daños de la detección del cáncer de mama. Lancet. 2012;380:1778-1786.
- Reitsma JB, et al. El análisis bivariado de sensibilidad y especificidad produce medidas resumidas informativas en las revisiones de diagnóstico. J Clin Epidemiol. 2005;58:982-990.
- Rutter CM, Gatsonis CA. A hierarchical regression approach to meta-analysis of diagnostic test accuracy evaluations. Stat Med. 2001;20:2865-2884.
- Deeks JJ, et al. The performance of tests of publication bias in systematic reviews of diagnostic test accuracy. J Clin Epidemiol. 2005;58:882-893.
- Macaskill P, et al. Cochrane Handbook for Systematic Reviews of Diagnostic Test Accuracy. Chapter 10. 2023.
- Higgins JPT, Thompson SG. Quantifying heterogeneity in a meta-analysis. Stat Med. 2002;21:1539-1558.
- US Food and Drug Administration. Warning Letter to Theranos Inc. 2016.
- US Preventive Services Task Force. Screening for Prostate Cancer. JAMA. 2018;319(18):1901-1913.
- Pai M, et al. Tuberculosis. Lancet Infect Dis. 2014;14(8):765-773.
las dos virtudes de una prueba,
la cruel compensación del umbral,
y el arte de agrupar evidencia.
Cuando la próxima prueba te miente—
you will know how to see through it."
Cuando te miente la prueba—Ahora lo sabes.