who promised to изменить мир каплей крови,
who raised billions on a test that never worked?
No more needles. No more vials. No more waiting.
Investors believed. Walgreens believed. The Pentagon believed.
They gave her $9 billion.
Тест оказался неправильным. Малыш был здоров.
But how many women, receiving the same news, made different decisions?
и ложь была одета в уверенность,
и никто не подвергал сомнению эти цифры».
Вот почему мы изучаем точность диагностических тестов.
есть только four possible truths.
Два из них — благословения. Два из них — проклятия.
Every Test Result Has a Reality Behind It
Test: Positive
Test: Positive
Test: Negative
Test: Negative
True Positive (TP)
Sick person correctly identified.
Тест показал правду.
False Positive (FP)
Healthy person wrongly alarmed.
Тест врал.
False Negative (FN)
Sick person wrongly reassured.
Самая смертоносная ложь.
True Negative (TN)
Healthy person correctly cleared.
Тест показал правду.
Матрица путаницы 2x2
| Disease Present | Disease Absent | |
|---|---|---|
| Test Positive | TP True Positive |
FP False Positive |
| Test Negative | FN False Negative |
TN True Negative |
Know them by name.
ТП, ТН: тест сказал правду.
ФП, ФН: тест врал».
Sensitivity asks: Can it find the sick?
Specificity asks: Can it spare the healthy?
High sensitivity = few false negatives = few missed cases.
High specificity = few false positives = few false alarms.
Lower the threshold to catch more sick people? You'll alarm more healthy people.
Raise the threshold to spare healthy people? You'll miss more sick people.
This is the threshold effect— качели диагноза.
SnNout: Sensitive tests rule OUT
A highly sensitive test, when negative, rules out disease. If it didn't find it, it's probably not there.
SpPin: Specific tests rule IN
Высокоспецифичный тест, если он положительный, свидетельствует о наличии заболевания. Если там написано, что оно у вас есть, то, вероятно, оно у вас есть.
SpPin: Specific Positive rules IN
Специфика щадит колодца.
But no test masters both perfectly—
Это бремя, которое мы должны нести».
миру нужен был тест, который мог бы быстро найти зараженного.
But what if the rapid test missed too many?
У людей с симптомами:
Sensitivity: 73% (missed 27% of cases)
In people WITHOUT symptoms:
Sensitivity: 55% (missed 45% of cases)
Почти половине инфицированных бессимптомных людей сказали, что они здоровы.
Thanksgiving Dinners
Families tested negative in the morning, gathered indoors, unknowingly infected grandparents
Workplace Outbreaks
Workers tested negative, came to work, infected colleagues in the break room
Hospital Transmission
Patients tested negative, admitted to wards, infected vulnerable patients
и семья собралась,
и дед обнял внуков,
и к концу зимы его не стало».
Но пациент задает другой вопрос:
"I tested positive. What are my chances?"
У вашего пациента положительный результат теста на редкое заболевание (распространенность 1 на 1000).
Question: Какова вероятность того, что они действительно больны этим заболеванием?
Большинство врачей говорят, что 95%. Настоящий ответ? About 2%.
Specificity tells how many well it will spare.
But only the likelihood ratio answers:
Что означает этот результат для ЭТОГО пациента?"
that found too much?
When does finding disease become causing harm?
Mammography could detect tumors too small to feel.
Женщинам говорили: "Annual mammograms save lives."
But what if some of those "cancers" would never have killed?
Женщине ставят диагноз, лечат хирургическим путем, лучевой терапией, химиотерапией — от заболевания, которое никогда бы ей не причинило вреда.
Independent UK Panel on Breast Cancer Screening. Lancet. 2012;380:1778-1786
на рак молочной железы
(treated unnecessarily)
(anxiety, biopsies)
Хорошая ли это сделка? Ответ зависит от ценностей, не просто цифры.
и назвал это болезнью,
и женщину порезали, сожгли и отравили—
из-за тени, которая никогда бы не омрачила ее дней."
Это проблема гипердиагностики.
Но когда вы соберете все исследования,
когда вы взвесите их доказательства вместе —
The truth becomes harder to hide.
More Precision
Combining studies gives narrower confidence intervals, reducing uncertainty
Detect Heterogeneity
Why do different studies give different answers? Setting? Population? Threshold?
Expose Publication Bias
Скрываются ли отрицательные исследования? Воронкообразные графики демонстрируют асимметрию
Explore Thresholds
Build SROC curves to understand the sensitivity-specificity trade-off
They are correlated: когда одна повышается, другая имеет тенденцию снижаться (порог) эффект).
The bivariate model учитывает эту корреляцию, давая действительные объединенные оценки.
Reitsma JB et al. J Clin Epidemiol. 2005;58:982-990
ROC Space
Кривая показывает компромисс
Higher = better test
Diagonal line = useless test (random guessing)
The curve = сводка результатов всех исследований
начинают раскрывать истину.
Кривая SROC — это путь доказательства—
showing what the test can truly do."
В одном исследовании говорится, что чувствительность составляет 95%.
Another says 60%.
В какую истину вы верите?
High heterogeneity means исследования измеряют разные вещи— or the test performs differently in different settings.
Threshold Differences
Различные пороговые значения для «положительного» результата (например, разные пороговые значения HbA1c для диабета)
Population Differences
Disease severity, age, comorbidities differ between studies
Setting Differences
Primary care vs. specialist clinic vs. emergency room
Quality Differences
Risk of bias, verification bias, spectrum bias
Studies agree
Some disagreement
Major disagreement
Вы не можете усреднить яблоки и апельсины. Вы должны explain why studies differ before pooling them.
не подавляйте инакомыслие.
Ask: Why do they see differently?
Само разногласие учит».
Sensitivity & Specificity
How well the test performs on sick vs. healthy people
Likelihood Ratios (LR+, LR-)
How much a result changes the probability of disease
Diagnostic Odds Ratio (DOR)
Single measure of test discrimination (DOR = LR+ / LR-)
Площадь под кривой SROC (AUC)
Overall test performance across all thresholds (0.5 = useless, 1.0 = perfect)
bivariate meta-analysis
для обзоров DTA
инструмент открытого доступа
Rutter & Gatsonis 2001 - HSROC model
Cochrane Handbook Ch. 10 - DTA methods
Was there a valid reference standard?
Gold standard test applied to all patients?
Были ли переводчики ослеплены?
Test readers unaware of diagnosis, and vice versa?
Был ли спектр подходящим?
Patients similar to your clinical population?
Был ли порог установлен заранее?
Или это было выбрано для максимизации результатов?
на вооружении СРОК и меры согласия,
ты можешь видеть сквозь ложь теста —
и судите об истинности этого сами».
When a machine claims to see what no other machine can see,
и никто не спрашивает: «Покажи мне доказательства»?
FDA found:
• Results varied by 146% between runs on the same sample
• Edison machines failed 87% of proficiency tests
• Zero опубликованы рецензируемые исследования по валидации
• Пациенты получали ВИЧ-положительные результаты в образцах, которые были отрицательными.
Sources: FDA Warning Letter 2016; Carreyrou J. Bad Blood. 2018; CMS Inspection Reports.
Что вы выбираете?
Face lawsuits
Harm patients
Защитите своих пациентов
Avoid Scandal
A $9 billion valuation became a criminal fraud conviction.
Каждая больница, которая требовала проверочных данных перед подписанием
, была защищена от ложь.
Каждая больница, которая доверяла маркетингу
became complicit in harming patients.
Отсутствие доказательств не является маркетинговой проблемой.
It is a patient safety emergency.
кто платит цену?
The test result comes in 15 minutes.
Но что, если результат 15 minutes of false confidence?
Real-world performance (Cochrane 2022):
• Symptomatic individuals: 73% sensitivity (missed 27%)
• Asymptomatic individuals: 58% sensitivity (missed 42%)
• Early infection (days 0-3): ~50% sensitivity
Почти половине инфицированных бессимптомных людей сказали, что они «чисты».
Source: Dinnes J et al. Cochrane Database Syst Rev. 2022;7:CD013705
Что вы выбираете?
School closure
Three hospitalizations
Teacher isolates
Outbreak prevented
It means: "not detected."
Разница между этими двумя фразами
is measured in lives.
is almost meaningless.
SnNout only works when sensitivity is HIGH.
Know your test's limits before trusting its verdict.
still cause harm?
Что, если рак он обнаружит
would never have hurt you?
Sensitivity: ~85% | Specificity: ~90%
Для 1000 женщин, ежегодно проходивших скрининг в течение 10 лет:
• 1 death prevented на рак молочной железы
• 5 women overtreated на рак, который никогда бы им не причинил вреда
• 100-500 false alarms leading to biopsies, anxiety, repeat imaging
Overdiagnosis rate: 19-30% of screen-detected cancers
Source: Independent UK Panel on Breast Cancer Screening. Lancet. 2012;380:1778-1786
Что вы выбираете?
Опухоль была ленивой (DCIS)
Would never have harmed her
Понимает преимущества И вред
Autonomy preserved
A test can be accurate и все же причина harm.
When overdiagnosis exceeds lives saved,
we must ask: Is finding always helping?
может превысить пользу от true positives.
Always weigh benefits against harms.
Скрининг не всегда спасает.
is worse than missing it?
What if the treatment causes more suffering
than the disease ever would?
• Чувствительность к раку высокой степени злокачественности: 21%
• Detects many indolent cancers that would never harm
Lower cutoff to 2.5 ng/mL:
• Sensitivity rises to: 40%
• But overdiagnosis doubles
Treatment consequences:
• 20-30% of men experience incontinence after prostatectomy
• 30-70% experience erectile dysfunction
Source: US Preventive Services Task Force. JAMA. 2018;319(18):1901-1913
Какой порог вы выбираете?
Thousands of unnecessary
биопсия и лечение
But most missed are indolent
Fewer unnecessary treatments
Some preventable deaths
No overtreatment harm
Every threshold trades чувствительность к специфичности,
обнаружение гипердиагностики.
Выбор не медицинский. Это ethical.
Это зависит от того, какой вред вы готовы принять.
It is a values problem.
Before choosing a cutoff, ask:
What is worse: missing disease or overtreating the healthy?
Different truths.
How can identical numbers
mean opposite things?
Sensitivity: ~80% | Specificity: ~95%
In high-prevalence setting (TB prevalence 10%):
• Positive Predictive Value: 85%
• A positive test usually means TB
In low-prevalence setting (TB prevalence 0.1%):
• Positive Predictive Value: 15%
• A positive test is usually a false positive
Source: Pai M et al. Lancet Infect Dis. 2014;14(8):765-773
Какой вы пришли к выводу?
Patient infects family
Задерживает диагноз на несколько месяцев.
Chest X-ray, sputum
Treat early if confirmed
ППВ и ЧПС are properties of the population.
Тот же результат означает different things
in different people.
A positive test in a high-risk patient means disease.
The same positive in a low-risk patient means probably nothing.
Context is everything.
Theranos: Demand Validation
No peer-reviewed data = no trust, regardless of marketing claims
COVID Rapid Tests: Know Sensitivity Limits
«Не обнаружен» — это не то же самое, что «не заражен».
Mammography: Weigh Benefits vs. Harms
Finding is not always helping; overdiagnosis causes real harm
PSA: The Threshold is a Values Choice
Каждое отсечение меняет чувствительность на специфичность; нет «правильного» ответа
TB Test: Context Determines Meaning
The same result means different things in different populations
Ключевые источники, цитируемые в этом курсе
- Carreyrou J. Bad Blood: Secrets and Lies in a Silicon Valley Startup. Knopf, 2018.
- Dinnes J, et al. Rapid, point-of-care antigen tests for diagnosis of SARS-CoV-2 infection. Cochrane Database Syst Rev. 2022;7:CD013705.
- Независимая британская комиссия по скринингу рака молочной железы. Польза и вред скрининга рака молочной железы. Lancet. 2012;380:1778-1786.
- Рейтсма Дж.Б. и др. Двумерный анализ чувствительности и специфичности дает информативные итоговые показатели в диагностических обзорах. J Clin Epidemiol. 2005;58:982-990.
- Rutter CM, Gatsonis CA. A hierarchical regression approach to meta-analysis of diagnostic test accuracy evaluations. Stat Med. 2001;20:2865-2884.
- Deeks JJ, et al. The performance of tests of publication bias in systematic reviews of diagnostic test accuracy. J Clin Epidemiol. 2005;58:882-893.
- Macaskill P, et al. Cochrane Handbook for Systematic Reviews of Diagnostic Test Accuracy. Chapter 10. 2023.
- Higgins JPT, Thompson SG. Quantifying heterogeneity in a meta-analysis. Stat Med. 2002;21:1539-1558.
- US Food and Drug Administration. Warning Letter to Theranos Inc. 2016.
- US Preventive Services Task Force. Screening for Prostate Cancer. JAMA. 2018;319(18):1901-1913.
- Pai M, et al. Tuberculosis. Lancet Infect Dis. 2014;14(8):765-773.
два достоинства теста,
жестокий компромисс порога,
и искусство объединения доказательства.
Когда следующий тест лжет вам —
you will know how to see through it."
Когда тест лжет — теперь вы знаете.