=================== МОДУЛЬ 1: МОШЕННИЧЕСТВО (Theranos) ===================
Разве вы не слышали историю о женщине
who promised to изменить мир каплей крови,
who raised billions on a test that never worked?
Palo Alto, 2003
STANFORD UNIVERSITY
Девятнадцатилетний подросток бросил учебу с видением: сотни анализы крови из одной капли.

Investors believed. Walgreens believed. The Pentagon believed.

They gave her $9 billion.

Но анализы дали неправильные результаты. Пациентам говорили, что у них ВИЧ, хотя на самом деле это не так. Пациентам говорили, что их кровь в норме, когда они dying.
Carreyrou J. Bad Blood. 2018
Дерево решений обмана

What Theranos Did vs. What Should Happen

New Diagnostic Test
SHOULD DO
Validate Against Gold Standard
Publish TP/FP/FN/TN
FDA Approval
THERANOS DID
Skip Validation
Hide Failures
Harm Patients
«И испытание лгало,
и ложь была одета в уверенность,
и никто не просил стол 2×2».

Вот почему мы изучаем точность диагностических тестов.

=================== МОДУЛЬ 2: ЧЕТЫРЕ РЕЗУЛЬТАТА ===================
When a test speaks,
есть только four possible truths.

Два из них — благословения. Два из них — проклятия.
Дерево результатов

Every Test Result Has a Reality Behind It

Patient Tested
Что такое ПРАВДА?
Has Disease
D+
TPTest +
FNTest -
No Disease
D-
FPTest +
TNTest -
Священный стол 2×2

HIV Rapid Test Example (Real Data)

HIV+HIV-Total
Test +983101
Test -2895897
Total100898998
ИЗ ЭТОЙ ТАБЛИЦЫ ВЫХОДИТ ВСЯ ПРАВДА
Sensitivity = 98/100 = 98%
Specificity = 895/898 = 99.7%
"Two outcomes save. Two outcomes harm.
ТП, ТН: тест сказал правду.
FP, FN: тест лгал.
Know them by name, for they determine fate."
================= МОДУЛЬ 3: ПЕРИОД ОКНА ВИЧ ===================
Разве вы не слышали о крови, которая была протестирована,
found clean,
и дана тысячам—
while death swam within it?
Кризис снабжения кровью, 1985
UNITED STATES
When HIV testing began, doctors celebrated: they could now screen the blood supply.

Но тест имел a window period— через несколько недель после заражения, когда вирус присутствовал, но undetectable.

Кровь была «отрицательной». Кровь была перелита.

8,000-12,000 Americans заразились в результате переливания, прежде чем лучшие тесты закрыли окно.
CDC. MMWR. 1987;36(49):833-840
The Window Period Decision Tree

Why False Negatives Are Deadly

Person Recently Infected
Time Since Infection?
< 2 weeks
Test NEGATIVEVirus present!
Blood DonatedOthers infected
> 4 weeks
Test POSITIVECorrectly detected
Blood DiscardedSupply safe
Чувствительность изменилась. Время
0%
Day 1-7
Eclipse period
~50%
Day 14
Seroconversion
~95%
Day 21
Most detected
99.9%
Day 45+
Window closed
THE LESSON
Чувствительность не фиксирована. It depends on when you test. A "99% sensitive" test may be 0% sensitive in early infection.
"И тест показал "чистый",
ибо вирус еще не показал свое лицо.
И кровь была общей,
и инфекция распространилась
=================== МОДУЛЬ 4: ТРАГЕДИЯ ===================
Разве вы не слышали о таблетках, которые дают матерям?
to protect their pregnancies,
that planted cancer in their daughters
twenty years before it bloomed?
Трагедия DES, 1938–1971 гг.
UNITED STATES & EUROPE
Diethylstilbestrol (DES) was given to millions of pregnant women to prevent miscarriage.

No proper clinical trial was ever conducted. Doctors assumed it worked because it seemed reasonable.

Decades later, their daughters developed a rare cancer: clear cell adenocarcinoma of the vagina. A cancer so rare it was a diagnostic signal in itself.

5-10 million women были разоблачены. Вред перешел через поколения.
Herbst AL et al. N Engl J Med. 1971;284:878-881
Дерево решений валидации

What Should Have Happened

New Medical Intervention
Было ли оно должным образом протестировано?
YES
Randomized Trial
Long-term Follow-up
Know True EffectsПольза И вред
NO (DES)
Assumption Only
Widespread Use
Hidden HarmDiscovered too late
Диагностический сигнал
КОГДА РЕДКОСТЬ СТАНОВИТСЯ ДОКАЗАТЕЛЬСТВОМ
Светлоклеточная аденокарцинома влагалища у молодых женщин встречалась настолько редко, что 7 cases in one hospital triggered an investigation.

Сам кластер был диагностическим тестом:
Sensitivity to DES exposure: nearly 100%
Если у вас рак в этом возрасте, вы почти наверняка подверглись воздействию.
1:1000
Risk of clear cell
cancer in DES daughters
5-10M
Women exposed
worldwide
«И мамы приняли таблетку в надежде,
и дочери росли в тени,
и двадцать лет спустя рак расцвел —
a diagnosis that indicted a generation of medicine."
=================== МОДУЛЬ 5: ЧУВСТВИТЕЛЬНОСТЬ И СПЕЦИФИЧНОСТЬ ===================
A test has two virtues and two vices.

Sensitivity: Может ли он найти больных?

Specificity: Может оно щадит здоровых?
Чувствительность: Охотник
THE FORMULA
Sensitivity = TP / (TP + FN)
"Of all the sick, how many did we catch?"

Worked Example: COVID PCR Test

Given: 200 infected patients tested
TP = 196 (correctly positive), FN = 4 (missed)
Sensitivity = 196 / (196 + 4) = 196/200 = 98%
Interpretation: Test catches 98 of every 100 infected people
Специальность: The Guardian
THE FORMULA
Specificity = TN / (TN + FP)
"Of all the healthy, how many did we spare?"

Worked Example: Same COVID PCR Test

Given: 1000 uninfected people tested
TN = 999 (correctly negative), FP = 1 (false alarm)
Specificity = 999 / (999 + 1) = 999/1000 = 99.9%
Interpretation: Test correctly clears 999 of every 1000 healthy people
Правила памяти

When to Use Which Test

Что вам нужно?
RULE OUT disease
Use HIGH SENSITIVITY
SnNoutSensitive Negative = OUT
RULE IN disease
Use HIGH SPECIFICITY
SpPinSpecific Positive = IN
«Чувствительность ловит больных.
Специфика щадит колодца.
But no test masters both perfectly—
это бремя, которое мы медведь."
==================== МОДУЛЬ 6: ОШИБКА БАЗОВОЙ СТАВКИ ===================
Вы не обращались к врачу
who saw 99% accurate
and believed a positive result meant 99% certainty?

Это самое смертоносное ошибка в медицине.
Ошибка базовой оценки
THE PUZZLE
A disease affects 1 in 1000 people.
Тест на 99% чувствителен и на 99% специфичен.
A patient tests positive.

Какова вероятность того, что у них есть заболевание?

Most doctors say ~99%. Настоящий ответ примерно такой: 9%.
Раскрытые математические данные

Testing 100,000 People (Prevalence 1/1000)

Step 1: 100 have disease, 99,900 healthy
Step 2: Of 100 sick: 99 test positive (TP), 1 negative (FN)
Step 3: Of 99,900 healthy: 999 test positive (FP), 98,901 negative (TN)
Step 4: Total positives = 99 + 999 = 1,098
PPV = TP / All Positives = 99 / 1,098 = 9%
91% положительных результатов являются ЛОЖНОПОЛОЖИТЕЛЬНЫМИ!
Interactive Base Rate Calculator

See How Prevalence Changes PPV

Prevalence:
1%
Sensitivity:
99%
Specificity:
99%
9%
Positive Predictive Value (PPV)
91% срабатываний — ложные срабатывания
Дерево решений распространенности

Same Test, Different Settings

Test: 99% Sens, 99% Spec
Where Is Testing Done?
General Pop
0.1%
PPV = 9%91% false +
High-Risk
10%
PPV = 92%8% false +
Confirmatory
50%
PPV = 99%1% false +
«И врач сказал: «точность на 99%».
и пациент услышал «уверен на 99%»,
и оба были обмануты —
ибо забыли спросить: насколько редка эта болезнь?»
Вы не слышали о машине
that could find TB in two hours,
это называлось revolutionary
но пропустил drug-resistant strains?
История GeneXpert, Южная Африка
CAPE TOWN, 2010
В течение столетия для диагностики туберкулеза требовалось выращивать бактерии в течение нескольких недель. Затем появился GeneXpert: результаты 2 hours.

South Africa deployed it nationwide. The WHO endorsed it.

Но у пациентов с low bacterial loads—often HIV co-infected— sensitivity dropped to 67%. One in three cases missed.

А для выявления устойчивости к рифампицину он пропустил 5% резистентных случаев. Эти пациенты получали неправильное лечение. Распространение устойчивого туберкулеза.
Steingart KR et al. Cochrane Database Syst Rev. 2014;1:CD009593
TB Diagnosis Decision Tree

Когда GeneXpert недостаточно

Suspected TB Patient
GeneXpert Test
Positive
Rifampicin?
SensitiveStandard Tx
ResistantMDR-TB Tx
Negative
HIV+ or High Suspicion?
YesCulture needed
NoLikely negative
Sensitivity by Patient Type
98%
Smear-positive
(high bacterial load)
67%
Smear-negative
(low bacterial load)
61%
HIV co-infected
(immune suppressed)
THE LESSON
Чувствительность теста в клинических исследованиях может не соответствовать его чувствительности у ваших пациентов. Знайте свое население.
«И машина сказала «отрицательно».
и доктор поверил машине,
и пациент пошел домой с туберкулезом легких,
кашляющее сопротивление миру».
=================== МОДУЛЬ 8: РАЗНОГЛАСИЯ PSA ===================
Вы не слышали о тесте для мужчин?
который обнаружил рак, который мог бы never kill,
и привело к лечению, которое destroyed lives?
Трагедия скрининга PSA
UNITED STATES, 1990s-2010s
PSA (Prostate-Specific Antigen) could detect prostate cancer early.

Врачи обследовали миллионы мужчин. Раковые опухоли были обнаружены. Простаты удалили.

Но многие из этих «раков» никогда бы не вызвали симптомов. Операция вызвала импотенция и недержание in men who would have died of old age, not cancer.
Moyer VA. Ann Intern Med. 2012;157:120-134
Цифры вреда
1
Жизнь спасена от
prostate cancer
per 1000 screened
30-40
Men made impotent
or incontinent
per 1000 screened
100+
False positives
(biopsies, anxiety)
per 1000 screened
THE REVERSAL
In 2012, the US Preventive Services Task Force recommended against рутинный скрининг ПСА. Тест обнаружил слишком много того, что не нужно было искать.
Patient Decision Aid: PSA Screening

Если 1000 мужчин в возрасте 55–69 лет будут проходить обследование в течение 13 лет

Deaths from prostate cancer prevented
1-2 men
Men who will have false positive requiring biopsy
100-120 men
У мужчин диагностирован рак, который никогда не причинит им вреда
20-50 men
Men left impotent or incontinent from treatment
30-40 men
Приемлем ли для вас этот компромисс?
«И испытание нашло тень,
и хирург разрезал,
и человек жил — импотент, невоздержанный —
от рака, который никогда бы не проснулся».
=================== МОДУЛЬ 9: ТРОПОНИН И СЕРДЕЧНЫЕ ПРИАТКИ ===================
Разве вы не слышали о человеке с болью в груди?
чей первый тропонин был normal,
кого отправили домой-
и умер до утра?
Проблема времени тропонина
EMERGENCY DEPARTMENTS WORLDWIDE
Тропонин является золотым стандартом диагностики сердечного приступа. Но это требует 3-6 hours to rise after myocardial injury.

A patient arrives one hour after chest pain begins. Troponin is tested: normal. "You're fine. Go home."

Сердце умирало. Белок еще не вытек.

Studies show 2-5% of MI patients sent home from ED die within 30 days.
Pope JH et al. N Engl J Med. 2000;342:1163-1170
Serial Testing Decision Tree

Протокол двух тропонинов

Chest Pain Patient
First Troponin
Elevated
Treat as MI
Normal
When Did Pain Start?
<6 hrs
Wait 3 hrsRepeat troponin
>6 hrs
Low riskConsider d/c
High-Sensitivity Troponin
~70%
Conventional troponin
sensitivity at 0 hrs
~95%
hs-Troponin
sensitivity at 0 hrs
99%
hs-Troponin
at 3 hrs serial
THE TRADE-OFF
High-sensitivity troponin catches more heart attacks early. But it also has more false positives—elevated in kidney disease, heart failure, sepsis, and marathon runners.
«И тест показал «нормально»,
ибо сердце только начало умирать.
И больной успокоился.
and went home to finish dying."
==================== МОДУЛЬ 10: ОТНОШЕНИЯ ВЕРОЯТНОСТИ ===================
Чувствительность описывает тест.
Специфичность описывает тест.

Но пациент спрашивает:
"I tested positive. What are MY chances?"
Likelihood Ratios
POSITIVE LIKELIHOOD RATIO
LR+ = Sensitivity / (1 - Specificity)
How much more likely is a + result in sick vs healthy?
NEGATIVE LIKELIHOOD RATIO
LR- = (1 - Sensitivity) / Specificity
How much more likely is a - result in sick vs healthy?
Номограмма Фэгана

От вероятности до теста к вероятности после теста

Pre-Test
Probability
99%
50%
20%
5%
1%
Likelihood
Ratio
100
10
1
0.1
0.01
Post-Test
Probability
99%
80%
50%
20%
1%
Draw a line from pre-test through LR to find post-test probability
Interpreting Likelihood Ratios

Насколько силен этот тест?

LR+ Value?
LR+ > 10Strong rule-in
5-10Moderate
2-5Weak
1-2Useless
LR- Value?
< 0.1Strong rule-out
0.1-0.2Moderate
0.2-0.5Weak
0.5-1Useless
«Чувствительность говорит о больных.
Специфика говорит о колодце.
But the likelihood ratio answers:
Что означает этот результат для ЭТОГО пациента?"
=================== МОДУЛЬ 11: БДТ по малярии ===================
Разве ты не видел в деревне ребенка с температурой,
экспресс-тест, который сказал negative,
and the Plasmodium что продолжало размножаться?
Проблема ДЭТ малярии
SUB-SAHARAN AFRICA
Malaria kills 600,000 people yearly, mostly children under 5.

Rapid Diagnostic Tests were meant to guide treatment in remote areas without microscopes or laboratories.

But when parasitemia is low—RDT упускает случаи. And when P. falciparum удаляет ген HRP2 — the RDT sees nothing at all.
WHO. Malaria RDT Performance. 2022
Дерево клинических решений

Child with Fever in Malaria-Endemic Area

Febrile Child
Perform RDT
RDT Positive
Лечение малярии
RDT Negative
Clinical Suspicion?
High
Treat Anywayor Microscopy
Low
Look forOther Cause
Sensitivity Varies by Parasitemia
95%
High parasitemia
(>200/μL)
75%
Low parasitemia
(100-200/μL)
50%
Very low
(<100/μL)
КЛИНИЧЕСКИЙ УРОК
A negative RDT does not rule out malaria in endemic areas. Clinical judgment must override the test when suspicion is high.
«И тест показал отрицательный результат».
и ребенка отправили домой,
и паразиты множились в темноте,
и к утру ребенок не мог проснуться».
==================== МОДУЛЬ 12: БЫСТРЫЕ ТЕСТЫ НА COVID ===================
В год чумы,
миру нужно было испытание, которое было бы fast.

Но быстро – это не то же самое, что accurate.
Кокрейновский вердикт

COVID-19 Rapid Antigen Tests (155 Studies)

PopulationSensitivityMissed
Symptomatic73%27%
Asymptomatic55%45%
First 7 days80%20%

Dinnes J et al. Cochrane Database Syst Rev. 2022;7:CD013705

The False Security Decision Tree

Thanksgiving 2020: What Happened

Family Member Tests Negative
Truly Negative?
55% if asymptomatic
True NegativeSafe to gather
45% if asymptomatic
FALSE NegativeInfectious!
Собирается с семьейGrandparents infected
«И тест показал отрицательный результат».
и семья обнялась,
и к концу зимы,
дедушку похоронили».
Вы не слышали о показе
который обнаружил рак, который would never kill,
и привело к лечению, которое caused more harm than the disease?
Проблема гипердиагностики
3-4
Lives saved
per 10,000 screened
~15
Overdiagnosed
(treated unnecessarily)
~500
False alarms
(anxiety, biopsies)
THE QUESTION
Чтобы спасти 3-4 жизни, около 15 женщин проходят операцию, лучевую терапию и химиотерапию от рака, который никогда бы им не причинил вреда.

Стоит ли этот компромисс того?
Patient Decision Aid: Mammography

Если 10 000 женщин в возрасте 50–69 лет будут проходить обследование в течение 10 лет

Deaths from breast cancer prevented
3-4 women
Women called back for false alarms
~500 women
Unnecessary biopsies
~200 women
Женщины лечатся от рака, который никогда им не причинит вреда
~15 women
Подходит ли вам скрининг?
The Screening Cascade Decision Tree

10 000 женщин прошли скрининг за 10 лет

10,000 Women
~1,000 RecalledAbnormal
~500 False
Alarm
~500 Biopsy
~50 cancer
~9,000 Cleared
Of ~50 Cancers Found
~35 Would Kill3-4 saved
~15 Would Never KillOverdiagnosed
«И испытание нашло тень,
и назвал это раком,
и женщина была изрезана и сожжена —
из-за тени, которая никогда бы не омрачила ее дней."
==================== МОДУЛЬ 14: АМИЛОИД АЛЬЦГЕЙМЕРА ===================
Вы не слышали о сканировании?
который находит бляшки в мозгу,
но не могу сказать тебе
если разум будет fade?
Амилоидный парадокс
ALZHEIMER'S RESEARCH, 2010s-2020s
PET scans can now detect amyloid plaques—the hallmark of Alzheimer's.

But 30% of cognitively normal elderly have amyloid plaques. They may never develop dementia.

And 10-20% людей с деменцией have no amyloid.

Тест находит бляшки. Но бляшки – это не болезнь. Мы тестируем суррогатную мать, а не результат.
Jack CR et al. Lancet Neurol. 2018;17:760-773
Surrogate vs. Outcome Decision Tree

Что мы на самом деле тестируем?

Diagnostic Test
What Does It Detect?
Outcome itself
Direct Diagnosisнапример, биопсия при раке
High clinical value
Surrogate marker
Indirect Signalнапример, амилоид при деменции
Validated link?
YesUse cautiously
NoLimited value
«И сканирование обнаружило бляшки,
и доктор назвал это болезнью Альцгеймера,
и пациент жил в ужасе...
of a forgetting that might never come."
=================== МОДУЛЬ 15: QUADAS-2 КАЧЕСТВО ===================
Не все исследования одинаковы.

Some are biased.
Some are poorly designed.
Некоторые не должны быть trusted.

Как нам отделить зерна от плевел?
QUADAS-2: Контрольный список качества

Four Domains of Risk of Bias

1
Patient Selection

Была ли отобрана последовательная или случайная выборка? Избегали ли схемы «случай-контроль»?

2
Index Test

Был ли тест интерпретирован без знания эталонного стандарта? Был ли порог установлен заранее?

3
Reference Standard

Может ли эталонный стандарт правильно классифицировать это состояние? Было ли это интерпретировано вслепую?

4
Поток и время

Был ли соответствующий интервал между тестами? Все ли пациенты получали один и тот же эталонный стандарт?

QUADAS-2 Decision Tree

Стоит ли доверять этому исследованию?

DTA Study
Check All 4 Domains
All Low Risk
High QualityTrust results
Some Unclear
ModerateИспользуйте с осторожностью
Any High Risk
Low QualityРезультаты могут быть предвзятыми
Распространенные ошибки в исследованиях DTA
!

Verification Bias

Only positive tests get the reference standard → inflates sensitivity

!

Spectrum Bias

Исследуемая популяция отличается от клинической реальности → результаты не обобщают

!

Incorporation Bias

Index test is part of reference standard → artificially high accuracy

!

Review Bias

Index test interpreted knowing reference result → inflates both metrics

«Прежде чем доверять цифрам,
ask: How were they gathered?
Предвзятое исследование говорит с уверенностью:
but its confidence is a lie."
=================== МОДУЛЬ 16: МЕТА-АНАЛИЗ И SROC ===================
Одно исследование может обмануть.
Одно исследование может польстить.

Но когда вы соберете все доказательства
the truth becomes harder to hide.
Why DTA Meta-Analysis Is Different
THE PROBLEM
Чувствительность и специфичность correlated. When one goes up, the other tends to go down.

Вы не можете объединить их отдельно, как эффекты лечения. Вам нужно bivariate model.
Кривая SROC

Summary Receiver Operating Characteristic

Sensitivity
1 - Specificity (False Positive Rate)
Individual studies
Summary estimate
Чтение СРОК

Что говорит вам кривая?

SROC Curve Position
Top-Left Corner
Excellent TestHigh sens + spec
Near Diagonal
Useless TestNo better than chance
Points Scattered
High HeterogeneityInvestigate sources
«Одно исследование может обмануть.
Многие исследования, взвешенные вместе,
проследить путь истины —
кривая SROC, которая показывает, на что действительно способен тест».
Но что, если исследования disagree?

One says sensitivity is 95%.
Another says 60%.

В какую истину вы верите?
Sources of Heterogeneity

Почему исследования расходятся во мнениях

Один и тот же тест, разные результаты?
ThresholdDifferent cutoffs
PopulationSeverity, age
SettingPrimary vs specialist
QualityBias, blinding
Measuring Disagreement: I²
I² < 25%
Low
Studies agree
I² 25-75%
Moderate
Some variation
I² > 75%
High
Major disagreement
THE WARNING
When I² > 75%, the pooled estimate may be meaningless. Explain the disagreement before averaging.
«Когда исследования расходятся во мнениях,
не подавляйте инакомыслие.
Ask: Why do they see differently?
Само разногласие учит».
==================== МОДУЛЬ 18: ИНСТРУМЕНТАРИЙ ===================
Ваш набор инструментов DTA
Основные меры и когда их использовать
The Checklist

Was there a valid reference standard?

Gold standard applied to ALL patients?

Были ли переводчики ослеплены?

Test readers unaware of diagnosis?

Был ли спектр подходящим?

Пациенты, похожие на вашу популяцию?

Был ли порог установлен заранее?

Или выбрано для максимизации результатов?

When Results Don't Match Suspicion

The Clinical Override Decision Tree

Test Negative, High Suspicion
What Is the LR-?
LR- < 0.1
Strong rule-outAccept negative
LR- 0.1-0.5
Repeat testOr different test
LR- > 0.5
Trust judgmentTest is weak
Sequential Testing Decision Tree

When One Test Isn't Enough

Initial Screening Test
Positive
Confirmatory TestHigh specificity
PositiveDiagnose
NegativeFalse alarm
Negative
Likely negativeIf high sens screen
"Armed with sensitivity, specificity, likelihood,
на вооружении СРОК и меры согласия,
ты можешь видеть сквозь ложь теста —
и судите об истинности этого сами».
=================== МОДУЛЬ 19: ОШИБКИ ПЕРЕЛИВАНИЯ КРОВИ ===================
Разве вы не слышали о пациенте
кто получил wrong blood,
не потому, что тест был неправильным,
but because no one performed it?
Тест, который не был проведен
HOSPITALS WORLDWIDE
ABO blood typing is nearly 100% accurate when performed.

Yet transfusion reactions still kill— не из-за провала теста, а из-за human failure:

• Wrong blood drawn from wrong patient
• Метки заменены в лаборатории
• Bedside check skipped in emergency

In the UK, 1 in 13,000 transfusions попадает не к тому пациенту. Тест сработал. Система потерпела неудачу.
Bolton-Maggs PHB. Transfus Med. 2016;26:303-311
Test vs. System Decision Tree

Where Can Things Go Wrong?

Diagnostic Process
Error Source?
Test itself
Analytical ErrorSens/Spec issue
Better test needed
Pre-analytical
Wrong sampleID error
System fix needed
Post-analytical
Wrong actionReporting error
Process fix needed
"The perfect test means nothing
Если взята не та кровь,
применена неправильная этикетка,
висит не та сумка».

Исследования DTA измеряют точность тестов. Они не измеряют точность системы.

Вы не видели алгоритм?
что узнал от biased data,
и распространить эту предвзятость
to every patient it touched?
Революция в диагностике с помощью искусственного интеллекта
STANFORD & BEYOND, 2017-PRESENT
Deep learning algorithms now match dermatologists at detecting skin cancer.

Но данные обучения были predominantly light skin. On dark skin, performance dropped significantly.

Алгоритм изучил закономерности, но также и biases.

А при развертывании без внешней проверки результат оказался хуже, чем ожидалось, поскольку training population didn't match the clinical population.
Esteva A et al. Nature. 2017;542:115-118; Adamson AS. JAMA Dermatol. 2018
AI Validation Decision Tree

Готов ли этот ИИ к клиническому использованию?

AI Diagnostic Tool
Validation Type?
Internal only
High RiskOverfitting likely
Not ready
External validation
BetterBut check population
Подходит вашим пациентам?
YesConsider use
NoCaution
Prospective RCT
Gold StandardPatient outcomes
Калибровка AI: скрытая проблема
DISCRIMINATION VS. CALIBRATION
Discrimination (AUC/ROC): Can the AI rank patients by risk?

Calibration: When the AI says "80% risk," do 80% actually have disease?

Многие инструменты ИИ имеют good AUC but poor calibration. Это ошибка базовой ставки в алгоритмической форме.
AUC
Can it rank?
(usually reported)
CAL
Is probability accurate?
(often ignored)
«И алгоритм учился на основе данных,
и данные были предвзятыми,
и предвзятость распространялась на каждое предсказание —
и никто не спросил: Кого не хватает на тренировочном наборе?"
=================== МОДУЛЬ 21: ОБЩЕНИЕ С ПАЦИЕНТОМ ===================
Больной спрашивает: "Is my test positive?"

But what they mean is:
«Есть ли у меня болезнь?»

Как преодолеть этот разрыв?
Communication Scripts
SCRIPT 1: EXPLAINING A POSITIVE RESULT
«Ваш тест оказался положительным. Но я хочу объяснить, что это значит».

«Этот тест хорош для выявления людей с этим заболеванием, но он также дает ложные срабатывания».

«Судя по вашим факторам риска, существует около [X]% шанс, что это настоящий позитив».

"We'll do a confirmatory test to be certain before any treatment."
Communication Scripts
SCRIPT 2: EXPLAINING A NEGATIVE RESULT (HIGH SUSPICION)
"Your test came back negative, but I'm still concerned."

«Этот тест может пропустить случаи, особенно на ранних стадиях заболевания».

«Учитывая ваши симптомы, я бы хотел либо повторить тест через несколько дней, либо попробовать другой тест».

"A negative test doesn't always mean you're clear—ваши симптомы тоже имеют значение."
Communication Decision Tree

Как объяснить результаты теста

Test Result
Positive
PPV?
>90%"Very likely true"
<90%"Need to confirm"
Negative
NPV?
>95%"Very reassuring"
<95%"Still watch symptoms"
Вопросы, которые следует задать своему врачу
1

«Насколько точен этот тест?»

Попросите деликатности и конкретики простым языком.

2

«Что, если результат неправильный?»

Понимание последствий ложных срабатываний и негативов

3

"What happens next?"

Will there be a confirmatory test? Repeat test? Treatment?

4

"What if I don't get tested at all?"

Поймите компромиссы между тестированием и отсутствием тестирования.

«Тест говорит в цифрах.
Больной слышит страхи и надежды.
Задача целителя — перевод.
чтобы преодолеть разрыв между статистикой и душой».
=================== МОДУЛЬ 22: ЭКОНОМИЧНОСТЬ И КАТЕГОРИЯ ===================
A test may be accurate.
But is it worth it?

What does it cost—in money,
in anxiety, in harm?
Порог тестового лечения

When Is Testing Worthwhile?

Pre-Test Probability
Very Low
Below Test ThresholdDon't test, reassure
Intermediate
Testing ZoneTest will change management
Very High
Above Treat ThresholdDon't test, treat
THE PRINCIPLE
Test only when the result will измените то, что вы делаете. If you'd treat regardless, or not treat regardless—why test?
GRADE Качество доказательств

Оценка доказательств DTA

⊕⊕⊕⊕
HIGH

Множество высококачественных исследований, стабильные результаты, применимость напрямую

⊕⊕⊕○
MODERATE

Some limitations in study quality, consistency, or applicability

⊕⊕○○
LOW

Serious limitations—may need to downgrade recommendations

⊕○○○
VERY LOW

Very serious limitations—evidence uncertain

Cost-Consequence Analysis

Example: Universal vs. Targeted Screening

Cost per case detected (universal)
$50,000
Cost per case detected (high-risk only)
$5,000
Cases missed by targeted approach
~10%
False positives avoided by targeted
~90%
Какой подход подходит для вашего населения?
"A test is not just accurate or inaccurate.
It has costs—in money, in worry, in harm.
Мудрый врач взвешивает все это:
и тестирует только тогда, когда тестирование приносит пользу пациенту».
=================== МОДУЛЬ 23: РАСШИРЕННЫЙ SROC ===================
Кривая SROC показывает where тест выполняется.

But how certain are we?
И сколько это будет vary in practice?
Confidence vs. Prediction Regions

Two Types of Uncertainty

95% CI (summary estimate)
95% Прогнозирование (будущие исследования)
What Each Region Tells You
CI

Confidence Region (smaller ellipse)

В чем мы уверены на 95%, заключается < true average чувствительность/специфичность. Неопределенность сводной оценки.

PI

Prediction Region (larger ellipse)

Where we expect 95% of future studies упасть. Учитывает неоднородность между исследованиями.

CLINICAL IMPLICATION
Если область прогнозирования велика, результаты теста в ваших условиях могут сильно отличаться от предполагаемых в среднем значений. Wide prediction = high heterogeneity = investigate sources.
Bivariate Model Interpretation

Чтение результатов метаанализа

Summary Sens/Spec
Check Regions
CI narrow, PI narrow
ConsistentДоверяйте среднему значению
CI narrow, PI wide
HeterogeneousСреднее значение не может быть применить
CI wide
UncertainТребуются дополнительные исследования
"Область достоверности говорит вам: насколько мы уверены?
Область прогнозирования говорит вам: насколько она будет варьироваться?
Both questions matter—
для теста, который вы используете завтра, возможно, не будет
================== МОДУЛЬ 24: ВИКТОРИНА И ССЫЛКИ ===================
References

Key Sources

  1. Carreyrou J. Bad Blood. Knopf, 2018. [Theranos]
  2. CDC. MMWR. 1987;36(49):833-840. [HIV blood supply]
  3. Herbst AL et al. N Engl J Med. 1971;284:878-881. [DES]
  4. Moyer VA. Ann Intern Med. 2012;157:120-134. [PSA]
  5. Pope JH et al. N Engl J Med. 2000;342:1163-1170. [Troponin]
  6. Steingart KR et al. Cochrane 2014;1:CD009593. [GeneXpert]
  7. Dinnes J et al. Cochrane 2022;7:CD013705. [COVID RAT]
  8. UK Panel. Lancet. 2012;380:1778-1786. [Mammography]
  9. Jack CR et al. Lancet Neurol. 2018;17:760-773. [Amyloid]
  10. WHO. Malaria RDT Performance. 2022.
  11. Reitsma JB et al. J Clin Epidemiol. 2005;58:982-990. [Bivariate]
  12. Whiting PF et al. Ann Intern Med. 2011;155:529-536. [QUADAS-2]
  13. Bolton-Maggs PHB. Transfus Med. 2016;26:303-311.
Тест имеет 99% чувствительности и 99% специфичности. Распространенность заболевания составляет 1/1000. У пациента тест положительный. Какова вероятность того, что у них есть это заболевание?
99%
90%
About 9%
50%
What does "SnNout" mean?
A highly Sensitive test, when Negative, rules OUT disease
A highly Specific test, when Negative, rules OUT disease
Sensitivity should be used for screening
Specificity should be above 90%
Почему, несмотря на тестирование, кровоснабжение оказалось зараженным ВИЧ?
The tests had low specificity
Tests had a window period with zero sensitivity in early infection
Тесты проводились неправильно
Тесты были слишком дорогими
Какой домен QUADAS-2 оценивает, был ли тест интерпретирован без знания диагноз?
Patient Selection
Index Test
Reference Standard
Поток и время
Course Complete
"Теперь вы знаете четыре результата,
два достоинства теста,
ошибка базы скорость,
искусство объединения доказательств,
и предубеждения, скрывающие правду.

Когда следующий тест лжет вам —
вы узнаете."