Когда тест лжет: окончательный курс DTA (V4)

=================== МОДУЛЬ 1: МОШЕННИЧЕСТВО (Theranos) ===================

Разве вы не слышали историю о женщине
who promised to изменить мир каплей крови,
who raised billions on a test that never worked?

Palo Alto, 2003

STANFORD UNIVERSITY

Девятнадцатилетний подросток бросил учебу с видением: сотни анализы крови из одной капли.

Investors believed. Walgreens believed. The Pentagon believed.

They gave her $9 billion.

Но анализы дали неправильные результаты. Пациентам говорили, что у них ВИЧ, хотя на самом деле это не так. Пациентам говорили, что их кровь в норме, когда они dying.

Carreyrou J. Bad Blood. 2018

Дерево решений обмана

What Theranos Did vs. What Should Happen

New Diagnostic Test

↓

SHOULD DO

Validate Against Gold Standard

↓

Publish TP/FP/FN/TN

↓

FDA Approval

THERANOS DID

Skip Validation

↓

Hide Failures

↓

Harm Patients

«И испытание лгало,
и ложь была одета в уверенность,
и никто не просил стол 2×2».

Вот почему мы изучаем точность диагностических тестов.

=================== МОДУЛЬ 2: ЧЕТЫРЕ РЕЗУЛЬТАТА ===================

When a test speaks,
есть только four possible truths.

Два из них — благословения. Два из них — проклятия.

Что происходит, когда систематический обзор одинаково доверяет каждому исследованию?

REAL DATA

Анализ чувствительности в систематических обзорах DTA последовательно демонстрирует, что исключение исследований с высоким риском систематической ошибки меняет объединенные оценки. При маммографическом скрининге схемы случай-контроль с неслепой интерпретацией имеют тенденцию повышать чувствительность. Общий принцип хорошо документирован: оценка качества QUADAS-2 может изменить совокупную чувствительность на 10-15 percentage points когда предвзятые исследования удаляются.

Маммографический аудит QUADAS-2

Группа экспертов объединила 15 маммографических исследований DTA. Пять имеют высокий риск систематической ошибки из-за схемы «случай-контроль» и неслепой интерпретации.

ПУТЬ А: Объединить все исследования

Include all 15 studies regardless of quality

↓

Biased 2x2 tables inflate TP counts, producing a pooled sensitivity of 87%

OUTCOME: Overconfidence in screening accuracy

PATH B: Apply Quality Assessment

Exclude high risk-of-bias studies using QUADAS-2

↓

Remaining 10 low-RoB studies yield sensitivity of approximately 75%

OUTCOME: Honest numbers guide honest decisions

THE REVELATION

Четыре результата (TP, FP, FN, TN) заслуживают доверия только в том случае, если исследование, в результате которого они были получены, заслуживает доверия. Предвзятое исследование засоряет всю таблицу 2х2.

Дерево результатов

Every Test Result Has a Reality Behind It

Patient Tested

↓

Что такое ПРАВДА?

Has Disease

D+

↓

TPTest +

FNTest -

No Disease

D-

↓

FPTest +

TNTest -

Священный стол 2×2

HIV Rapid Test Example (Real Data)

	HIV+	HIV-	Total
Test +	98	3	101
Test -	2	895	897
Total	100	898	998

ИЗ ЭТОЙ ТАБЛИЦЫ ВЫХОДИТ ВСЯ ПРАВДА

Sensitivity = 98/100 = 98%
Specificity = 895/898 = 99.7%

"Two outcomes save. Two outcomes harm.
ТП, ТН: тест сказал правду.
FP, FN: тест лгал.
Know them by name, for they determine fate."

================= МОДУЛЬ 3: ПЕРИОД ОКНА ВИЧ ===================

Разве вы не слышали о крови, которая была протестирована,
found clean,
и дана тысячам—
while death swam within it?

Кризис снабжения кровью, 1985

UNITED STATES

When HIV testing began, doctors celebrated: they could now screen the blood supply.

Но тест имел a window period— через несколько недель после заражения, когда вирус присутствовал, но undetectable.

Кровь была «отрицательной». Кровь была перелита.

8,000-12,000 Americans заразились в результате переливания, прежде чем лучшие тесты закрыли окно.

CDC. MMWR. 1987;36(49):833-840

The Window Period Decision Tree

Why False Negatives Are Deadly

Person Recently Infected

↓

Time Since Infection?

< 2 weeks

Test NEGATIVEVirus present!

↓

Blood DonatedOthers infected

> 4 weeks

Test POSITIVECorrectly detected

↓

Blood DiscardedSupply safe

Чувствительность изменилась. Время

Day 1-7
Eclipse period

~50%

Day 14
Seroconversion

~95%

Day 21
Most detected

99.9%

Day 45+
Window closed

THE LESSON

Чувствительность не фиксирована. It depends on when you test. A "99% sensitive" test may be 0% sensitive in early infection.

"И тест показал "чистый",
ибо вирус еще не показал свое лицо.
И кровь была общей,
и инфекция распространилась

=================== МОДУЛЬ 4: ТРАГЕДИЯ ===================

Разве вы не слышали о таблетках, которые дают матерям?
to protect their pregnancies,
that planted cancer in their daughters
twenty years before it bloomed?

Трагедия DES, 1938–1971 гг.

UNITED STATES & EUROPE

Diethylstilbestrol (DES) was given to millions of pregnant women to prevent miscarriage.

No proper clinical trial was ever conducted. Doctors assumed it worked because it seemed reasonable.

Decades later, their daughters developed a rare cancer: clear cell adenocarcinoma of the vagina. A cancer so rare it was a diagnostic signal in itself.

5-10 million women были разоблачены. Вред перешел через поколения.

Herbst AL et al. N Engl J Med. 1971;284:878-881

Дерево решений валидации

What Should Have Happened

New Medical Intervention

↓

Было ли оно должным образом протестировано?

YES

Randomized Trial

↓

Long-term Follow-up

↓

Know True EffectsПольза И вред

NO (DES)

Assumption Only

↓

Widespread Use

↓

Hidden HarmDiscovered too late

Диагностический сигнал

КОГДА РЕДКОСТЬ СТАНОВИТСЯ ДОКАЗАТЕЛЬСТВОМ

Светлоклеточная аденокарцинома влагалища у молодых женщин встречалась настолько редко, что 7 cases in one hospital triggered an investigation.

Сам кластер был диагностическим тестом:
Sensitivity to DES exposure: nearly 100%
Если у вас рак в этом возрасте, вы почти наверняка подверглись воздействию.

1:1000

Risk of clear cell
cancer in DES daughters

5-10M

Women exposed
worldwide

«И мамы приняли таблетку в надежде,
и дочери росли в тени,
и двадцать лет спустя рак расцвел —
a diagnosis that indicted a generation of medicine."

=================== МОДУЛЬ 5: ЧУВСТВИТЕЛЬНОСТЬ И СПЕЦИФИЧНОСТЬ ===================

A test has two virtues and two vices.

Sensitivity: Может ли он найти больных?

Specificity: Может оно щадит здоровых?

Можете ли вы доверять лабораторным показателям чувствительности, когда тест используется в реальном мире?

REAL DATA

The BinaxNOW COVID-19 rapid antigen test reported sensitivity of approximately 84-97% in symptomatic individuals in manufacturer studies. However, real-world evaluations found sensitivity as low as 35-64% у бессимптомных лиц, в зависимости от вирусной нагрузки и времени. Кокрейновский обзор быстрых тестов на антигены (Dinnes 2022) подтвердил среднюю чувствительность 73% симптоматическое и только 55% в бессимптомных популяциях согласно более чем 100 оценкам исследований.

The COVID Rapid Test Paradox: 2020-2021

A university plans to screen asymptomatic students weekly before allowing campus access. They read the manufacturer's claim of high sensitivity.

PATH A: Trust Lab Sensitivity

Rely on manufacturer's high sensitivity figure

↓

Бессимптомные носители с низкой вирусной нагрузкой дают отрицательный результат и посещают занятия, распространяя вирус.

OUTCOME: False sense of safety; campus outbreaks

ПУТЬ Б: Требуйте реальных данных

Ищите исследования среди фактической целевой группы (студентов без симптомов)

↓

Discover sensitivity is roughly 55% in asymptomatic people; add serial testing and other safeguards

OUTCOME: Layered safety catches more cases

THE REVELATION

Чувствительность не является фиксированным свойством теста. Оно меняется в зависимости от численности населения, стадии заболевания и условий. Всегда спрашивайте: чувствительность в whom?

Чувствительность: Охотник

THE FORMULA

Sensitivity = TP / (TP + FN)

"Of all the sick, how many did we catch?"

Worked Example: COVID PCR Test

Given: 200 infected patients tested

TP = 196 (correctly positive), FN = 4 (missed)

Sensitivity = 196 / (196 + 4) = 196/200 = 98%

Interpretation: Test catches 98 of every 100 infected people

Специальность: The Guardian

THE FORMULA

Specificity = TN / (TN + FP)

"Of all the healthy, how many did we spare?"

Worked Example: Same COVID PCR Test

Given: 1000 uninfected people tested

TN = 999 (correctly negative), FP = 1 (false alarm)

Specificity = 999 / (999 + 1) = 999/1000 = 99.9%

Interpretation: Test correctly clears 999 of every 1000 healthy people

Правила памяти

When to Use Which Test

Что вам нужно?

RULE OUT disease

Use HIGH SENSITIVITY

↓

SnNoutSensitive Negative = OUT

RULE IN disease

Use HIGH SPECIFICITY

↓

SpPinSpecific Positive = IN

«Чувствительность ловит больных.
Специфика щадит колодца.
But no test masters both perfectly—
это бремя, которое мы медведь."

==================== МОДУЛЬ 6: ОШИБКА БАЗОВОЙ СТАВКИ ===================

Вы не обращались к врачу
who saw 99% accurate
and believed a positive result meant 99% certainty?

Это самое смертоносное ошибка в медицине.

Ошибка базовой оценки

THE PUZZLE

A disease affects 1 in 1000 people.
Тест на 99% чувствителен и на 99% специфичен.
A patient tests positive.

Какова вероятность того, что у них есть заболевание?

Most doctors say ~99%. Настоящий ответ примерно такой: 9%.

Раскрытые математические данные

Testing 100,000 People (Prevalence 1/1000)

Step 1: 100 have disease, 99,900 healthy

Step 2: Of 100 sick: 99 test positive (TP), 1 negative (FN)

Step 3: Of 99,900 healthy: 999 test positive (FP), 98,901 negative (TN)

Step 4: Total positives = 99 + 999 = 1,098

PPV = TP / All Positives = 99 / 1,098 = 9%

91% положительных результатов являются ЛОЖНОПОЛОЖИТЕЛЬНЫМИ!

Interactive Base Rate Calculator

See How Prevalence Changes PPV

Prevalence:

Sensitivity:

99%

Specificity:

99%

Positive Predictive Value (PPV)

91% срабатываний — ложные срабатывания

Дерево решений распространенности

Same Test, Different Settings

Test: 99% Sens, 99% Spec

↓

Where Is Testing Done?

General Pop
0.1%

PPV = 9%91% false +

High-Risk
10%

PPV = 92%8% false +

Confirmatory
50%

PPV = 99%1% false +

«И врач сказал: «точность на 99%».
и пациент услышал «уверен на 99%»,
и оба были обмануты —
ибо забыли спросить: насколько редка эта болезнь?»

Вы не слышали о машине
that could find TB in two hours,
это называлось revolutionary—
но пропустил drug-resistant strains?

История GeneXpert, Южная Африка

CAPE TOWN, 2010

В течение столетия для диагностики туберкулеза требовалось выращивать бактерии в течение нескольких недель. Затем появился GeneXpert: результаты 2 hours.

South Africa deployed it nationwide. The WHO endorsed it.

Но у пациентов с low bacterial loads—often HIV co-infected— sensitivity dropped to 67%. One in three cases missed.

А для выявления устойчивости к рифампицину он пропустил 5% резистентных случаев. Эти пациенты получали неправильное лечение. Распространение устойчивого туберкулеза.

Steingart KR et al. Cochrane Database Syst Rev. 2014;1:CD009593

TB Diagnosis Decision Tree

Когда GeneXpert недостаточно

Suspected TB Patient

↓

GeneXpert Test

↓

Positive

↓

Rifampicin?

SensitiveStandard Tx

ResistantMDR-TB Tx

Negative

↓

HIV+ or High Suspicion?

YesCulture needed

NoLikely negative

Sensitivity by Patient Type

98%

Smear-positive
(high bacterial load)

67%

Smear-negative
(low bacterial load)

61%

HIV co-infected
(immune suppressed)

THE LESSON

Чувствительность теста в клинических исследованиях может не соответствовать его чувствительности у ваших пациентов. Знайте свое население.

«И машина сказала «отрицательно».
и доктор поверил машине,
и пациент пошел домой с туберкулезом легких,
кашляющее сопротивление миру».

=================== МОДУЛЬ 8: РАЗНОГЛАСИЯ PSA ===================

Вы не слышали о тесте для мужчин?
который обнаружил рак, который мог бы never kill,
и привело к лечению, которое destroyed lives?

Трагедия скрининга PSA

UNITED STATES, 1990s-2010s

PSA (Prostate-Specific Antigen) could detect prostate cancer early.

Врачи обследовали миллионы мужчин. Раковые опухоли были обнаружены. Простаты удалили.

Но многие из этих «раков» никогда бы не вызвали симптомов. Операция вызвала импотенция и недержание in men who would have died of old age, not cancer.

Moyer VA. Ann Intern Med. 2012;157:120-134

Дилемма скрининга PSA: 2012 г.

60-летний мужчина спрашивает своего врача о скрининге ПСА. ПСА при пороговом уровне 4,0 нг/мл имеет чувствительность примерно 21% для рака высокой степени злокачественности, но позволяет обнаружить многие вялотекущие виды рака.

PATH A: Screen All Men

Плановый скрининг ПСА для всех мужчин старше 50 лет.

↓

На 1000 человек, прошедших скрининг в течение 13 лет: предотвращено 1–2 смерти, но более 100 ложных тревог и 30–40 мужчин остались импотентами или недержанием мочи от лечения вялотекущего рака.

OUTCOME: Net harm exceeds benefit at population level

PATH B: Shared Decision-Making

Обсудите вред и пользу; индивидуализировать с учетом факторов риска, ожидаемой продолжительности жизни и ценностей пациента

↓

High-risk men can choose screening; low-risk men can decline; active surveillance replaces immediate surgery for low-grade findings

OUTCOME: Fewer unnecessary treatments; patient autonomy preserved

THE REVELATION

Тест с высокой степенью обнаружения может принести больше вреда, чем пользы, если он обнаруживает условия, поиск которых не требует поиска. Гипердиагностика – это скрытая цена высокой чувствительности при вялотекущем заболевании.

Цифры вреда

Жизнь спасена от
prostate cancer
per 1000 screened

30-40

Men made impotent
or incontinent
per 1000 screened

100+

False positives
(biopsies, anxiety)
per 1000 screened

THE REVERSAL

In 2012, the US Preventive Services Task Force recommended against рутинный скрининг ПСА. Тест обнаружил слишком много того, что не нужно было искать.

Patient Decision Aid: PSA Screening

Если 1000 мужчин в возрасте 55–69 лет будут проходить обследование в течение 13 лет

Deaths from prostate cancer prevented

1-2 men

Men who will have false positive requiring biopsy

100-120 men

У мужчин диагностирован рак, который никогда не причинит им вреда

20-50 men

Men left impotent or incontinent from treatment

30-40 men

Приемлем ли для вас этот компромисс?

«И испытание нашло тень,
и хирург разрезал,
и человек жил — импотент, невоздержанный —
от рака, который никогда бы не проснулся».

=================== МОДУЛЬ 9: ТРОПОНИН И СЕРДЕЧНЫЕ ПРИАТКИ ===================

Разве вы не слышали о человеке с болью в груди?
чей первый тропонин был normal,
кого отправили домой-
и умер до утра?

Проблема времени тропонина

EMERGENCY DEPARTMENTS WORLDWIDE

Тропонин является золотым стандартом диагностики сердечного приступа. Но это требует 3-6 hours to rise after myocardial injury.

A patient arrives one hour after chest pain begins. Troponin is tested: normal. "You're fine. Go home."

Сердце умирало. Белок еще не вытек.

Studies show 2-5% of MI patients sent home from ED die within 30 days.

Pope JH et al. N Engl J Med. 2000;342:1163-1170

Serial Testing Decision Tree

Протокол двух тропонинов

Chest Pain Patient

↓

First Troponin

↓

Elevated

↓

Treat as MI

Normal

↓

When Did Pain Start?

<6 hrs

Wait 3 hrsRepeat troponin

>6 hrs

Low riskConsider d/c

High-Sensitivity Troponin

~70%

Conventional troponin
sensitivity at 0 hrs

~95%

hs-Troponin
sensitivity at 0 hrs

99%

hs-Troponin
at 3 hrs serial

THE TRADE-OFF

High-sensitivity troponin catches more heart attacks early. But it also has more false positives—elevated in kidney disease, heart failure, sepsis, and marathon runners.

«И тест показал «нормально»,
ибо сердце только начало умирать.
И больной успокоился.
and went home to finish dying."

==================== МОДУЛЬ 10: ОТНОШЕНИЯ ВЕРОЯТНОСТИ ===================

Чувствительность описывает тест.
Специфичность описывает тест.

Но пациент спрашивает:
"I tested positive. What are MY chances?"

Что, если опубликованная чувствительность теста выше истинной, и поэтому вычисленные вами отношения правдоподобия неверны?

REAL DATA

Rapid strep tests (RADT) showed pooled sensitivity of approximately 86% в опубликованных исследованиях, включенных в Кокрейновские обзоры. Однако нормативные документы FDA 510(k), которые включают неопубликованные данные производителей, выявили оценки чувствительности только 70-75%. Опубликованные исследования с более высокой чувствительностью с большей вероятностью будут представлены для публикации – классический случай предвзятости публикации, приводящей к завышению кажущейся точности.

The Rapid Strep Test Publication Gap

Врач рассчитывает LR+ на основе опубликованных данных (чувствительность 86%, специфичность 95%), чтобы решить, следует ли лечить ангину у ребенка. Но истинная чувствительность может составлять всего 70%.

PATH A: Trust Published Meta-Analysis

Используйте LR+ из опубликованных данных (86/5 = 17,2).

↓

Завышенный LR+ приводит к излишней уверенности в отрицательном результате; детей, заболевших стрептококком, отправляют домой без антибиотиков

OUTCOME: Missed strep leads to rheumatic fever risk

ПУТЬ Б: Поиск нормативных данных

Используйте LR+ из материалов FDA (70/5 = 14) и обратите внимание, что LR- хуже (0,32 против 0,15).

↓

Recognize a negative RADT cannot confidently exclude strep; back up with throat culture when clinical suspicion is high

OUTCOME: Appropriate caution protects children

THE REVELATION

Отношения правдоподобия настолько честны, насколько чувствительность и специфичность их порождают. Предвзятость публикаций повышает точность, делая LR+ слишком оптимистичным, а LR- слишком обнадеживающим. Всегда спрашивайте: отсутствуют ли неопубликованные исследования?

Likelihood Ratios

POSITIVE LIKELIHOOD RATIO

LR+ = Sensitivity / (1 - Specificity)

How much more likely is a + result in sick vs healthy?

NEGATIVE LIKELIHOOD RATIO

LR- = (1 - Sensitivity) / Specificity

How much more likely is a - result in sick vs healthy?

Номограмма Фэгана

От вероятности до теста к вероятности после теста

Pre-Test
Probability

99%

50%

20%

Likelihood
Ratio

100

0.1

0.01

Post-Test
Probability

99%

80%

50%

20%

Draw a line from pre-test through LR to find post-test probability

Interpreting Likelihood Ratios

Насколько силен этот тест?

LR+ Value?

LR+ > 10Strong rule-in

5-10Moderate

2-5Weak

1-2Useless

LR- Value?

< 0.1Strong rule-out

0.1-0.2Moderate

0.2-0.5Weak

0.5-1Useless

«Чувствительность говорит о больных.
Специфика говорит о колодце.
But the likelihood ratio answers:
Что означает этот результат для ЭТОГО пациента?"

=================== МОДУЛЬ 11: БДТ по малярии ===================

Разве ты не видел в деревне ребенка с температурой,
экспресс-тест, который сказал negative,
and the Plasmodium что продолжало размножаться?

Проблема ДЭТ малярии

SUB-SAHARAN AFRICA

Malaria kills 600,000 people yearly, mostly children under 5.

Rapid Diagnostic Tests were meant to guide treatment in remote areas without microscopes or laboratories.

But when parasitemia is low—RDT упускает случаи. And when P. falciparum удаляет ген HRP2 — the RDT sees nothing at all.

WHO. Malaria RDT Performance. 2022

Дерево клинических решений

Child with Fever in Malaria-Endemic Area

Febrile Child

↓

Perform RDT

↓

RDT Positive

↓

Лечение малярии

RDT Negative

↓

Clinical Suspicion?

High

Treat Anywayor Microscopy

Low

Look forOther Cause

Sensitivity Varies by Parasitemia

95%

High parasitemia
(>200/μL)

75%

Low parasitemia
(100-200/μL)

50%

Very low
(<100/μL)

КЛИНИЧЕСКИЙ УРОК

A negative RDT does not rule out malaria in endemic areas. Clinical judgment must override the test when suspicion is high.

«И тест показал отрицательный результат».
и ребенка отправили домой,
и паразиты множились в темноте,
и к утру ребенок не мог проснуться».

==================== МОДУЛЬ 12: БЫСТРЫЕ ТЕСТЫ НА COVID ===================

В год чумы,
миру нужно было испытание, которое было бы fast.

Но быстро – это не то же самое, что accurate.

Когда появится новое поколение тестов с более высокой чувствительностью, станет ли это автоматически лучше?

REAL DATA

Высокочувствительный анализ тропонина (hs-cTn) повышает чувствительность острого инфаркта миокарда примерно с 70% (обычный тропонин на момент презентации) до более чем 95%. But specificity dropped from approximately 95% to around 80% поскольку hs-cTn выявляет повреждение миокарда по многим причинам, не связанным с ИМ (сердечная недостаточность, сепсис, заболевания почек, тромбоэмболия легочной артерии). Чистый клинический эффект потребовал моделирования HSROC в нескольких исследованиях, чтобы понять компромисс.

Смена поколений тропонинов: 2010-е гг.

An emergency department adopts hs-troponin. More patients now test positive, but many do not have acute MI.

PATH A: Adopt Based on Sensitivity Alone

Отпразднуйте тот факт, что уровень выявления ИМ подскочил с 70% до более чем 95%

↓

Увеличение числа ложноположительных результатов приводит к ненужной катетеризации, госпитализации и беспокойству пациентов по поводу несердечного повышения тропонина.

OUTCOME: Overdiagnosis and wasted resources

ПУТЬ Б: Смоделируйте компромисс

Use serial measurements (0h/1h or 0h/3h protocols) and clinical context to maintain specificity

↓

Rapid rule-out algorithms safely discharge low-risk patients; sensitivity remains high while managing the false positive rate

OUTCOME: Faster, safer triage of chest pain

THE REVELATION

Чувствительность и специфичность противоречат друг другу. Новое поколение тестов, повышающее чувствительность, часто снижает специфичность. Кривая HSROC – это инструмент, который показывает, помогает ли чистый компромисс пациентам или вредит им.

Кокрейновский вердикт

COVID-19 Rapid Antigen Tests (Dinnes 2022 Cochrane Review)

Population	Sensitivity	Missed
Symptomatic	73%	27%
Asymptomatic	55%	45%
First 7 days	80%	20%

Dinnes J et al. Cochrane Database Syst Rev. 2022;7:CD013705

The False Security Decision Tree

Thanksgiving 2020: What Happened

Family Member Tests Negative

↓

Truly Negative?

55% if asymptomatic

True NegativeSafe to gather

45% if asymptomatic

FALSE NegativeInfectious!

↓

Собирается с семьейGrandparents infected

«И тест показал отрицательный результат».
и семья обнялась,
и к концу зимы,
дедушку похоронили».

Вы не слышали о показе
который обнаружил рак, который would never kill,
и привело к лечению, которое caused more harm than the disease?

Can you trust a DTA meta-analysis done in a spreadsheet?

REAL DATA

Для метаанализа ДТА требуется двумерная модель или HSROC — обе требуют оценки максимального правдоподобия коррелирующей чувствительности и специфичности по логит-шкале. Исследования показали, что ручные вычисления в Excel часто приводят к ошибкам: знаковое исследование Рейнхарта и Рогоффа (2010, экономика) продемонстрировало, как простая ошибка в электронной таблице привела к глобальным политическим изменениям. В DTA ручное применение логит-преобразований и объединение чувствительности/специфичности отдельно в Excel игнорирует корреляцию между ними и может давать объединенные оценки, которые существенно отличаются от проверенных двумерных моделей в программном обеспечении (R mada/reitsma, Stata metandi, SAS NLMIXED).

Ошибка QUADAS Excel

Исследовательской группе необходима совокупная чувствительность и специфичность для систематического обзора DTA. У них 12 исследований. Один член команды строит модель Excel; другой использует пакет mada R.

ПУТЬ А: Использование электронной таблицы

Pool sensitivity and specificity separately in Excel using simple averages or fixed-effect formulas

↓

Игнорирует корреляцию между чувствительностью и специфичностью; составные ошибки логит-преобразования; объединенная чувствительность снижена примерно на 12 процентных пунктов

OUTCOME: Wrong numbers published; clinical guidelines misled

PATH B: Use Validated Software

Используйте R (mada/reitsma), Stata (metandi) или SAS (NLMIXED) с двумерной моделью.

↓

Правильный двумерный GLMM учитывает компромисс между чувствительностью и специфичностью, создает действительные доверительные области и обрабатывает неоднородность между исследованиями.

OUTCOME: Reproducible, auditable, correct results

THE REVELATION

Мета-анализ ДТА – это не просто объединение данных. Двумерный характер данных (парная чувствительность и специфичность) требует специального статистического программного обеспечения. Ошибка в электронной таблице — это не просто неудобство — она может изменить клиническую практику.

Проблема гипердиагностики

3-4

Lives saved
per 10,000 screened

50-130

Overdiagnosed
(treated unnecessarily)

~500

False alarms
(anxiety, biopsies)

THE QUESTION

Чтобы спасти 3–4 жизни, примерно 50–130 женщин проходят операцию, лучевую или химиотерапию по поводу рака, который никогда бы им не причинил вреда.

Стоит ли этот компромисс того?

Patient Decision Aid: Mammography

Если 10 000 женщин в возрасте 50–69 лет будут проходить обследование в течение 10 лет

Deaths from breast cancer prevented

3-4 women

Women called back for false alarms

~500 women

Unnecessary biopsies

~200 women

Женщины лечатся от рака, который никогда им не причинит вреда

~15 women

Подходит ли вам скрининг?

The Screening Cascade Decision Tree

10 000 женщин прошли скрининг за 10 лет

10,000 Women

↓

~1,000 RecalledAbnormal

↓

~500 False
Alarm

~500 Biopsy
~50 cancer

~9,000 Cleared

Of ~50 Cancers Found

~35 Would Kill3-4 saved

~15 Would Never KillOverdiagnosed

«И испытание нашло тень,
и назвал это раком,
и женщина была изрезана и сожжена —
из-за тени, которая никогда бы не омрачила ее дней."

==================== МОДУЛЬ 14: АМИЛОИД АЛЬЦГЕЙМЕРА ===================

Вы не слышали о сканировании?
который находит бляшки в мозгу,
но не могу сказать тебе
если разум будет fade?

Амилоидный парадокс

ALZHEIMER'S RESEARCH, 2010s-2020s

PET scans can now detect amyloid plaques—the hallmark of Alzheimer's.

But 30% of cognitively normal elderly have amyloid plaques. They may never develop dementia.

And 10-20% людей с деменцией have no amyloid.

Тест находит бляшки. Но бляшки – это не болезнь. Мы тестируем суррогатную мать, а не результат.

Jack CR et al. Lancet Neurol. 2018;17:760-773

Surrogate vs. Outcome Decision Tree

Что мы на самом деле тестируем?

Diagnostic Test

↓

What Does It Detect?

Outcome itself

Direct Diagnosisнапример, биопсия при раке

↓

High clinical value

Surrogate marker

Indirect Signalнапример, амилоид при деменции

↓

Validated link?

YesUse cautiously

NoLimited value

«И сканирование обнаружило бляшки,
и доктор назвал это болезнью Альцгеймера,
и пациент жил в ужасе...
of a forgetting that might never come."

=================== МОДУЛЬ 15: QUADAS-2 КАЧЕСТВО ===================

Не все исследования одинаковы.

Some are biased.
Some are poorly designed.
Некоторые не должны быть trusted.

Как нам отделить зерна от плевел?

Что, если большинство исследований DTA даже не предоставляют достаточно информации, чтобы судить об их качестве?

REAL DATA

До того, как инициатива STARD была опубликована в 2003 году, систематическая оценка показала, что менее half В исследованиях DTA сообщалось, что интерпретация индексных тестов была слепой, а описания эталонных стандартов часто были неадекватными. После STARD отчетность улучшилась: многочисленные метаэпидемиологические оценки показали, что соблюдение требований STARD существенно возросло, хотя во многих исследованиях по-прежнему не хватало ключевых моментов, таких как блок-схемы и обработка неопределенных результатов.

СТАРД-революция: 2003 г.

Команда завершает исследование DTA нового теста на месте оказания медицинской помощи. Они стремятся быстро опубликоваться. У них есть данные 2х2, но они не задокументировали слепое исследование, поток пациентов или неопределенные результаты.

PATH A: Publish Quickly

Отправьте заявку без блок-схемы STARD или полного отчета о методах.

↓

Читатели не могут оценить ослепление, спектр пациентов или проверку. Оценка QUADAS-2 оценивает каждый домен как «неясный». Исследование может быть исключено из будущих систематических обзоров или, что еще хуже, включено в него с завышенным весом.

OUTCOME: Waste of research; uninterpretable results

PATH B: Follow STARD Guidelines

Заполните контрольный список STARD, создайте схему потока пациентов, сообщите о неопределенных результатах и опишите маскировку.

↓

Рецензенты могут полностью оценить качество. Домены QUADAS-2 несут ответственность. Исследование вносит значимый вклад в систематические обзоры и клинические рекомендации.

РЕЗУЛЬТАТ: Надежные доказательства, способствующие улучшению ухода

THE REVELATION

Вы не можете оценить качество, если в исследовании не описаны его методы. STARD гарантирует, что исследования DTA достаточно полны, чтобы их можно было оценить с помощью QUADAS-2. Неполная отчетность не является нейтральной — она скрывает предвзятость.

QUADAS-2: Контрольный список качества

Four Domains of Risk of Bias

Patient Selection

Была ли отобрана последовательная или случайная выборка? Избегали ли схемы «случай-контроль»?

Index Test

Был ли тест интерпретирован без знания эталонного стандарта? Был ли порог установлен заранее?

Reference Standard

Может ли эталонный стандарт правильно классифицировать это состояние? Было ли это интерпретировано вслепую?

Поток и время

Был ли соответствующий интервал между тестами? Все ли пациенты получали один и тот же эталонный стандарт?

QUADAS-2 Decision Tree

Стоит ли доверять этому исследованию?

DTA Study

↓

Check All 4 Domains

All Low Risk

High QualityTrust results

Some Unclear

ModerateИспользуйте с осторожностью

Any High Risk

Low QualityРезультаты могут быть предвзятыми

Распространенные ошибки в исследованиях DTA

Verification Bias

Only positive tests get the reference standard → inflates sensitivity

Spectrum Bias

Исследуемая популяция отличается от клинической реальности → результаты не обобщают

Incorporation Bias

Index test is part of reference standard → artificially high accuracy

Review Bias

Index test interpreted knowing reference result → inflates both metrics

«Прежде чем доверять цифрам,
ask: How were they gathered?
Предвзятое исследование говорит с уверенностью:
but its confidence is a lie."

=================== МОДУЛЬ 16: МЕТА-АНАЛИЗ И SROC ===================

Одно исследование может обмануть.
Одно исследование может польстить.

Но когда вы соберете все доказательства—
the truth becomes harder to hide.

Что происходит, когда в разных исследованиях используются разные пороговые значения для одного и того же теста, а вы пытаетесь их объединить?

REAL DATA

D-dimer testing for pulmonary embolism (PE) traditionally used a fixed cutoff of 500 µg/L. Исследование ADJUST-PE (Righini et al., JAMA 2014) показало, что пороговое значение с поправкой на возраст (age × 10 µg/L для пациентов старше 50 лет) увеличило долю пожилых пациентов с отрицательными результатами по D-димеру ~6% to ~30%, с 3-месячным риском ВТЭ всего 0,3% в скорректированной по возрасту отрицательной группе. Мета-анализ DTA исследований D-димера должен использовать двумерную модель, поскольку разные пороговые значения создают компромисс между чувствительностью и специфичностью, видимый на кривой SROC.

The D-dimer Threshold Dilemma: ADJUST-PE 2014

Пожилой пациент (75 лет) поступил в отделение неотложной помощи с возможной ТЭЛА. D-димер составляет 620 мкг/л. При использовании фиксированного порога это положительный результат. Если использовать пороговое значение, скорректированное по возрасту (750 мкг/л), это отрицательный результат.

PATH A: Use Fixed Cutoff (500 µg/L)

Apply one threshold to all patients regardless of age

↓

У пожилых пациентов уровень почти всегда превышает 500 мкг/л. Специфичность падает ниже 10% у людей старше 80 лет. Почти каждому пожилому пациенту проводится КТ-ангиограмма легких с контрастным веществом, облучением и случайными находками.

OUTCOME: D-dimer becomes useless in the elderly

PATH B: Use Bivariate Model with Threshold Covariate

Примените пороговое значение с поправкой на возраст; изменение порога модели в метаанализе

↓

Кривая SROC показывает, что пороговые значения с поправкой на возраст движутся вдоль кривой, меняя небольшую чувствительность на значительный выигрыш в специфичности. На 30% больше пожилых пациентов безопасно избегают компьютерной томографии.

OUTCOME: Fewer unnecessary scans; no missed PEs

THE REVELATION

Пороговая вариация является причиной того, что для метаанализа ДТА необходима двумерная модель. В разных исследованиях используются разные пороговые значения, создавая компромисс между чувствительностью и специфичностью. Кривая SROC — это карта этого компромисса.

Why DTA Meta-Analysis Is Different

THE PROBLEM

Чувствительность и специфичность correlated. When one goes up, the other tends to go down.

Вы не можете объединить их отдельно, как эффекты лечения. Вам нужно bivariate model.

Кривая SROC

Summary Receiver Operating Characteristic

Sensitivity

1 - Specificity (False Positive Rate)

Individual studies

Summary estimate

Чтение СРОК

Что говорит вам кривая?

SROC Curve Position

↓

Top-Left Corner

Excellent TestHigh sens + spec

Near Diagonal

Useless TestNo better than chance

Points Scattered

High HeterogeneityInvestigate sources

«Одно исследование может обмануть.
Многие исследования, взвешенные вместе,
проследить путь истины —
кривая SROC, которая показывает, на что действительно способен тест».

Но что, если исследования disagree?

One says sensitivity is 95%.
Another says 60%.

В какую истину вы верите?

Что, если тест хорошо работает в общей популяции, но не работает у пациентов, которые в нем больше всего нуждаются?

REAL DATA

HRP2-based malaria rapid diagnostic tests (RDTs) achieve sensitivity of approximately 95% in the general population in endemic areas. However, in pregnant women, sensitivity can drop to as low as 56-76% из-за плацентарной секвестрации паразитов - паразиты прячутся в плаценте, сохраняя паразитемию периферической крови на низком уровне и ниже порога обнаружения при помощи БДТ. Кокрейновский обзор БДТ по малярии выявил существенную гетерогенность (I² часто превышает 80%), обусловленную подгруппами населения, включая беременность, детей до 5 лет и коинфекцию ВИЧ.

РДЭ по малярии во время беременности

Мета-анализ объединяет 25 исследований БДТ по малярии и сообщает о совокупной чувствительности 93%. Врач женской консультации использует это, чтобы успокоить беременную женщину с отрицательным результатом ДЭТ.

PATH A: Trust the Overall Pooled Estimate

Примените чувствительность 93% из метаанализа общей популяции.

↓

У беременных истинная чувствительность может составлять всего 56–76%. Значительная часть инфицированных беременных женщин получает ложные заверения. Нелеченая малярия во время беременности вызывает тяжелую анемию у матери, низкий вес при рождении и мертворождение.

OUTCOME: Preventable maternal and neonatal deaths

PATH B: Investigate Heterogeneity by Subgroup

Провести метаанализ подгруппы беременных женщин; изучить I² и источники вариаций

↓

Откройте для себя, что беременность является основным источником неоднородности. Рекомендовать подтверждение с помощью микроскопии для всех беременных женщин с отрицательными результатами ДЭТ в эндемичных районах.

OUTCOME: Targeted protocols save mothers and babies

THE REVELATION

Неоднородность – это не просто статистический шум. Это часто означает, что тест работает по-разному в разных группах населения. Игнорирование I² и объединение всех данных вместе может оказаться фатальным для уязвимых подгрупп.

Sources of Heterogeneity

Почему исследования расходятся во мнениях

Один и тот же тест, разные результаты?

ThresholdDifferent cutoffs

PopulationSeverity, age

SettingPrimary vs specialist

QualityBias, blinding

Measuring Disagreement: I²

I² < 25%

Low
Studies agree

I² 25-75%

Moderate
Some variation

I² > 75%

High
Major disagreement

THE WARNING

When I² > 75%, the pooled estimate may be meaningless. Explain the disagreement before averaging.

«Когда исследования расходятся во мнениях,
не подавляйте инакомыслие.
Ask: Why do they see differently?
Само разногласие учит».

==================== МОДУЛЬ 18: ИНСТРУМЕНТАРИЙ ===================

Ваш набор инструментов DTA

Основные меры и когда их использовать

Когда ИИ утверждает, что диагностирует лучше, чем врачи, следует ли доверять общей AUC?

REAL DATA

Deep learning models for skin cancer detection have reported AUC values as high as 0.91-0.94 in development datasets. However, external validation revealed alarming disparities: Daneshjou et al. (2022, Nature Medicine) обнаружила, что коммерческие дерматологические инструменты ИИ работают на почти случайных уровнях на более темной коже (типы Фитцпатрика V-VI) с низкой AUC as 0.50-0.57 — по сути случайный. Наборы обучающих данных были сильно смещены в сторону более светлых тонов кожи, а это означает, что таблица 2x2 никогда не заполнялась должным образом для всех групп населения.

Обещание искусственного интеллекта в дерматологии: 2020-е годы

Больница рассматривает возможность использования искусственного интеллекта для скрининга рака кожи в дерматологической клинике, обслуживающей разнообразное городское население. Производитель сообщает о AUC 0,94.

PATH A: Deploy Based on Overall AUC

Доверьтесь заголовку AUC, равному 0,94, и используйте его для всех пациентов

↓

Меланомы на более темной коже пропускаются чаще. Общий показатель чувствительности скрывает опасный разрыв. Больше всего ИИ не справляется с пациентами с самой высокой смертностью от поздней диагностики.

OUTCOME: Health disparity amplified by technology

PATH B: Demand Fairness-Stratified Evaluation

Требуется чувствительность и специфичность с разбивкой по тону кожи (шкала Фитцпатрика), возрасту и местоположению поражения

↓

Обнаружьте разрыв в производительности. Требуйте переобучения на различных наборах данных или ограничивайте использование проверенными группами населения. Сочетайте искусственный интеллект с контролем дерматологов для недостаточно представленных групп.

OUTCOME: Equitable deployment; no one left behind

THE REVELATION

Одно число AUC может скрыть опасные различия. Новые диагностические инструменты на основе искусственного интеллекта должны оцениваться с той же строгостью, что и любой диагностический тест: стратифицироваться по группам населения, проверяться извне и соответствовать стандартам STARD и QUADAS-2.

The Checklist

✓

Was there a valid reference standard?

Gold standard applied to ALL patients?

✓

Были ли переводчики ослеплены?

Test readers unaware of diagnosis?

✓

Был ли спектр подходящим?

Пациенты, похожие на вашу популяцию?

✓

Был ли порог установлен заранее?

Или выбрано для максимизации результатов?

When Results Don't Match Suspicion

The Clinical Override Decision Tree

Test Negative, High Suspicion

↓

What Is the LR-?

LR- < 0.1

Strong rule-outAccept negative

LR- 0.1-0.5

Repeat testOr different test

LR- > 0.5

Trust judgmentTest is weak

Sequential Testing Decision Tree

When One Test Isn't Enough

Initial Screening Test

↓

Positive

↓

Confirmatory TestHigh specificity

↓

PositiveDiagnose

NegativeFalse alarm

Negative

↓

Likely negativeIf high sens screen

"Armed with sensitivity, specificity, likelihood,
на вооружении СРОК и меры согласия,
ты можешь видеть сквозь ложь теста —
и судите об истинности этого сами».

=================== МОДУЛЬ 19: ОШИБКИ ПЕРЕЛИВАНИЯ КРОВИ ===================

Разве вы не слышали о пациенте
кто получил wrong blood,
не потому, что тест был неправильным,
but because no one performed it?

Тест, который не был проведен

HOSPITALS WORLDWIDE

ABO blood typing is nearly 100% accurate when performed.

Yet transfusion reactions still kill— не из-за провала теста, а из-за human failure:

• Wrong blood drawn from wrong patient
• Метки заменены в лаборатории
• Bedside check skipped in emergency

In the UK, 1 in 13,000 transfusions попадает не к тому пациенту. Тест сработал. Система потерпела неудачу.

Bolton-Maggs PHB. Transfus Med. 2016;26:303-311

Test vs. System Decision Tree

Where Can Things Go Wrong?

Diagnostic Process

↓

Error Source?

Test itself

Analytical ErrorSens/Spec issue

↓

Better test needed

Pre-analytical

Wrong sampleID error

↓

System fix needed

Post-analytical

Wrong actionReporting error

↓

Process fix needed

"The perfect test means nothing
Если взята не та кровь,
применена неправильная этикетка,
висит не та сумка».

Исследования DTA измеряют точность тестов. Они не измеряют точность системы.

================== МОДУЛЬ 20: ВИКТОРИНА И ССЫЛКИ ====================

References

Key Sources

Carreyrou J. Bad Blood. Knopf, 2018. [Theranos]
CDC. MMWR. 1987;36(49):833-840. [HIV blood supply]
Herbst AL et al. N Engl J Med. 1971;284:878-881. [DES]
Moyer VA. Ann Intern Med. 2012;157:120-134. [PSA]
Pope JH et al. N Engl J Med. 2000;342:1163-1170. [Troponin]
Steingart KR et al. Cochrane 2014;1:CD009593. [GeneXpert]
Dinnes J et al. Cochrane 2022;7:CD013705. [COVID RAT]
UK Panel. Lancet. 2012;380:1778-1786. [Mammography]
Jack CR et al. Lancet Neurol. 2018;17:760-773. [Amyloid]
WHO. Malaria RDT Performance. 2022.
Reitsma JB et al. J Clin Epidemiol. 2005;58:982-990. [Bivariate]
Whiting PF et al. Ann Intern Med. 2011;155:529-536. [QUADAS-2]
Bolton-Maggs PHB. Transfus Med. 2016;26:303-311.

Тест имеет 99% чувствительности и 99% специфичности. Распространенность заболевания составляет 1/1000. У пациента тест положительный. Какова вероятность того, что у них есть это заболевание?

99%

90%

About 9%

50%

What does "SnNout" mean?

A highly Sensitive test, when Negative, rules OUT disease

A highly Specific test, when Negative, rules OUT disease

Sensitivity should be used for screening

Specificity should be above 90%

Почему, несмотря на тестирование, кровоснабжение оказалось зараженным ВИЧ?

The tests had low specificity

Tests had a window period with zero sensitivity in early infection

Тесты проводились неправильно

Тесты были слишком дорогими

Какой домен QUADAS-2 оценивает, был ли тест интерпретирован без знания диагноз?

Patient Selection

Index Test

Reference Standard

Поток и время

✔

Course Complete

"Теперь вы знаете четыре результата,
два достоинства теста,
ошибка базы скорость,
искусство объединения доказательств,
и предубеждения, скрывающие правду.

Когда следующий тест лжет вам —
вы узнаете."

1 / 4