Обращение доказательств: курс метаанализа

Модуль 0: Открытие

Не каждый сигнал является правдой.

Модуль 0: Открытие

🎯 Learning Objectives

Дать определение метаанализу и объяснить его роль в синтезе доказательств.
Определите, когда исследования НЕ следует объединять
Опишите иерархию доказательств и место проведения систематических обзоров.
Recognize that meta-analysis can mislead when done poorly
Вспомните семь принципов, лежащих в основе этого курса.

Этот курс существует, потому что

медицина ошиблась.

Ни разу. Не редко. Неоднократно. Такими способами, которые убивали пациентов, которые верили в достоверность доказательств.

What is Meta-Analysis?

Статистический метод объединения результатов нескольких независимых исследований, посвященных одному и тому же вопросу.

1976

Term coined by Gene Glass

~50,000

Published per year

Evidence hierarchy*

*When well conducted. Quality of conduct matters more than study design alone — as GRADE recognizes.

Почему бассейновые исследования?

Increase Statistical Power

Individual studies may be too small to detect effects.

Improve Precision

Narrower confidence intervals around effect estimates.

Resolve Disagreement

Когда исследования конфликтуют, объединение может прояснить сигнал.

Explore Heterogeneity

Identify why effects differ across populations or settings.

But meta-analysis can also

MISLEAD

When done poorly, it amplifies bias rather than truth.

Когда НЕ объединяться в пул

Исследования измеряют принципиально разные вещи (яблоки и апельсины)

Extreme heterogeneity that cannot be explained

One study dominates all others (megastudy problem)

Исследования имеют высокий риск предвзятости, которую невозможно скорректировать с учетом

Объединение в пулы — это привилегия, а не право.

The decision to combine must be defended.

Иерархия доказательств

Systematic Reviews & Meta-Analyses of RCTs

Randomized Controlled Trials

Cohort Studies

Case-Control Studies

Case Series / Expert Opinion

Положение в иерархии зависит от качества методологии, а не только от типа исследования.

Этот курс преподает через

evidence reversals.

Каждый модуль открывается рассказом о том, как медицина ошиблась. Затем мы изучаем метод, который позволил бы предотвратить вред.

Семь принципов

Эти фразы будут возвращаться на протяжении всего вашего путешествия:

1. «Не каждый сигнал является правдой».

2. «Методы защищают пациентов от нашего доверия».

3. "What was hidden in plain sight?"

4. «Число без происхождения — не число».

5. «Неоднородность — это сообщение, а не шум».

6. «Отсутствие доказательств не является доказательством отсутствия».

7. "Certainty must be earned, not assumed."

Module 0 Quiz

1. Почему иногда НЕ следует объединять исследования в метаанализ?

A. Pooling is always better than single studies

B. When heterogeneity is extreme or studies measure different things

C. Pooling is always appropriate for RCTs

D. Statistical methods handle any situation

2. Какое место в иерархии доказательств занимают систематические обзоры РКИ?

A. At the top

B. Same level as individual RCTs

C. Ниже когортных исследований

D. Same as expert opinion

Начните путешествие.

Модуль 1: Вопрос

Модуль 1: Вопрос (CAST)

Не каждый сигнал является правдой.

Это не история об ошибке.

Это история об уверенности.

Модуль 1: Вопрос

🎯 Learning Objectives

Сформулируйте конкретный вопрос PICO для систематического обзора.
Distinguish surrogate outcomes from patient-important outcomes
Explain why biological plausibility alone is insufficient evidence
Описать исследование CAST и его значение для доказательной медицины.
Применяйте принцип: «Не всякий яркий знак является руководством»

~9,000

excess deaths per year

From a treatment everyone believed worked.

Это история о том, как мы верили – и как мы ошибались.

The Observation

Patients with frequent PVCs after MI had 2-5x higher mortality.

400,000+

MI survivors/year

~40%

со значительными ЖЭ

160,000

at elevated risk

A massive clinical need. A clear target.

The Response

Antiarrhythmic drugs were developed, FDA approved,
and prescribed to ~200,000 patients per year.

В этой истории не фигурирует ни один злодей.

Все действовали на основании имеющихся доказательств.

Логика, которая убедила всех

PREMISE 1

PVCs after MI predict sudden cardiac death

↓

PREMISE 2

Antiarrhythmic drugs suppress PVCs

↓

PREMISE 3

Suppressing PVCs should prevent sudden death

↓

CONCLUSION

Antiarrhythmics save lives in post-MI patients

Цепочка была логичной. Вывод казался неизбежным.

CAST: The Cardiac Arrhythmia Suppression Trial

Finally, someone asked: "Does suppressing PVCs actually save lives?"

Design

Randomized, double-blind, placebo-controlled

Population

Post-MI patients with asymptomatic PVCs

Intervention

Encainide, flecainide, or moricizine vs placebo

Run-in

Only patients with ≥80% PVC suppression randomized

Primary endpoint

Death or cardiac arrest with resuscitation

Sample size

1,498 patients (encainide/flecainide arms)

Результаты: апрель 1989 г.

Совет по мониторингу безопасности данных досрочно прекращает судебное разбирательство.

Outcome	Drug (n=755)	Placebo (n=743)
Arrhythmic deaths	33	9
All cardiac deaths	43	16
Total deaths	56	22
Death rate	7.4%	3.0%

Relative Risk of Death: 2.5

95% CI: 1.6 - 4.5 | p < 0.001

Препараты, прекрасно подавлявшие аритмии, повышали смертность на 150%.

Человеческая цена

Before CAST, ~200,000 Americans per year received these drugs.

~9,000

excess deaths per year - possibly more

Vietnam War: ~6,000 US deaths/year • These drugs: ~9,000+ deaths/year

For every number, a name we will never know.

Look again.

Логика - Возвращение

PREMISE 1

PVCs after MI predict sudden cardiac death

↓

PREMISE 2

Antiarrhythmic drugs suppress PVCs

← THE LEAP

↓

PREMISE 3

Suppressing PVCs should prevent sudden death

↓

CONCLUSION

Antiarrhythmics save lives in post-MI patients

Предположение о том, что подавление маркера исправит результат, никогда не проверялось.

What Went Wrong: The Surrogate Trap

ЖЭ были маркером поврежденной ткани, а не причиной смерти

The drugs had proarrhythmic effects - triggering deadlier rhythms

Суррогатная мать улучшилась, а исход ухудшился - диссоциированный суррогат

Суррогатная мать не лгала. Мы задали неправильный вопрос.

Структура PICO

Every answerable clinical question has four components:

P - POPULATION

Кто пациенты? Каковы их характеристики?

I - INTERVENTION

What treatment or exposure is being evaluated?

C - COMPARATOR

What is the alternative? Placebo? Standard care?

O - OUTCOME

What matters to patients? Hard endpoints vs surrogates.

CAST PICO

Post-MI patients with PVCs | Antiarrhythmics | Placebo | Mortality

🔍

Исследовательское упражнение: доказательства до CAST

Вы работаете кардиологом в 1988 году. Пациент пережил ИМ, но у него часты ЖЭ. Данные наблюдательной литературы ясны...

Study	Пациенты с ЖЭ	Mortality Risk
Lown (1977)	High-grade PVCs	2.4x higher
Bigger (1984)	>10 PVCs/hour	3.1x higher
Mukharji (1984)	Complex PVCs	4.8x higher

Сигнал четкий. Механизм правдоподобен. Вы бы прописали антиаритмические препараты?

Before: Observational Logic

PVCs → Higher mortality

Drugs suppress PVCs

∴ Drugs should reduce mortality

After: CAST RCT (1989)

Death rate on drug: 7.4%

Death rate on placebo: 3.0%

RR = 2.5 (150% increase in deaths)

Суррогатная мать улучшилась. Больные умерли. Вот почему мы спрашиваем: «Какой результат имеет значение?»

Уроки синтеза доказательств

Биологическое правдоподобие не является доказательством

A logical mechanism doesn't guarantee the expected effect.

Surrogate endpoints can mislead

Improving a biomarker doesn't prove improvement in outcomes.

Рандомизированные исследования предоставляют самые убедительные причинно-следственные доказательства

Только данные наблюдений редко устанавливает причинно-следственную связь для вмешательства из-за смешивания факторов.

Консенсус не является доказательством

200 000 рецептов, одобрение FDA и рекомендации были неправильными.

This is why we do meta-analysis: to see past apparent truths.

ИСТОРИЯ: Суррогат DES-II Трагедия

Что, если вопрос, который вы задаете, определяет, кто выживет, а кто умрет?

REAL DATA

В 1989 году кардиологи знали, что подавление ПВХ достижимо с помощью энкаинида и флекаинида. Суррогатный конечный результат выглядел идеально: лекарства подавляли ЖЭ на 80%+. But CAST randomized 1,498 patients активное лекарство по сравнению с плацебо. Исследование было остановлено досрочно: 56 deaths in the drug group vs 22 in placebo. Mortality increased 2.5-fold. An estimated ~9,000 excess American deaths per year было связано с этими препаратами.

Выбор кардиолога: 1987

У вашего пациента после ИМ часто наблюдаются ЖЭ. У вас есть лекарства, которые полностью их подавляют. Что вы делаете?

ПУТЬ A: Лечите суррогатную мать

Prescribe encainide — PVCs vanish, the ECG looks clean

↓

Биомаркер улучшается. Вы чувствуете себя уверенно. Пациент умирает.

OUTCOME: An estimated 50,000+ excess deaths across the US during years of use

PATH B: Demand a Mortality Trial

Настаивайте: «Покажите мне, что выживаемость улучшается, а не только ЭКГ»

↓

Исследование выявило вред. Препараты отменяются. Жизни спасены.

РЕЗУЛЬТАТ: Правильный вопрос PICO предотвращает катастрофу

THE REVELATION

Вопрос никогда не был «Можем ли мы подавить ЖЭ?» Это было «Спасает ли подавление ПВХ жизни?» Суррогатная конечная точка ответила не на тот вопрос. Правильный PICO с самого начала потребовал бы смертность как исход.

What appears certain may be wrong.

What everyone believes may be false.

Существуют методы, позволяющие пациентам не платить за наше доверие.

Вот почему вы здесь.

Module 1 Quiz

1. В чем заключалась фундаментальная ошибка антиаритмической логики?

A. Испытания не были рандомизированными

B. Treating a surrogate (PVCs) was assumed to improve outcomes

C. Размер выборки был слишком мал

D. Одобрение FDA было поспешным

2. Что означает буква «О» в PICO и почему она имеет значение?

A. Observation - what researchers see

B. Цель – цель исследования

C. Outcome - what matters to patients

D. Организация – структура исследования

Не каждый сигнал является правдой.

Методы защищают пациентов от нашего доверия.

Модуль 2: Протокол (HRT)

What was hidden in plain sight?

Это история о

observational evidence.

Модуль 2: Протокол

🎯 Learning Objectives

Explain why protocol pre-registration prevents bias
Identify key elements of a PROSPERO registration
Distinguish healthy user bias from true treatment effects
Describe why observational studies overestimated HRT benefits
Применяйте принцип: «Методы защищают пациентов от нашего доверия»

30+

observational studies

All showing hormone replacement therapy protected postmenopausal women from heart disease.

Доказательства казались неопровержимыми. Вывод казался однозначным.

Исследование здоровья медсестер

122,000 nurses followed for decades. HRT users had 40-50% lower cardiovascular mortality.

RR 0.56

Cardiovascular mortality

122,000

Women followed

20+ years

Follow-up

Landmark study. Impeccable methodology. Wrong conclusion.

Скрытая предвзятость

Healthy User Bias: Women who chose HRT were healthier, wealthier, better educated

Compliance Bias: Women who took HRT consistently also took better care of themselves

Prescriber Bias: Doctors gave HRT to healthier women with fewer risk factors

Лечение не защищало их. Они уже были защищены.

WHI: The Women's Health Initiative

The largest randomized trial of HRT ever conducted.

Design

Randomized, double-blind, placebo-controlled

Population

Postmenopausal women aged 50-79

Intervention

Estrogen + Progestin vs Placebo

Sample size

16,608 women

Primary endpoint

Coronary heart disease

Planned duration

8.5 years

Результаты: июль 2002 г.

Trial stopped early after 5.2 years. Harm exceeded benefits.

Outcome	Hazard Ratio	Direction
Coronary heart disease	1.29	HARM
Stroke	1.41	HARM
Breast cancer	1.26	HARM
Pulmonary embolism	2.13	HARM

Complete Reversal

30-летние данные наблюдений отменены

The Lesson

PRE-SPECIFY

A protocol written before the search begins prevents fishing, prevents bias, prevents hindsight distortion.

ИСТОРИЯ: Гипотеза гормонального времени

Что, если лечение сработает, но только для некоторых?

REAL DATA

WHI showed HRT increased cardiovascular events overall. But later analyses revealed a critical pattern: women who started HRT within 10 years of menopause had REDUCED cardiovascular risk. Women starting 20+ years after menopause had INCREASED risk. The overall null/harm result hid a timing effect.

Дилемма аналитика

Вы анализируете подгруппы WHI. Общий результат показывает вред. Вы копаете глубже?

PATH A: Report Overall Only

Conclude HRT is harmful for all postmenopausal women

↓

Simple message. Guidelines recommend against HRT universally.

OUTCOME: Deny potential benefit to younger menopausal women

PATH B: Pre-Specify Timing Subgroups

Analyze by years since menopause (biologically plausible)

↓

Откройте для себя «временное окно» для безопасного начала ЗГТ.

OUTCOME: Enable personalized recommendations

THE REVELATION

Анализ подгрупп опасен при ловле. Это важно, когда биология предсказывает изменение эффекта. Гипотеза о времени была биологически правдоподобной и должна была быть заранее определена.

PROSPERO Registration

Зарегистрируйтесь, прежде чем искать

PROSPERO: International prospective register of systematic reviews

Заблокируйте свои решения

PICO, search strategy, outcomes, analysis plan - all pre-specified

Document Amendments

Изменения разрешены, но должны быть прозрачными и обоснованными.

Prevent Duplication

Прежде чем начать, проверьте, существует ли ваш отзыв.

Module 2 Quiz

1. Почему исследование здоровья медсестер показало пользу от ЗГТ, а WHI – нет?

A. Nurses' Health had too few patients

B. Healthy user bias in observational studies

C. Nurses' Health had shorter follow-up

D. Different hormone formulations were used

2. What is the primary purpose of PROSPERO registration?

A. To register clinical trials

B. Чтобы ускорить завершение проверки

C. Предварительное определение методов и предотвращение предвзятости

D. Чтобы получить финансирование на обзоры

Предварительное уточнение – это не бюрократия.

It is protection.

Against our own tendency to find what we expect.

Методы защищают пациентов от нашего доверия.

What was hidden in plain sight?

Модуль 3: Поиск

Модуль 3: Поиск (Росиглитазон)

What was hidden in plain sight?

Это история о

what they didn't publish.

Модуль 3: Поиск

🎯 Learning Objectives

Develop a comprehensive search strategy using PRESS guidelines
Search multiple databases including grey literature sources
Identify trial registries and regulatory databases (ClinicalTrials.gov, FDA)
Explain how the rosiglitazone case exposed hidden cardiovascular harms
Примените принцип: «Что было скрыто на виду?»

$3.2B

annual sales at peak

Авандия (росиглитазон) была одним из самых продаваемых в мире лекарств от диабета.

Опубликованные испытания выглядели обнадеживающими. Неопубликованные материалы рассказывали другую историю.

Опубликованные доказательства (до 2007 г.)

Published trials showed rosiglitazone effectively lowered HbA1c. Cardiovascular outcomes were rarely reported.

1999

FDA approval

6M+

Patients treated

~0.7%

HbA1c reduction

Суррогатная мать выглядела хорошо. Но как насчет реальных сердечно-сосудистых событий?

Nissen's Discovery: May 2007

Доктор Стивен Ниссен получил неопубликованные данные испытаний с собственного сайта GSK.

В соответствии с юридическим соглашением компания GSK была обязана опубликовать результаты клинических испытаний в Интернете. Ниссен и Вольски проанализировали 42 исследования, многие из которых никогда не публиковались в журналах.

Данные были технически общедоступными.

No one had systematically searched for it.

Результаты метаанализа

Outcome	Odds Ratio	95% CI
Myocardial Infarction	1.43	1.03 - 1.98
CV Death	1.64	0.98 - 2.74

43% Increased Risk of Heart Attack

р = 0,03 для инфаркта миокарда

Published in NEJM. The FDA called an emergency advisory committee meeting.

The FDA Advisory Committee: July 2007

22-1

Voted: CV risk exists

20-3

Оставайтесь на рынке с предупреждениями

Комитет разделился. Некоторые хотели его отозвать. Некоторые назвали метаанализ ошибочным.

Но сигнал нельзя было не заметить.

The Aftermath

Black box warning added for heart failure risk (2007)

Severe restrictions on prescribing in the US (2010)

Withdrawn полностью с европейского рынка (2010 г.)

FDA now requires cardiovascular outcome trials for all diabetes drugs

What a Comprehensive Search Requires

PUBLISHED

PubMed, Embase, CENTRAL, Web of Science

GREY LITERATURE

Conference abstracts, dissertations, regulatory docs

TRIAL REGISTRIES

ClinicalTrials.gov, WHO ICTRP, EU CTR

REGULATORY

FDA, EMA, Health Canada submissions

COMPANY DATA

GSK, Pfizer, Roche clinical trial registries

HAND SEARCH

Reference lists, contact authors, experts

Контрольный список для прессы

Peer Review of Electronic Search Strategies

Перевод исследовательского вопроса

Отражает ли поиск PICO элементы?

Булевы операторы и операторы близости

Правильно ли используются И, ИЛИ, НЕ?

Subject Headings

Подходят ли термины MeSH/Emtree и развернуты ли они?

Text Words

Synonyms, spelling variants, truncation?

PRESS Checklist (continued)

Spelling, Syntax, Line Numbers

Есть ли ошибки, которые могут привести к извлечению сбои?

Ограничения и фильтры

Соответствуют ли дата, язык, ограничения дизайна исследования?

Peer-reviewed searches substantially improve retrieval of key studies.

PRESS guideline: McGowan et al., 2016

Database Translation

Один и тот же поиск должен быть адаптирован для каждой базы данных:

PubMed

"diabetes mellitus, type 2"[MeSH] OR "type 2 diabetes"[tiab]

Embase

'non insulin dependent diabetes mellitus'/exp OR 'type 2 diabetes':ti,ab

Subject headings, field tags, and operators differ between databases.

ИСТОРИЯ: Прозрачность Тамифлю Кампания

Что происходит, когда вы ищете и ничего не находите?

REAL DATA

Governments stockpiled $9 billion осельтамивира (Тамифлю) для лечения пандемического гриппа. Кокрановское сотрудничество попыталось проанализировать доказательства. Of 77 clinical trials, full reports existed for only 20. «Рош» отказалась предоставить данные для 5 years. Когда BMJ и Кокрейн наконец получили over 160,000 pages of clinical study reports, they found: Tamiflu reduced symptoms by less than 1 day, with no evidence it prevented hospitalizations or complications.

Дилемма рецензента: 2009

Вы обновляете Кокрейновский обзор Тамифлю. Опубликованные исследования выглядят позитивно. Но по 57 испытаниям нет доступных полных отчетов. Чем вы занимаетесь?

PATH A: Analyze What's Published

Use the 20 available trials. Conclude Tamiflu is effective.

↓

Ваш обзор поддерживает дальнейшее накопление запасов. 9 миллиардов долларов потрачено на слабые доказательства.

OUTCOME: Billions wasted, true efficacy unknown

ПУТЬ B: Требование полных данных

Refuse to publish until all trial data is accessible

↓

5-year campaign. 160,000+ pages finally obtained. Truth emerges.

OUTCOME: Evidence policy changed; EMA now publishes all trial reports

THE REVELATION

Поиск хорош настолько, насколько хорошо то, что можно найти. Когда серая литература спрятана за корпоративными стенами, даже самый полный поиск в PubMed упустит истину. Сага о Тамифлю изменила глобальную политику: теперь EMA публикует отчеты о клинических исследованиях всех лекарств.

If Nissen had searched only PubMed,

the signal would have remained hidden.

Comprehensive search is survival.

What was hidden in plain sight?

Module 3 Quiz

1. Какой тип источника данных выявил сердечно-сосудистый сигнал росиглитазона?

A. Published journal articles

B. Cochrane Library

C. Company clinical trial registry

D. FDA approval documents

2. What does PRESS stand for?

A. Обзор публикаций стандартов поиска доказательств

B. Peer Review of Electronic Search Strategies

C. Протокол для отчетности об исследованиях синтеза данных

D. Primary Research Evidence Search System

What was hidden in plain sight?

Модуль 4: Скрининг

Модуль 4: Скрининг (Vioxx)

Количество без происхождения не является числом.

Это история о

what they chose to report.

Модуль 4: Скрининг

🎯 Learning Objectives

Apply PRISMA flow diagram to document study selection
Implement dual-reviewer screening with conflict resolution
Определить выборочную отчетность о результатах и манипулирование данными
Calculate inter-rater reliability (Cohen's kappa)
Применить принцип: «Число без происхождения не является числом»

88,000

heart attacks attributed to Vioxx

A blockbuster drug. A hidden signal. A preventable catastrophe.

Между В 1999 и 2004 годах это обезболивающее принимали миллионы. Некоторые так и не вернулись домой.

Расцвет Vioxx

Рофекоксиб (Vioxx) был селективным НПВП ЦОГ-2. Рекламируется как более безопасный для желудка, чем традиционные обезболивающие.

1999

FDA approval

$2.5B

Peak annual sales

80M+

Patients prescribed

Испытание VIGOR (2000)

Vioxx Gastrointestinal Outcomes Research

Design

Randomized, double-blind

Comparison

Vioxx vs Naproxen

Population

Rheumatoid arthritis

Sample

8,076 patients

Primary Outcome

GI events

Published

NEJM, November 2000

What VIGOR Published

GI Outcome	Vioxx	Naproxen
Confirmed GI events	2.1 per 100 pt-yrs	4.5 per 100 pt-yrs
Reduction	54% fewer GI events

Заголовок: Vioxx безопаснее для желудка!

Так сказали врачи. Это то, во что верили пациенты.

What VIGOR Buried

CV Outcome	Vioxx	Naproxen
Myocardial Infarction	20 events	4 events
Relative Risk	5x higher in Vioxx group

5-fold Increase in Heart Attacks

Mentioned only briefly, attributed to naproxen being "cardioprotective"

Выборочное сообщение

Манипулирование данными: 3 additional heart attacks occurred after the cutoff used in publication

Spin: Сигнал сердечно-сосудистых заболеваний объяснялся кардиозащитным действием напроксена (нет доказательств)

Outcome switching: Сердечно-сосудистые события были заранее определены, но не подчеркнуты

Internal knowledge: Электронные письма компании Merck показывают, что они знали об этом сигнале

Испытание APPROVe (2004 г.)

Испытание по профилактике колоректальных полипов - остановлено досрочно из соображений безопасности.

RR 1.92

CV events vs placebo

Sept 2004

Vioxx withdrawn

Four years after VIGOR showed a 5x risk. Four years too late.

ИСТОРИЯ: Дерево принятия решений Vioxx

А вы рассматривали, что происходит, когда сигнал скрывается в шуме?

REAL DATA

Vioxx (рофекоксиб) был одобрен в 1999. By 2004, estimates suggest 88,000-140,000 excess heart attacks and 30,000-40,000 deaths. Merck's own VIGOR trial showed 5x cardiovascular risk in 2000—but it was dismissed as a "naproxen cardioprotective effect."

Развилка на дороге

Вы являетесь рецензентом FDA в 2001 году. Данные VIGOR показывают 5-кратный риск сердечного приступа при приеме Vioxx по сравнению с naproxen.

ПУТЬ A: Примите объяснение

Believe Merck's hypothesis: naproxen is cardioprotective

↓

No additional safety studies required. Drug stays on market at full speed.

РЕЗУЛЬТАТ: более 40 000 смертей за 4 года

ПУТЬ B: Требуйте доказательства

Require a dedicated CV safety trial before continued marketing

↓

Delay or restrict marketing until cardiovascular safety is established.

OUTCOME: Signal detected early, lives saved

THE REVELATION

Сигнал был там в 2000 году. неправильное объяснение задержало действие на 4 года. Альтернативная гипотеза, принятая без доказательств, стоила десятков тысяч жизней.

Блок-схема PRISMA

Every step of screening must be documented and transparent.

Identification

Records from databases + other sources

↓

Screening

Title/abstract review (duplicates removed)

↓

Eligibility

Full-text assessment (with exclusion reasons)

↓

Included

Studies in synthesis

Dual Screening: Why Two Reviewers?

Reduces Selection Bias

One reviewer might unconsciously favor certain studies

Catches Errors

Усталость, неправильное прочтение и ошибки неизбежны

Forces Explicit Criteria

Disagreements reveal ambiguity in inclusion rules

Typical agreement: κ = 0.6-0.8

Disagreements resolved by discussion or third reviewer

Калибровка: пилотный этап

Before screening thousands of records, reviewers should calibrate on a sample of 50-100 records.

Screen the same set independently

Compare decisions and discuss disagreements

Refine inclusion criteria until κ > 0.7

Задокументируйте процесс калибровки и о любых изменениях правил

PRISMA 2020 Updates

New in 2020

Separate reporting of database vs register searches

New in 2020

Инструментам автоматизации необходимо сообщать

New in 2020

Citation searching documented separately

New in 2020

Reasons for exclusion at full-text mandatory

В PRISMA 2020 существенно пересмотрен контрольный список с расширенной отчетностью по методам синтеза, оценке достоверности и регистрации протоколов.

If Vioxx's cardiovascular data had been screened by independent reviewers,

if all pre-specified outcomes had been required to be reported,

88,000 heart attacks might have been prevented.

Количество без происхождения не является числом.

Module 4 Quiz

1. Каков был относительный риск ИМ в исследовании VIGOR в группе Vioxx по сравнению с напроксеном?

A. 1.5x higher

B. 2x higher

C. 5x higher

D. 10x higher

2. Why is dual screening (two independent reviewers) important?

A. It makes screening faster

B. It reduces selection bias and catches errors

C. Это сокращает количество исследований для рассмотрения

D. It allows reviewers to skip full-text review

Количество без происхождения не является числом.

Модуль 5: Извлечение

Модуль 5: Извлечение (УМЕНЬШЕНИЕ)

Количество без происхождения не является числом.

Это история о

числа, которых никогда не существовало.

Модуль 5: Извлечение

🎯 Learning Objectives

Разработать стандартизированную форму извлечения данных с полями происхождения
Calculate effect sizes from various reported statistics (OR, RR, HR, SMD)
Implement dual-extraction with discrepancy resolution
Определить красные флажки для фальсификации данных и неправомерных действий
Explain how the DECREASE fraud affected clinical guidelines

~10,000

possible excess deaths in Europe

Из рекомендаций, основанных на сфабрикованных клинических испытаниях данные.

Испытания DECREASE повлияли на периоперационный уход во всем мире. Данные были изобретены.

Don Poldermans: A Star Researcher

Professor at Erasmus Medical Center, Rotterdam. Author of over 500 papers. Lead author of ESC guidelines on perioperative cardiac care.

500+

Publications

DECREASE

Trial series I-VI

ESC

Guideline chair

Казалось бы, безупречный источник. Пока кто-то не посмотрел на данные.

Испытания DECREASE: Заявление

Trial	Finding	Impact
DECREASE-I (1999)	90% reduction in cardiac death	Changed guidelines
DECREASE-IV (2009)	Beta-blockers safe in low-risk	Expanded recommendations

Effect sizes were implausibly large.

90% reduction? Almost nothing in medicine works that well.

The Investigation: 2011

Erasmus MC investigated after whistleblower complaints

Сфабрикованные данные пациентов: Patients who didn't exist or weren't enrolled

No informed consent: Many "participants" never consented

Poldermans dismissed: From Erasmus MC in 2011

Каскад вреда

Когда DECREASE был удален из метаанализ...

Benefit → Harm

Direction reversed

27% ↑

Stroke risk increase

Исследование POISE (2008) показало вред. Оно было отклонено, поскольку противоречило DECREASE.

Почему это не было обнаружено?

Trust in authority: Полдерманс был автором руководства, рассматривавшим свои собственные доказательства

No data verification: Никто не запрашивал данные отдельных пациентов

Publication prestige: Published in top journals, assumed valid

Implausible effects accepted: 90% reductions should raise suspicion

Data Extraction: Defense Against Fraud

Dual Extraction

Two extractors independently - catches transcription errors and forces scrutiny

Record Provenance

Table, page, paragraph - every number traceable to source

Verify Against Registry

ClinicalTrials.gov результаты по сравнению с публикацией - расхождения являются красными флажками

Request IPD

Individual patient data reveals what aggregate summaries hide

Effect Size Calculation

Во время извлечения вы рассчитываете величину эффекта на основе отчетных данных:

BINARY OUTCOMES

Odds Ratio, Risk Ratio, Risk Difference from 2x2 tables

CONTINUOUS OUTCOMES

Средняя разница, стандартизированная средняя разница от средних значений и стандартных отклонений

Всегда извлекайте данные из наиболее надежного источника.

Prefer: ITT results > per-protocol > subgroups

Red Flags During Extraction

Implausible effect sizes: 80-90% reductions should prompt scrutiny

Baseline imbalances: Группы, которые «слишком идеально» подобраны

Round numbers: "Exactly 50" or "exactly 100" patients per arm

Registry discrepancies: Опубликованный N отличается от зарегистрированного N

Researcher

Effect Size Conversions

Исследования сообщают о результатах в различных показателях. Чтобы их объединить, вам часто нужны конверсии:

From	To	Formula
SMD (d)	log-OR	log-OR = d × π / √3
log-OR	SMD (d)	d = log-OR × √3 / π
Correlation (r)	Fisher z	z = 0.5 × ln((1+r)/(1−r))
OR	RR	RR = OR / (1 − P₀ + P₀ × OR)
OR	NNT	NNT = 1 / (P₀ − OR×P₀ / (1−P₀+OR×P₀))

P₀ = исходный риск в контрольной группе. Эти формулы предполагают приближенные условия; см. Боренштейн и др. (гл. 7) для точных выводов.

Researcher

Данные о времени до события (выживаемости)

Many trials report time-to-event outcomes using hazard ratios (HR). Pooling HRs in meta-analysis requires special handling:

Журнал (HR) + метод SE

Извлеките журнал (HR) и его SE из пробной версии. Если не указано, выведите SE из CI: SE = (ln(верхний) − ln(нижний)) / (2 × 1,96). Объединение с использованием стандартных методов обратной дисперсии.

Когда HR не сообщается

Существуют методы восстановления IPD по кривым Каплана-Мейера (Guyot et al., 2012) или оценки ЧСС на основе значений p и количества событий (Parmar et al., 1998). Всегда отдавайте предпочтение скорректированному ЧСС, о котором сообщается напрямую, если таковой имеется.

HR < 1 favors treatment; HR > 1 favors control. Do not convert HRs to ORs or RRs—they measure fundamentally different quantities.

ИСТОРИЯ: Скандал с коллоидом Болдта

Что, если данные, которые вы извлекаете, никогда не были реальными?

REAL DATA

Йоахим Болдт был самым плодовитым исследователем в области управления анестезиологическими растворами. Над 180 его публикаций были отозваны. — один из крупнейших случаев ретракции в истории медицины. Его сфабрикованные данные показали, что гидроксиэтилкрахмал (ГЭК) безопасен. Мета-анализ, включавший его исследования, пришел к выводу, что ГЭК безвреден. Когда исследования Болдта были удалены, объединенный эффект обратился вспять: HES increased kidney injury by 59% (RR 1.59, 95% CI 1.26-2.00) and mortality by ~9% (RR 1.09). An estimated thousands of patients received a harmful fluid based on fabricated evidence.

Бдительность экстрактора: 2010

Вы извлекаете данные для метаанализа инфузионной терапии. Исследования Болдта доминируют в литературе (более 90 статей). Информатор выразил обеспокоенность. Что вы делаете?

PATH A: Extract as Published

Trust peer-reviewed publications. Extract Boldt's data like any other.

↓

Your meta-analysis shows HES is safe. Guidelines recommend it.

OUTCOME: Thousands receive a nephrotoxic fluid

PATH B: Verify Provenance

Перекрестная проверка одобрений этики, запрос исходных данных, проведение анализа чувствительности, исключая подозрительные исследования.

↓

Discover missing ethics approvals. Flag studies. Re-analyze without them.

OUTCOME: True signal emerges — HES causes harm

THE REVELATION

Провенанс – это не бюрократия. В этом разница между доказательствами и вымыслом. Каждое полученное число должно быть связано с исследованием, одобренным с точки зрения этики, с поддающимися проверке данными пациентов. Без происхождения номер без владельца может стать оружием.

Каждое число в вашем метаанализе

must trace back to a verifiable source.

Количество без происхождения не является числом.

Fraudulent data can kill as surely as fraudulent drugs.

Module 5 Quiz

1. Что произошло, когда данные исследования DECREASE были исключены из метаанализа бета-блокаторов?

A. The benefit became even larger

B. No change in conclusions

C. The direction reversed to show potential harm

D. Результаты стали неубедительными

2. Why should dual extraction be standard practice?

A. It catches transcription errors and forces scrutiny

B. It makes extraction faster

C. Это помогает найти больше исследований

D. It reduces the amount of work needed

Количество без происхождения не является числом.

Модуль 6: Предвзятость

Модуль 6: Предвзятость (апротинин/БАРТ)

Методы защищают пациентов от нашего доверия.

Это история о

предвзятость, которую мы не можем видеть.

Модуль 6: Предвзятость

🎯 Learning Objectives

Apply Risk of Bias 2.0 (RoB 2) to randomized trials
Применить ROBINS-I к нерандомизированным исследованиям
Assess all five RoB 2 domains (randomization, deviations, missing data, measurement, selection)
Distinguish confounding by indication from true treatment effects
Explain how BART revealed hidden harms of aprotinin

20+

лет на рынке

Апротинин был золотым стандартом снижения хирургического кровотечения.

Затем кто-то провел РКИ. Правда была иной.

The Hidden Bias: Confounding by Indication

Sicker patients got aprotinin: Surgeons used it in complex, high-risk cases

Survivors bias: Dead patients can't report complications

Publication bias: Отрицательные исследования не были опубликованы

Наблюдательные исследования не смогли отделить эффект препарата от исходного риска для пациента.

БАРТ: Случайная правда

Blood Conservation Using Antifibrinolytics in a Randomized Trial

Outcome	Aprotinin	Alternatives
30-day mortality	6.0%	3.9%
Relative Risk	1.53 (53% increased death)

Trial Stopped Early for Harm

Снят с рынка в ноябре 2007 г.

🔍

Расследование: оцените предвзятость

Вы просматриваете наблюдательные исследования. Примените мышление о риске предвзятости:

Question	Observational	BART (RCT)
Random allocation?	❌ Surgeon choice	✓ Yes
Baseline comparable?	❌ Sicker got drug	✓ Balanced
Blinding?	❌ Open label	✓ Double-blind

Confounding by indication: Самым тяжелым пациентам хирурги давали апротинин. В обсервационных исследованиях выживаемость приписывалась препарату, тогда как они измеряли систематическую ошибку выживаемости.

Risk of Bias 2.0: The Five Domains

Randomization Process

Отклонения от запланированных вмешательств

Отсутствующие данные о результатах

Измерение результата

Выбор сообщаемого результата

РОБИНС-I: для нерандомизированных исследований

Если РКИ недоступны, используйте ROBINS-I (риск систематической ошибки в нерандомизированных исследованиях вмешательств).

Confounding

Baseline differences between groups

Selection of Participants

Exclusions related to intervention

Classification of Interventions

Misclassification of exposure status

Отклонения от запланированных вмешательств

Co-interventions, contamination

Missing Data

Differential loss to follow-up

Measurement of Outcomes

Ascertainment bias

Selection of Reported Result

Selective reporting

Ratings: Low / Moderate / Serious / Critical / No information

ИСТОРИЯ: Испытание апротинина BART

Что происходит, когда 64 исследования соглашаются, но все они неправы?

REAL DATA

Апротинин использовался в кардиохирургии для уменьшения кровотечения. 20 years. 64 small randomized trials предположил, что это безопасно и эффективно. Мета-анализ подтвердил пользу. Тогда BART trial (2008) randomized 2,331 patients: aprotinin vs. tranexamic acid vs. aminocaproic acid. Result: aprotinin increased mortality by 53% (ОР 1,53, 95% ДИ 1,06–2,22). Суд был остановился раньше времени из-за вреда. Через несколько месяцев компания Bayer отозвала апротинин с рынка.

Показания хирурга: 2006 г.

Вы кардиохирург, выбирающий антифибринолитик. В 64 небольших исследованиях предпочтение отдавалось апротинину, но ни в одном из них не удалось выявить смертность. В настоящее время проводится набор в крупное РКИ (BART). Вы ждете?

ПУТЬ А: Доверьтесь метаанализу

64 trials can't all be wrong. Continue prescribing aprotinin.

↓

В небольших исследованиях измерялось кровотечение, а не смерть. Ни у кого не было достаточной силы для смертности. Мета-анализ объединил суррогатные результаты с недостаточной достоверностью.

OUTCOME: Excess deaths in cardiac surgery patients

PATH B: Assess Risk of Bias First

Оцените все 64 испытания с помощью RoB. Обратите внимание, что они небольшие, используют суррогатные результаты и имеют высокий уровень отсева. Подождите, пока RCT будет иметь достаточное питание.

↓

BART reveals the truth. Switch to safer alternatives.

OUTCOME: Lives saved by demanding adequately powered evidence

THE REVELATION

Количество доказательств не равно качеству. Шестьдесят четыре исследования с недостаточной статистикой, дающие неправильный результат, не перевешивают одно исследование с адекватной статистикой, измеряющее смертность. Оценка риска предвзятости не является формальностью — это щит между пациентами и вводящими в заблуждение выводами на основе небольших суррогатных доказательств.

Sixty-four small trials measured bleeding, not death.

One adequately powered trial revealed 53% increased mortality.

Количество доказательств не может заменить качество и силу.

Module 6 Quiz

1. Why did 64 small trials miss aprotinin's harm?

A. Underpowered for mortality; used surrogate outcomes

B. Confounding by indication

C. Outcome measured incorrectly

D. Follow-up too short

Методы защищают пациентов от нашего доверия.

Модуль 7: Синтез

Модуль 7: Синтез (Магний/ISIS-4)

Гетерогенность — это сообщение, а не шум.

Споры о магнии: 1991–1995 гг.

When pooling leads us astray.

Модуль 7: Синтез

🎯 Learning Objectives

Calculate pooled effect sizes using fixed-effect and random-effects models
Choose between DerSimonian-Laird and HKSJ estimators appropriately
Interpret forest plots including weights, confidence intervals, and diamonds
Explain why small-study effects can mislead meta-analyses
Применяйте принцип: «Неоднородность — это сообщение, а не шум».

The Year: 1991

«Вы стоите на перекрестке надежд и доказательств...»

Heart disease kills more people worldwide than any other cause. In 1991, a new hope emerges: Could something as simple and cheap as intravenous magnesium save lives after myocardial infarction?

Биологическое обоснование было разумным:

Magnesium stabilizes cardiac membranes, prevents arrhythmias, and vasodilates coronary arteries.

ПРЕДЕЛ-2: Знаковое испытание

Leicester Intravenous Magnesium Intervention Trial, 1992

2,316

Patients enrolled

24%

Mortality reduction

p = 0.04

Statistically significant

A cheap, safe intervention that could save 250,000 lives per year globally.

Медицинское сообщество было наэлектризовано.

The Meta-Analysis: 1993

Researchers pooled seven randomized trials of IV magnesium in MI:

Trial	Year	N	Odds Ratio
Morton 1984	1984	40	0.10
Rasmussen 1986	1986	273	0.35
Smith 1986	1986	400	0.48
Abraham 1987	1987	94	0.87
Shechter 1990	1990	103	0.27
Ceremuzynski 1989	1989	48	0.22
LIMIT-2	1992	2,316	0.74

🔍

Investigation Exercise: The Meta-Analyst's Dilemma

Вы являетесь Кокрановским рецензентом в 1993 году. Вас попросили обобщить данные о применении магния при ИМ. Перед вами данные семи испытаний.

Вы видите закономерность на этом лесном сюжете?

Pooled OR = 0.44 (95% CI: 0.27–0.71)

55% mortality reduction! Publish in the Lancet?

Но подождите... вы что-нибудь заметили в пробных размерах?

Предупреждающие знаки

What should have given us pause?

Small sample sizes: Six of seven trials had <500 patients

Extreme effects: OR of 0.10 (90% reduction) is implausible for any drug

All positive: Где были отрицательные испытания? Проблема с файловым ящиком...

Funnel asymmetry: Small trials showed much larger effects than larger ones

🔍

Тест графика воронки

Прежде чем объединить данные, мы должны проверить предвзятость публикаций. Давайте рассмотрим график воронки.

Год: 1995 — Отчеты ИГИЛ-4

«И тут пришла правда…»

The Fourth International Study of Infarct Survival (ISIS-4) enrolled 58,050 patients across 1,086 hospitals in 31 countries.

58,050

Patients

2,216

Deaths in Mg group

2,103

Deaths in placebo

OR = 1.06 (95% CI: 1.00–1.12)

No benefit. If anything, a trend toward harm.

📊

До и после: полная картина

Посмотрите, что произойдет, когда мы добавим мега-испытание на наш лесной участок...

BEFORE ISIS-4

7 small trials (N = 3,274)

OR = 0.44

Strong benefit signal

AFTER ISIS-4

8 trials (N = 61,324)

OR = 1.02

No effect

Why Did Small Trials Mislead?

Publication Bias

Small negative trials were never published—they sat in file drawers

Small-Study Effects

Smaller trials tend to show larger effects due to methodological weaknesses

Random High Bias

Совершенно случайно некоторые небольшие испытания дали экстремальные результаты — и они были опубликованы

Random-Effects Amplification

Random-effects models give more weight to small trials, amplifying bias

Fixed vs. Random Effects

Which model should you choose?

FIXED EFFECT MODEL

Assumes one true effect. Weights studies by inverse variance (precision). Large trials dominate.

Magnesium result: OR = 0.96 (p = 0.52)

RANDOM EFFECTS MODEL

Assumes distribution of effects. Gives more weight to small trials. Wider confidence intervals.

Magnesium result: OR = 0.59 (p = 0.01)

⚠️ Выбор модели определил вывод!

Случайные эффекты не устраняют предвзятость; с эффектами небольших исследований это может сместить вес в сторону более мелких исследований и изменить выводы.

Уроки магния

1. Проверьте наличие предвзятости публикации прежде чем доверять объединенной оценке. Ваши инструменты — воронкообразные графики и тест Эггера.

2. Be wary of small-study effects. If only small trials show benefit, wait for a large, well-conducted trial.

3. Model choice matters. Случайные эффекты могут усилить предвзятые доказательства. Рассмотрите обе модели и поймите последствия.

4. One large trial can overturn many small ones. Вот почему такие мега-испытания, как ISIS-4, так ценны.

Researcher

Специальные планы исследований в метаанализе

Не во всех РКИ используются стандартные планы параллельных групп. Два распространенных варианта требуют особого подхода при объединении результатов:

Cluster-Randomized Trials

Рандомизировать группы (больницы, школы), а не отдельных лиц. < design effect = 1 + (m-1) × ICC уменьшает эффективный размер выборки. Разделите N на расчетный эффект перед объединением или используйте скорректированную SE из исследования. Игнорирование кластеризации приводит к искусственному сужению ДИ.

Crossover Trials

Каждый пациент получает оба вида лечения. Парный план уменьшает дисперсию, но для правильного объединения вам необходим within-patient correlation (или SE парного анализа). Использование SE параллельной группы консервативно; используя неправильные N пациентов с двойным подсчетом.

Подробные формулы и рабочие примеры см. в Кокрейновском справочнике v6.4, глава 23.

ИСТОРИЯ: Ранняя реверсия сурфактанта

Что, если способ объединения исследований определяет, спасет ли лечение жизнь или бесполезно?

REAL DATA

Ранний сурфактант для недоношенных детей был поддержан 6 small trials showing reduced mortality (RR 0.84). A fixed-effect meta-analysis confirmed benefit (p=0.04). But a random-effects model showed no significance (p=0.12) — the confidence interval crossed 1.0. Later, SUPPORT (2010) and VON (2012), two large pragmatic trials with ~2,000 neonates combined, found no benefit ранним и поздним сурфактантом. Клиническая практика была изменена на основе небольших исследований и неправильной модели.

Выбор модели неонатолога: 2005

Вы обновляете Кокрейновский обзор раннего сурфактанта. Шесть небольших исследований показали преимущества модели с фиксированным эффектом. Модель случайных эффектов не имеет существенного значения. О чем вы сообщаете?

PATH A: Report Fixed-Effect Only

Fixed-effect is significant. Report the positive result. Change practice.

↓

NICUs adopt early surfactant. Later trials show no benefit. Practice reverses.

OUTCOME: Years of unnecessary intubation of premature infants

PATH B: Report Both Models

Покажите результаты FE и RE. Отметьте, что значимость зависит от выбора модели. Требуйте больших испытаний.

↓

Honest uncertainty. Large trials prioritized. True answer emerges faster.

OUTCOME: Premature babies spared unnecessary intervention

THE REVELATION

Когда вывод меняется в зависимости от того, используете ли вы фиксированный эффект или случайный эффект, вывод становится хрупким. Сообщите об обоих. Признайте неопределенность. И помните: нестабильный результат небольших испытаний не является основанием для изменения практики.

Module 7 Quiz

1. Почему метаанализ магния показал преимущества, которых не обнаружил ISIS-4?

A. Методология ISIS-4 имела недостатки

B. Calculation error in meta-analysis

C. Publication bias in small trials

D. LIMIT-2 была недостаточно мощной

2. What warning sign should have alerted reviewers to potential bias?

A. Asymmetric funnel plot (small trials showing larger effects)

B. Low heterogeneity (I² = 0%)

C. Strong biological plausibility

D. Too few trials to analyze

3. When publication bias is suspected, which model may amplify the bias?

A. Fixed effect model

B. Random effects model

C. Bayesian model

D. Network meta-analysis

Small trials can show false signals.

Large trials anchor the truth.

Гетерогенность — это сообщение, а не шум.

Модуль 8: Неоднородность

Модуль 8: Гетерогенность (ACCORD)

Гетерогенность — это сообщение, а не шум.

ACCORD: 2008

Когда среднее значение скрывает правду.

Модуль 8: Неоднородность

🎯 Learning Objectives

Рассчитать и интерпретировать I², τ² и интервалы прогнозирования
Apply ICEMAN criteria to assess subgroup credibility
Distinguish between clinical, methodological, and statistical heterogeneity
Conduct and interpret leave-one-out sensitivity analyses
Explain how ACCORD revealed differential effects across subgroups

The Year: 2008

"Вы собираетесь стать свидетелем одного из самых шокирующих прекращений испытаний в истории история...»

На протяжении десятилетий диабетическое сообщество придерживалось одного руководящего принципа: lower blood sugar is better. Знаменательные исследования DCCT (1993) и UKPDS (1998) показали, что интенсивный контроль уровня глюкозы снижает микрососудистые осложнения — слепоту, почечную недостаточность, повреждение нервов.

Логическая экстраполяция:

If controlling glucose prevents complications, shouldn't intensive control prevent cardiovascular disease too?

ACCORD: Action to Control Cardiovascular Risk in Diabetes

The definitive test of intensive glucose control

10,251

Type 2 diabetics

HbA1c <6%

Intensive target

HbA1c 7-7.9%

Standard target

У всех пациентов был диабет 2 типа с высоким сердечно-сосудистым риском — либо установленное сердечно-сосудистое заболевание, либо множественные факторы риска. Исследование было рассчитано на 5,6 лет.

February 6, 2008

Совет по мониторингу безопасности данных созывает экстренное совещание.

After 3.5 years, they make an unprecedented decision:

ПРЕКРАТИТЬ ИСПЫТАНИЕ.

Шокирующие результаты

Outcome	Intensive	Standard	HR (95% CI)
Primary CV endpoint	352 events	371 events	0.90 (0.78–1.04)
All-cause mortality	257 deaths	203 deaths	1.22 (1.01–1.46)
Severe hypoglycemia	10.5%	3.5%	3.0× higher

22% increase in mortality

54 excess deaths in the intensive arm

🔍

Investigation Exercise: The Clinician's Dilemma

Вы эндокринолог, у вас 500 пациентов с диабетом. Результаты ACCORD опубликованы. Что вы скажете своим пациентам, которые стремятся к HbA1c <6%?

Интенсивный контроль вреден для всех? Или только для некоторых?

Выявленный анализ подгрупп:

Subgroup	Intensive HR	Interpretation
No prior CVD	1.00 (0.76–1.32)	No effect
Prior CVD	1.45 (1.15–1.84)	Significant harm
Baseline HbA1c <8%	1.02 (0.75–1.40)	No effect
Baseline HbA1c ≥8%	1.29 (1.03–1.60)	Harm

The average effect masked critical heterogeneity!

Для пациентов с установленными сердечно-сосудистыми заболеваниями или плохим исходным контролем интенсивная терапия была вредной.

Понимание гетерогенности: I² и за его пределами

Когда проводятся исследования (или подгруппы) показывают разные эффекты, мы должны количественно оценить это изменение.

I² = 0–25%: Низкая гетерогенность. Эффекты одинаковы во всех исследованиях.

I² = 25–50%: Moderate. Look for sources of variation.

I² = 50–75%: Substantial. Consider whether pooling is appropriate.

I² = 75–100%: Considerable. A single pooled estimate may mislead.

Но сам по себе I² не говорит вам, что делать — он сигнализирует о необходимости дальнейшего исследования.

Tau² (τ²): дисперсия между исследованиями

В то время как I² сообщает вам долю дисперсии из-за неоднородности, τ² сообщает вам величину.

I² (percentage)

"Какая доля общей дисперсии обусловлена истинными различиями между исследованиями?"

Scale: 0% to 100%

τ² (absolute)

"Насколько истинные эффекты различаются между исследованиями?"

Same scale as the effect measure

Use τ² to calculate prediction intervals

Интервал прогнозирования показывает диапазон эффектов, которые вы ожидаете в новом исследовании - часто намного шире, чем доверительный интервал интервал.

📊

The Prediction Interval: What ACCORD Really Tells Us

Consider a meta-analysis of intensive glucose control across multiple trials...

Confidence Interval

HR 1.10 (0.95–1.27)

"Наша лучшая оценка среднего эффекта"

Prediction Interval

HR 1.10 (0.70–1.73)

"The range of effects in a new setting"

Интервал прогнозирования охватывает как пользу, так и вред!

In some settings, intensive control might help. In others, it could kill.

When Is a Subgroup Effect Credible?

Subgroup Credibility Criteria (adapted from ICEMAN, Schandelmaier 2020 & Sun 2012)

Был ли анализ подгрупп заранее определен?

Апостериорные подгруппы склонны к получению данных дноуглубительные работы

Is there a plausible biological rationale?

Механизм должен быть ясным и независимым от данных

Is the effect consistent across related outcomes?

Если появляется вред для смертности, существует ли аналогичный вред для ИМ, инсульта?

Is there independent replication?

Подтвержден ли эффект подгруппы в других исследованиях?

ICEMAN Applied to ACCORD

Criterion	Assessment	Score
Pre-specified?	Да — предшествующие сердечно-сосудистые заболевания были в протокол	✓
Biological rationale?	Yes—hypoglycemia more dangerous with CVD	✓
Consistent outcomes?	Yes—CV mortality and all-cause mortality aligned	✓
Independent replication?	Partially—ADVANCE, VADT showed similar patterns	~

ICEMAN Rating: High Credibility

The differential harm in high-risk patients appears genuine.

Клинические последствия

Для пациентов без сердечно-сосудистых заболеваний: Moderate glucose control (HbA1c ~7%) remains the goal. Intensive control may reduce microvascular complications.

Для пациентов с установленными сердечно-сосудистыми заболеваниями: Avoid intensive targets. Hypoglycemia is dangerous for damaged hearts.

Для пожилых пациентов: Relaxed targets. Quality of life matters. Tight control causes falls, confusion, and excess mortality.

"One size fits all" treatment is not patient-centered medicine.

Meta-Regression: Explaining Heterogeneity

When heterogeneity is high, meta-regression can identify study-level covariates that explain variation.

THE QUESTION

Меняется ли систематически величина эффекта в зависимости от исследования характеристики?

Covariates

Year, dose, duration, baseline risk, study quality

Output

Regression coefficient (slope), R², residual heterogeneity

Caution

Мета-регрессия требует ≥10 исследований на каждую ковариату. Поскольку исследований немного, они носят лишь исследовательский характер. Экологическая ошибка: ассоциации на уровне исследования могут быть неприменимы к отдельным людям.

Example: In ACCORD, meta-regression might test if treatment effect varies by baseline HbA1c, showing harm concentrated in patients with very high levels.

ИСТОРИЯ: Революция SPRINT в области артериального давления

What number saves lives? Who decides?

REAL DATA

На протяжении десятилетий целью было: снизить кровяное давление до <140 mmHg systolic. Then came SPRINT (2015): 9,361 high-risk patients randomized to intensive (<120) vs standard (<140) targets. Intensive treatment reduced CV events by 25% and death by 27%. Trial stopped early for benefit. Guidelines changed worldwide.

Before SPRINT: The Guidelines Committee

В 2014 году вы устанавливаете рекомендации по артериальному давлению. В течение многих лет цель составляла <140. Стоит ли ждать более убедительных доказательств?

PATH A: Maintain Status Quo

Keep <140 target (established practice, minimal controversy)

↓

Guidelines unchanged. Physicians continue treating to <140.

OUTCOME: Miss opportunity to prevent deaths

PATH B: Fund the Definitive Trial

Дождитесь результатов SPRINT, прежде чем обновлять цели

↓

SPRINT demonstrates benefit. Update target to <120 for high-risk patients.

OUTCOME: Estimated 100,000+ lives saved globally

JNC 7 (2003): <140

Years of uncertainty

SPRINT (2015): <120 для групп высокого риска

THE REVELATION

"Стандарт медицинской помощи" не установлен. Ситуация меняется, когда испытания ставят под сомнение предположения. В течение десятилетия пациенты, возможно, получали недостаточное лечение, потому что никто не проверял очевидный вопрос.

Module 8 Quiz

1. Почему исследование ACCORD было остановлено досрочно?

A. Intensive control showed clear cardiovascular benefit

B. Intensive control increased mortality

C. Набор участников был слишком медленным

D. Budget ran out

2. What does a prediction interval tell us that a confidence interval doesn't?

A. The true effect is more precisely estimated

B. Размер выборки адекватен

C. Диапазон эффектов, которые мы ожидаем в новом исследовании

D. Математическая формула используется

3. According to ICEMAN, which factor is MOST important for subgroup credibility?

A. Предварительная спецификация гипотезы подгруппы

B. Large sample size in the subgroup

C. Statistically significant p-value

D. Multiple outcomes showing same direction

Если исследования расходятся во мнениях,

выслушайте несогласие.

Гетерогенность — это сообщение, а не шум.

Отсутствие доказательств не является доказательством отсутствия.

Модуль 9: Скрытые исследования

Модуль 9: Скрытые исследования (ребоксетин)

Отсутствие доказательств не является доказательством отсутствия.

Reboxetine: 2010

74%, которые так и не увидели света.

Модуль 9: Скрытые исследования

🎯 Learning Objectives

Interpret funnel plots for asymmetry detection
Примените тест Эггера и другие статистические тесты на предмет предвзятости публикации.
Внедрить метод обрезки и заполнения для корректировки смещения
Critically appraise the limitations of publication bias tests
Применяйте принцип: «Отсутствие доказательств не является доказательством отсутствия»

The Year: 1997

"A new hope for depression patients who cannot tolerate SSRIs..."

Ребоксетин (Эдронакс) был новым антидепрессантом — селективным ингибитором обратного захвата норадреналина (NRI). В отличие от СИОЗС, он воздействовал на другую систему нейромедиаторов. Для пациентов, которые потерпели неудачу или не могли переносить флуоксетин или сертралин, был предложен новый механизм.

1997

EU approval

50+

Countries approved

Millions

Prescriptions written

Опубликованные доказательства

What doctors could find in medical journals:

Comparison	Published Trials	Published Result
Reboxetine vs Placebo	3 trials (n=507)	Significantly better (SMD = 0.56)
Reboxetine vs SSRIs	4 trials (n=628)	Equivalent or better

Опубликованная литература рассказала ясную историю:

Reboxetine works. Patients benefit. Prescribe with confidence.

А как насчет испытаний, которые вы не могли видеть?

In 2010, German researchers at IQWiG made a request to the European Medicines Agency...

They demanded access to all данные испытаний – опубликованные и неопубликованные.

What they found changed everything.

Полная картина

Eyding et al., BMJ 2010

Comparison	Published Only	ALL DATA
Reboxetine vs Placebo	SMD 0.56 (benefit)	SMD 0.10 (no benefit)
Patients in analysis	507 (14%)	2,731 (100%)
Reboxetine vs SSRIs	Equivalent	Низкий (1,23 руб. за вред)
Patients in analysis	628 (26%)	2,411 (100%)

74% данных пациентов никогда не публиковались

Скрытые испытания не показали никакой пользы и больше вреда

🔍

Investigation Exercise: The File Drawer

Вы являетесь систематическим обозревателем в 2008 году. Вы ищете в PubMed, Embase и Кокрейновской библиотеке все исследования ребоксетина. Вы найдете 7 опубликованных исследований, показавших пользу.

Можно ли доверять этим доказательствам?

⚠️Воронка кардинально асимметрична!

Все опубликованные исследования группируются на одной стороне. Где нулевые и отрицательные испытания?

Инструментарий по предвзятости публикаций

Funnel Plot

Plot effect size vs. standard error. A symmetric funnel suggests no bias; asymmetry raises alarms.

Egger's Regression Test

Regress effect/SE on 1/SE. A non-zero intercept (P < 0.10) suggests small-study effects. Note: inflated false-positive rate with binary outcomes; use Peters' test instead.

Peters' Test

For binary outcomes, regresses log OR on inverse of total sample size. Less prone to false positives.

Trim-and-Fill

Учитывает «недостающие» исследования, чтобы сделать воронку симметричной, а затем пересчитывает совокупный эффект.

📊

Интерактивный режим: анализ обрезки и заполнения

Давайте применим обрезку и заполнение к данным по ребоксетину и посмотрим, какой будет скорректированная оценка...

Published Only

7 trials

SMD = 0.56

Significant benefit

Trim-and-Fill

7 + 5 imputed = 12 trials

SMD = 0.23

Reduced, still nominally significant

But even trim-and-fill underestimated the problem!

Истинный эффект для всех данных составил SMD = 0,10 (по существу нулевой).
Trim-and-fill is conservative—it doesn't fully correct for selective publication.

The Best Defense: Trial Registries

Методы обнаружения предвзятости публикаций несовершенны. Реальное решение prospective registration.

ClinicalTrials.gov

US registry (2000)

WHO ICTRP

Global portal

PROSPERO

Review registration

При поиске испытаний всегда проверяйте реестры. Сравните количество registered испытания на количество published. Разрыв — ваш предупреждающий сигнал.

Since 2005, ICMJE requires trial registration as a condition of publication.

Кампания AllTrials

"All trials registered. All results reported."

Скандал с ребоксетином, наряду с аналогичными случаями с другими препаратами, стал катализатором глобального движения:

✓

2013: Политика EMA в отношении клинических данных

European Medicines Agency commits to publishing clinical study reports

✓

2016: FDA Amendments Act enforcement

Mandatory results reporting on ClinicalTrials.gov within 12 months

✓

AllTrials Coalition

Over 90,000 supporters, 700+ organizations demanding transparency

Последствия ребоксетина

Germany's IQWiG recommended against reboxetine for depression

Британский NICE понизил рейтинг до «не рекомендуется».

FDA отклонило ребоксетин в 2001 году (у них был доступ к неопубликованным данным).

Более десяти лет пациенты получали препарат не лучше, чем плацебо.

Потому что были опубликованы только положительные испытания.

ИСТОРИЯ: Исследование пароксетина 329 Обман

Что, если опубликованное заключение противоречит фактическим данным?

REAL DATA

В исследовании 329 компании GlaxoSmithKline пароксетин был протестирован у adolescent depression. В опубликованной статье (2001) сделан вывод, что пароксетин "generally well tolerated and effective." Фактические данные: пароксетин failed on all 8 pre-specified outcomes. When re-analyzed (RIAT 2015), suicidal/self-harm events: 23 в группе пароксетина против 5 в группе плацебо. Опубликованная статья переопределила результаты post-hoc, чтобы оценить производственную значимость. В 2015 году повторный анализ RIAT (Восстановление невидимых и прерванных исследований) с использованием оригинального отчета о клиническом исследовании пришел к выводу: пароксетин был neither safe nor effective for adolescents.

Загадкой врача: 2003

Вы детский психиатр. Исследование 329 — единственное крупное исследование — показало, что пароксетин эффективен у подростков. Но FDA не одобрило его для подростков. Родитель просит вас прописать его. Что вы делаете?

ПУТЬ A: Доверять публикации

A peer-reviewed JAACAP paper says it works. Prescribe off-label.

↓

Millions of prescriptions worldwide. Suicidal events in adolescents.

OUTCOME: FDA issues black box warning for SSRIs in youth (2004)

PATH B: Check the Trial Registry

Поиск исходных конечных точек на сайте ClinicalTrials.gov. Обратите внимание, что опубликованные результаты не соответствуют зарегистрированному протоколу.

↓

Красный флаг: обнаружено переключение результатов. Вы отказываетесь от приема препарата. Пациент в большей безопасности.

OUTCOME: Publication bias identified before harm

THE REVELATION

Предвзятость публикаций связана не только с отсутствием исследований. Речь идет об отсутствии истины в опубликованных исследованиях. Переключение результатов, фиктивное написание и выборочная отчетность могут превратить неудачное испытание в маркетинговый инструмент. Всегда сравнивайте опубликованные результаты с протоколами реестра исследований.

Module 9 Quiz

1. Какой процент данных испытаний ребоксетина был скрыт из опубликованной литературы?

A. 25%

B. 50%

C. 74%

D. 90%

2. Why can trim-and-fill underestimate the correction needed?

A. It assumes effects are normally distributed

B. Он учитывает только исследования для достижения симметрии, что может не полностью отражать реальность

C. Требуется не менее 20 исследований

D. Это работает только с очень крупными исследованиями

3. What is the best prospective defense against publication bias?

A. Funnel plots in all meta-analyses

B. Egger's test before pooling

C. Prospective trial registration

D. More medical journals

То, что вы не можете см.

may be more important than what you can.

Отсутствие доказательств не является доказательством отсутствия.

Certainty must be earned, not assumed.

Модуль 10: Уверенность

Модуль 10: Уверенность (ранний поверхностно-активный агент)

Certainty must be earned, not assumed.

Early Surfactant: 2012

Когда появляются доказательства высокого качества.

Модуль 10: Уверенность

🎯 Learning Objectives

Примените полную структуру GRADE для оценки достоверности доказательства
Evaluate all five downgrade factors (RoB, inconsistency, indirectness, imprecision, publication bias)
Identify when to upgrade for large effect, dose-response, or confounding
Construct Summary of Findings tables with absolute effect estimates
Применяйте принцип: «Уверенность необходимо заслужить, а не предполагать»

The Year: 1990s

"A revolution in neonatal care..."

Респираторный дистресс-синдром (РДС) был основной причиной смерти недоношенных детей. Разработка экзогенного surfactant— вещества, которое удерживает альвеолы от коллапса, — стала одним из величайших достижений в неонатальной медицине.

Встал вопрос: когда нам следует вводить сурфактант?

Prophylactically (to all high-risk infants) or selectively (only after RDS develops)?

Оригинальный Кокрейновский обзор (2003)

Multiple RCTs conducted before the era of routine CPAP

Outcome	Prophylactic vs Selective	Certainty
Neonatal mortality	RR 0.73 (favors prophylactic)	High
BPD or death	RR 0.84 (favors prophylactic)	High

Recommendation: Give surfactant prophylactically

Guidelines worldwide adopted this approach

Но мир ухода за новорожденными менялся...

A new technology emerged: Continuous Positive Airway Pressure (CPAP)

Non-invasive support that could help preterm lungs without intubation.

Применимы ли по-прежнему старые доказательства?

Кокрейновское обновление 2012 года

New trials conducted in the CPAP era

Outcome	Old Trials	New Trials
BPD or death	RR 0.84 (favors prophylactic)	RR 1.12 (favors selective)
Потребность в механических вентиляция	Нижняя с профилактической	Высшая с профилактической!

Complete Reversal

In the CPAP era, prophylactic surfactant causes more harm

🔍

Investigation: Why Did Evidence Evolve?

Вы неонатолог. Коллега спрашивает: «Как рандомизированные исследования могут противоречить друг другу?»

Были ли первоначальные данные ошибочными?

Indirectness Changed

Old trials: No CPAP available. New trials: CPAP standard of care.

Улучшенный компаратор

Selective surfactant + CPAP is better than prophylactic intubation.

Context Matters

Данные одной эпохи могут не применяться к другой.

This is why GRADE assesses Indirectness!

High-quality evidence can become inapplicable when context changes.

GRADE Framework

Grading of Recommendations, Assessment, Development and Evaluations

GRADE отвечает на вопрос: Насколько мы уверены в этой оценке?

⊕⊕⊕⊕ HIGH: Very confident. True effect is close to the estimate.

⊕⊕⊕◯ MODERATE: Moderately confident. True effect likely close, but may differ substantially.

⊕⊕◯◯ LOW: Limited confidence. True effect may differ substantially.

⊕◯◯◯ VERY LOW: Very little confidence. True effect likely substantially different.

GRADE: Factors That Downgrade Certainty

Доказательства РКИ начинаются с ВЫСОКОГО уровня. Его можно понизить по следующим причинам:

Risk of Bias

Flawed randomization, lack of blinding, incomplete follow-up, selective reporting

Inconsistency

Unexplained heterogeneity across studies (large I², non-overlapping CIs)

Indirectness

Различия в популяции, вмешательстве, сравнительном анализаторе или исходах вопроса

Imprecision

Wide confidence intervals, small sample size, few events

ОЦЕНКА: Пятый фактор

Publication Bias

Asymmetric funnel plot, missing registered trials, sponsor influence

Each factor can downgrade by one or two levels

High → Moderate → Low → Very Low

Example: Метаанализ РКИ (начинается ВЫСОКИМ) с высоким риском систематической ошибки (↓1) и серьезной косвенностью (↓1) будет оценен LOW.

📊

Interactive: Apply GRADE to Surfactant

Давайте оценим достоверность доказательств в пользу профилактического применения сурфактанта с использованием старых и новых исследований.

OLD TRIALS (Pre-CPAP)

Starting: HIGH (RCTs)

Risk of Bias: Low (−0)

Inconsistency: None (−0)

Indirectness: Serious (−1)

Different standard of care today

Final: ⊕⊕⊕◯ MODERATE

NEW TRIALS (CPAP Era)

Starting: HIGH (RCTs)

Risk of Bias: Low (−0)

Inconsistency: None (−0)

Indirectness: None (−0)

Matches current practice

Final: ⊕⊕⊕⊕ HIGH

GRADE: Factors That Upgrade Certainty

Наблюдательные данные начинаются с НИЗКОГО уровня. Его можно обновить для:

Large Magnitude of Effect

RR >2 или <0,5 без каких-либо правдоподобных искажений

Dose-Response Gradient

Higher exposure = larger effect in a consistent pattern

Residual Confounding

All plausible confounders would reduce the effect (strengthens causal inference)

Communicating Certainty

GRADE requires transparent language about confidence:

HIGH: "Prophylactic surfactant reduces mortality..."

MODERATE: "Prophylactic surfactant probably reduces mortality..."

LOW: "Prophylactic surfactant may reduce mortality..."

VERY LOW: "We are uncertain whether prophylactic surfactant reduces mortality..."

Этот язык позволяет врачам понять силу доказательств.

ИСТОРИЯ: Кислородный парадокс недоношенного ребенка

Can too much of a lifesaver become a killer?

REAL DATA

1940s-50s: High oxygen concentrations saved premature babies from respiratory failure. Then came an epidemic of blindness—retrolental fibroplasia (now called ROP). Doctors reduced oxygen dramatically. Blindness dropped. But then: increased deaths and brain damage от гипоксия. Требуемый оптимальный уровень кислорода decades of trials to find. Recent SUPPORT/BOOST II trials finally defined the therapeutic window: SpO2 91-95%.

Дилемма неонатолога: 1955

Вы неонатолог. Недоношенные дети, получающие повышенное содержание кислорода, слепнут. Что вы делаете?

PATH A: Dramatic Reduction

Drastically reduce oxygen to prevent blindness

↓

Blindness rates drop. But some babies die or suffer brain damage from hypoxia.

OUTCOME: Trading one harm for another

ПУТЬ B: Систематическое исследование

Тщательно титровать кислород, изучать зависимость «доза-реакция»

↓

Takes decades but eventually identifies the optimal range.

OUTCOME: Optimize both survival and vision

1940s: High O2 saves lives

1950s: Blindness epidemic

1960-70-е годы: Смертельные случаи из-за низкого уровня O2

2010s: SUPPORT/BOOST define optimal range

THE REVELATION

Каждое вмешательство имеет терапевтический эффект окно. Чтобы найти его, нужны измерения, а не предположения. Маятник раскачивался 60 лет, прежде чем доказательства определили баланс.

Module 10 Quiz

1. Почему рекомендации по использованию поверхностно-активных веществ изменились в период с 2003 по 2012 год?

A. Первоначальные исследования были сфальсифицированы

B. CPAP changed the comparator (indirectness)

C. Not enough patients in original trials

D. Результат оценивался по-разному

2. Что из перечисленного НЕ является фактором понижения ОЦЕНКИ?

A. Risk of bias

B. Imprecision

C. Publication bias

D. Large magnitude of effect

3. Какой язык следует использовать для доказательств НИЗКОЙ достоверности?

A. "Вмешательство снижает..."

B. "Вмешательство, вероятно, снижает..."

C. "Вмешательство может снизить..."

D. "Мы не уверены ли..."

Количества недостаточно.

Вы должны сообщить, насколько вы уверены.

Certainty must be earned, not assumed.

Методы защищают пациентов от нашего доверия.

Модуль 11: The Living Review

Модуль 11: The Living Review (COVID-19)

Методы защищают пациентов от нашего доверия.

COVID-19 Hydroxychloroquine: 2020

Когда срочность соответствует доказательствам.

Модуль 11: The Living Review

🎯 Learning Objectives

Применить последовательный анализ испытаний, чтобы определить, когда доказательств достаточно
Разработать и поддерживать живой систематический обзор
Establish update triggers and futility/harm boundaries
Manage multiplicity and alpha-spending in sequential analyses
Explain how rapid evidence synthesis evolved during COVID-19

March 2020: A World in Crisis

"Вирус распространяется быстрее, чем наши понимание..."

COVID-19 убивал тысячи людей. Отделения интенсивной терапии были переполнены. Не было ни вакцины, ни лечения. Затем проблеск надежды: hydroxychloroquine (HCQ)—an old malaria drug—showed antiviral activity in lab studies.

March 20

Исследование Готре (Франция)

36 pts

Non-randomized

Viral

Clearance improved

Спешка усыновить

Через несколько недель после исследования Готре:

March 28: FDA issues Emergency Use Authorization for HCQ

April 4: India bans HCQ export (hoarding fears)

Global: Shortages affect lupus and rheumatoid arthritis patients

Millions received HCQ based on a 36-patient observational study

What could go wrong?

🔍

Расследование: Готре Исследование

Вы являетесь экспертом по доказательной медицине и попросили оценить исследование французского HCQ. Изучите конструкцию...

Issue	Impact
Non-randomized	Selection bias—who got HCQ?
6 patients excluded	3 went to ICU, 1 died, 1 withdrew, 1 had nausea
Surrogate outcome	Viral load, not clinical outcomes
Контроль из другой больницы	Different care, different testing
No blinding	Expectation bias in lab testing

Это исследование будет иметь ВЫСОКИЙ риск систематической ошибки по RoB 2.0

GRADE certainty: VERY LOW. Yet it changed global policy.

Why Observational COVID Studies Misled

Immortal Time Bias

Patients must survive long enough to receive treatment. Survivors are compared to non-survivors.

Confounding by Indication

Sicker patients may get different treatments. Healthier patients received HCQ early.

Healthy User Effect

Patients who seek treatment tend to be healthier overall.

Outcome Reporting

Исследования с положительными результатами публикуются быстрее.

Июнь 2020 г.: Отчет о РКИ

Large, rigorous trials completed at remarkable speed

Trial	N	Result
RECOVERY (UK)	4,716	No benefit on mortality (RR 1.09)
WHO SOLIDARITY	954	No benefit (RR 1.19)
ORCHID (US)	479	Остановлен бесполезность

HCQ provided no benefit—and may have caused harm

June 15, 2020: FDA revokes Emergency Use Authorization

📊

Хронология: наблюдения и данные РКИ

March-May 2020

Observational: ~20 studies

Suggest benefit

Pooled OR ~0.65

June-July 2020

RCTs: RECOVERY, SOLIDARITY

Show no benefit/harm

Pooled RR ~1.10

От «многообещающего» до «неэффективного» за 3 месяца

Вот почему нам нужна рандомизация — и живые обзоры для отслеживания развивающихся доказательств.

Living Systematic Reviews

Новый подход для быстрого развития доказательства:

Continuous Surveillance

Ищите в литературе еженедельно или даже ежедневно новые доказательства

Cumulative Meta-Analysis

Update pooled estimates as each new trial reports

Последовательный анализ испытаний (TSA)

Determine when sufficient information has accumulated to conclude

Transparent Versioning

Track every change, maintain full audit trail

Последовательный анализ испытаний (TSA)

When have we learned enough?

TSA применяет останавливающие границы к метаанализу — аналогично промежуточному анализу в одном исследовании. Это объясняет required information size (RIS) needed to detect or exclude a clinically meaningful effect.

RIS

Required sample size

α-spending

Controls type I error

Boundaries

Benefit / Harm / Futility

Для HCQ в условиях COVID TSA показало, что граница бесполезности была пересечена к июню 2020 года.

Уроки саги о HCQ

1. Observational studies can mislead spectacularly , когда предвзятость преобладает. Даже многие исследования, указывающие в одном и том же направлении, могут быть ошибочными.

2. RCTs can be conducted quickly when the will exists. RECOVERY enrolled 5,000+ patients in weeks.

3. Живые отзывы очень важны for evolving topics. Fixed-point-in-time reviews become obsolete instantly.

4. Political pressure doesn't change biology. Тщательные методы защищают пациентов даже в стрессовых ситуациях.

ИСТОРИЯ: Революция LEAP в отношении аллергии на арахис

Что, если профилактика ЯВЛЯЕТСЯ причиной?

REAL DATA

For decades, pediatric guidelines recommended: avoid peanuts in infancy to prevent allergy. Meanwhile, peanut allergy rates tripled с 1997 по 2008 год. Тогда пришел LEAP (2015): 640 high-risk infants randomized to early peanut introduction vs. avoidance. Result: Early introduction reduced peanut allergy by 81% (1,9% против 13,7%). Стратегия профилактики стала причиной эпидемии.

Перекресток аллергологов: 2010

Вы детский аллерголог. Аллергия на арахис растет, несмотря на рекомендации по предотвращению его употребления. Вы подвергаете сомнению догму?

PATH A: Follow Guidelines

Continue recommending peanut avoidance in high-risk infants

↓

Guidelines are "evidence-based." Safe to follow consensus.

OUTCOME: Peanut allergies continue to rise

ПУТЬ Б: Ставьте под сомнение догму

Design a trial to test if early introduction might be protective

↓

LEAP trial reveals the truth. Guidelines reverse worldwide.

OUTCOME: Prevent an epidemic

2000: AAP recommends avoidance

2008: Allergy rates triple

2015: LEAP переворачивает доказательства

2017: Guidelines flip to early introduction

THE REVELATION

Для принципа «прежде всего не навреди» требуются доказательства. Предположения, даже сделанные из лучших побуждений, могут нанести масштабный вред. Иммунная система нуждалась в воздействии, чтобы развить толерантность — избегание вызывало сенсибилизацию.

Module 11 Quiz

1. В чем заключался основной недостаток исследования гидроксихлорохина Готре?

A. Too few patients

B. No blinding

C. Excluding patients who deteriorated

D. Too short follow-up

2. What does Trial Sequential Analysis help determine?

A. Which studies have high risk of bias

B. When enough evidence has accumulated

C. Степень гетерогенности

D. Which treatment is best

3. Почему наблюдательные исследования COVID показали пользу HCQ, а РКИ — нет?

A. RCTs enrolled sicker patients

B. RCTs used different outcomes

C. Смещение в обсервационных исследованиях

D. Обсервационные исследования имели лучшие данные

Speed cannot replace rigor.

But rigor can be fast.

Living reviews balance both.

Не каждый сигнал является правдой.

Модуль 12: Расширенные методы

Не каждый сигнал является правдой.

Advanced Methods

Beyond pairwise meta-analysis.

Модуль 12: Расширенные методы

🎯 Learning Objectives

Interpret network meta-analysis geometry and SUCRA rankings
Apply bivariate models for diagnostic test accuracy meta-analysis
Conduct dose-response meta-analysis with flexible splines
Understand when individual patient data (IPD) meta-analysis is needed
Определите предположения и ограничения каждого из них расширенный метод

Когда пар недостаточно

"Иногда вопрос более сложен, чем вопрос A или B..."

Методы, которые вы изучили, составляют основу. Но клиническая реальность часто требует большего: Which of 10 antidepressants is best? What's the optimal dose of statin? Does this test accurately diagnose early cancer?

В этом модуле представлены четыре продвинутых метода, каждый из которых отвечает на разные сложные вопросы.

Network Meta-Analysis (NMA)

When you have many treatments but few head-to-head trials

NMA combines direct evidence (A vs B) with indirect evidence (A vs C, B vs C → inferred A vs B) to compare multiple treatments simultaneously.

SUCRA

Ranking probabilities, not effect size

Consistency

Direct = Indirect?

Networks

Visualize evidence

🔍

NMA Example: Antidepressants

The landmark Cipriani 2018 NMA compared 21 antidepressants using 522 trials.

The Challenge

21 drugs, but not every pair tested head-to-head

Many vs. placebo, few vs. each other

The Solution

NMA объединяет прямые и косвенные доказательства по всей сети.

Оценивает все 21 по эффективности и приемлемости

Результат: одни лекарства получили более высокий рейтинг по эффективности, другие по приемлемости.

Ни один препарат не является универсально «лучшим»; интерпретируйте рейтинги с достоверными интервалами, транзитивностью и клиническими компромиссами.

NMA: Critical Assumptions

Transitivity

Effect modifiers should be similarly distributed across comparisons; otherwise indirect comparisons may be biased

Consistency

Прямые и косвенные доказательства согласуются (проверяемые)

Connected Network

All treatments linked through at least one common comparator

When assumptions fail, NMA can mislead

Всегда оценивайте транзитивность и проверяйте ее на наличие несоответствие.

Dose-Response Meta-Analysis

Нахождение оптимальной дозы

Uses the Greenland-Longnecker method с ограниченными кубическими сплайнами для моделирования нелинейных взаимосвязей между дозой и эффектом.

Non-linear patterns

J-shaped (alcohol & mortality), U-shaped (vitamin D), threshold (aspirin)

Clinical relevance

Найдите дозу с наилучшим балансом пользы и вреда, а не просто «чем больше, тем лучше».

Индивидуальные данные пациента (IPD)

Золотой стандарт анализа подгрупп

Instead of published summary data, obtain необработанные данные на уровне пациента от испытателей. Обеспечивает точный анализ подгрупп, моделирование времени до события и стандартизированные определения.

One-Stage

Single hierarchical model (not mega-trial)

Two-Stage

Analyze, then pool

80%+ target

Цель доступности данных

Совместная группа исследователей раннего рака молочной железы стала пионером IPD MA в 1980-х годах.

Diagnostic Test Accuracy (DTA)

Когда «вмешательство» — это испытание

DTA meta-analysis synthesizes sensitivity (истинно положительный показатель) и specificity (true negative rate)—two correlated outcomes requiring bivariate models.

Bivariate/HSROC Model

Учитывает корреляцию между чувствительностью и специфичностью.

SROC Curve

Сводная кривая ROC с достоверностью 95 % и прогнозируемыми областями

QUADAS-2

Quality Assessment of Diagnostic Accuracy Studies

Выбор правильного метода

Question	Method
Does A beat B?	Pairwise MA
Which of many treatments is best?	Network MA (NMA)
Какова оптимальная доза?	Dose-Response MA
Who benefits most? (subgroups)	IPD MA
Насколько точен этот тест?	DTA MA
Как эффект развивается с течением времени?	Survival/Time-to-Event MA

Метод должен соответствовать вопросу. Никогда не задавайте вопрос неправильным методом.

ИСТОРИЯ: Стероиды в саге о сепсисе

Three large trials. Three different answers. What do you believe?

REAL DATA

CORTICUS (2008): 499 patients. Hydrocortisone in septic shock. No mortality benefit. ADRENAL (2018): 3,658 patients. Hydrocortisone. No mortality benefit. APROCCHSS (2018): 1,241 patients. Hydrocortisone + fludrocortisone. Mortality reduced (43% vs 49.1%, p=0.03). Same class of intervention. Different protocols. Different results.

Задача автора рекомендаций

Вы пишете рекомендации по сепсису. Три крупных исследования не пришли к единому мнению. Как вы рекомендуете?

PATH A: Simple Average

Pool all three trials. Overall effect uncertain. Conclude "evidence unclear."

↓

Guidelines say steroids are optional. No strong recommendation.

OUTCOME: Clinicians left without clear guidance

PATH B: Investigate Heterogeneity

Analyze why APROCCHSS differed (fludrocortisone, longer duration, different population)

↓

Определите, чем эффективный протокол отличается от неэффективного.

OUTCOME: Recommend the specific effective protocol

THE REVELATION

Противоречивые испытания не являются неудачами. Это карты того, где лечение работает, а где нет. Различия между исследованиями — дозы, продолжительность, сопутствующие вмешательства, популяция — являются ключом к пониманию.

Module 12 Quiz

1. В чем ключевое преимущество сетевого метаанализа перед парным?

A. Не требует извлечения данных

B. It compares treatments not directly tested against each other

C. Это устраняет необходимость в оценке риска предвзятости.

D. It produces better forest plots

2. Why does DTA meta-analysis require bivariate models?

A. To handle more than two studies

B. Чтобы скорректировать предвзятость публикации

C. Чувствительность и специфичность коррелируют

D. To generate forest plots

3. What does the "consistency" assumption in NMA require?

A. All studies must be high quality

B. Прямые и косвенные доказательства должны согласовываться

C. Sample sizes must be similar

D. No missing studies

Methodologist

Экосистема курса

Этот курс охватывает весь рабочий процесс систематического обзора. Для более глубокого погружения изучите сопутствующие курсы:

DTA Course
Bivariate/HSROC, SROC curves, QUADAS-2

Risk of Bias Mastery
RoB 2, ROBINS-I/E, domain-level assessment

GRADE Certainty
Full SoF tables, GRADE-CERQual

IPD Meta-Analysis
One-stage/two-stage, mixed-effects models

Publication Bias Detective
Copas, PET-PEESE, p-curve, selection models

Umbrella Reviews
AMSTAR 2, ROBIS, overlap correction

Prognostic Reviews
CHARMS, PROBAST, c-statistic pooling

Living Reviews + Rapid Reviews
TSA, update triggers, abbreviated methods

Module 12 Complete

«Метод должен соответствовать вопросу. Продвинутые методы отвечают на сложные вопросы, но основы никогда не меняются».

Вы освоили основной рабочий процесс. Следующие десять модулей исследуют новые горизонты: байесовский вывод, сетевой метаанализ, индивидуальные данные пациентов, моделирование зависимости «доза-реакция», надежность и хрупкость, справедливость, синтез с помощью искусственного интеллекта, качественные доказательства, многомерные методы и воспроизводимость.

Не каждый сигнал является правдой.

Модуль 13: Байесовский поворот

========================================================= МОДУЛЬ 13: БАЙЕСОВСКИЙ ПОВОРОТ (испытание платформы STAMPEDE) =========================================================

Не каждый сигнал является правдой.

Модуль 13: Байесовский поворот

🎯 Learning Objectives

Объясните разницу между частотным и байесовским выводами.
Interpret prior distributions, likelihoods, and posterior distributions
Distinguish credible intervals from confidence intervals
Understand when Bayesian meta-analysis offers advantages
Recognize how prior choice affects conclusions

Начало истории: STAMPEDE

In 2005, a trial began

that would never truly end.

В исследовании STAMPEDE по лечению рака простаты использовалась многоэтапная платформа (MAMS). Оружие могло быть добавлено или сброшено по мере накопления доказательств. Хотя статистика была частой, адаптивная философия воплощала байесовский дух: обновление решений по мере накопления данных.

Частотное мировоззрение

In frequentist statistics, probability means long-run frequency. 95% ДИ НЕ означает «вероятность 95%, что истинный эффект находится внутри». Это значит: если бы мы повторяли исследование бесконечно, 95% интервалов содержали бы истину.

p-value

P(данные | H₀), а не P(H₀ | данные)

95% CI

Покрытие собственности, а не убеждений

Fixed

Истинный параметр фиксирован

Байесовское мировоззрение

In Bayesian statistics, probability represents degree of belief. We start with a prior (во что мы верим до данных), обновить с помощью likelihood (о чем нам говорят данные) и получить posterior (updated belief).

Prior × Likelihood = Posterior

Теорема Байеса: P(θ|данные) ∝ P(данные|θ) × P(θ)

Credible Intervals

95%-ный доверительный интервал является вероятностно интерпретируемым, зависящим от указанной модели и предшествующего уровня.

Researcher

Choosing Priors

Non-informative (Vague)

Нормальный (0, 10000) или равномерный. Позволяет данным доминировать. Имитирует результаты часто встречающихся пользователей.

Weakly Informative

Normal(0, 1) for log-OR. Regularizes extreme estimates while remaining flexible.

Informative

Based on previous evidence. Powerful but controversial. Must be pre-specified.

Half-Cauchy for τ

Recommended for heterogeneity. Half-Cauchy(0, 0.5) allows large τ but concentrates near zero.

Researcher

MCMC Sampling

Most Bayesian models cannot be solved analytically. We use Markov Chain Monte Carlo (MCMC), чтобы взять образцы сзади. Инструменты: JAGS, Stan, brms (R), PyMC (Python).

Chains

Multiple independent chains (typically 4)

R̂

Convergence: R̂ < 1.01 (strict; older texts use < 1.1)

ESS

Bulk-ESS > 400 за средства; Tail-ESS > 400 для CI

Methodologist

Bayesian Model Averaging

Instead of choosing between fixed-effect and random-effects models, Bayesian model averaging (BMA) взвешивает каждую модель по ее апостериорной вероятности. Это объясняет неопределенность модели в окончательной оценке.

Bayes Factors

BF₁₀ > 10 = убедительное доказательство H₁. BF₁₀ < 1/10 = убедительное доказательство H₀.

Заполнитель интерактивного инструмента

Interactive: Posterior Visualizer

Отрегулируйте предыдущую силу, чтобы увидеть, как она влияет на заднюю часть. Посмотрите, как новые данные превосходят предыдущие.

Prior Strength: Vague

Prior Mean (log-OR): 0.00

История STAMPEDE

STAMPEDE была запущена в 2005 году с участием пяти исследовательских групп, сравнивающих методы лечения распространенного рака простаты. К 2016 году к нему был добавлен абиратерон, что позволило снизить смертность на 37% (ОР 0,63, 95% ДИ 0,52–0,76).

Дизайн платформы воплощает в себе байесовское адаптивное мышление: промежуточные анализы определяют выбор препаратов, новые препараты могут вводиться по мере появления методов лечения, а бесполезные препараты рано прекращаются, что спасает пациентов от неэффективных методов лечения.

В исследование STAMPEDE вошли более 10 000 пациентов из более чем 100 центров и фундаментально изменились методы лечения рака простаты. Байесовский подход позволяет накапливать доказательства и принимать решения в режиме реального времени.

Decision Tree: When to Go Bayesian?

Frequentist vs Bayesian Meta-Analysis

Выбирайте байесовский метод, когда: (1) у вас есть достоверная априорная информация, (2) вам нужны вероятностные утверждения («эффект вероятности 80% > 0»), (3) мало исследований делают частотные свойства ненадежными или (4) вы хотите провести усреднение модели.

Bayesian with weakly informative prior

A common practical default. Regularizes extreme estimates without forcing strong prior conclusions.

Байесовский с информативным априором

Только тогда, когда предварительные доказательства убедительны и заранее определены. Необходимо провести анализ чувствительности.

Stay frequentist

Simpler, well-understood. Preferred when k is large and no prior information.

Remember Module 1?

CAST Through a Bayesian Lens

Если бы байесовский анализ CAST использовал информативную априорную информацию из фундаментальной науки (антиаритмические средства подавляют ЖЭ), апостериорная часть все равно сильно сместилась бы в сторону вреда. При наличии достаточного количества данных даже сильный априор уступает вероятности. Урок: байесовские методы не защищают от плохих априорных значений, но они делают предположения. transparent.

Module 13 Quiz

Q1. What does a 95% Bayesian credible interval mean?

A. 95% of repeated experiments would produce intervals containing the true value

B. С вероятностью 95% истинный параметр находится в этом интервале.

C. The interval has a 95% chance of being correct

D. 95% будущих данных попадут в этот диапазон.

Q2. Каков рекомендуемый априорный уровень гетерогенности между исследованиями (τ)?

A. Uniform(0, 100)

B. Normal(0, 1)

C. Half-Cauchy(0, 0.5)

D. Fixed at 0.5

Module 13 Complete

«Байесовский поворот — это не математика. Речь идет о честности — сделать наши предположения видимыми».

Не каждый сигнал является правдой.

Модуль 14: Сеть

========================================================== МОДУЛЬ 14: СЕТЬ (Чиприани 2018 — 21 антидепрессант) =========================================================

Методы защищают пациентов от нашего доверия.

Модуль 14: Сеть

🎯 Learning Objectives

Explain why pairwise comparisons are insufficient when many treatments exist
Interpret network geometry (nodes, edges, thickness)
Понимать транзитивность, последовательность и роль косвенных доказательств.
Interpret SUCRA rankings and league tables
Recognize when NMA assumptions are violated

A clinician faces a patient

с депрессией. Какой препарат?

Существует 21 обычно назначаемый антидепрессант. В большинстве параллельных исследований сравниваются только 2 или 3. Cipriani et al. (2018, Lancet) объединили в единую сеть 522 исследования и 116 477 пациентов.

Логика сетевого метаанализа

Direct Evidence

Trials directly comparing A vs B give the most reliable estimate.

Indirect Evidence

Если существуют A vs C и B vs C, мы можем сделать вывод A vs B. Это «транзитивное» предположение.

Mixed Evidence

NMA combines both, weighted by precision, to rank all treatments simultaneously.

Interactive: Network Graph

Каждый узел – это лечение. Толщина края представляет собой количество исследований, сравнивающих эти два метода лечения.

Researcher

Transitivity & Consistency

Transitivity: Косвенная оценка (через общий компаратор) должна приближаться к прямой оценке. Для этого необходимо, чтобы модификаторы эффектов были одинаково распределены по сравнениям.

Consistency: Статистический тест, сравнивающий прямые и косвенные доказательства. Глобальные (взаимодействие схемы лечения) и локальные (разделение узлов) тесты помогают выявить петли несоответствия.

Researcher

SUCRA & P-scores

SUCRA

Поверхность под накопительным рейтингом. Более высокие значения указывают на лучшую вероятность ранжирования, а не на гарантированное превосходство.

P-score

Частотный аналог ранжирования вероятностных сводок. Интерпретируйте с учетом величины эффекта и неопределенности.

Caution: Ranking is seductive but misleading when differences between treatments are small or uncertain. Always report credible/confidence intervals alongside ranks.

Methodologist

Component NMA

When interventions are complex (e.g., behavioral + pharmacological), component NMA decomposes multi-component treatments to estimate the individual contribution of each component. Uses additive models: effect(A+B) = effect(A) + effect(B) + interaction.

Сеть Cipriani

Анализ журнала Lancet 2018 года показал, что все 21 антидепрессант были более эффективными, чем плацебо. Амитриптилин, миртазапин и венлафаксин заняли первое место по эффективности. Агомелатин, флуоксетин и эсциталопрам заняли самые высокие места по приемлемости (наименьшее количество выбывших из исследования).

Ни один препарат не «выиграл» по всем исходам. Сеть выявила компромиссы, невидимые при парном анализе.

Decision Tree: Is NMA Appropriate?

NMA Feasibility Check

У вас есть 15 РКИ, в которых сравниваются 6 различных статинов. Некоторые пары имеют прямые доказательства, другие — нет.

Check transitivity, then fit NMA

Убедитесь, что популяции пациентов и дизайн исследований достаточно схожи при сравнении.

Игнорируйте косвенные доказательства

Теряет статистическую достоверность и оставляет пробелы в доказательной базе.

Pool all into one pairwise comparison

Нарушает структуру доказательства. Статины — это разные препараты.

Module 14 Quiz

Q1. Какое предположение должно соблюдаться, чтобы косвенные доказательства были действительными в NMA?

A. Transitivity — effect modifiers are balanced across comparisons

B. Homogeneity — I² must be below 25%

C. All studies must have similar sample sizes

D. Все исследования должны быть двойными слепыми

Module 14 Complete

«Сеть видит то, чего не могут парные сравнения: всю картину выбора лечения».

Не каждый сигнал является правдой.

Модуль 15: Индивидуальность

======================================================== МОДУЛЬ 15: ИНДИВИДУАЛЬНОСТЬ (EBTCCG — метаанализ IPD) ========================================================

What was hidden in plain sight?

Модуль 15: Индивидуальность

🎯 Learning Objectives

Explain why aggregate data can mask treatment–covariate interactions
Distinguish one-stage from two-stage IPD models
Recognize ecological bias in aggregate meta-analysis
Understand the practical challenges of IPD collection
Interpret treatment–covariate interaction plots

For decades, breast cancer trials

опубликованные сводки. Не пациенты.

Совместная группа исследователей раннего рака молочной железы (EBTCTCG) собрала индивидуальные записи более чем 100 000 женщин из сотен исследований. Их мета-анализ IPD показал, что польза тамоксифена во многом зависит от статуса рецепторов эстрогена – чего-то невидимого в совокупных данных.

Что скрывают сводки

В каждом опубликованном исследовании тамоксифена сообщалось об общем результате. Согласно результатам сотен исследований, тамоксифен показал скромную пользу. Но «скромная польза» была средним показателем, за которым скрывалась глубокая истина.

Скрытое разделение на подгруппы

RR 0.59

ER-positive subgroup: 41% reduction in recurrence

RR 0.97

ER-negative subgroup: essentially no benefit at all

Общий совокупный эффект — смешение реагирующих и неотзывчивых пациентов — был статистической фикцией. «Скромное» среднее значение, которое преувеличивает пользу для одной группы и подразумевает выгоду там, где ее не было для другой.

Агрегированные и индивидуальные данные пациентов

Aggregate: published effect + CI only

IPD

Individual: raw patient-level records

IPD позволяет: (1) последовательно определять исходы, (2) анализ подгрупп по характеристикам пациентов, (3) моделирование времени до события, (4) проверку экологической предвзятости. Это gold standard for exploring treatment effect modification.

Researcher

One-Stage vs Two-Stage IPD

Two-Stage

Analyze each study separately, then combine estimates (like standard MA). Simple but loses information.

One-Stage

Подбор одной модели со смешанными эффектами ко всем данным пациента одновременно. Более мощный для взаимодействий и редких событий.

Key: Оба должны учитывать кластеризацию исследований. Никогда не объединяйте IPD, как если бы они были получены из одного мегаиспытания — это вносит путаницу (парадокс Симпсона).

Methodologist

Ecological Bias

A meta-regression using study-level mean age might show older patients benefit more. But this could be ecological bias— связь на уровне исследования не отражает истину на уровне пациента. Только IPD может разделять within-study from between-study effects.

Когда целое зависит от своих частей

Парадокс Симпсона: тенденция, которая появляется в совокупных данных, меняется на противоположную, когда данные группируются по мешающей переменной.

Парадокс в Практикуйте

A mega-trial analysis found Treatment X beneficial overall. But в каждом исследовании, это было вредно. Как? Различия в исходном риске между исследованиями создали иллюзию — более больные группы населения получали больше лечения, что привело к завышению совокупной пользы.

Cates (2002, BMJ) показало, что объединение результатов исследований без учета кластеризации может обратить вспять очевидное направление эффекта.

Вот почему одноэтапные модели ИПЗ включают исследование в качестве переменной кластеризации — чтобы предотвратить маскировку результатов между исследованиями под эффект лечения.

Наследие EBCTCG

Мета-анализ IPD EBCTCG определил лечение рака молочной железы на 40 лет. Их анализ 2005 года по сравнению с отсутствием лечения тамоксифеном показал явную пользу при ER-положительных опухолях (ОР 0,59), но не приносил пользы при ER-негативных опухолях (ОР 0,97).

Без ИПЗ общий совокупный эффект был бы объединен в обеих группах, уменьшая пользу и потенциально лишая ER-позитивных пациентов величины их выигрыша.

Decision Tree: When Is IPD Worth Pursuing?

Do you suspect treatment–covariate interactions?

Yes →

Можете ли вы получить ИПЗ в >80% исследований?

Yes → One-stage IPD meta-analysis with interaction terms

No → Двухэтапный: запрос доступного IPD + агрегат для остального

No →

Is ecological bias a concern?

Yes → IPD preferred even without interactions

No → Aggregate data meta-analysis may suffice

EBCTCG собрал данные сотен исследований за 40 лет. Большинство метаанализов ИПЗ включают 5–20 исследований. Решение зависит от вопроса, а не от амбиций.

Methodologist

Узор повторяется

Помните Модуль 3? ЗГТ оказалась полезной в обсервационных исследованиях, но вредной в РКИ. Произошло то же самое совокупное маскирование: общая польза скрывала вред подгруппы.

Анализ IPD Инициативы по здоровью женщин позже показал, что timing mattered— у женщин, начавших ЗГТ в течение 10 лет после менопаузы, были другие результаты, чем у женщин, начавших позже. «Гипотеза времени» была невидима в опубликованных сводных сводках.

Урок повторяется: совокупные данные могут скрыть важные взаимодействия между лечением и ковариантами. Будь то статус ER при раке молочной железы или время начала ЗГТ, данные на индивидуальном уровне показывают то, что скрывают сводные данные.

Module 15 Quiz

Q1. В чем основное преимущество IPD перед метаанализом агрегированных данных?

A. Он всегда включает в себя дополнительные исследования

B. Это дешевле и быстрее

C. It can explore treatment–covariate interactions without ecological bias

D. Это устраняет необходимость в моделях случайных эффектов.

Module 15 Complete

«За каждой объединенной оценкой стоят люди, чьи истории не может рассказать совокупность».

Гетерогенность — это сообщение, а не шум.

Модуль 16: Доза

========================================================= МОДУЛЬ 16: ДОЗА (J-кривая алкоголя / Stockwell 2016) =========================================================

Гетерогенность — это сообщение, а не шум.

Модуль 16: Доза

🎯 Learning Objectives

Explain why simple pairwise comparisons miss dose–response relationships
Distinguish linear, quadratic, and spline dose–response models
Interpret restricted cubic splines with knots
Identify threshold effects and J/U-shaped curves
Understand model comparison with AIC/BIC

На протяжении десятилетий умеренное употребление алкоголя

казалось, защищал сердце.

«J-образная кривая» показала, что у непьющих смертность от сердечно-сосудистых заболеваний выше, чем у умеренно пьющих. Но Стоквелл и др. (2016) продемонстрировали, что J-кривая является результатом ошибочной классификации бывших алкоголиков (бросивших курить из-за болезни) как «трезвенников».

A Scientific Consensus Built on Sand

К 2010 году более 100 обсервационных исследований подтвердили J-кривую. Медицинские учебники учили этому. Об этом рассказали кардиологи. Лоббисты винодельческой отрасли финансировали конференции, посвященные этому вопросу.

100+

Наблюдательные исследования, подтверждающие J-кривую

15–25%

Lower cardiovascular mortality in moderate drinkers vs abstainers

Доказательства казались неопровержимыми. Но что, если группа сравнения — «трезвенники» — была заражена?

Больной, бросивший курить

A Hidden Confounder

The Problem

People who stop drinking often do so because they are already ill— заболевания печени, лекарственное взаимодействие, диагностика рака. В большинстве исследований эти «бывшие пьющие» были классифицированы как «трезвенники».

The Effect: The reference group (abstainers) appeared less healthy— не потому, что воздержание было вредно, а потому, что к нему присоединились больные люди.

When Stockwell et al. (2016, J Stud Alcohol Drugs) removed former drinkers and applied appropriate study-quality corrections: J-кривая исчезла. Защитный эффект был фантомным.

Dose–Response Meta-Analysis

Standard meta-analysis asks: "Does treatment X work?" Dose–response meta-analysis asks: "At what dose действует ли лечение Х лучше всего?» Он моделирует взаимосвязь между уровнем дозы и результатом в ходе нескольких исследований.

Linear

Simplest: log(RR) = β × dose

Spline

Flexible: piecewise polynomials with knots

Fractional

Polynomial: dose^p1 + dose^p2

Researcher

Restricted Cubic Splines

RCS place knots в заранее заданных точках дозы и подгонять гладкие полиномы между ними. Обычно 3–5 узлов в квантилях распределения дозы. Линейные заграничные узлы. Тесты на нелинейность сравнивают сплайновую модель с более простой линейной моделью.

AIC

Model Comparison

AIC/BIC сравнивает линейную и сплайновую посадку. Ниже = лучше. Также проверьте отклонение от линейности (значение p для сплайновых условий).

Interactive: Dose–Response Builder

Сравните линейную, квадратичную и сплайновую аппроксимацию. Посмотрите, как меняется форма модели при различных предположениях.

Разоблачение J-кривой алкоголя

Повторный анализ Стоквелла в 2016 году показал, что, когда бывших пьющих правильно исключили из референтной группы «трезвенников», защитный эффект умеренного употребления алкоголя исчез. J-кривая была обусловлена предвзятостью в отношении тех, кто бросил курить по болезни.

Метаанализ «доза-реакция» выявил истину: форма кривой во многом зависит от того, как вы определяете «нулевую дозу». Неправильная ссылочная категория создала фантомную выгоду.

When Curves Shape Policy

The phantom J-curve influenced alcohol guidelines worldwide:

NHS Guidance (until 2016)

В официальном руководстве говорится: «Умеренное употребление алкоголя может защитить сердце». После поправки Стоквелла Великобритания пересмотрела лимиты до 14 единиц в неделю для all пьющие (ранее 21 у мужчин). Ни одна сумма не была объявлена «безопасной».

Dietary Guidelines Advisory Committee

Исследования J-кривой проводились в течение 2015 года. Комитет 2020 года рекомендовал снизить пределы до 1 напитка в день для мужчин, признавая предвзятость референтной группы.

Australian Guidelines

Safe drinking limits were delayed by industry-funded J-curve research promoting “cardioprotective” moderate intake.

Decision Tree: Is Dose-Response Analysis Appropriate?

Есть ли у вас ≥3 уровней воздействия (а не только воздействие или отсутствие воздействия)?

Yes →

Является ли эта связь вероятно нелинейной?

Yes → Restricted cubic splines (3–5 knots). Compare AIC with linear model.

No → Linear dose-response meta-regression may suffice

No →

Standard pairwise meta-analysis (no dose-response possible with only two levels)

Warning: Всегда проверяйте: чистая ли ваша референтная категория? Урок J-кривой: загрязненная референтная группа создает фантомную нелинейность.

Module 16 Quiz

Q1. What makes restricted cubic splines useful in dose–response meta-analysis?

A. They always produce a straight line

B. They flexibly capture non-linear dose–response curves

C. Они сокращают количество необходимых исследований

D. They simplify the model to fewer parameters

Module 16 Complete

«Доза создает яд. А форма кривой показывает, настоящий ли яд».

Отсутствие доказательств не является доказательством отсутствия.

Модуль 17: Хрупкость

========================================================== МОДУЛЬ 17: ХРУПКОСТЬ (Осельтамивир / Джефферсон 2014) =========================================================

Отсутствие доказательств не является доказательством отсутствия.

Модуль 17: Хрупкость

🎯 Learning Objectives

Рассчитать и интерпретировать индекс хрупкости
Используйте графики GOSH для выявления влиятельных исследований и эффектов подмножества.
Interpret contour-enhanced funnel plots
Применить модели выбора Copas и PET-PEESE для предотвращения предвзятости публикаций.
Understand how sensitivity analyses strengthen meta-analytic conclusions

Governments stockpiled billions

на основе доказательств, которые они не могли видеть.

После H1N1 правительства потратили миллиарды на запасы осельтамивира (Тамифлю). Команда Кокрейна (Джефферсон и др., 2014) годами боролась за доступ к неопубликованным данным. Когда они наконец это сделали, доказательства предотвращения осложнений испарились.

Индекс хрупкости

Индекс хрупкости спрашивает: "How many patients would need to change outcome to flip a statistically significant result to non-significant?" Он итеративно добавляет события (преобразует не-события в события) в группу с меньшим количеством событий до тех пор, пока p > 0,05.

FI = 1

Extremely fragile. One patient flip changes conclusion.

FI > 8

Reasonably robust. Less sensitive to individual outcomes.

Interactive: Fragility Calculator

Enter a 2×2 table to calculate the fragility index. Watch events shift until significance flips.

Events

Total N

Treatment

Control

Researcher

GOSH Plots

Графический обзор неоднородности исследования (GOSH) адаптирует модели метаанализа ко всем возможным подмножествам исследований. Каждая точка отображает объединенный эффект в зависимости от I² для одного подмножества. Кластеры предполагают отдельные подгруппы; Облака-выбросы предполагают одно исследование, определяющее гетерогенность.

Для k исследований имеется 2^k−1 subsets. For k > 15, random sampling is used.

Researcher

Contour-Enhanced Funnel Plots

Standard funnel plots show effect size vs standard error. Contour-enhanced версии добавляют заштрихованные области для p <0,01, p <0,05 и p <0,10. Если отсутствующие исследования попадают в незначительные регионы, вероятна предвзятость публикации. Если они попадают в значительные регионы, асимметрию могут объяснить другие причины (например, качество исследования).

Methodologist

Copas Selection & PET-PEESE

Copas Selection Model

Моделирует вероятность публикации исследования в зависимости от его SE и размера эффекта. Совместно оценивается истинный эффект и механизм отбора.

PET-PEESE

Precision-Effect Test (PET): regress effects on SE. If intercept = 0, no true effect. PEESE uses SE² for better performance when a true effect exists.

Сага об Осельтамивире

Оригинальный метаанализ, финансируемый компанией «Рош» (Kaiser 2003), показал, что осельтамивир снижает осложнения гриппа на 67%. Но 8 из 10 исследований так и не были опубликованы. После того, как Кокрейн получил отчеты о клинических исследованиях, польза от осложнений упала до незначительных 11%.

Хрупкость была не просто статистической, она была информационной. В самой доказательной базе отсутствовала большая часть данных.

Дерево решений: интерпретация результатов нестабильности

Вы рассчитали индекс хрупкости. Что означает число?

FI ≤ 3

Highly fragile. Несколько различных событий изменили бы этот вывод. Интерпретируйте с особой осторожностью.

FI 4–8

Moderately fragile. Чувствителен к небольшим возмущениям. Существуют ли неопубликованные исследования, которые могли бы изменить ситуацию?

FI > 8

Relatively robust. But remember: fragility is only one dimension. Publication bias can undermine even robust results.

Walsh et al. (2014, J Clin Epidemiol) обнаружили, что в 399 РКИ, опубликованных в ведущих журналах, средний индекс хрупкости составлял всего 8. Более 25% имели FI ≤ 3. Знаменательные исследования, влияющие на клиническую практику, часто висели на волоске статистики.

Methodologist

Beyond the Index: Structural Fragility

Раскрыта сага об осельтамивире three types of fragility— а Индекс хрупкости учитывает только первое.

Statistical Fragility (FI)

Сколько событий меняют значение p? Именно это и измеряет Индекс хрупкости. Он количественно определяет чувствительность к результатам лечения отдельных пациентов.

Informational Fragility

Какая часть доказательств скрыта? Восемь из десяти исследований осельтамивира компании «Рош» остались неопубликованными. Доказательная база была структурно неполной.

Analytical Fragility

Сколько степеней свободы исследователя могло бы изменить вывод? Различные определения результатов, группы анализа или статистические методы.

Обратный звонок к модулю 10 (пароксетин): Повторный анализ с другими определениями исходов полностью изменил этот вывод. Это была аналитическая хрупкость: FI никогда не рассчитывался, потому что сама конечная точка была спорной. Полная оценка надежности исследует все три измерения.

Module 17 Quiz

Q1. В исследовании приняли участие 200 пациентов в каждой группе, 12 событий в группе лечения и 25 в группе контроля (p=0,03). Индекс хрупкости равен 3. Что это значит?

A. Размер эффекта равен ровно 3

B. Changing just 3 patient outcomes would flip the result to non-significant

C. Результат очень надежен благодаря 3 подтверждающим исследованиям.

D. Для исследования необходимо минимум 3 пациента.

Module 17 Complete

«Число, которое выдержит любую попытку его сломать, — это число, которому стоит доверять».

Не каждый сигнал является правдой.

Модуль 18: Капитал

==================================================================== МОДУЛЬ 18: АКЦИОНЕР (ИСКЛЮЧЕНИЯ СПРИНТ / ПРОГРЕСС-Плюс) =========================================================

Certainty must be earned, not assumed.

Модуль 18: Капитал

🎯 Learning Objectives

Identify how trial exclusion criteria create evidence gaps
Применить систему ПРОГРЕСС-Плюс для оценки равенства доказательств
Use PRISMA-Equity reporting guidelines
Understand transportability: when trial findings fail in practice
Design equity-sensitive search and synthesis strategies

SPRINT proved tight blood pressure control

saves lives. But whose lives?

В знаковое исследование SPRINT были исключены пациенты с диабетом, перенесенным инсультом и сердечной недостаточностью. Более 75% пациентов с гипертонической болезнью в США не прошли бы квалификацию. Доказательства были убедительными, но применимость была узкой.

Слайд A: Недостающее большинство

Исследование, в котором исключено большинство пациентов

В исследовании SPRINT приняли участие 9361 пациент и было доказано, что интенсивный контроль артериального давления (целевой показатель <120 мм рт.ст.) снижает сердечно-сосудистые события на 25% (ОР 0,75, 95% ДИ 0,64–0,89). Но критерии включения говорили о другом.

Кого исключили:

Diabetes — 35% взрослых в США страдают гипертонией
Prior stroke — 8% гипертоников
Symptomatic heart failure — 6% of hypertensive adults
Expected survival <3 years — самые слабые пациенты
Nursing home residents — excluded entirely
GFR <20 mL/min — advanced kidney disease

Результат: более 75% взрослых в США, страдающих гипертонией, НЕ прошли бы квалификацию. Доказательства были убедительными. Но для кого?

Слайд B: География доказательств

Откуда берутся доказательства

78%

of cardiovascular mega-trial participants came from high-income countries (2000–2020).

from sub-Saharan Africa — where cardiovascular disease is rising fastest.

Испытания полипилл: 4 из 5 были проведены в группах населения со средним ИМТ <25. Средний индекс массы тела в США составляет 30. Метаболизм лекарств, характер сопутствующих заболеваний, доступ к здравоохранению и генетические вариации различаются в разных популяциях. Efficacy in one population does not guarantee effectiveness in another.

Ссылка: Международные исследования и пробел ПРОГРЕСС-Плюс.

PROGRESS-Plus Framework

Place of residence

Race / ethnicity

Occupation

Gender / sex

Religion

Education

SES (socioeconomic)

Social capital

Plus: Age, disability, sexual orientation, other vulnerable groups.

Researcher

PRISMA-Equity & Transportability

PRISMA-Equity расширяет PRISMA, требуя отчетность о том, как справедливость учитывалась в обзоре: характеристики населения, анализ подгрупп по неблагоприятным условиям и оценка применимости к группам населения, недостаточно обслуживаемым.

Transportability: Эффективность испытаний не равна эффективности в реальной жизни. Существуют методы повторного взвешивания данных испытаний, чтобы они соответствовали распределению целевой группы населения.

Слайд C: Вопрос транспортабельности

Researcher

From Trial to Real World: Transportability

Transportability = Могут ли результаты исследования группы X быть применены к целевой группе Y? Это не философский вопрос — у него есть формальные методы.

Inverse Probability of Participation Weighting (IPPW)

Re-weights trial participants so they resemble the target population on key covariates.

Generalizability Index

Количественно определяет, насколько пробная выборка похожа на целевую совокупность по наблюдаемым характеристикам.

Stuart et al. (2015, Stat Med): Когда результаты SPRINT были повторно взвешены, чтобы соответствовать населению США с гипертонической болезнью, предполагаемая польза была снижена — HR 0,82 (по сравнению с 0,75 в исследовании). Лечение все еще работает. Но масштабы меняются, когда меняется численность населения.

СПРИНТ и недостающее большинство

SPRINT представляло собой хорошо спланированное исследование с участием 9361 пациента. Его открытие (HR 0,75 для интенсивного и стандартного контроля АД) изменило рекомендации во всем мире. Но последующий анализ показал, что польза была самой сильной в подгруппе, наиболее похожей на исследуемую популяцию, и неопределенна для исключенных групп.

Справедливость в синтезе доказательств означает вопрос не просто «Работает ли это?» но «Для кого это работает?»

Схема принятия решений: оценка справедливости для вашего обзора

ROOT: Получены ли данные вашего обзора из групп населения, схожих с вашей целевой аудиторией?

YES → Good. But check: Are subgroups (age, sex, ethnicity, SES) reported separately?

Yes: Use subgroup effects for population-specific recommendations
No: Flag as limitation — equity gap in reporting

NO → Does PROGRESS-Plus analysis reveal differential effects?

Yes: Population-specific recommendations needed. Consider transportability re-weighting.
No: Cautious generalization with explicit equity statement in discussion

Слайд E: Обратный вызов к модулю 3

Methodologist

Callback: The HRT Lesson Revisited

Помните Модуль 3? История HRT показала, что healthy-user bias сделало вредное лечение полезным. У SPRINT может быть противоположная проблема — эффект «здорового добровольца» может привести к появлению эффективного лечения. more effective than it would be in the real world.

Каждый метаанализ должен задавать вопрос: кто был включен? Кого исключили? И имеет ли это значение?

Module 18 Quiz

Q1. What does the PROGRESS-Plus framework help reviewers assess?

A. Statistical heterogeneity

B. Equity and applicability across disadvantaged populations

C. Внутренняя валидность включенных исследований

D. Общая достоверность доказательств

Module 18 Complete

«Доказательства, исключающие уязвимых, не могут претендовать на то, чтобы служить им».

Не каждый сигнал является правдой.

Модуль 19: Машина

========================================================== МОДУЛЬ 19: МАШИНА (Кокрейновский скрининг на COVID) =========================================================

Количество без происхождения не является числом.

Модуль 19: Машина

🎯 Learning Objectives

Describe how AI/ML is used in systematic review screening
Explain active learning and human-in-the-loop workflows
Assess automation validation: recall, workload savings, and risk
Признайте ограничения и предвзятости алгоритмического скрининга
Применять основы для ответственного использования ИИ при синтезе доказательств

When COVID-19 hit,

papers arrived faster than humans could read.

К 2021 году существовало более 300 000 статей о COVID. Кокрейн использовал классификаторы машинного обучения для сортировки исследований и их быстрых обзоров, что позволило сократить рабочую нагрузку по скринингу до 70% при сохранении запоминаемости >95%.

The Flood

By April 2020, 4,000 COVID preprints appeared every week.

PubMed indexed 500 new COVID articles per day.

Cochrane's screening queue hit 10,000 unreviewed titles.

🔍 Математика невозможности

A pair of reviewers screens ~200 titles per day.

At 500 new articles/day, they fell further behind with every hour.

Живой обзор умирал, не успев жить.

Первые попытки

Идея не была новой. Коэн и др. (2006, JAMIA) впервые показали, что машинное обучение может снизить нагрузку на проверку на 50 % — при этом потеря памяти составляет менее 5 %.

📅

2006: Cohen et al. — SVM classifiers for drug class reviews. Proof of concept.

📅

2016: RobotReviewer (Marshall et al., JMLR) — ML for risk of bias assessment. Inter-rater reliability comparable to human reviewers.

📅

2021: ASReview (van de Schoot et al., Nature Machine Intelligence) — active learning that simulated 95% workload reduction.

Но симуляция – это не реальность. COVID станет первым настоящим масштабным испытанием.

AI in Systematic Reviews

Screening Prioritization

Active learning ranks citations by relevance. Reviewers screen the most likely relevant first.

Помощь в извлечении данных

НЛП извлекает элементы, исходы и результаты PICO. Всегда требует человеческой проверки.

Risk of Bias Assessment

ML classifiers predict RoB domains. Experimental—human judgment remains gold standard.

Researcher

Validating Automation

Recall

>95% required. Missing 1 study can change conclusions.

WSS@95%

Work Saved over Sampling at 95% recall.

Stopping

When to stop screening? Consecutive irrelevant threshold.

Основное напряжение: Автоматизация экономит время, но создает новый источник ошибок. Всегда сообщайте об инструменте, версии, данных обучения и критериях остановки.

Кризис валидации

🔍 Парадокс валидации

Чтобы узнать, пропустила ли машина соответствующее исследование, you need a human to screen everything.

But if humans screen everything, зачем использовать машину?

The solution: prospective holdout validation.

Random 10% sample screened by both human and machine
Сравните: машина пропустила то, что нашел человек?
If recall drops below 95%, retrain and expand human screening

Доверяй, но проверяй. Машина заслужила свою роль, а не наследовала ее.

Cochrane's COVID Response

Кокрейн создал Регистр исследований COVID-19, используя классификаторы машинного обучения, обученные на миллионах записей. Система достигла чувствительности 99%, сократив при этом ручной скрининг с недель до дней.

Но машина была инструментом, а не заменой. Каждое включенное исследование по-прежнему проверялось рецензентами. Урок: ИИ дополняет рецензента, а не заменяет его.

Исследование, которое почти не было найдено

В июне 2020 года исследование RECOVERY опубликовало результаты по дексаметазону:the first treatment proven to reduce COVID mortality (28-day mortality: 22.9% vs 25.7%, RR 0.83).

Препринт появился на medRxiv с нестандартным названием. Подобные сценарии повторялись неоднократно во время пандемии: классификаторы ОД, обученные на существующей терминологии, низко оценивали незнакомые концепции.

В нескольких живых обзорах рецензенты, просматривающие помеченные названия, узнавали ключевые названия лекарств и расширяли исследования, которые классификаторы лишили приоритета.

Без этих людей важные результаты лечения могли бы подождать несколько недель, прежде чем они попадут в живой обзор.

Машина читает быстрее. Человек читает глубже. Ни того, ни другого недостаточно.

Decision Tree: When Should You Use AI?

В вашем обзоре будет представлено более 5000 наименований?

Yes → Consider AI-assisted screening

Active learning prioritization. Dual-screen random 10% holdout. Stop when 3 consecutive batches yield 0 relevant studies.

Report: classifier type, training data, recall on holdout, stopping rule.

No → Manual screening is feasible

For <5,000 titles, dual human screening remains gold standard. AI adds complexity without proportionate benefit.

Это живой или быстрый обзор?

If yes → AI is especially valuable. Continuous classifier retraining on new evidence. But: никогда не позволяйте машине принимать окончательное решение о включении.

Узор повторяется

Methodologist

Узор повторяется

Помните Модуль 6? Полдерманс сфабриковал данные DECREASE, которые послужили основой для рекомендаций по периоперационному назначению бета-блокаторов в течение десятилетия.

AI can now detect statistical anomalies automatically:

GRIM test: Соответствуют ли сообщаемые средние значения целочисленным размерам выборки?
SPRITE: Можно ли восстановить представленную сводную статистику на основе правдоподобных индивидуальных данных?
Statcheck: Do reported p-values match the test statistics?

Эти инструменты обнаружили аномалии в hundreds of published papers—faster than any human auditor.

Но машина зависает. Человеческие судьи. Решение об отказе остается глубоко человеческим.

Module 19 Quiz

Q1. Каков минимально допустимый отзыв для скрининга с помощью ИИ в систематических обзорах?

A. 80%

B. 90%

C. >95%

D. 100%

Module 19 Complete

«Машина читает быстрее. Человек читает глубже. Вместе они читают правду».

Не каждый сигнал является правдой.

Модуль 20: Качественный

========================================================= МОДУЛЬ 20: КАЧЕСТВЕННЫЙ (Борен 2015 — уход за беременными) =========================================================

Методы защищают пациентов от нашего доверия.

Модуль 20: Качественный

🎯 Learning Objectives

Explain why some questions require qualitative evidence synthesis
Describe meta-ethnography (Noblit & Hare) and thematic synthesis
Apply the CERQual framework to assess confidence in qualitative findings
Understand mixed-methods synthesis approaches
Recognize when qualitative evidence changes practice

ВОЗ задала вопрос

ни одно РКИ не смогло ответить.

Почему женщины во всем мире испытывают неуважение и насилие во время родов? Борен и др. (2015) объединили 65 качественных исследований из 34 стран в структуру семи областей плохого обращения.

Слайд A: Вопрос, выходящий за рамки рандомизации

Вопрос за пределами рандомизации

В 2014 году ВОЗ созвала комиссию для решения глобального кризиса: женщины подвергались физическому насилию, словесным унижениям и лишению медицинской помощи во время родов. Это не было редким событием — сообщения поступали из 34 countries.

They needed to understand WHY. What drives disrespect and abuse in maternity care?

Ни одно РКИ не смогло ответить на этот вопрос. Вы не можете рандомизировать женщин на жестокий и уважительный уход. Вы не можете ослепить акушерок. Вы не можете измерить «достоинство» по шкале Лайкерта. Доказательства должны были быть качественными.

Meta-Ethnography

Developed by Noblit & Hare (1988), meta-ethnography translates концепции в исследованиях, а не агрегирование цифр. Он создает новые структуры интерпретации (конструкты третьего порядка) на основе данных первого порядка (цитаты участников) и второго порядка (интерпретации автора).

Reciprocal

Исследования подтверждают друг друга

Refutational

Исследования противоречат друг другу

Line of
argument

Исследования создают новую теорию

What Bohren Found: A Taxonomy of Mistreatment

1. Physical abuse

Hitting, pinching, slapping during labor

2. Sexual abuse

Inappropriate touching, non-consensual procedures

3. Verbal abuse

Shouting, threats, judgmental comments

4. Stigma & discrimination

Based on HIV status, ethnicity, age, poverty

5. Professional standards failure

Neglect, lack of informed consent

6. Poor rapport

Poor communication, dismissiveness

7. Health system conditions

Overcrowding, understaffing, lack of supplies

65 исследований. 34 страны. Одни и те же закономерности повторяются в разных языках, культурах и системах. Это был не анекдот. Это были синтезированные доказательства.

Researcher

CERQual: уверенность в качественных доказательствах

CERQual assesses confidence in qualitative review findings across four components:

Methodological Limitations

Качество сопутствующих исследований.

Coherence

Насколько хорошо данные подтверждают этот вывод.

Adequacy

Богатство данных (а не только количество исследований).

Relevance

Применимость к контексту контрольного вопроса.

Слайд C: От доказательств к действию

When Qualitative Evidence Changes Practice

Bohren's synthesis informed the WHO's 2018 Recommendations on Intrapartum Care for a Positive Childbirth Experience. Specific changes grounded in qualitative evidence:

Rec. 15

Companionship during labor

Rec. 1

Respectful maternity care

Rec. 3

Effective communication

Rec. 12

Emotional support

Эти рекомендации, основанные на качественных данных, в настоящее время являются руководством по охране материнства в 194 государствах-членах ВОЗ. Ни один лесной участок не смог бы их произвести. Никакая статистика I² не могла бы их выявить.

Bohren's Framework of Mistreatment

Качественный синтез 2015 года выявил семь областей: физическое насилие, сексуальное насилие, словесное оскорбление, стигма и дискриминация, несоблюдение профессиональных стандартов, плохое взаимопонимание и состояние системы здравоохранения. Эта система легла в основу рекомендаций ВОЗ по уходу во время родов (2018 г.).

Никакое значение p не могло бы отразить ощущения от пощечины во время родов. Качественный синтез озвучил то, чего не могли дать цифры.

Decision Tree: When Is Qualitative Synthesis Appropriate?

ROOT: Вопрос вашего исследования касается опыта, восприятия, барьеров или помощников?

YES → Ваш вопрос о том, КАК или ПОЧЕМУ, а не только о том, ЛИ?

Yes: Qualitative evidence synthesis (meta-ethnography, thematic synthesis, or framework synthesis)
No: Рассмотрите смешанные методы: количественные для эффекта + качественные для механизма.

NO → Ваш вопрос об эффективности/эффективности?

Yes: Quantitative meta-analysis
But: Дополнить качественным обзором препятствий на пути реализации (оценка CERQual)

Key insight: Самые сильные систематические обзоры отвечают на оба вопроса: работает ли это? (количественное) И Почему это работает или не работает? (качественный)

Module 20 Quiz

Q1. What distinguishes meta-ethnography from quantitative meta-analysis?

A. Он включает только 3–5 исследований.

B. It translates concepts across studies rather than pooling numbers

C. It does not require a systematic search

D. It is less rigorous than quantitative synthesis

Module 20 Complete

«Не все, что имеет значение, можно посчитать. Не все, что имеет значение, имеет значение».

Гетерогенность — это сообщение, а не шум.

Модуль 21: Многовариантность

========================================================== МОДУЛЬ 21: МНОГОВАРИАТНЫЙ (Коррелированные исходы / RVE) =========================================================

Гетерогенность — это сообщение, а не шум.

Модуль 21: Многовариантность

🎯 Learning Objectives

Распознавать, когда результаты в исследовании коррелируют
Explain multivariate random-effects models
Apply robust variance estimation (RVE) for dependent effect sizes
Понимание трехуровневых моделей для вложенных данных
Choose between multivariate approaches based on data structure

Cardiovascular trials report

смертность, ИМ, инсульт и многое другое.

Эти результаты коррелируют между пациентами. У умершего пациента не может быть конечной точки ИМ. Стандартный метаанализ рассматривает каждый результат независимо, игнорируя зависимость и потенциально двойной учет доказательств.

Слайд А: Ложь об удобстве

Предположение, которое никто не подвергает сомнению

Откройте любой стандартный учебник по метаанализу. Модели предполагают, что каждое исследование вносит свой вклад one independent effect size. But reality is different.

В одном сердечно-сосудистом исследовании сообщается о смертности, инфаркте миокарда, инсульте и реваскуляризации. В одном психотерапевтическом исследовании сообщается о депрессии, тревоге и качестве жизни через 3, 6 и 12 месяцев.

30 trials

× 4 outcomes

= 120

effect sizes

Most analysts either: (a) treat all 120 as independent (inflating precision by a factor of √4), or (b) выберите один результат и отбросьте остальные. Оба подхода неверны.

Проблема зависимости

In standard pairwise meta-analysis, each study contributes one effect size. But many studies report multiple outcomes, subgroups, timepoints, or arms—creating dependent размеры эффекта. Игнорирование этого повышает точность и искажает выводы.

RVE

Robust Variance Estimation. Sandwich estimator handles unknown correlation.

3-Level

Study → Outcome nesting modeled explicitly.

Researcher

Robust Variance Estimation

RVE (Hedges, Tipton & Johnson, 2010) uses a sandwich-type оценщик, который обеспечивает действительные стандартные ошибки независимо от истинной корреляции между зависимыми эффектами. Нет необходимости знать или оценивать корреляцию внутри исследования. Лучше всего для ≥20 исследований.

Small-sample correction: Типтон и Пустейовский (2015) разработали поправки для малой выборки (CR2) для RVE, используя степени свободы Саттертуэйта, когда количество кластеров мало.

Слайд B: Математическая истина

Researcher

What Dependence Does to Your Confidence Intervals

Если 4 исхода одного и того же исследования имеют корреляцию внутри исследования ρ = 0,5:

Treating as independent

CI width = X

Учет зависимости

CI width = 1.58X

Ваш доверительный интервал должен быть 58% wider. Каждый метаанализ, который игнорировал это, публиковал ложно точные результаты.

RVE (Hedges, Tipton & Johnson, 2010): Uses a “sandwich” variance estimator that produces correct standard errors without needing to know the exact within-study correlation.

Researcher

Three-Level Models: Making Structure Explicit

Level 1: Sampling Variance

Measurement error within each effect size estimate.

Level 2: Within-Study Variance

Результаты и сроки варьируются в пределах одного исследования.

Level 3: Between-Study Variance

Исследования отличаются друг от друга популяциями, условиями и методами.

Example: В метаанализе психотерапии депрессии (k = 50 исследований, 180 размеров эффекта) 35% дисперсия была внутри исследования (разные результаты) и 65% было между исследованиями (различные методы лечения, группы населения). Это разложение показывает, насколько неоднородна within vs between studies.

Methodologist

Three-Level Models: Formal Framework

Когда эффекты являются вложенными (например, множественные результаты в рамках исследований или исследования в исследовательских группах), three-level model дисперсия разделяется на: (1) выборочную дисперсию (уровень 1), (2) дисперсию внутри исследования (уровень 2) и (3) дисперсию между исследованиями (уровень 3). Это поддерживает правильный вывод, одновременно заимствуя силу на разных уровнях.

Сердечно-сосудистая проблема

Метаанализ статинов может включать 30 исследований, в каждом из которых сообщается о смертности, ИМ, инсульте и реваскуляризации. Это 120 размеров эффекта из 30 кластеров. Если рассматривать их как 120 независимых оценок, точность увеличивается на коэффициент, связанный с корреляцией внутри исследования.

RVE or multivariate models handle this correctly—producing wider, honest confidence intervals.

Decision Tree: Which Approach for Dependent Effect Sizes?

ROOT: Имеет ли ваш метаанализ несколько эффектов на одно исследование?

YES → Знаете ли вы (или можете оценить) корреляции внутри исследования?

Yes: Multivariate random-effects model (most efficient)
No: RVE with small-sample correction (robust to unknown correlations)

NO → Standard univariate random-effects model

Sub-question: Являются ли ваши множественные эффекты результатом разных результатов, моментов времени или подгрупп?

Different outcomes → Three-level model or RVE with clustering
Different timepoints → Network of timepoints with temporal correlation
Different subgroups → Consider if subgroups are meaningful or should be averaged

Module 21 Quiz

Q1. What problem does Robust Variance Estimation (RVE) solve?

A. Publication bias

B. Зависимость между несколькими величинами эффекта в одном исследовании

C. Between-study heterogeneity

D. Small-study effects

Module 21 Complete

«Когда результаты запутаны, притворяться, что они независимы, — это удобная ложь».

Количество без происхождения не является числом.

Модуль 22: Доказательство

========================================================== МОДУЛЬ 22: ДОКАЗАТЕЛЬСТВО (ошибка Excel Рейнхарта-Рогоффа) =========================================================

Количество без происхождения не является числом.

Модуль 22: Доказательство

🎯 Learning Objectives

Understand how computational errors propagate through policy
Дать определение воспроизводимости и отличить ее от воспроизводимости.
Применяйте хеширование доказательств и числа, подтверждающие доказательства.
Use reproducibility checklists for meta-analysis
Признать роль предварительной регистрации и открытых данных

A graduate student opened a spreadsheet

и обнаружил, что эра жесткой экономии была построена на ошибке.

В 2010 году Рейнхарт и Рогофф заявили, что страны с соотношением долга к ВВП >90% имели отрицательный рост. Это повлияло на политику жесткой экономии по всей Европе. В 2013 году Томас Херндон обнаружил ошибку Excel, из-за которой из среднего показателя были исключены 5 стран. Скорректированный результат: скромный положительный рост, а не крах.

Reproducibility vs Replicability

Reproducible

Same data + same code = same result

Replicable

Новые данные + те же методы = стабильный результат

Reproducibility is the minimum standard. Если другие не могут воспроизвести вашу объединенную оценку на основе предоставленных вами данных, анализ не может быть проверен. Мета-анализы должны делиться: извлеченными данными, сценариями анализа, версиями программного обеспечения и случайными исходными данными.

Researcher

Proof-Carrying Numbers

Every number in a meta-analysis should carry its provenance: откуда он взялся, как был преобразован и какой код его создал. Evidence hashing creates a cryptographic fingerprint of inputs so any change (accidental or deliberate) is detectable.

SHA

Input Hash

Хеш извлеченных данных SHA-256. Если одна ячейка изменится, хэш изменится. Цепочка происхождения: данные → код → результат → хеш.

Interactive: Reproducibility Checklist

Отметьте галочкой каждый пункт, чтобы оценить воспроизводимость метаанализа. Какова оценка вашего обзора?

Ошибка Excel, изменившая экономику

«Рост во время долга» Рейнхарта-Рогоффа цитировался в выступлениях Конгресса, отчетах Европейской комиссии и аналитических записках МВФ. Ошибка Excel (строки 30–34 были исключены из формулы СРЗНАЧ) означала, что пять стран — Австралия, Австрия, Бельгия, Канада и Дания — просто отсутствовали.

Скорректированное среднее значение изменилось с -0,1% до +2,2%. Политика жесткой экономии затронула миллионы людей. Воспроизводимость — это не академический перфекционизм, это гарантия от катастрофы.

Remember Module 5?

DECREASE Through the Lens of Reproducibility

Исследования DECREASE, проведенные Доном Полдермансом, были отозваны из-за сфабрикованных данных. Если бы существовали подтверждающие числа — хешированные входные данные, цепочки происхождения, проверенные вычисления — фальсификацию можно было бы обнаружить. before доказательства вошли в метаанализ и изменили хирургические рекомендации.

Module 22 Quiz

Q1. В чем заключалась ошибка Рейнхарта-Рогоффа?

A. They used too small a sample

B. An Excel formula excluded 5 countries, reversing the conclusion

C. They studied the wrong time period

D. They used the wrong statistical test

Module 22 Complete

«Число без происхождения — это не число. Анализ без воспроизводимости не является доказательством».

Certainty must be earned, not assumed.

Модуль 23: Ваш первый мета-спринт

Модуль 23: Capstone – ваш первый мета-спринт

Certainty must be earned, not assumed.

Модуль 23: Ваш первый мета-спринт

🎯 Learning Objectives

Понять рабочий процесс 40-дневной систематической проверки
Map the Seven Principles to real practice phases
Recognize Definition-of-Done (DoD) gates as quality checkpoints
Appreciate why structure prevents the failures you've studied
Graduate ready to conduct (not just understand) meta-analysis

Путешествие завершено

Вы выучили истории.

Теперь вы должны пройти этот путь.

Каждое изменение доказательств, которое вы изучали, произошло потому, что команды knew методы, но не follow them systematically.

Структура МЕТА-СПРИНТ

40-дневный структурированный рабочий процесс с 5 фазовыми воротами. Каждый шлюз представляет собой контрольную точку определения готовности (DoD), которая не позволяет вам двигаться вперед до тех пор, пока не будет гарантировано качество.

Days to Completion

DoD Phase Gates

Day 34

Hard Freeze

Why 40 days? Достаточно длинный для строгости и достаточно короткий, чтобы предотвратить расползание прицела. Сердечные сигналы росиглитазона были скрыты на долгие годы, потому что не было крайнего срока, требующего прозрачности.

Пять ворот

Пять фазовых врат

DoD-A: Protocol Lock (Days 1-3)

PICOS defined, timepoint rules set, model choices pre-specified. No moving target.

DoD-B: Search Lock (Days 6-10)

All databases searched, grey literature checked, PRESS validated. No hidden studies.

DoD-C: Extraction Lock (Days 10-28)

Dual extraction, provenance linked, RoB assessed. No fabricated numbers.

The Five Phase Gates (continued)

DoD-D: Блокировка анализа (дни 21–33)

Forest plots generated, sensitivity analyses run, heterogeneity explored. No cherry-picking.

DoD-E: Submission Lock (Days 33-40)

GRADE certainty rated, clinical summary written, manuscript finalized. No overconfidence.

Day 34 Freeze: Никакие новые исследования не могут быть добавлены после 34-го дня. Это предотвращает «расползание масштабов применения оружия», которое преследовало метаанализы метаанализа хирургии позвоночника BMP, где промышленность продолжала «находить» благоприятные исследования.

Семь принципов на практике

Every principle you learned maps to a specific phase gate:

DoD-A "Не каждый сигнал является правдой" — Предварительно укажите, что считать доказательством

DoD-B "What was hidden in plain sight?" — Search comprehensively

DoD-C "Число без происхождения — не число." — Свяжите каждую точку данных

DoD-D "Гетерогенность — это сообщение, а не шум" — Investigate, don't ignore

DoD-E "Certainty must be earned, not assumed" — GRADE everything

Принцип красной команды

Ваша собственная команда пытается разрушить вашу работу.

Каждый день два сменяющихся члена команды тратят 12 минут на проверку качества данных в качестве противников. Именно так мошенничество Болдта было обнаружено – не путем дружеской проверки, а путем скептической проверки, которая выявила невозможные показатели набора персонала.

CondGO: When Things Go Wrong

What happens when you discover a critical problem mid-sprint?

CondGO = Conditional Go

A bounded rescue protocol. You have exactly 72 hours устранить проблему, используя только разрешенные действия. Если вы не можете это исправить, вы должны остановить проверку.

📖 Урок Авандии: GSK увидела сердечно-сосудистые сигналы в 2000 году, но не установила крайних сроков. Они «смотрели и ждали» 7 лет. Десятки тысяч пострадали. CondGO существует потому, что фраза «в конце концов мы с этим разберемся» убивает людей.

Вы начали этот курс с историй.

Вы заканчиваете его готовым к практике.

Рабочий процесс МЕТА-СПРИНТ объединяет все, чему вы научились, и структурирует это в 40-дневную систему, которая предотвращает неудачи, которые вы изучили.

Когда вы будете готовы провести настоящий систематический обзор, откройте приложение МЕТА-СПРИНТ. Истории, которые вы узнали здесь, будут вашим руководством — они будут напоминать вам на каждом этапе.

ИСТОРИЯ: Сотрудничество CTT — когда методы экономят миллионы

What does it look like when every principle is followed?

REAL DATA

Сотрудничество специалистов по лечению холестерина (CTT) является золотым стандартом метаанализа. Они получили индивидуальные данные пациентов от более чем 170 000 участников across 26 statin trials. Pre-specified protocol. IPD from all major trials. Standardized outcomes. Result: statins reduce major vascular events by 21% per mmol/L LDL reduction (RR 0.79, 95% CI 0.77-0.81), regardless of baseline risk. This finding, replicated across 5 метаанализов за 15 лет, has prevented an estimated millions of heart attacks and strokes worldwide.

Применение семи принципов

История СТТ показывает, что происходит, когда соблюдаются все принципы этого курса. Рассмотрим альтернативу:

ПУТЬ А: Без принципов

No protocol. Published data only. No RoB. No heterogeneity investigation. No GRADE.

↓

Conflicting small trials. Statin controversy persists. Millions untreated.

OUTCOME: Preventable cardiovascular deaths continue

ПУТЬ Б: Путь СТТ

Предварительно зарегистрированный протокол. IPD из всех испытаний. Стандартизированные результаты. Прозрачные методы. Сорт Высокая уверенность.

↓

Окончательный ответ. Глобальные рекомендации меняются. Статины назначают тем, кому это полезно.

OUTCOME: Millions of lives saved by rigorous evidence synthesis

THE REVELATION

Каждый принцип в этом курсе существует потому, что его отсутствие причинило вред. Сотрудничество CTT доказывает, что когда методы строгие, когда данные имеют происхождение, когда оценивается предвзятость и достигается уверенность, метаанализ становится самым мощным инструментом в медицине. Теперь вы несете эти принципы. Используйте их.

Capstone Quiz

1. Какова цель «жесткой заморозки» Дня 34 в МЕТА-СПРИНТ?

А. Предоставить время для экспертной оценки

B. Чтобы предотвратить манипулирование результатами поздно добавленных исследований.

C. To speed up publication

D. Координировать сроки выполнения журнала

2. The CondGO protocol gives teams how long to fix critical problems?

A. 24 hours

B. 48 hours

C. 72 hours

D. 1 week

3. Red-team adversarial QA caught Joachim Boldt's fraud by noticing:

A. Impossible patient recruitment rates

B. p-hacking in statistical tests

C. Inconsistent effect sizes

D. Whistleblower testimony

Истории, которые вы узнали, не являются историей.

Это предупреждения, которые охраняют вашу будущую работу.

Когда вы проводите свой первый метаанализ,
remember CAST before you trust a signal,
remember Poldermans before you skip provenance,
помните о ребоксетине, прежде чем игнорировать воронку.

Теперь вы готовы. Следуйте структуре. Идите со смирением. Следуйте семи принципам.

Не каждый сигнал является правдой.

Модуль 24: Заключительный экзамен

Certainty must be earned, not assumed.

Final Examination

Final Exam: Part 1 of 2

Проверьте свое владение принципами метаанализа. Каждый вопрос затрагивает основную концепцию курса.

Q1. Исследователь хочет изучить «влияние физических упражнений на здоровье». В чем ОСНОВНАЯ проблема этого исследовательского вопроса?

A. It lacks randomization

B. Sample size is too small

C. It is not answerable—lacks specific PICO elements

D. It lacks ethical approval

Q2. Воронкообразный график показывает выраженную асимметрию с отсутствующими исследованиями в нижней левой области. О чем это говорит?

A. Large studies have more precise estimates

B. Небольшие отрицательные исследования, вероятно, неопубликованы

C. The true effect is stronger than estimated

D. Random sampling error

Q3. Метаанализ сообщает, что I² = 85% и τ² = 0,42. Какова САМАЯ подходящая интерпретация?

A. There is an 85% chance of a true effect

B. The effect size is very large

C. Substantial between-study variance exists; investigate sources

D. Результаты клинически важны

Q4. В GRADE какова начальная достоверность совокупности доказательств рандомизированных контролируемых исследований?

A. High

B. Moderate

C. Low

D. Very low

Q5. In RoB 2.0, which domain assesses whether outcome assessors knew the treatment allocation?

A. D1: Randomization process

B. D2: Отклонения от намеченных вмешательств

C. D3: Отсутствующий результат данные

D. D4: Измерение результата

Final Exam: Part 2 of 2

Q6. Исследование CAST показало, что антиаритмические препараты повышают смертность, несмотря на подавление аритмий. Это пример:

A. Random sampling error

B. Surrogate outcome failure

C. Confounding by indication

D. Reverse causation

Q7. When should a random-effects model be preferred over a fixed-effect model?

A. When sample sizes are large

B. Когда исходы бинарные

C. When between-study heterogeneity is expected

D. When publication bias is suspected

Q8. According to ICEMAN criteria, which makes a subgroup analysis MORE credible?

A. Hypothesis specified a priori

B. Large number of subgroups tested

C. No biological rationale

D. Inconsistent effects across trials within subgroup

Q9. What assumption must be checked in network meta-analysis to ensure valid indirect comparisons?

A. All studies have equal sample sizes

B. Все исследования измеряют один и тот же исход

C. Transitivity (consistency of effect modifiers)

D. Double-blinding in all trials

Q10. В последовательном анализе испытаний (TSA), что означает пересечение границы бесполезности?

A. Возможность лечения вред

B. Дальнейшие исследования вряд ли покажут значимый эффект

C. Доказательства убедительны в пользу пользы

D. Метаанализ недостаточен

Part 1 Complete — continue to Part 2 (Advanced Modules)

Часть 2: Вопросы для расширенного модуля (Q11-Q25)

Final Exam: Part 2 of 2 (Advanced)

Questions 11–25 cover Modules 13–22 (Bayesian, NMA, IPD, Dose-Response, Fragility, Equity, AI, Qualitative, Multivariate, Reproducibility).

Q11. Что происходит в байесовском метаанализе, если во многих исследованиях вы используете расплывчатое априорное значение?

A. Апостериорное значение близко соответствует частотному результату

B. Априорное значение доминирует над апостериорным

C. The credible interval becomes infinitely wide

D. Модель не может сходятся

Q12. Почему в антидепрессанте NMA Чиприани ни один препарат не был объявлен «победителем»?

A. Слишком мало исследований

B. Different drugs ranked best on different outcomes

C. Непрямых доказательств не было

D. SUCRA не может быть рассчитанный

Q13. Почему никогда не следует объединять IPD, как если бы это было одно мегаисследование?

A. IPD always has fewer studies than aggregate

B. Оно игнорирует кластеризацию исследований и вносит искажения

C. Он не может обрабатывать данные о времени до события

D. Binary outcomes cannot be pooled

Q14. What caused the alcohol "J-curve" to disappear in Stockwell's reanalysis?

A. Были добавлены новые исследования, которые не показали отсутствия польза

B. Бывшие пьющие были корректно исключены из референтной группы трезвенников

C. Размер выборки был увеличен

D. Лучшая корректировка для искажающих факторов

Q15. Что Кокрейн обнаружил в саге об осельтамивире при доступе к неопубликованным клиническим данным отчеты об исследованиях?

A. Препарат оказался совершенно неэффективен.

B. Эффект оказался сильнее, чем предполагалось изначально

C. Польза от осложнений в значительной степени исчезла

D. Side effects were more common than reported

Q16. Какой процент пациентов с гипертонической болезнью в США НЕ смог бы участвовать в исследовании SPRINT?

A. About 25%

B. About 50%

C. Over 75%

D. Nearly 100%

Q17. Why is AI considered an "augmenter" rather than a "replacer" in systematic reviews?

A. AI is slower than human reviewers

B. AI has perfect recall

C. AI screens fast but cannot make human-level contextual judgments

D. AI is too expensive for most reviews

Q18. What does the "adequacy" component of CERQual assess?

A. Только количество исследований

B. Богатство и количество данных, подтверждающих этот вывод

C. Согласованность результатов разных исследований

D. Generalizability to other populations

Q19. A meta-analysis includes 30 statin trials, each reporting 4 correlated outcomes (120 effect sizes). Which approach is correct?

A. Treat all 120 as independent effect sizes

B. Use RVE with small-sample correction

C. Pick only one outcome per study

D. Усредните 4 результата в каждом исследовании

Q20. Каким был скорректированный средний темп роста в странах с высоким долгом, согласно ошибке Рейнхарта-Рогоффа?

A. −0.1% (same as claimed)

B. +2.2%

C. 0%

D. +5%

Passing Score: 15/20 across both parts

Просмотрите все пропущенные вопросы, вернувшись к соответствующему модулю. Каждый вопрос проверяет основную концепцию.

Не каждый сигнал является правдой.

Методы защищают пациентов от нашего доверия.

Congratulations

Вы прошли «Обращение доказательств: курс метаанализа».

Пусть ваш синтез направляется истиной, ваше объединение — мудростью,
и ваши выводы по смирению.

Семь принципов:

«Не каждый сигнал является правдой».

«Методы защищают пациентов от нашего доверия».

"What was hidden in plain sight?"

«Число без происхождения — не число».

«Неоднородность — это сообщение, а не шум».

«Отсутствие доказательств не является доказательством отсутствия».

"Certainty must be earned, not assumed."

«Наставь нас на прямой путь…»

Interactive Tools

Панель данных Live Story

📊 Данные живой истории

Перейдите к модулю, чтобы просмотреть данные его фактических данных с интерактивным сравнением до и после.

Effect Size Calculator ▼

Effect Type

Treatment: Events / Total

Control: Events / Total

Meta-Analysis Calculator ▼

Enter Studies (Effect, CI Low, CI High)

Study	Effect	CI Lo	CI Hi

Tau² Estimator

Use HKSJ Adjustment

PICO Builder ▼

Publication Bias ▼

Risk of Bias 2.0 ▼

GRADE Certainty ▼

Heterogeneity Guide ▼

NNT/NNH Calculator ▼

Leave-One-Out Analysis ▼

Trim-and-Fill ▼

Key References ▼

Your Progress

Семь принципов

Badges Earned

Learning Streak

Модуль 0: Открытие

🎯 Learning Objectives

What is Meta-Analysis?

Почему бассейновые исследования?

Increase Statistical Power

Improve Precision

Resolve Disagreement

Explore Heterogeneity

Когда НЕ объединяться в пул

Иерархия доказательств

Семь принципов

Module 0 Quiz

1. Почему иногда НЕ следует объединять исследования в метаанализ?

2. Какое место в иерархии доказательств занимают систематические обзоры РКИ?

Модуль 1: Вопрос

🎯 Learning Objectives

The Observation

The Response

Логика, которая убедила всех

CAST: The Cardiac Arrhythmia Suppression Trial

Результаты: апрель 1989 г.

Человеческая цена

Логика - Возвращение

What Went Wrong: The Surrogate Trap

Структура PICO

Исследовательское упражнение: доказательства до CAST

Before: Observational Logic

After: CAST RCT (1989)

Уроки синтеза доказательств

Биологическое правдоподобие не является доказательством

Surrogate endpoints can mislead

Рандомизированные исследования предоставляют самые убедительные причинно-следственные доказательства

Консенсус не является доказательством

REAL DATA

Module 1 Quiz

1. В чем заключалась фундаментальная ошибка антиаритмической логики?

2. Что означает буква «О» в PICO и почему она имеет значение?

Модуль 2: Протокол

🎯 Learning Objectives

Исследование здоровья медсестер

Скрытая предвзятость

WHI: The Women's Health Initiative

Результаты: июль 2002 г.

REAL DATA

PROSPERO Registration

Зарегистрируйтесь, прежде чем искать

Заблокируйте свои решения

Document Amendments

Prevent Duplication

Module 2 Quiz

1. Почему исследование здоровья медсестер показало пользу от ЗГТ, а WHI – нет?

2. What is the primary purpose of PROSPERO registration?

Модуль 3: Поиск

🎯 Learning Objectives

Опубликованные доказательства (до 2007 г.)

Nissen's Discovery: May 2007

Результаты метаанализа

The FDA Advisory Committee: July 2007

The Aftermath

What a Comprehensive Search Requires

Контрольный список для прессы

Перевод исследовательского вопроса

Булевы операторы и операторы близости

Subject Headings

Text Words

PRESS Checklist (continued)

Spelling, Syntax, Line Numbers

Ограничения и фильтры

Database Translation

REAL DATA

Module 3 Quiz

1. Какой тип источника данных выявил сердечно-сосудистый сигнал росиглитазона?

2. What does PRESS stand for?

Модуль 4: Скрининг

🎯 Learning Objectives

Расцвет Vioxx