Модуль 0: Открытие

Не каждый сигнал является правдой.

🎯 Learning Objectives

  • Дать определение метаанализу и объяснить его роль в синтезе доказательств.
  • Определите, когда исследования НЕ следует объединять
  • Опишите иерархию доказательств и место проведения систематических обзоров.
  • Recognize that meta-analysis can mislead when done poorly
  • Вспомните семь принципов, лежащих в основе этого курса.

Этот курс существует, потому что

медицина ошиблась.

Ни разу. Не редко. Неоднократно. Такими способами, которые убивали пациентов, которые верили в достоверность доказательств.

Статистический метод объединения результатов нескольких независимых исследований, посвященных одному и тому же вопросу.

1976
Term coined by Gene Glass
~50,000
Published per year
#1
Evidence hierarchy*

*When well conducted. Quality of conduct matters more than study design alone — as GRADE recognizes.

1

Increase Statistical Power

Individual studies may be too small to detect effects.

2

Improve Precision

Narrower confidence intervals around effect estimates.

3

Resolve Disagreement

Когда исследования конфликтуют, объединение может прояснить сигнал.

4

Explore Heterogeneity

Identify why effects differ across populations or settings.

But meta-analysis can also

MISLEAD

When done poorly, it amplifies bias rather than truth.

1

Исследования измеряют принципиально разные вещи (яблоки и апельсины)

2

Extreme heterogeneity that cannot be explained

3

One study dominates all others (megastudy problem)

4

Исследования имеют высокий риск предвзятости, которую невозможно скорректировать с учетом

Объединение в пулы — это привилегия, а не право.

The decision to combine must be defended.

Systematic Reviews & Meta-Analyses of RCTs

Randomized Controlled Trials

Cohort Studies

Case-Control Studies

Case Series / Expert Opinion

Положение в иерархии зависит от качества методологии, а не только от типа исследования.

Этот курс преподает через

evidence reversals.

Каждый модуль открывается рассказом о том, как медицина ошиблась. Затем мы изучаем метод, который позволил бы предотвратить вред.

Эти фразы будут возвращаться на протяжении всего вашего путешествия:

1. «Не каждый сигнал является правдой».

2. «Методы защищают пациентов от нашего доверия».

3. "What was hidden in plain sight?"

4. «Число без происхождения — не число».

5. «Неоднородность — это сообщение, а не шум».

6. «Отсутствие доказательств не является доказательством отсутствия».

7. "Certainty must be earned, not assumed."

1. Почему иногда НЕ следует объединять исследования в метаанализ?

A. Pooling is always better than single studies
B. When heterogeneity is extreme or studies measure different things
C. Pooling is always appropriate for RCTs
D. Statistical methods handle any situation

2. Какое место в иерархии доказательств занимают систематические обзоры РКИ?

A. At the top
B. Same level as individual RCTs
C. Ниже когортных исследований
D. Same as expert opinion

Начните путешествие.

Модуль 1: Вопрос

Модуль 1: Вопрос (CAST)

Не каждый сигнал является правдой.

Это не история об ошибке.

Это история об уверенности.

🎯 Learning Objectives

  • Сформулируйте конкретный вопрос PICO для систематического обзора.
  • Distinguish surrogate outcomes from patient-important outcomes
  • Explain why biological plausibility alone is insufficient evidence
  • Описать исследование CAST и его значение для доказательной медицины.
  • Применяйте принцип: «Не всякий яркий знак является руководством»

excess deaths per year

From a treatment everyone believed worked.

Это история о том, как мы верили – и как мы ошибались.

Patients with frequent PVCs after MI had 2-5x higher mortality.

400,000+
MI survivors/year
~40%
со значительными ЖЭ
160,000
at elevated risk

A massive clinical need. A clear target.

Antiarrhythmic drugs were developed, FDA approved,
and prescribed to ~200,000 patients per year.

В этой истории не фигурирует ни один злодей.

Все действовали на основании имеющихся доказательств.

PREMISE 1

PVCs after MI predict sudden cardiac death

PREMISE 2

Antiarrhythmic drugs suppress PVCs

PREMISE 3

Suppressing PVCs should prevent sudden death

Цепочка была логичной. Вывод казался неизбежным.

Finally, someone asked: "Does suppressing PVCs actually save lives?"

Design
Randomized, double-blind, placebo-controlled
Population
Post-MI patients with asymptomatic PVCs
Intervention
Encainide, flecainide, or moricizine vs placebo
Run-in
Only patients with ≥80% PVC suppression randomized
Primary endpoint
Death or cardiac arrest with resuscitation
Sample size
1,498 patients (encainide/flecainide arms)

Совет по мониторингу безопасности данных досрочно прекращает судебное разбирательство.

Outcome Drug (n=755) Placebo (n=743)
Arrhythmic deaths 33 9
All cardiac deaths 43 16
Total deaths 56 22
Death rate 7.4% 3.0%
Relative Risk of Death: 2.5
95% CI: 1.6 - 4.5 | p < 0.001

Препараты, прекрасно подавлявшие аритмии, повышали смертность на 150%.

Человеческая цена

Before CAST, ~200,000 Americans per year received these drugs.

~9,000

excess deaths per year - possibly more

Vietnam War: ~6,000 US deaths/year • These drugs: ~9,000+ deaths/year

For every number, a name we will never know.

Look again.

PREMISE 1

PVCs after MI predict sudden cardiac death

PREMISE 2

Antiarrhythmic drugs suppress PVCs

← THE LEAP
PREMISE 3

Suppressing PVCs should prevent sudden death

Предположение о том, что подавление маркера исправит результат, никогда не проверялось.

1

ЖЭ были маркером поврежденной ткани, а не причиной смерти

2

The drugs had proarrhythmic effects - triggering deadlier rhythms

3

Суррогатная мать улучшилась, а исход ухудшился - диссоциированный суррогат

Суррогатная мать не лгала. Мы задали неправильный вопрос.

Every answerable clinical question has four components:

P - POPULATION
Кто пациенты? Каковы их характеристики?
I - INTERVENTION
What treatment or exposure is being evaluated?
C - COMPARATOR
What is the alternative? Placebo? Standard care?
O - OUTCOME
What matters to patients? Hard endpoints vs surrogates.
CAST PICO
Post-MI patients with PVCs | Antiarrhythmics | Placebo | Mortality
🔍

Исследовательское упражнение: доказательства до CAST

Вы работаете кардиологом в 1988 году. Пациент пережил ИМ, но у него часты ЖЭ. Данные наблюдательной литературы ясны...

StudyПациенты с ЖЭMortality Risk
Lown (1977)High-grade PVCs2.4x higher
Bigger (1984)>10 PVCs/hour3.1x higher
Mukharji (1984)Complex PVCs4.8x higher

Сигнал четкий. Механизм правдоподобен. Вы бы прописали антиаритмические препараты?

Before: Observational Logic

PVCs → Higher mortality

Drugs suppress PVCs

∴ Drugs should reduce mortality

After: CAST RCT (1989)

Death rate on drug: 7.4%

Death rate on placebo: 3.0%

RR = 2.5 (150% increase in deaths)

Суррогатная мать улучшилась. Больные умерли. Вот почему мы спрашиваем: «Какой результат имеет значение?»

1

Биологическое правдоподобие не является доказательством

A logical mechanism doesn't guarantee the expected effect.

2

Surrogate endpoints can mislead

Improving a biomarker doesn't prove improvement in outcomes.

3

Рандомизированные исследования предоставляют самые убедительные причинно-следственные доказательства

Только данные наблюдений редко устанавливает причинно-следственную связь для вмешательства из-за смешивания факторов.

4

Консенсус не является доказательством

200 000 рецептов, одобрение FDA и рекомендации были неправильными.

This is why we do meta-analysis: to see past apparent truths.

ИСТОРИЯ: Суррогат DES-II Трагедия

Что, если вопрос, который вы задаете, определяет, кто выживет, а кто умрет?

REAL DATA

В 1989 году кардиологи знали, что подавление ПВХ достижимо с помощью энкаинида и флекаинида. Суррогатный конечный результат выглядел идеально: лекарства подавляли ЖЭ на 80%+. But CAST randomized 1,498 patients активное лекарство по сравнению с плацебо. Исследование было остановлено досрочно: 56 deaths in the drug group vs 22 in placebo. Mortality increased 2.5-fold. An estimated ~9,000 excess American deaths per year было связано с этими препаратами.

Выбор кардиолога: 1987
У вашего пациента после ИМ часто наблюдаются ЖЭ. У вас есть лекарства, которые полностью их подавляют. Что вы делаете?
ПУТЬ A: Лечите суррогатную мать
Prescribe encainide — PVCs vanish, the ECG looks clean
Биомаркер улучшается. Вы чувствуете себя уверенно. Пациент умирает.
OUTCOME: An estimated 50,000+ excess deaths across the US during years of use
PATH B: Demand a Mortality Trial
Настаивайте: «Покажите мне, что выживаемость улучшается, а не только ЭКГ»
Исследование выявило вред. Препараты отменяются. Жизни спасены.
РЕЗУЛЬТАТ: Правильный вопрос PICO предотвращает катастрофу
THE REVELATION
Вопрос никогда не был «Можем ли мы подавить ЖЭ?» Это было «Спасает ли подавление ПВХ жизни?» Суррогатная конечная точка ответила не на тот вопрос. Правильный PICO с самого начала потребовал бы смертность как исход.

What appears certain may be wrong.

What everyone believes may be false.

Существуют методы, позволяющие пациентам не платить за наше доверие.

Вот почему вы здесь.

1. В чем заключалась фундаментальная ошибка антиаритмической логики?

A. Испытания не были рандомизированными
B. Treating a surrogate (PVCs) was assumed to improve outcomes
C. Размер выборки был слишком мал
D. Одобрение FDA было поспешным

2. Что означает буква «О» в PICO и почему она имеет значение?

A. Observation - what researchers see
B. Цель – цель исследования
C. Outcome - what matters to patients
D. Организация – структура исследования

Не каждый сигнал является правдой.

Методы защищают пациентов от нашего доверия.

Модуль 2: Протокол (HRT)

What was hidden in plain sight?

Это история о

observational evidence.

🎯 Learning Objectives

  • Explain why protocol pre-registration prevents bias
  • Identify key elements of a PROSPERO registration
  • Distinguish healthy user bias from true treatment effects
  • Describe why observational studies overestimated HRT benefits
  • Применяйте принцип: «Методы защищают пациентов от нашего доверия»

observational studies

All showing hormone replacement therapy protected postmenopausal women from heart disease.

Доказательства казались неопровержимыми. Вывод казался однозначным.

122,000 nurses followed for decades. HRT users had 40-50% lower cardiovascular mortality.

RR 0.56
Cardiovascular mortality
122,000
Women followed
20+ years
Follow-up

Landmark study. Impeccable methodology. Wrong conclusion.

1

Healthy User Bias: Women who chose HRT were healthier, wealthier, better educated

2

Compliance Bias: Women who took HRT consistently also took better care of themselves

3

Prescriber Bias: Doctors gave HRT to healthier women with fewer risk factors

Лечение не защищало их. Они уже были защищены.

The largest randomized trial of HRT ever conducted.

Design
Randomized, double-blind, placebo-controlled
Population
Postmenopausal women aged 50-79
Intervention
Estrogen + Progestin vs Placebo
Sample size
16,608 women
Primary endpoint
Coronary heart disease
Planned duration
8.5 years

Trial stopped early after 5.2 years. Harm exceeded benefits.

Outcome Hazard Ratio Direction
Coronary heart disease 1.29 HARM
Stroke 1.41 HARM
Breast cancer 1.26 HARM
Pulmonary embolism 2.13 HARM
Complete Reversal
30-летние данные наблюдений отменены

The Lesson

PRE-SPECIFY

A protocol written before the search begins prevents fishing, prevents bias, prevents hindsight distortion.

ИСТОРИЯ: Гипотеза гормонального времени

Что, если лечение сработает, но только для некоторых?

REAL DATA

WHI showed HRT increased cardiovascular events overall. But later analyses revealed a critical pattern: women who started HRT within 10 years of menopause had REDUCED cardiovascular risk. Women starting 20+ years after menopause had INCREASED risk. The overall null/harm result hid a timing effect.

Дилемма аналитика
Вы анализируете подгруппы WHI. Общий результат показывает вред. Вы копаете глубже?
PATH A: Report Overall Only
Conclude HRT is harmful for all postmenopausal women
Simple message. Guidelines recommend against HRT universally.
OUTCOME: Deny potential benefit to younger menopausal women
PATH B: Pre-Specify Timing Subgroups
Analyze by years since menopause (biologically plausible)
Откройте для себя «временное окно» для безопасного начала ЗГТ.
OUTCOME: Enable personalized recommendations
THE REVELATION
Анализ подгрупп опасен при ловле. Это важно, когда биология предсказывает изменение эффекта. Гипотеза о времени была биологически правдоподобной и должна была быть заранее определена.
1

Зарегистрируйтесь, прежде чем искать

PROSPERO: International prospective register of systematic reviews

2

Заблокируйте свои решения

PICO, search strategy, outcomes, analysis plan - all pre-specified

3

Document Amendments

Изменения разрешены, но должны быть прозрачными и обоснованными.

4

Prevent Duplication

Прежде чем начать, проверьте, существует ли ваш отзыв.

1. Почему исследование здоровья медсестер показало пользу от ЗГТ, а WHI – нет?

A. Nurses' Health had too few patients
B. Healthy user bias in observational studies
C. Nurses' Health had shorter follow-up
D. Different hormone formulations were used

2. What is the primary purpose of PROSPERO registration?

A. To register clinical trials
B. Чтобы ускорить завершение проверки
C. Предварительное определение методов и предотвращение предвзятости
D. Чтобы получить финансирование на обзоры

Предварительное уточнение – это не бюрократия.

It is protection.

Against our own tendency to find what we expect.

Методы защищают пациентов от нашего доверия.

What was hidden in plain sight?

Модуль 3: Поиск

Модуль 3: Поиск (Росиглитазон)

What was hidden in plain sight?

Это история о

what they didn't publish.

🎯 Learning Objectives

  • Develop a comprehensive search strategy using PRESS guidelines
  • Search multiple databases including grey literature sources
  • Identify trial registries and regulatory databases (ClinicalTrials.gov, FDA)
  • Explain how the rosiglitazone case exposed hidden cardiovascular harms
  • Примените принцип: «Что было скрыто на виду?»

annual sales at peak

Авандия (росиглитазон) была одним из самых продаваемых в мире лекарств от диабета.

Опубликованные испытания выглядели обнадеживающими. Неопубликованные материалы рассказывали другую историю.

Published trials showed rosiglitazone effectively lowered HbA1c. Cardiovascular outcomes were rarely reported.

1999
FDA approval
6M+
Patients treated
~0.7%
HbA1c reduction

Суррогатная мать выглядела хорошо. Но как насчет реальных сердечно-сосудистых событий?

Доктор Стивен Ниссен получил неопубликованные данные испытаний с собственного сайта GSK.

В соответствии с юридическим соглашением компания GSK была обязана опубликовать результаты клинических испытаний в Интернете. Ниссен и Вольски проанализировали 42 исследования, многие из которых никогда не публиковались в журналах.

Данные были технически общедоступными.

No one had systematically searched for it.

Outcome Odds Ratio 95% CI
Myocardial Infarction 1.43 1.03 - 1.98
CV Death 1.64 0.98 - 2.74
43% Increased Risk of Heart Attack
р = 0,03 для инфаркта миокарда

Published in NEJM. The FDA called an emergency advisory committee meeting.

The FDA Advisory Committee: July 2007

22-1
Voted: CV risk exists
20-3
Оставайтесь на рынке с предупреждениями

Комитет разделился. Некоторые хотели его отозвать. Некоторые назвали метаанализ ошибочным.

Но сигнал нельзя было не заметить.

1

Black box warning added for heart failure risk (2007)

2

Severe restrictions on prescribing in the US (2010)

3

Withdrawn полностью с европейского рынка (2010 г.)

4

FDA now requires cardiovascular outcome trials for all diabetes drugs

PUBLISHED
PubMed, Embase, CENTRAL, Web of Science
GREY LITERATURE
Conference abstracts, dissertations, regulatory docs
TRIAL REGISTRIES
ClinicalTrials.gov, WHO ICTRP, EU CTR
REGULATORY
FDA, EMA, Health Canada submissions
COMPANY DATA
GSK, Pfizer, Roche clinical trial registries
HAND SEARCH
Reference lists, contact authors, experts

Peer Review of Electronic Search Strategies

1

Перевод исследовательского вопроса

Отражает ли поиск PICO элементы?

2

Булевы операторы и операторы близости

Правильно ли используются И, ИЛИ, НЕ?

3

Subject Headings

Подходят ли термины MeSH/Emtree и развернуты ли они?

4

Text Words

Synonyms, spelling variants, truncation?

5

Spelling, Syntax, Line Numbers

Есть ли ошибки, которые могут привести к извлечению сбои?

6

Ограничения и фильтры

Соответствуют ли дата, язык, ограничения дизайна исследования?

Peer-reviewed searches substantially improve retrieval of key studies.

PRESS guideline: McGowan et al., 2016

Один и тот же поиск должен быть адаптирован для каждой базы данных:

PubMed

"diabetes mellitus, type 2"[MeSH] OR "type 2 diabetes"[tiab]

Embase

'non insulin dependent diabetes mellitus'/exp OR 'type 2 diabetes':ti,ab

Subject headings, field tags, and operators differ between databases.

ИСТОРИЯ: Прозрачность Тамифлю Кампания

Что происходит, когда вы ищете и ничего не находите?

REAL DATA

Governments stockpiled $9 billion осельтамивира (Тамифлю) для лечения пандемического гриппа. Кокрановское сотрудничество попыталось проанализировать доказательства. Of 77 clinical trials, full reports existed for only 20. «Рош» отказалась предоставить данные для 5 years. Когда BMJ и Кокрейн наконец получили over 160,000 pages of clinical study reports, they found: Tamiflu reduced symptoms by less than 1 day, with no evidence it prevented hospitalizations or complications.

Дилемма рецензента: 2009
Вы обновляете Кокрейновский обзор Тамифлю. Опубликованные исследования выглядят позитивно. Но по 57 испытаниям нет доступных полных отчетов. Чем вы занимаетесь?
PATH A: Analyze What's Published
Use the 20 available trials. Conclude Tamiflu is effective.
Ваш обзор поддерживает дальнейшее накопление запасов. 9 миллиардов долларов потрачено на слабые доказательства.
OUTCOME: Billions wasted, true efficacy unknown
ПУТЬ B: Требование полных данных
Refuse to publish until all trial data is accessible
5-year campaign. 160,000+ pages finally obtained. Truth emerges.
OUTCOME: Evidence policy changed; EMA now publishes all trial reports
THE REVELATION
Поиск хорош настолько, насколько хорошо то, что можно найти. Когда серая литература спрятана за корпоративными стенами, даже самый полный поиск в PubMed упустит истину. Сага о Тамифлю изменила глобальную политику: теперь EMA публикует отчеты о клинических исследованиях всех лекарств.

If Nissen had searched only PubMed,

the signal would have remained hidden.

Comprehensive search is survival.

What was hidden in plain sight?

1. Какой тип источника данных выявил сердечно-сосудистый сигнал росиглитазона?

A. Published journal articles
B. Cochrane Library
C. Company clinical trial registry
D. FDA approval documents

2. What does PRESS stand for?

A. Обзор публикаций стандартов поиска доказательств
B. Peer Review of Electronic Search Strategies
C. Протокол для отчетности об исследованиях синтеза данных
D. Primary Research Evidence Search System

What was hidden in plain sight?

Модуль 4: Скрининг

Модуль 4: Скрининг (Vioxx)

Количество без происхождения не является числом.

Это история о

what they chose to report.

🎯 Learning Objectives

  • Apply PRISMA flow diagram to document study selection
  • Implement dual-reviewer screening with conflict resolution
  • Определить выборочную отчетность о результатах и манипулирование данными
  • Calculate inter-rater reliability (Cohen's kappa)
  • Применить принцип: «Число без происхождения не является числом»

heart attacks attributed to Vioxx

A blockbuster drug. A hidden signal. A preventable catastrophe.

Между В 1999 и 2004 годах это обезболивающее принимали миллионы. Некоторые так и не вернулись домой.

Рофекоксиб (Vioxx) был селективным НПВП ЦОГ-2. Рекламируется как более безопасный для желудка, чем традиционные обезболивающие.

1999
FDA approval
$2.5B
Peak annual sales
80M+
Patients prescribed

Vioxx Gastrointestinal Outcomes Research

Design
Randomized, double-blind
Comparison
Vioxx vs Naproxen
Population
Rheumatoid arthritis
Sample
8,076 patients
Primary Outcome
GI events
Published
NEJM, November 2000
GI Outcome Vioxx Naproxen
Confirmed GI events 2.1 per 100 pt-yrs 4.5 per 100 pt-yrs
Reduction 54% fewer GI events

Так сказали врачи. Это то, во что верили пациенты.

CV Outcome Vioxx Naproxen
Myocardial Infarction 20 events 4 events
Relative Risk 5x higher in Vioxx group
5-fold Increase in Heart Attacks
Mentioned only briefly, attributed to naproxen being "cardioprotective"
1

Манипулирование данными: 3 additional heart attacks occurred after the cutoff used in publication

2

Spin: Сигнал сердечно-сосудистых заболеваний объяснялся кардиозащитным действием напроксена (нет доказательств)

3

Outcome switching: Сердечно-сосудистые события были заранее определены, но не подчеркнуты

4

Internal knowledge: Электронные письма компании Merck показывают, что они знали об этом сигнале

Испытание APPROVe (2004 г.)

Испытание по профилактике колоректальных полипов - остановлено досрочно из соображений безопасности.

RR 1.92
CV events vs placebo
Sept 2004
Vioxx withdrawn

Four years after VIGOR showed a 5x risk. Four years too late.

ИСТОРИЯ: Дерево принятия решений Vioxx

А вы рассматривали, что происходит, когда сигнал скрывается в шуме?

REAL DATA

Vioxx (рофекоксиб) был одобрен в 1999. By 2004, estimates suggest 88,000-140,000 excess heart attacks and 30,000-40,000 deaths. Merck's own VIGOR trial showed 5x cardiovascular risk in 2000—but it was dismissed as a "naproxen cardioprotective effect."

Развилка на дороге
Вы являетесь рецензентом FDA в 2001 году. Данные VIGOR показывают 5-кратный риск сердечного приступа при приеме Vioxx по сравнению с naproxen.
ПУТЬ A: Примите объяснение
Believe Merck's hypothesis: naproxen is cardioprotective
No additional safety studies required. Drug stays on market at full speed.
РЕЗУЛЬТАТ: более 40 000 смертей за 4 года
ПУТЬ B: Требуйте доказательства
Require a dedicated CV safety trial before continued marketing
Delay or restrict marketing until cardiovascular safety is established.
OUTCOME: Signal detected early, lives saved
THE REVELATION
Сигнал был там в 2000 году. неправильное объяснение задержало действие на 4 года. Альтернативная гипотеза, принятая без доказательств, стоила десятков тысяч жизней.

Every step of screening must be documented and transparent.

Identification
Records from databases + other sources
Screening
Title/abstract review (duplicates removed)
Eligibility
Full-text assessment (with exclusion reasons)
Included
Studies in synthesis
1

Reduces Selection Bias

One reviewer might unconsciously favor certain studies

2

Catches Errors

Усталость, неправильное прочтение и ошибки неизбежны

3

Forces Explicit Criteria

Disagreements reveal ambiguity in inclusion rules

Typical agreement: κ = 0.6-0.8

Disagreements resolved by discussion or third reviewer

Before screening thousands of records, reviewers should calibrate on a sample of 50-100 records.

1

Screen the same set independently

2

Compare decisions and discuss disagreements

3

Refine inclusion criteria until κ > 0.7

4

Задокументируйте процесс калибровки и о любых изменениях правил

New in 2020
Separate reporting of database vs register searches
New in 2020
Инструментам автоматизации необходимо сообщать
New in 2020
Citation searching documented separately
New in 2020
Reasons for exclusion at full-text mandatory

В PRISMA 2020 существенно пересмотрен контрольный список с расширенной отчетностью по методам синтеза, оценке достоверности и регистрации протоколов.

If Vioxx's cardiovascular data had been screened by independent reviewers,

if all pre-specified outcomes had been required to be reported,

88,000 heart attacks might have been prevented.

Количество без происхождения не является числом.

1. Каков был относительный риск ИМ в исследовании VIGOR в группе Vioxx по сравнению с напроксеном?

A. 1.5x higher
B. 2x higher
C. 5x higher
D. 10x higher

2. Why is dual screening (two independent reviewers) important?

A. It makes screening faster
B. It reduces selection bias and catches errors
C. Это сокращает количество исследований для рассмотрения
D. It allows reviewers to skip full-text review

Количество без происхождения не является числом.

Модуль 5: Извлечение

Модуль 5: Извлечение (УМЕНЬШЕНИЕ)

Количество без происхождения не является числом.

Это история о

числа, которых никогда не существовало.

🎯 Learning Objectives

  • Разработать стандартизированную форму извлечения данных с полями происхождения
  • Calculate effect sizes from various reported statistics (OR, RR, HR, SMD)
  • Implement dual-extraction with discrepancy resolution
  • Определить красные флажки для фальсификации данных и неправомерных действий
  • Explain how the DECREASE fraud affected clinical guidelines

possible excess deaths in Europe

Из рекомендаций, основанных на сфабрикованных клинических испытаниях данные.

Испытания DECREASE повлияли на периоперационный уход во всем мире. Данные были изобретены.

Professor at Erasmus Medical Center, Rotterdam. Author of over 500 papers. Lead author of ESC guidelines on perioperative cardiac care.

500+
Publications
DECREASE
Trial series I-VI
ESC
Guideline chair

Казалось бы, безупречный источник. Пока кто-то не посмотрел на данные.

Trial Finding Impact
DECREASE-I (1999) 90% reduction in cardiac death Changed guidelines
DECREASE-IV (2009) Beta-blockers safe in low-risk Expanded recommendations

Effect sizes were implausibly large.

90% reduction? Almost nothing in medicine works that well.

1

Erasmus MC investigated after whistleblower complaints

2

Сфабрикованные данные пациентов: Patients who didn't exist or weren't enrolled

3

No informed consent: Many "participants" never consented

4

Poldermans dismissed: From Erasmus MC in 2011

Каскад вреда

Когда DECREASE был удален из метаанализ...

Benefit → Harm
Direction reversed
27% ↑
Stroke risk increase

Исследование POISE (2008) показало вред. Оно было отклонено, поскольку противоречило DECREASE.

1

Trust in authority: Полдерманс был автором руководства, рассматривавшим свои собственные доказательства

2

No data verification: Никто не запрашивал данные отдельных пациентов

3

Publication prestige: Published in top journals, assumed valid

4

Implausible effects accepted: 90% reductions should raise suspicion

1

Dual Extraction

Two extractors independently - catches transcription errors and forces scrutiny

2

Record Provenance

Table, page, paragraph - every number traceable to source

3

Verify Against Registry

ClinicalTrials.gov результаты по сравнению с публикацией - расхождения являются красными флажками

4

Request IPD

Individual patient data reveals what aggregate summaries hide

Во время извлечения вы рассчитываете величину эффекта на основе отчетных данных:

BINARY OUTCOMES

Odds Ratio, Risk Ratio, Risk Difference from 2x2 tables

CONTINUOUS OUTCOMES

Средняя разница, стандартизированная средняя разница от средних значений и стандартных отклонений

Всегда извлекайте данные из наиболее надежного источника.

Prefer: ITT results > per-protocol > subgroups

!

Implausible effect sizes: 80-90% reductions should prompt scrutiny

!

Baseline imbalances: Группы, которые «слишком идеально» подобраны

!

Round numbers: "Exactly 50" or "exactly 100" patients per arm

!

Registry discrepancies: Опубликованный N отличается от зарегистрированного N

Researcher

Исследования сообщают о результатах в различных показателях. Чтобы их объединить, вам часто нужны конверсии:

FromToFormula
SMD (d)log-ORlog-OR = d × π / √3
log-ORSMD (d)d = log-OR × √3 / π
Correlation (r)Fisher zz = 0.5 × ln((1+r)/(1−r))
ORRRRR = OR / (1 − P₀ + P₀ × OR)
ORNNTNNT = 1 / (P₀ − OR×P₀ / (1−P₀+OR×P₀))

P₀ = исходный риск в контрольной группе. Эти формулы предполагают приближенные условия; см. Боренштейн и др. (гл. 7) для точных выводов.

Researcher

Many trials report time-to-event outcomes using hazard ratios (HR). Pooling HRs in meta-analysis requires special handling:

1

Журнал (HR) + метод SE

Извлеките журнал (HR) и его SE из пробной версии. Если не указано, выведите SE из CI: SE = (ln(верхний) − ln(нижний)) / (2 × 1,96). Объединение с использованием стандартных методов обратной дисперсии.

2

Когда HR не сообщается

Существуют методы восстановления IPD по кривым Каплана-Мейера (Guyot et al., 2012) или оценки ЧСС на основе значений p и количества событий (Parmar et al., 1998). Всегда отдавайте предпочтение скорректированному ЧСС, о котором сообщается напрямую, если таковой имеется.

HR < 1 favors treatment; HR > 1 favors control. Do not convert HRs to ORs or RRs—they measure fundamentally different quantities.

ИСТОРИЯ: Скандал с коллоидом Болдта

Что, если данные, которые вы извлекаете, никогда не были реальными?

REAL DATA

Йоахим Болдт был самым плодовитым исследователем в области управления анестезиологическими растворами. Над 180 его публикаций были отозваны. — один из крупнейших случаев ретракции в истории медицины. Его сфабрикованные данные показали, что гидроксиэтилкрахмал (ГЭК) безопасен. Мета-анализ, включавший его исследования, пришел к выводу, что ГЭК безвреден. Когда исследования Болдта были удалены, объединенный эффект обратился вспять: HES increased kidney injury by 59% (RR 1.59, 95% CI 1.26-2.00) and mortality by ~9% (RR 1.09). An estimated thousands of patients received a harmful fluid based on fabricated evidence.

Бдительность экстрактора: 2010
Вы извлекаете данные для метаанализа инфузионной терапии. Исследования Болдта доминируют в литературе (более 90 статей). Информатор выразил обеспокоенность. Что вы делаете?
PATH A: Extract as Published
Trust peer-reviewed publications. Extract Boldt's data like any other.
Your meta-analysis shows HES is safe. Guidelines recommend it.
OUTCOME: Thousands receive a nephrotoxic fluid
PATH B: Verify Provenance
Перекрестная проверка одобрений этики, запрос исходных данных, проведение анализа чувствительности, исключая подозрительные исследования.
Discover missing ethics approvals. Flag studies. Re-analyze without them.
OUTCOME: True signal emerges — HES causes harm
THE REVELATION
Провенанс – это не бюрократия. В этом разница между доказательствами и вымыслом. Каждое полученное число должно быть связано с исследованием, одобренным с точки зрения этики, с поддающимися проверке данными пациентов. Без происхождения номер без владельца может стать оружием.

Каждое число в вашем метаанализе

must trace back to a verifiable source.

Количество без происхождения не является числом.

Fraudulent data can kill as surely as fraudulent drugs.

1. Что произошло, когда данные исследования DECREASE были исключены из метаанализа бета-блокаторов?

A. The benefit became even larger
B. No change in conclusions
C. The direction reversed to show potential harm
D. Результаты стали неубедительными

2. Why should dual extraction be standard practice?

A. It catches transcription errors and forces scrutiny
B. It makes extraction faster
C. Это помогает найти больше исследований
D. It reduces the amount of work needed

Количество без происхождения не является числом.

Модуль 6: Предвзятость

Модуль 6: Предвзятость (апротинин/БАРТ)

Методы защищают пациентов от нашего доверия.

Это история о

предвзятость, которую мы не можем видеть.

🎯 Learning Objectives

  • Apply Risk of Bias 2.0 (RoB 2) to randomized trials
  • Применить ROBINS-I к нерандомизированным исследованиям
  • Assess all five RoB 2 domains (randomization, deviations, missing data, measurement, selection)
  • Distinguish confounding by indication from true treatment effects
  • Explain how BART revealed hidden harms of aprotinin

лет на рынке

Апротинин был золотым стандартом снижения хирургического кровотечения.

Затем кто-то провел РКИ. Правда была иной.

1

Sicker patients got aprotinin: Surgeons used it in complex, high-risk cases

2

Survivors bias: Dead patients can't report complications

3

Publication bias: Отрицательные исследования не были опубликованы

Наблюдательные исследования не смогли отделить эффект препарата от исходного риска для пациента.

Blood Conservation Using Antifibrinolytics in a Randomized Trial

OutcomeAprotininAlternatives
30-day mortality6.0%3.9%
Relative Risk1.53 (53% increased death)
Trial Stopped Early for Harm
Снят с рынка в ноябре 2007 г.
🔍

Расследование: оцените предвзятость

Вы просматриваете наблюдательные исследования. Примените мышление о риске предвзятости:

QuestionObservationalBART (RCT)
Random allocation?❌ Surgeon choice✓ Yes
Baseline comparable?❌ Sicker got drug✓ Balanced
Blinding?❌ Open label✓ Double-blind

Confounding by indication: Самым тяжелым пациентам хирурги давали апротинин. В обсервационных исследованиях выживаемость приписывалась препарату, тогда как они измеряли систематическую ошибку выживаемости.

D1

Randomization Process

D2

Отклонения от запланированных вмешательств

D3

Отсутствующие данные о результатах

D4

Измерение результата

D5

Выбор сообщаемого результата

Если РКИ недоступны, используйте ROBINS-I (риск систематической ошибки в нерандомизированных исследованиях вмешательств).

1

Confounding

Baseline differences between groups

2

Selection of Participants

Exclusions related to intervention

3

Classification of Interventions

Misclassification of exposure status

4

Отклонения от запланированных вмешательств

Co-interventions, contamination

5

Missing Data

Differential loss to follow-up

6

Measurement of Outcomes

Ascertainment bias

7

Selection of Reported Result

Selective reporting

Ratings: Low / Moderate / Serious / Critical / No information

ИСТОРИЯ: Испытание апротинина BART

Что происходит, когда 64 исследования соглашаются, но все они неправы?

REAL DATA

Апротинин использовался в кардиохирургии для уменьшения кровотечения. 20 years. 64 small randomized trials предположил, что это безопасно и эффективно. Мета-анализ подтвердил пользу. Тогда BART trial (2008) randomized 2,331 patients: aprotinin vs. tranexamic acid vs. aminocaproic acid. Result: aprotinin increased mortality by 53% (ОР 1,53, 95% ДИ 1,06–2,22). Суд был остановился раньше времени из-за вреда. Через несколько месяцев компания Bayer отозвала апротинин с рынка.

Показания хирурга: 2006 г.
Вы кардиохирург, выбирающий антифибринолитик. В 64 небольших исследованиях предпочтение отдавалось апротинину, но ни в одном из них не удалось выявить смертность. В настоящее время проводится набор в крупное РКИ (BART). Вы ждете?
ПУТЬ А: Доверьтесь метаанализу
64 trials can't all be wrong. Continue prescribing aprotinin.
В небольших исследованиях измерялось кровотечение, а не смерть. Ни у кого не было достаточной силы для смертности. Мета-анализ объединил суррогатные результаты с недостаточной достоверностью.
OUTCOME: Excess deaths in cardiac surgery patients
PATH B: Assess Risk of Bias First
Оцените все 64 испытания с помощью RoB. Обратите внимание, что они небольшие, используют суррогатные результаты и имеют высокий уровень отсева. Подождите, пока RCT будет иметь достаточное питание.
BART reveals the truth. Switch to safer alternatives.
OUTCOME: Lives saved by demanding adequately powered evidence
THE REVELATION
Количество доказательств не равно качеству. Шестьдесят четыре исследования с недостаточной статистикой, дающие неправильный результат, не перевешивают одно исследование с адекватной статистикой, измеряющее смертность. Оценка риска предвзятости не является формальностью — это щит между пациентами и вводящими в заблуждение выводами на основе небольших суррогатных доказательств.

Sixty-four small trials measured bleeding, not death.

One adequately powered trial revealed 53% increased mortality.

Количество доказательств не может заменить качество и силу.

1. Why did 64 small trials miss aprotinin's harm?

A. Underpowered for mortality; used surrogate outcomes
B. Confounding by indication
C. Outcome measured incorrectly
D. Follow-up too short

Методы защищают пациентов от нашего доверия.

Модуль 7: Синтез

Модуль 7: Синтез (Магний/ISIS-4)

Гетерогенность — это сообщение, а не шум.

Споры о магнии: 1991–1995 гг.

When pooling leads us astray.

🎯 Learning Objectives

  • Calculate pooled effect sizes using fixed-effect and random-effects models
  • Choose between DerSimonian-Laird and HKSJ estimators appropriately
  • Interpret forest plots including weights, confidence intervals, and diamonds
  • Explain why small-study effects can mislead meta-analyses
  • Применяйте принцип: «Неоднородность — это сообщение, а не шум».

«Вы стоите на перекрестке надежд и доказательств...»

Heart disease kills more people worldwide than any other cause. In 1991, a new hope emerges: Could something as simple and cheap as intravenous magnesium save lives after myocardial infarction?

Биологическое обоснование было разумным:

Magnesium stabilizes cardiac membranes, prevents arrhythmias, and vasodilates coronary arteries.

Leicester Intravenous Magnesium Intervention Trial, 1992

2,316
Patients enrolled
24%
Mortality reduction
p = 0.04
Statistically significant

A cheap, safe intervention that could save 250,000 lives per year globally.

Медицинское сообщество было наэлектризовано.

Researchers pooled seven randomized trials of IV magnesium in MI:

Trial Year N Odds Ratio
Morton 19841984400.10
Rasmussen 198619862730.35
Smith 198619864000.48
Abraham 19871987940.87
Shechter 199019901030.27
Ceremuzynski 19891989480.22
LIMIT-219922,3160.74
🔍

Investigation Exercise: The Meta-Analyst's Dilemma

Вы являетесь Кокрановским рецензентом в 1993 году. Вас попросили обобщить данные о применении магния при ИМ. Перед вами данные семи испытаний.

Вы видите закономерность на этом лесном сюжете?

Pooled OR = 0.44 (95% CI: 0.27–0.71)
55% mortality reduction! Publish in the Lancet?

Но подождите... вы что-нибудь заметили в пробных размерах?

What should have given us pause?

1

Small sample sizes: Six of seven trials had <500 patients

2

Extreme effects: OR of 0.10 (90% reduction) is implausible for any drug

3

All positive: Где были отрицательные испытания? Проблема с файловым ящиком...

4

Funnel asymmetry: Small trials showed much larger effects than larger ones

🔍

Тест графика воронки

Прежде чем объединить данные, мы должны проверить предвзятость публикаций. Давайте рассмотрим график воронки.

«И тут пришла правда…»

The Fourth International Study of Infarct Survival (ISIS-4) enrolled 58,050 patients across 1,086 hospitals in 31 countries.

58,050
Patients
2,216
Deaths in Mg group
2,103
Deaths in placebo
OR = 1.06 (95% CI: 1.00–1.12)
No benefit. If anything, a trend toward harm.
📊

До и после: полная картина

Посмотрите, что произойдет, когда мы добавим мега-испытание на наш лесной участок...

BEFORE ISIS-4

7 small trials (N = 3,274)

OR = 0.44

Strong benefit signal

AFTER ISIS-4

8 trials (N = 61,324)

OR = 1.02

No effect

1

Publication Bias

Small negative trials were never published—they sat in file drawers

2

Small-Study Effects

Smaller trials tend to show larger effects due to methodological weaknesses

3

Random High Bias

Совершенно случайно некоторые небольшие испытания дали экстремальные результаты — и они были опубликованы

4

Random-Effects Amplification

Random-effects models give more weight to small trials, amplifying bias

Which model should you choose?

FIXED EFFECT MODEL

Assumes one true effect. Weights studies by inverse variance (precision). Large trials dominate.

Magnesium result: OR = 0.96 (p = 0.52)

RANDOM EFFECTS MODEL

Assumes distribution of effects. Gives more weight to small trials. Wider confidence intervals.

Magnesium result: OR = 0.59 (p = 0.01)

⚠️ Выбор модели определил вывод!

Случайные эффекты не устраняют предвзятость; с эффектами небольших исследований это может сместить вес в сторону более мелких исследований и изменить выводы.

1. Проверьте наличие предвзятости публикации прежде чем доверять объединенной оценке. Ваши инструменты — воронкообразные графики и тест Эггера.

2. Be wary of small-study effects. If only small trials show benefit, wait for a large, well-conducted trial.

3. Model choice matters. Случайные эффекты могут усилить предвзятые доказательства. Рассмотрите обе модели и поймите последствия.

4. One large trial can overturn many small ones. Вот почему такие мега-испытания, как ISIS-4, так ценны.

Researcher

Не во всех РКИ используются стандартные планы параллельных групп. Два распространенных варианта требуют особого подхода при объединении результатов:

1

Cluster-Randomized Trials

Рандомизировать группы (больницы, школы), а не отдельных лиц. < design effect = 1 + (m-1) × ICC уменьшает эффективный размер выборки. Разделите N на расчетный эффект перед объединением или используйте скорректированную SE из исследования. Игнорирование кластеризации приводит к искусственному сужению ДИ.

2

Crossover Trials

Каждый пациент получает оба вида лечения. Парный план уменьшает дисперсию, но для правильного объединения вам необходим within-patient correlation (или SE парного анализа). Использование SE параллельной группы консервативно; используя неправильные N пациентов с двойным подсчетом.

Подробные формулы и рабочие примеры см. в Кокрейновском справочнике v6.4, глава 23.

ИСТОРИЯ: Ранняя реверсия сурфактанта

Что, если способ объединения исследований определяет, спасет ли лечение жизнь или бесполезно?

REAL DATA

Ранний сурфактант для недоношенных детей был поддержан 6 small trials showing reduced mortality (RR 0.84). A fixed-effect meta-analysis confirmed benefit (p=0.04). But a random-effects model showed no significance (p=0.12) — the confidence interval crossed 1.0. Later, SUPPORT (2010) and VON (2012), two large pragmatic trials with ~2,000 neonates combined, found no benefit ранним и поздним сурфактантом. Клиническая практика была изменена на основе небольших исследований и неправильной модели.

Выбор модели неонатолога: 2005
Вы обновляете Кокрейновский обзор раннего сурфактанта. Шесть небольших исследований показали преимущества модели с фиксированным эффектом. Модель случайных эффектов не имеет существенного значения. О чем вы сообщаете?
PATH A: Report Fixed-Effect Only
Fixed-effect is significant. Report the positive result. Change practice.
NICUs adopt early surfactant. Later trials show no benefit. Practice reverses.
OUTCOME: Years of unnecessary intubation of premature infants
PATH B: Report Both Models
Покажите результаты FE и RE. Отметьте, что значимость зависит от выбора модели. Требуйте больших испытаний.
Honest uncertainty. Large trials prioritized. True answer emerges faster.
OUTCOME: Premature babies spared unnecessary intervention
THE REVELATION
Когда вывод меняется в зависимости от того, используете ли вы фиксированный эффект или случайный эффект, вывод становится хрупким. Сообщите об обоих. Признайте неопределенность. И помните: нестабильный результат небольших испытаний не является основанием для изменения практики.

1. Почему метаанализ магния показал преимущества, которых не обнаружил ISIS-4?

A. Методология ISIS-4 имела недостатки
B. Calculation error in meta-analysis
C. Publication bias in small trials
D. LIMIT-2 была недостаточно мощной

2. What warning sign should have alerted reviewers to potential bias?

A. Asymmetric funnel plot (small trials showing larger effects)
B. Low heterogeneity (I² = 0%)
C. Strong biological plausibility
D. Too few trials to analyze

3. When publication bias is suspected, which model may amplify the bias?

A. Fixed effect model
B. Random effects model
C. Bayesian model
D. Network meta-analysis

Small trials can show false signals.

Large trials anchor the truth.

Гетерогенность — это сообщение, а не шум.

Гетерогенность — это сообщение, а не шум.

Модуль 8: Неоднородность

Модуль 8: Гетерогенность (ACCORD)

Гетерогенность — это сообщение, а не шум.

ACCORD: 2008

Когда среднее значение скрывает правду.

🎯 Learning Objectives

  • Рассчитать и интерпретировать I², τ² и интервалы прогнозирования
  • Apply ICEMAN criteria to assess subgroup credibility
  • Distinguish between clinical, methodological, and statistical heterogeneity
  • Conduct and interpret leave-one-out sensitivity analyses
  • Explain how ACCORD revealed differential effects across subgroups

"Вы собираетесь стать свидетелем одного из самых шокирующих прекращений испытаний в истории история...»

На протяжении десятилетий диабетическое сообщество придерживалось одного руководящего принципа: lower blood sugar is better. Знаменательные исследования DCCT (1993) и UKPDS (1998) показали, что интенсивный контроль уровня глюкозы снижает микрососудистые осложнения — слепоту, почечную недостаточность, повреждение нервов.

Логическая экстраполяция:

If controlling glucose prevents complications, shouldn't intensive control prevent cardiovascular disease too?

The definitive test of intensive glucose control

10,251
Type 2 diabetics
HbA1c <6%
Intensive target
HbA1c 7-7.9%
Standard target

У всех пациентов был диабет 2 типа с высоким сердечно-сосудистым риском — либо установленное сердечно-сосудистое заболевание, либо множественные факторы риска. Исследование было рассчитано на 5,6 лет.

February 6, 2008

Совет по мониторингу безопасности данных созывает экстренное совещание.

After 3.5 years, they make an unprecedented decision:

ПРЕКРАТИТЬ ИСПЫТАНИЕ.

Outcome Intensive Standard HR (95% CI)
Primary CV endpoint 352 events 371 events 0.90 (0.78–1.04)
All-cause mortality 257 deaths 203 deaths 1.22 (1.01–1.46)
Severe hypoglycemia 10.5% 3.5% 3.0× higher
22% increase in mortality
54 excess deaths in the intensive arm
🔍

Investigation Exercise: The Clinician's Dilemma

Вы эндокринолог, у вас 500 пациентов с диабетом. Результаты ACCORD опубликованы. Что вы скажете своим пациентам, которые стремятся к HbA1c <6%?

Интенсивный контроль вреден для всех? Или только для некоторых?

Выявленный анализ подгрупп:

SubgroupIntensive HRInterpretation
No prior CVD1.00 (0.76–1.32)No effect
Prior CVD1.45 (1.15–1.84)Significant harm
Baseline HbA1c <8%1.02 (0.75–1.40)No effect
Baseline HbA1c ≥8%1.29 (1.03–1.60)Harm

The average effect masked critical heterogeneity!

Для пациентов с установленными сердечно-сосудистыми заболеваниями или плохим исходным контролем интенсивная терапия была вредной.

Когда проводятся исследования (или подгруппы) показывают разные эффекты, мы должны количественно оценить это изменение.

I² = 0–25%: Низкая гетерогенность. Эффекты одинаковы во всех исследованиях.

I² = 25–50%: Moderate. Look for sources of variation.

I² = 50–75%: Substantial. Consider whether pooling is appropriate.

I² = 75–100%: Considerable. A single pooled estimate may mislead.

Но сам по себе I² не говорит вам, что делать — он сигнализирует о необходимости дальнейшего исследования.

В то время как I² сообщает вам долю дисперсии из-за неоднородности, τ² сообщает вам величину.

I² (percentage)

"Какая доля общей дисперсии обусловлена истинными различиями между исследованиями?"

Scale: 0% to 100%

τ² (absolute)

"Насколько истинные эффекты различаются между исследованиями?"

Same scale as the effect measure

Use τ² to calculate prediction intervals

Интервал прогнозирования показывает диапазон эффектов, которые вы ожидаете в новом исследовании - часто намного шире, чем доверительный интервал интервал.

📊

The Prediction Interval: What ACCORD Really Tells Us

Consider a meta-analysis of intensive glucose control across multiple trials...

Confidence Interval

HR 1.10 (0.95–1.27)

"Наша лучшая оценка среднего эффекта"

Prediction Interval

HR 1.10 (0.70–1.73)

"The range of effects in a new setting"

Интервал прогнозирования охватывает как пользу, так и вред!

In some settings, intensive control might help. In others, it could kill.

Subgroup Credibility Criteria (adapted from ICEMAN, Schandelmaier 2020 & Sun 2012)

1

Был ли анализ подгрупп заранее определен?

Апостериорные подгруппы склонны к получению данных дноуглубительные работы

2

Is there a plausible biological rationale?

Механизм должен быть ясным и независимым от данных

3

Is the effect consistent across related outcomes?

Если появляется вред для смертности, существует ли аналогичный вред для ИМ, инсульта?

4

Is there independent replication?

Подтвержден ли эффект подгруппы в других исследованиях?

CriterionAssessmentScore
Pre-specified? Да — предшествующие сердечно-сосудистые заболевания были в протокол
Biological rationale? Yes—hypoglycemia more dangerous with CVD
Consistent outcomes? Yes—CV mortality and all-cause mortality aligned
Independent replication? Partially—ADVANCE, VADT showed similar patterns ~

ICEMAN Rating: High Credibility

The differential harm in high-risk patients appears genuine.

Для пациентов без сердечно-сосудистых заболеваний: Moderate glucose control (HbA1c ~7%) remains the goal. Intensive control may reduce microvascular complications.

Для пациентов с установленными сердечно-сосудистыми заболеваниями: Avoid intensive targets. Hypoglycemia is dangerous for damaged hearts.

Для пожилых пациентов: Relaxed targets. Quality of life matters. Tight control causes falls, confusion, and excess mortality.

"One size fits all" treatment is not patient-centered medicine.

When heterogeneity is high, meta-regression can identify study-level covariates that explain variation.

THE QUESTION

Меняется ли систематически величина эффекта в зависимости от исследования характеристики?

Covariates
Year, dose, duration, baseline risk, study quality
Output
Regression coefficient (slope), R², residual heterogeneity

Caution

Мета-регрессия требует ≥10 исследований на каждую ковариату. Поскольку исследований немного, они носят лишь исследовательский характер. Экологическая ошибка: ассоциации на уровне исследования могут быть неприменимы к отдельным людям.

Example: In ACCORD, meta-regression might test if treatment effect varies by baseline HbA1c, showing harm concentrated in patients with very high levels.

ИСТОРИЯ: Революция SPRINT в области артериального давления

What number saves lives? Who decides?

REAL DATA

На протяжении десятилетий целью было: снизить кровяное давление до <140 mmHg systolic. Then came SPRINT (2015): 9,361 high-risk patients randomized to intensive (<120) vs standard (<140) targets. Intensive treatment reduced CV events by 25% and death by 27%. Trial stopped early for benefit. Guidelines changed worldwide.

Before SPRINT: The Guidelines Committee
В 2014 году вы устанавливаете рекомендации по артериальному давлению. В течение многих лет цель составляла <140. Стоит ли ждать более убедительных доказательств?
PATH A: Maintain Status Quo
Keep <140 target (established practice, minimal controversy)
Guidelines unchanged. Physicians continue treating to <140.
OUTCOME: Miss opportunity to prevent deaths
PATH B: Fund the Definitive Trial
Дождитесь результатов SPRINT, прежде чем обновлять цели
SPRINT demonstrates benefit. Update target to <120 for high-risk patients.
OUTCOME: Estimated 100,000+ lives saved globally
JNC 7 (2003): <140
Years of uncertainty
SPRINT (2015): <120 для групп высокого риска
THE REVELATION
"Стандарт медицинской помощи" не установлен. Ситуация меняется, когда испытания ставят под сомнение предположения. В течение десятилетия пациенты, возможно, получали недостаточное лечение, потому что никто не проверял очевидный вопрос.

1. Почему исследование ACCORD было остановлено досрочно?

A. Intensive control showed clear cardiovascular benefit
B. Intensive control increased mortality
C. Набор участников был слишком медленным
D. Budget ran out

2. What does a prediction interval tell us that a confidence interval doesn't?

A. The true effect is more precisely estimated
B. Размер выборки адекватен
C. Диапазон эффектов, которые мы ожидаем в новом исследовании
D. Математическая формула используется

3. According to ICEMAN, which factor is MOST important for subgroup credibility?

A. Предварительная спецификация гипотезы подгруппы
B. Large sample size in the subgroup
C. Statistically significant p-value
D. Multiple outcomes showing same direction

Если исследования расходятся во мнениях,

выслушайте несогласие.

Гетерогенность — это сообщение, а не шум.

Отсутствие доказательств не является доказательством отсутствия.

Модуль 9: Скрытые исследования

Модуль 9: Скрытые исследования (ребоксетин)

Отсутствие доказательств не является доказательством отсутствия.

Reboxetine: 2010

74%, которые так и не увидели света.

🎯 Learning Objectives

  • Interpret funnel plots for asymmetry detection
  • Примените тест Эггера и другие статистические тесты на предмет предвзятости публикации.
  • Внедрить метод обрезки и заполнения для корректировки смещения
  • Critically appraise the limitations of publication bias tests
  • Применяйте принцип: «Отсутствие доказательств не является доказательством отсутствия»

"A new hope for depression patients who cannot tolerate SSRIs..."

Ребоксетин (Эдронакс) был новым антидепрессантом — селективным ингибитором обратного захвата норадреналина (NRI). В отличие от СИОЗС, он воздействовал на другую систему нейромедиаторов. Для пациентов, которые потерпели неудачу или не могли переносить флуоксетин или сертралин, был предложен новый механизм.

1997
EU approval
50+
Countries approved
Millions
Prescriptions written

What doctors could find in medical journals:

ComparisonPublished TrialsPublished Result
Reboxetine vs Placebo 3 trials (n=507) Significantly better (SMD = 0.56)
Reboxetine vs SSRIs 4 trials (n=628) Equivalent or better

Опубликованная литература рассказала ясную историю:

Reboxetine works. Patients benefit. Prescribe with confidence.

А как насчет испытаний, которые вы не могли видеть?

In 2010, German researchers at IQWiG made a request to the European Medicines Agency...

They demanded access to all данные испытаний – опубликованные и неопубликованные.

What they found changed everything.

Eyding et al., BMJ 2010

ComparisonPublished OnlyALL DATA
Reboxetine vs Placebo SMD 0.56 (benefit) SMD 0.10 (no benefit)
Patients in analysis 507 (14%) 2,731 (100%)
Reboxetine vs SSRIs Equivalent Низкий (1,23 руб. за вред)
Patients in analysis 628 (26%) 2,411 (100%)
74% данных пациентов никогда не публиковались
Скрытые испытания не показали никакой пользы и больше вреда
🔍

Investigation Exercise: The File Drawer

Вы являетесь систематическим обозревателем в 2008 году. Вы ищете в PubMed, Embase и Кокрейновской библиотеке все исследования ребоксетина. Вы найдете 7 опубликованных исследований, показавших пользу.

Можно ли доверять этим доказательствам?

⚠️Воронка кардинально асимметрична!

Все опубликованные исследования группируются на одной стороне. Где нулевые и отрицательные испытания?

1

Funnel Plot

Plot effect size vs. standard error. A symmetric funnel suggests no bias; asymmetry raises alarms.

2

Egger's Regression Test

Regress effect/SE on 1/SE. A non-zero intercept (P < 0.10) suggests small-study effects. Note: inflated false-positive rate with binary outcomes; use Peters' test instead.

3

Peters' Test

For binary outcomes, regresses log OR on inverse of total sample size. Less prone to false positives.

4

Trim-and-Fill

Учитывает «недостающие» исследования, чтобы сделать воронку симметричной, а затем пересчитывает совокупный эффект.

📊

Интерактивный режим: анализ обрезки и заполнения

Давайте применим обрезку и заполнение к данным по ребоксетину и посмотрим, какой будет скорректированная оценка...

Published Only

7 trials

SMD = 0.56

Significant benefit

Trim-and-Fill

7 + 5 imputed = 12 trials

SMD = 0.23

Reduced, still nominally significant

But even trim-and-fill underestimated the problem!

Истинный эффект для всех данных составил SMD = 0,10 (по существу нулевой).
Trim-and-fill is conservative—it doesn't fully correct for selective publication.

Методы обнаружения предвзятости публикаций несовершенны. Реальное решение prospective registration.

ClinicalTrials.gov
US registry (2000)
WHO ICTRP
Global portal
PROSPERO
Review registration

При поиске испытаний всегда проверяйте реестры. Сравните количество registered испытания на количество published. Разрыв — ваш предупреждающий сигнал.

Since 2005, ICMJE requires trial registration as a condition of publication.

"All trials registered. All results reported."

Скандал с ребоксетином, наряду с аналогичными случаями с другими препаратами, стал катализатором глобального движения:

2013: Политика EMA в отношении клинических данных

European Medicines Agency commits to publishing clinical study reports

2016: FDA Amendments Act enforcement

Mandatory results reporting on ClinicalTrials.gov within 12 months

AllTrials Coalition

Over 90,000 supporters, 700+ organizations demanding transparency

!

Germany's IQWiG recommended against reboxetine for depression

!

Британский NICE понизил рейтинг до «не рекомендуется».

!

FDA отклонило ребоксетин в 2001 году (у них был доступ к неопубликованным данным).

Более десяти лет пациенты получали препарат не лучше, чем плацебо.

Потому что были опубликованы только положительные испытания.

ИСТОРИЯ: Исследование пароксетина 329 Обман

Что, если опубликованное заключение противоречит фактическим данным?

REAL DATA

В исследовании 329 компании GlaxoSmithKline пароксетин был протестирован у adolescent depression. В опубликованной статье (2001) сделан вывод, что пароксетин "generally well tolerated and effective." Фактические данные: пароксетин failed on all 8 pre-specified outcomes. When re-analyzed (RIAT 2015), suicidal/self-harm events: 23 в группе пароксетина против 5 в группе плацебо. Опубликованная статья переопределила результаты post-hoc, чтобы оценить производственную значимость. В 2015 году повторный анализ RIAT (Восстановление невидимых и прерванных исследований) с использованием оригинального отчета о клиническом исследовании пришел к выводу: пароксетин был neither safe nor effective for adolescents.

Загадкой врача: 2003
Вы детский психиатр. Исследование 329 — единственное крупное исследование — показало, что пароксетин эффективен у подростков. Но FDA не одобрило его для подростков. Родитель просит вас прописать его. Что вы делаете?
ПУТЬ A: Доверять публикации
A peer-reviewed JAACAP paper says it works. Prescribe off-label.
Millions of prescriptions worldwide. Suicidal events in adolescents.
OUTCOME: FDA issues black box warning for SSRIs in youth (2004)
PATH B: Check the Trial Registry
Поиск исходных конечных точек на сайте ClinicalTrials.gov. Обратите внимание, что опубликованные результаты не соответствуют зарегистрированному протоколу.
Красный флаг: обнаружено переключение результатов. Вы отказываетесь от приема препарата. Пациент в большей безопасности.
OUTCOME: Publication bias identified before harm
THE REVELATION
Предвзятость публикаций связана не только с отсутствием исследований. Речь идет об отсутствии истины в опубликованных исследованиях. Переключение результатов, фиктивное написание и выборочная отчетность могут превратить неудачное испытание в маркетинговый инструмент. Всегда сравнивайте опубликованные результаты с протоколами реестра исследований.

1. Какой процент данных испытаний ребоксетина был скрыт из опубликованной литературы?

A. 25%
B. 50%
C. 74%
D. 90%

2. Why can trim-and-fill underestimate the correction needed?

A. It assumes effects are normally distributed
B. Он учитывает только исследования для достижения симметрии, что может не полностью отражать реальность
C. Требуется не менее 20 исследований
D. Это работает только с очень крупными исследованиями

3. What is the best prospective defense against publication bias?

A. Funnel plots in all meta-analyses
B. Egger's test before pooling
C. Prospective trial registration
D. More medical journals

То, что вы не можете см.

may be more important than what you can.

Отсутствие доказательств не является доказательством отсутствия.

Certainty must be earned, not assumed.

Модуль 10: Уверенность

Модуль 10: Уверенность (ранний поверхностно-активный агент)

Certainty must be earned, not assumed.

Early Surfactant: 2012

Когда появляются доказательства высокого качества.

🎯 Learning Objectives

  • Примените полную структуру GRADE для оценки достоверности доказательства
  • Evaluate all five downgrade factors (RoB, inconsistency, indirectness, imprecision, publication bias)
  • Identify when to upgrade for large effect, dose-response, or confounding
  • Construct Summary of Findings tables with absolute effect estimates
  • Применяйте принцип: «Уверенность необходимо заслужить, а не предполагать»

"A revolution in neonatal care..."

Респираторный дистресс-синдром (РДС) был основной причиной смерти недоношенных детей. Разработка экзогенного surfactant— вещества, которое удерживает альвеолы от коллапса, — стала одним из величайших достижений в неонатальной медицине.

Встал вопрос: когда нам следует вводить сурфактант?

Prophylactically (to all high-risk infants) or selectively (only after RDS develops)?

Multiple RCTs conducted before the era of routine CPAP

OutcomeProphylactic vs SelectiveCertainty
Neonatal mortality RR 0.73 (favors prophylactic) High
BPD or death RR 0.84 (favors prophylactic) High
Recommendation: Give surfactant prophylactically
Guidelines worldwide adopted this approach

Но мир ухода за новорожденными менялся...

A new technology emerged: Continuous Positive Airway Pressure (CPAP)

Non-invasive support that could help preterm lungs without intubation.

Применимы ли по-прежнему старые доказательства?

New trials conducted in the CPAP era

OutcomeOld TrialsNew Trials
BPD or death RR 0.84 (favors prophylactic) RR 1.12 (favors selective)
Потребность в механических вентиляция Нижняя с профилактической Высшая с профилактической!
Complete Reversal
In the CPAP era, prophylactic surfactant causes more harm
🔍

Investigation: Why Did Evidence Evolve?

Вы неонатолог. Коллега спрашивает: «Как рандомизированные исследования могут противоречить друг другу?»

Были ли первоначальные данные ошибочными?

1

Indirectness Changed

Old trials: No CPAP available. New trials: CPAP standard of care.

2

Улучшенный компаратор

Selective surfactant + CPAP is better than prophylactic intubation.

3

Context Matters

Данные одной эпохи могут не применяться к другой.

This is why GRADE assesses Indirectness!

High-quality evidence can become inapplicable when context changes.

Grading of Recommendations, Assessment, Development and Evaluations

GRADE отвечает на вопрос: Насколько мы уверены в этой оценке?

⊕⊕⊕⊕ HIGH: Very confident. True effect is close to the estimate.

⊕⊕⊕◯ MODERATE: Moderately confident. True effect likely close, but may differ substantially.

⊕⊕◯◯ LOW: Limited confidence. True effect may differ substantially.

⊕◯◯◯ VERY LOW: Very little confidence. True effect likely substantially different.

Доказательства РКИ начинаются с ВЫСОКОГО уровня. Его можно понизить по следующим причинам:

1

Risk of Bias

Flawed randomization, lack of blinding, incomplete follow-up, selective reporting

2

Inconsistency

Unexplained heterogeneity across studies (large I², non-overlapping CIs)

3

Indirectness

Различия в популяции, вмешательстве, сравнительном анализаторе или исходах вопроса

4

Imprecision

Wide confidence intervals, small sample size, few events

5

Publication Bias

Asymmetric funnel plot, missing registered trials, sponsor influence

Each factor can downgrade by one or two levels

High → Moderate → Low → Very Low

Example: Метаанализ РКИ (начинается ВЫСОКИМ) с высоким риском систематической ошибки (↓1) и серьезной косвенностью (↓1) будет оценен LOW.

📊

Interactive: Apply GRADE to Surfactant

Давайте оценим достоверность доказательств в пользу профилактического применения сурфактанта с использованием старых и новых исследований.

OLD TRIALS (Pre-CPAP)

Starting: HIGH (RCTs)

Risk of Bias: Low (−0)

Inconsistency: None (−0)

Indirectness: Serious (−1)

Different standard of care today

Final: ⊕⊕⊕◯ MODERATE

NEW TRIALS (CPAP Era)

Starting: HIGH (RCTs)

Risk of Bias: Low (−0)

Inconsistency: None (−0)

Indirectness: None (−0)

Matches current practice

Final: ⊕⊕⊕⊕ HIGH

Наблюдательные данные начинаются с НИЗКОГО уровня. Его можно обновить для:

+1

Large Magnitude of Effect

RR >2 или <0,5 без каких-либо правдоподобных искажений

+1

Dose-Response Gradient

Higher exposure = larger effect in a consistent pattern

+1

Residual Confounding

All plausible confounders would reduce the effect (strengthens causal inference)

GRADE requires transparent language about confidence:

HIGH: "Prophylactic surfactant reduces mortality..."

MODERATE: "Prophylactic surfactant probably reduces mortality..."

LOW: "Prophylactic surfactant may reduce mortality..."

VERY LOW: "We are uncertain whether prophylactic surfactant reduces mortality..."

Этот язык позволяет врачам понять силу доказательств.

ИСТОРИЯ: Кислородный парадокс недоношенного ребенка

Can too much of a lifesaver become a killer?

REAL DATA

1940s-50s: High oxygen concentrations saved premature babies from respiratory failure. Then came an epidemic of blindness—retrolental fibroplasia (now called ROP). Doctors reduced oxygen dramatically. Blindness dropped. But then: increased deaths and brain damage от гипоксия. Требуемый оптимальный уровень кислорода decades of trials to find. Recent SUPPORT/BOOST II trials finally defined the therapeutic window: SpO2 91-95%.

Дилемма неонатолога: 1955
Вы неонатолог. Недоношенные дети, получающие повышенное содержание кислорода, слепнут. Что вы делаете?
PATH A: Dramatic Reduction
Drastically reduce oxygen to prevent blindness
Blindness rates drop. But some babies die or suffer brain damage from hypoxia.
OUTCOME: Trading one harm for another
ПУТЬ B: Систематическое исследование
Тщательно титровать кислород, изучать зависимость «доза-реакция»
Takes decades but eventually identifies the optimal range.
OUTCOME: Optimize both survival and vision
1940s: High O2 saves lives
1950s: Blindness epidemic
1960-70-е годы: Смертельные случаи из-за низкого уровня O2
2010s: SUPPORT/BOOST define optimal range
THE REVELATION
Каждое вмешательство имеет терапевтический эффект окно. Чтобы найти его, нужны измерения, а не предположения. Маятник раскачивался 60 лет, прежде чем доказательства определили баланс.

1. Почему рекомендации по использованию поверхностно-активных веществ изменились в период с 2003 по 2012 год?

A. Первоначальные исследования были сфальсифицированы
B. CPAP changed the comparator (indirectness)
C. Not enough patients in original trials
D. Результат оценивался по-разному

2. Что из перечисленного НЕ является фактором понижения ОЦЕНКИ?

A. Risk of bias
B. Imprecision
C. Publication bias
D. Large magnitude of effect

3. Какой язык следует использовать для доказательств НИЗКОЙ достоверности?

A. "Вмешательство снижает..."
B. "Вмешательство, вероятно, снижает..."
C. "Вмешательство может снизить..."
D. "Мы не уверены ли..."

Количества недостаточно.

Вы должны сообщить, насколько вы уверены.

Certainty must be earned, not assumed.

Методы защищают пациентов от нашего доверия.

Модуль 11: The Living Review

Модуль 11: The Living Review (COVID-19)

Методы защищают пациентов от нашего доверия.

COVID-19 Hydroxychloroquine: 2020

Когда срочность соответствует доказательствам.

🎯 Learning Objectives

  • Применить последовательный анализ испытаний, чтобы определить, когда доказательств достаточно
  • Разработать и поддерживать живой систематический обзор
  • Establish update triggers and futility/harm boundaries
  • Manage multiplicity and alpha-spending in sequential analyses
  • Explain how rapid evidence synthesis evolved during COVID-19

"Вирус распространяется быстрее, чем наши понимание..."

COVID-19 убивал тысячи людей. Отделения интенсивной терапии были переполнены. Не было ни вакцины, ни лечения. Затем проблеск надежды: hydroxychloroquine (HCQ)—an old malaria drug—showed antiviral activity in lab studies.

March 20
Исследование Готре (Франция)
36 pts
Non-randomized
Viral
Clearance improved

Через несколько недель после исследования Готре:

!

March 28: FDA issues Emergency Use Authorization for HCQ

!

April 4: India bans HCQ export (hoarding fears)

!

Global: Shortages affect lupus and rheumatoid arthritis patients

Millions received HCQ based on a 36-patient observational study

What could go wrong?

🔍

Расследование: Готре Исследование

Вы являетесь экспертом по доказательной медицине и попросили оценить исследование французского HCQ. Изучите конструкцию...

IssueImpact
Non-randomizedSelection bias—who got HCQ?
6 patients excluded3 went to ICU, 1 died, 1 withdrew, 1 had nausea
Surrogate outcomeViral load, not clinical outcomes
Контроль из другой больницыDifferent care, different testing
No blindingExpectation bias in lab testing

Это исследование будет иметь ВЫСОКИЙ риск систематической ошибки по RoB 2.0

GRADE certainty: VERY LOW. Yet it changed global policy.

1

Immortal Time Bias

Patients must survive long enough to receive treatment. Survivors are compared to non-survivors.

2

Confounding by Indication

Sicker patients may get different treatments. Healthier patients received HCQ early.

3

Healthy User Effect

Patients who seek treatment tend to be healthier overall.

4

Outcome Reporting

Исследования с положительными результатами публикуются быстрее.

Large, rigorous trials completed at remarkable speed

TrialNResult
RECOVERY (UK) 4,716 No benefit on mortality (RR 1.09)
WHO SOLIDARITY 954 No benefit (RR 1.19)
ORCHID (US) 479 Остановлен бесполезность
HCQ provided no benefit—and may have caused harm
June 15, 2020: FDA revokes Emergency Use Authorization
📊

Хронология: наблюдения и данные РКИ

March-May 2020

Observational: ~20 studies

Suggest benefit

Pooled OR ~0.65

June-July 2020

RCTs: RECOVERY, SOLIDARITY

Show no benefit/harm

Pooled RR ~1.10

От «многообещающего» до «неэффективного» за 3 месяца

Вот почему нам нужна рандомизация — и живые обзоры для отслеживания развивающихся доказательств.

Новый подход для быстрого развития доказательства:

1

Continuous Surveillance

Ищите в литературе еженедельно или даже ежедневно новые доказательства

2

Cumulative Meta-Analysis

Update pooled estimates as each new trial reports

3

Последовательный анализ испытаний (TSA)

Determine when sufficient information has accumulated to conclude

4

Transparent Versioning

Track every change, maintain full audit trail

When have we learned enough?

TSA применяет останавливающие границы к метаанализу — аналогично промежуточному анализу в одном исследовании. Это объясняет required information size (RIS) needed to detect or exclude a clinically meaningful effect.

RIS
Required sample size
α-spending
Controls type I error
Boundaries
Benefit / Harm / Futility

Для HCQ в условиях COVID TSA показало, что граница бесполезности была пересечена к июню 2020 года.

1. Observational studies can mislead spectacularly , когда предвзятость преобладает. Даже многие исследования, указывающие в одном и том же направлении, могут быть ошибочными.

2. RCTs can be conducted quickly when the will exists. RECOVERY enrolled 5,000+ patients in weeks.

3. Живые отзывы очень важны for evolving topics. Fixed-point-in-time reviews become obsolete instantly.

4. Political pressure doesn't change biology. Тщательные методы защищают пациентов даже в стрессовых ситуациях.

ИСТОРИЯ: Революция LEAP в отношении аллергии на арахис

Что, если профилактика ЯВЛЯЕТСЯ причиной?

REAL DATA

For decades, pediatric guidelines recommended: avoid peanuts in infancy to prevent allergy. Meanwhile, peanut allergy rates tripled с 1997 по 2008 год. Тогда пришел LEAP (2015): 640 high-risk infants randomized to early peanut introduction vs. avoidance. Result: Early introduction reduced peanut allergy by 81% (1,9% против 13,7%). Стратегия профилактики стала причиной эпидемии.

Перекресток аллергологов: 2010
Вы детский аллерголог. Аллергия на арахис растет, несмотря на рекомендации по предотвращению его употребления. Вы подвергаете сомнению догму?
PATH A: Follow Guidelines
Continue recommending peanut avoidance in high-risk infants
Guidelines are "evidence-based." Safe to follow consensus.
OUTCOME: Peanut allergies continue to rise
ПУТЬ Б: Ставьте под сомнение догму
Design a trial to test if early introduction might be protective
LEAP trial reveals the truth. Guidelines reverse worldwide.
OUTCOME: Prevent an epidemic
2000: AAP recommends avoidance
2008: Allergy rates triple
2015: LEAP переворачивает доказательства
2017: Guidelines flip to early introduction
THE REVELATION
Для принципа «прежде всего не навреди» требуются доказательства. Предположения, даже сделанные из лучших побуждений, могут нанести масштабный вред. Иммунная система нуждалась в воздействии, чтобы развить толерантность — избегание вызывало сенсибилизацию.

1. В чем заключался основной недостаток исследования гидроксихлорохина Готре?

A. Too few patients
B. No blinding
C. Excluding patients who deteriorated
D. Too short follow-up

2. What does Trial Sequential Analysis help determine?

A. Which studies have high risk of bias
B. When enough evidence has accumulated
C. Степень гетерогенности
D. Which treatment is best

3. Почему наблюдательные исследования COVID показали пользу HCQ, а РКИ — нет?

A. RCTs enrolled sicker patients
B. RCTs used different outcomes
C. Смещение в обсервационных исследованиях
D. Обсервационные исследования имели лучшие данные

Speed cannot replace rigor.

But rigor can be fast.

Living reviews balance both.

Не каждый сигнал является правдой.

Модуль 12: Расширенные методы

Модуль 12: Расширенные методы

Не каждый сигнал является правдой.

Advanced Methods

Beyond pairwise meta-analysis.

🎯 Learning Objectives

  • Interpret network meta-analysis geometry and SUCRA rankings
  • Apply bivariate models for diagnostic test accuracy meta-analysis
  • Conduct dose-response meta-analysis with flexible splines
  • Understand when individual patient data (IPD) meta-analysis is needed
  • Определите предположения и ограничения каждого из них расширенный метод

"Иногда вопрос более сложен, чем вопрос A или B..."

Методы, которые вы изучили, составляют основу. Но клиническая реальность часто требует большего: Which of 10 antidepressants is best? What's the optimal dose of statin? Does this test accurately diagnose early cancer?

В этом модуле представлены четыре продвинутых метода, каждый из которых отвечает на разные сложные вопросы.

When you have many treatments but few head-to-head trials

NMA combines direct evidence (A vs B) with indirect evidence (A vs C, B vs C → inferred A vs B) to compare multiple treatments simultaneously.

SUCRA
Ranking probabilities, not effect size
Consistency
Direct = Indirect?
Networks
Visualize evidence
🔍

NMA Example: Antidepressants

The landmark Cipriani 2018 NMA compared 21 antidepressants using 522 trials.

The Challenge

21 drugs, but not every pair tested head-to-head

Many vs. placebo, few vs. each other

The Solution

NMA объединяет прямые и косвенные доказательства по всей сети.

Оценивает все 21 по эффективности и приемлемости

Результат: одни лекарства получили более высокий рейтинг по эффективности, другие по приемлемости.

Ни один препарат не является универсально «лучшим»; интерпретируйте рейтинги с достоверными интервалами, транзитивностью и клиническими компромиссами.

1

Transitivity

Effect modifiers should be similarly distributed across comparisons; otherwise indirect comparisons may be biased

2

Consistency

Прямые и косвенные доказательства согласуются (проверяемые)

3

Connected Network

All treatments linked through at least one common comparator

When assumptions fail, NMA can mislead

Всегда оценивайте транзитивность и проверяйте ее на наличие несоответствие.

Нахождение оптимальной дозы

Uses the Greenland-Longnecker method с ограниченными кубическими сплайнами для моделирования нелинейных взаимосвязей между дозой и эффектом.

1

Non-linear patterns

J-shaped (alcohol & mortality), U-shaped (vitamin D), threshold (aspirin)

2

Clinical relevance

Найдите дозу с наилучшим балансом пользы и вреда, а не просто «чем больше, тем лучше».

Золотой стандарт анализа подгрупп

Instead of published summary data, obtain необработанные данные на уровне пациента от испытателей. Обеспечивает точный анализ подгрупп, моделирование времени до события и стандартизированные определения.

One-Stage
Single hierarchical model (not mega-trial)
Two-Stage
Analyze, then pool
80%+ target
Цель доступности данных

Совместная группа исследователей раннего рака молочной железы стала пионером IPD MA в 1980-х годах.

Когда «вмешательство» — это испытание

DTA meta-analysis synthesizes sensitivity (истинно положительный показатель) и specificity (true negative rate)—two correlated outcomes requiring bivariate models.

1

Bivariate/HSROC Model

Учитывает корреляцию между чувствительностью и специфичностью.

2

SROC Curve

Сводная кривая ROC с достоверностью 95 % и прогнозируемыми областями

3

QUADAS-2

Quality Assessment of Diagnostic Accuracy Studies

QuestionMethod
Does A beat B?Pairwise MA
Which of many treatments is best?Network MA (NMA)
Какова оптимальная доза?Dose-Response MA
Who benefits most? (subgroups)IPD MA
Насколько точен этот тест?DTA MA
Как эффект развивается с течением времени?Survival/Time-to-Event MA

Метод должен соответствовать вопросу. Никогда не задавайте вопрос неправильным методом.

ИСТОРИЯ: Стероиды в саге о сепсисе

Three large trials. Three different answers. What do you believe?

REAL DATA

CORTICUS (2008): 499 patients. Hydrocortisone in septic shock. No mortality benefit. ADRENAL (2018): 3,658 patients. Hydrocortisone. No mortality benefit. APROCCHSS (2018): 1,241 patients. Hydrocortisone + fludrocortisone. Mortality reduced (43% vs 49.1%, p=0.03). Same class of intervention. Different protocols. Different results.

Задача автора рекомендаций
Вы пишете рекомендации по сепсису. Три крупных исследования не пришли к единому мнению. Как вы рекомендуете?
PATH A: Simple Average
Pool all three trials. Overall effect uncertain. Conclude "evidence unclear."
Guidelines say steroids are optional. No strong recommendation.
OUTCOME: Clinicians left without clear guidance
PATH B: Investigate Heterogeneity
Analyze why APROCCHSS differed (fludrocortisone, longer duration, different population)
Определите, чем эффективный протокол отличается от неэффективного.
OUTCOME: Recommend the specific effective protocol
THE REVELATION
Противоречивые испытания не являются неудачами. Это карты того, где лечение работает, а где нет. Различия между исследованиями — дозы, продолжительность, сопутствующие вмешательства, популяция — являются ключом к пониманию.

1. В чем ключевое преимущество сетевого метаанализа перед парным?

A. Не требует извлечения данных
B. It compares treatments not directly tested against each other
C. Это устраняет необходимость в оценке риска предвзятости.
D. It produces better forest plots

2. Why does DTA meta-analysis require bivariate models?

A. To handle more than two studies
B. Чтобы скорректировать предвзятость публикации
C. Чувствительность и специфичность коррелируют
D. To generate forest plots

3. What does the "consistency" assumption in NMA require?

A. All studies must be high quality
B. Прямые и косвенные доказательства должны согласовываться
C. Sample sizes must be similar
D. No missing studies
Methodologist

Этот курс охватывает весь рабочий процесс систематического обзора. Для более глубокого погружения изучите сопутствующие курсы:

DTA Course
Bivariate/HSROC, SROC curves, QUADAS-2
Risk of Bias Mastery
RoB 2, ROBINS-I/E, domain-level assessment
GRADE Certainty
Full SoF tables, GRADE-CERQual
IPD Meta-Analysis
One-stage/two-stage, mixed-effects models
Publication Bias Detective
Copas, PET-PEESE, p-curve, selection models
Umbrella Reviews
AMSTAR 2, ROBIS, overlap correction
Prognostic Reviews
CHARMS, PROBAST, c-statistic pooling
Living Reviews + Rapid Reviews
TSA, update triggers, abbreviated methods

Module 12 Complete

«Метод должен соответствовать вопросу. Продвинутые методы отвечают на сложные вопросы, но основы никогда не меняются».

Вы освоили основной рабочий процесс. Следующие десять модулей исследуют новые горизонты: байесовский вывод, сетевой метаанализ, индивидуальные данные пациентов, моделирование зависимости «доза-реакция», надежность и хрупкость, справедливость, синтез с помощью искусственного интеллекта, качественные доказательства, многомерные методы и воспроизводимость.

Не каждый сигнал является правдой.

Модуль 13: Байесовский поворот

========================================================= МОДУЛЬ 13: БАЙЕСОВСКИЙ ПОВОРОТ (испытание платформы STAMPEDE) =========================================================

Не каждый сигнал является правдой.

Модуль 13: Байесовский поворот

🎯 Learning Objectives

  • Объясните разницу между частотным и байесовским выводами.
  • Interpret prior distributions, likelihoods, and posterior distributions
  • Distinguish credible intervals from confidence intervals
  • Understand when Bayesian meta-analysis offers advantages
  • Recognize how prior choice affects conclusions
Начало истории: STAMPEDE

In 2005, a trial began

that would never truly end.

В исследовании STAMPEDE по лечению рака простаты использовалась многоэтапная платформа (MAMS). Оружие могло быть добавлено или сброшено по мере накопления доказательств. Хотя статистика была частой, адаптивная философия воплощала байесовский дух: обновление решений по мере накопления данных.

In frequentist statistics, probability means long-run frequency. 95% ДИ НЕ означает «вероятность 95%, что истинный эффект находится внутри». Это значит: если бы мы повторяли исследование бесконечно, 95% интервалов содержали бы истину.

p-value
P(данные | H₀), а не P(H₀ | данные)
95% CI
Покрытие собственности, а не убеждений
Fixed
Истинный параметр фиксирован

In Bayesian statistics, probability represents degree of belief. We start with a prior (во что мы верим до данных), обновить с помощью likelihood (о чем нам говорят данные) и получить posterior (updated belief).

1

Prior × Likelihood = Posterior

Теорема Байеса: P(θ|данные) ∝ P(данные|θ) × P(θ)

2

Credible Intervals

95%-ный доверительный интервал является вероятностно интерпретируемым, зависящим от указанной модели и предшествующего уровня.

Researcher
1

Non-informative (Vague)

Нормальный (0, 10000) или равномерный. Позволяет данным доминировать. Имитирует результаты часто встречающихся пользователей.

2

Weakly Informative

Normal(0, 1) for log-OR. Regularizes extreme estimates while remaining flexible.

3

Informative

Based on previous evidence. Powerful but controversial. Must be pre-specified.

4

Half-Cauchy for τ

Recommended for heterogeneity. Half-Cauchy(0, 0.5) allows large τ but concentrates near zero.

Researcher

Most Bayesian models cannot be solved analytically. We use Markov Chain Monte Carlo (MCMC), чтобы взять образцы сзади. Инструменты: JAGS, Stan, brms (R), PyMC (Python).

Chains
Multiple independent chains (typically 4)
Convergence: R̂ < 1.01 (strict; older texts use < 1.1)
ESS
Bulk-ESS > 400 за средства; Tail-ESS > 400 для CI
Methodologist

Instead of choosing between fixed-effect and random-effects models, Bayesian model averaging (BMA) взвешивает каждую модель по ее апостериорной вероятности. Это объясняет неопределенность модели в окончательной оценке.

BF

Bayes Factors

BF₁₀ > 10 = убедительное доказательство H₁. BF₁₀ < 1/10 = убедительное доказательство H₀.

Заполнитель интерактивного инструмента

Отрегулируйте предыдущую силу, чтобы увидеть, как она влияет на заднюю часть. Посмотрите, как новые данные превосходят предыдущие.



История STAMPEDE

STAMPEDE была запущена в 2005 году с участием пяти исследовательских групп, сравнивающих методы лечения распространенного рака простаты. К 2016 году к нему был добавлен абиратерон, что позволило снизить смертность на 37% (ОР 0,63, 95% ДИ 0,52–0,76).

Дизайн платформы воплощает в себе байесовское адаптивное мышление: промежуточные анализы определяют выбор препаратов, новые препараты могут вводиться по мере появления методов лечения, а бесполезные препараты рано прекращаются, что спасает пациентов от неэффективных методов лечения.

В исследование STAMPEDE вошли более 10 000 пациентов из более чем 100 центров и фундаментально изменились методы лечения рака простаты. Байесовский подход позволяет накапливать доказательства и принимать решения в режиме реального времени.

Frequentist vs Bayesian Meta-Analysis
Выбирайте байесовский метод, когда: (1) у вас есть достоверная априорная информация, (2) вам нужны вероятностные утверждения («эффект вероятности 80% > 0»), (3) мало исследований делают частотные свойства ненадежными или (4) вы хотите провести усреднение модели.
Bayesian with weakly informative prior
A common practical default. Regularizes extreme estimates without forcing strong prior conclusions.
Байесовский с информативным априором
Только тогда, когда предварительные доказательства убедительны и заранее определены. Необходимо провести анализ чувствительности.
Stay frequentist
Simpler, well-understood. Preferred when k is large and no prior information.

Remember Module 1?

CAST Through a Bayesian Lens

Если бы байесовский анализ CAST использовал информативную априорную информацию из фундаментальной науки (антиаритмические средства подавляют ЖЭ), апостериорная часть все равно сильно сместилась бы в сторону вреда. При наличии достаточного количества данных даже сильный априор уступает вероятности. Урок: байесовские методы не защищают от плохих априорных значений, но они делают предположения. transparent.

Q1. What does a 95% Bayesian credible interval mean?

A. 95% of repeated experiments would produce intervals containing the true value
B. С вероятностью 95% истинный параметр находится в этом интервале.
C. The interval has a 95% chance of being correct
D. 95% будущих данных попадут в этот диапазон.

Q2. Каков рекомендуемый априорный уровень гетерогенности между исследованиями (τ)?

A. Uniform(0, 100)
B. Normal(0, 1)
C. Half-Cauchy(0, 0.5)
D. Fixed at 0.5

Module 13 Complete

«Байесовский поворот — это не математика. Речь идет о честности — сделать наши предположения видимыми».

Не каждый сигнал является правдой.

Модуль 14: Сеть

========================================================== МОДУЛЬ 14: СЕТЬ (Чиприани 2018 — 21 антидепрессант) =========================================================

Методы защищают пациентов от нашего доверия.

Модуль 14: Сеть

🎯 Learning Objectives

  • Explain why pairwise comparisons are insufficient when many treatments exist
  • Interpret network geometry (nodes, edges, thickness)
  • Понимать транзитивность, последовательность и роль косвенных доказательств.
  • Interpret SUCRA rankings and league tables
  • Recognize when NMA assumptions are violated

A clinician faces a patient

с депрессией. Какой препарат?

Существует 21 обычно назначаемый антидепрессант. В большинстве параллельных исследований сравниваются только 2 или 3. Cipriani et al. (2018, Lancet) объединили в единую сеть 522 исследования и 116 477 пациентов.

1

Direct Evidence

Trials directly comparing A vs B give the most reliable estimate.

2

Indirect Evidence

Если существуют A vs C и B vs C, мы можем сделать вывод A vs B. Это «транзитивное» предположение.

3

Mixed Evidence

NMA combines both, weighted by precision, to rank all treatments simultaneously.

Каждый узел – это лечение. Толщина края представляет собой количество исследований, сравнивающих эти два метода лечения.

Researcher

Transitivity: Косвенная оценка (через общий компаратор) должна приближаться к прямой оценке. Для этого необходимо, чтобы модификаторы эффектов были одинаково распределены по сравнениям.

Consistency: Статистический тест, сравнивающий прямые и косвенные доказательства. Глобальные (взаимодействие схемы лечения) и локальные (разделение узлов) тесты помогают выявить петли несоответствия.

Researcher
SUCRA
Поверхность под накопительным рейтингом. Более высокие значения указывают на лучшую вероятность ранжирования, а не на гарантированное превосходство.
P-score
Частотный аналог ранжирования вероятностных сводок. Интерпретируйте с учетом величины эффекта и неопределенности.

Caution: Ranking is seductive but misleading when differences between treatments are small or uncertain. Always report credible/confidence intervals alongside ranks.

Methodologist

When interventions are complex (e.g., behavioral + pharmacological), component NMA decomposes multi-component treatments to estimate the individual contribution of each component. Uses additive models: effect(A+B) = effect(A) + effect(B) + interaction.

Сеть Cipriani

Анализ журнала Lancet 2018 года показал, что все 21 антидепрессант были более эффективными, чем плацебо. Амитриптилин, миртазапин и венлафаксин заняли первое место по эффективности. Агомелатин, флуоксетин и эсциталопрам заняли самые высокие места по приемлемости (наименьшее количество выбывших из исследования).

Ни один препарат не «выиграл» по всем исходам. Сеть выявила компромиссы, невидимые при парном анализе.

NMA Feasibility Check
У вас есть 15 РКИ, в которых сравниваются 6 различных статинов. Некоторые пары имеют прямые доказательства, другие — нет.
Check transitivity, then fit NMA
Убедитесь, что популяции пациентов и дизайн исследований достаточно схожи при сравнении.
Игнорируйте косвенные доказательства
Теряет статистическую достоверность и оставляет пробелы в доказательной базе.
Pool all into one pairwise comparison
Нарушает структуру доказательства. Статины — это разные препараты.

Q1. Какое предположение должно соблюдаться, чтобы косвенные доказательства были действительными в NMA?

A. Transitivity — effect modifiers are balanced across comparisons
B. Homogeneity — I² must be below 25%
C. All studies must have similar sample sizes
D. Все исследования должны быть двойными слепыми

Module 14 Complete

«Сеть видит то, чего не могут парные сравнения: всю картину выбора лечения».

Не каждый сигнал является правдой.

Модуль 15: Индивидуальность

======================================================== МОДУЛЬ 15: ИНДИВИДУАЛЬНОСТЬ (EBTCCG — метаанализ IPD) ========================================================

What was hidden in plain sight?

Модуль 15: Индивидуальность

🎯 Learning Objectives

  • Explain why aggregate data can mask treatment–covariate interactions
  • Distinguish one-stage from two-stage IPD models
  • Recognize ecological bias in aggregate meta-analysis
  • Understand the practical challenges of IPD collection
  • Interpret treatment–covariate interaction plots

For decades, breast cancer trials

опубликованные сводки. Не пациенты.

Совместная группа исследователей раннего рака молочной железы (EBTCTCG) собрала индивидуальные записи более чем 100 000 женщин из сотен исследований. Их мета-анализ IPD показал, что польза тамоксифена во многом зависит от статуса рецепторов эстрогена – чего-то невидимого в совокупных данных.

В каждом опубликованном исследовании тамоксифена сообщалось об общем результате. Согласно результатам сотен исследований, тамоксифен показал скромную пользу. Но «скромная польза» была средним показателем, за которым скрывалась глубокая истина.

Скрытое разделение на подгруппы

RR 0.59
ER-positive subgroup: 41% reduction in recurrence
RR 0.97
ER-negative subgroup: essentially no benefit at all

Общий совокупный эффект — смешение реагирующих и неотзывчивых пациентов — был статистической фикцией. «Скромное» среднее значение, которое преувеличивает пользу для одной группы и подразумевает выгоду там, где ее не было для другой.

AD
Aggregate: published effect + CI only
IPD
Individual: raw patient-level records

IPD позволяет: (1) последовательно определять исходы, (2) анализ подгрупп по характеристикам пациентов, (3) моделирование времени до события, (4) проверку экологической предвзятости. Это gold standard for exploring treatment effect modification.

Researcher
1

Two-Stage

Analyze each study separately, then combine estimates (like standard MA). Simple but loses information.

2

One-Stage

Подбор одной модели со смешанными эффектами ко всем данным пациента одновременно. Более мощный для взаимодействий и редких событий.

Key: Оба должны учитывать кластеризацию исследований. Никогда не объединяйте IPD, как если бы они были получены из одного мегаиспытания — это вносит путаницу (парадокс Симпсона).

Methodologist

A meta-regression using study-level mean age might show older patients benefit more. But this could be ecological bias— связь на уровне исследования не отражает истину на уровне пациента. Только IPD может разделять within-study from between-study effects.

Когда целое зависит от своих частей

Парадокс Симпсона: тенденция, которая появляется в совокупных данных, меняется на противоположную, когда данные группируются по мешающей переменной.

Парадокс в Практикуйте

A mega-trial analysis found Treatment X beneficial overall. But в каждом исследовании, это было вредно. Как? Различия в исходном риске между исследованиями создали иллюзию — более больные группы населения получали больше лечения, что привело к завышению совокупной пользы.

Cates (2002, BMJ) показало, что объединение результатов исследований без учета кластеризации может обратить вспять очевидное направление эффекта.

Вот почему одноэтапные модели ИПЗ включают исследование в качестве переменной кластеризации — чтобы предотвратить маскировку результатов между исследованиями под эффект лечения.

Наследие EBCTCG

Мета-анализ IPD EBCTCG определил лечение рака молочной железы на 40 лет. Их анализ 2005 года по сравнению с отсутствием лечения тамоксифеном показал явную пользу при ER-положительных опухолях (ОР 0,59), но не приносил пользы при ER-негативных опухолях (ОР 0,97).

Без ИПЗ общий совокупный эффект был бы объединен в обеих группах, уменьшая пользу и потенциально лишая ER-позитивных пациентов величины их выигрыша.

Do you suspect treatment–covariate interactions?
Yes →

Можете ли вы получить ИПЗ в >80% исследований?

Yes → One-stage IPD meta-analysis with interaction terms
No → Двухэтапный: запрос доступного IPD + агрегат для остального
No →

Is ecological bias a concern?

Yes → IPD preferred even without interactions
No → Aggregate data meta-analysis may suffice

EBCTCG собрал данные сотен исследований за 40 лет. Большинство метаанализов ИПЗ включают 5–20 исследований. Решение зависит от вопроса, а не от амбиций.

Methodologist

Помните Модуль 3? ЗГТ оказалась полезной в обсервационных исследованиях, но вредной в РКИ. Произошло то же самое совокупное маскирование: общая польза скрывала вред подгруппы.

Анализ IPD Инициативы по здоровью женщин позже показал, что timing mattered— у женщин, начавших ЗГТ в течение 10 лет после менопаузы, были другие результаты, чем у женщин, начавших позже. «Гипотеза времени» была невидима в опубликованных сводных сводках.

Урок повторяется: совокупные данные могут скрыть важные взаимодействия между лечением и ковариантами. Будь то статус ER при раке молочной железы или время начала ЗГТ, данные на индивидуальном уровне показывают то, что скрывают сводные данные.

Q1. В чем основное преимущество IPD перед метаанализом агрегированных данных?

A. Он всегда включает в себя дополнительные исследования
B. Это дешевле и быстрее
C. It can explore treatment–covariate interactions without ecological bias
D. Это устраняет необходимость в моделях случайных эффектов.

Module 15 Complete

«За каждой объединенной оценкой стоят люди, чьи истории не может рассказать совокупность».

Гетерогенность — это сообщение, а не шум.

Модуль 16: Доза

========================================================= МОДУЛЬ 16: ДОЗА (J-кривая алкоголя / Stockwell 2016) =========================================================

Гетерогенность — это сообщение, а не шум.

Модуль 16: Доза

🎯 Learning Objectives

  • Explain why simple pairwise comparisons miss dose–response relationships
  • Distinguish linear, quadratic, and spline dose–response models
  • Interpret restricted cubic splines with knots
  • Identify threshold effects and J/U-shaped curves
  • Understand model comparison with AIC/BIC

На протяжении десятилетий умеренное употребление алкоголя

казалось, защищал сердце.

«J-образная кривая» показала, что у непьющих смертность от сердечно-сосудистых заболеваний выше, чем у умеренно пьющих. Но Стоквелл и др. (2016) продемонстрировали, что J-кривая является результатом ошибочной классификации бывших алкоголиков (бросивших курить из-за болезни) как «трезвенников».

К 2010 году более 100 обсервационных исследований подтвердили J-кривую. Медицинские учебники учили этому. Об этом рассказали кардиологи. Лоббисты винодельческой отрасли финансировали конференции, посвященные этому вопросу.

100+
Наблюдательные исследования, подтверждающие J-кривую
15–25%
Lower cardiovascular mortality in moderate drinkers vs abstainers

Доказательства казались неопровержимыми. Но что, если группа сравнения — «трезвенники» — была заражена?

Больной, бросивший курить

A Hidden Confounder

The Problem

People who stop drinking often do so because they are already ill— заболевания печени, лекарственное взаимодействие, диагностика рака. В большинстве исследований эти «бывшие пьющие» были классифицированы как «трезвенники».

The Effect: The reference group (abstainers) appeared less healthy— не потому, что воздержание было вредно, а потому, что к нему присоединились больные люди.

When Stockwell et al. (2016, J Stud Alcohol Drugs) removed former drinkers and applied appropriate study-quality corrections: J-кривая исчезла. Защитный эффект был фантомным.

Standard meta-analysis asks: "Does treatment X work?" Dose–response meta-analysis asks: "At what dose действует ли лечение Х лучше всего?» Он моделирует взаимосвязь между уровнем дозы и результатом в ходе нескольких исследований.

Linear
Simplest: log(RR) = β × dose
Spline
Flexible: piecewise polynomials with knots
Fractional
Polynomial: dose^p1 + dose^p2
Researcher

RCS place knots в заранее заданных точках дозы и подгонять гладкие полиномы между ними. Обычно 3–5 узлов в квантилях распределения дозы. Линейные заграничные узлы. Тесты на нелинейность сравнивают сплайновую модель с более простой линейной моделью.

AIC

Model Comparison

AIC/BIC сравнивает линейную и сплайновую посадку. Ниже = лучше. Также проверьте отклонение от линейности (значение p для сплайновых условий).

Сравните линейную, квадратичную и сплайновую аппроксимацию. Посмотрите, как меняется форма модели при различных предположениях.

Разоблачение J-кривой алкоголя

Повторный анализ Стоквелла в 2016 году показал, что, когда бывших пьющих правильно исключили из референтной группы «трезвенников», защитный эффект умеренного употребления алкоголя исчез. J-кривая была обусловлена ​​предвзятостью в отношении тех, кто бросил курить по болезни.

Метаанализ «доза-реакция» выявил истину: форма кривой во многом зависит от того, как вы определяете «нулевую дозу». Неправильная ссылочная категория создала фантомную выгоду.

The phantom J-curve influenced alcohol guidelines worldwide:

UK

NHS Guidance (until 2016)

В официальном руководстве говорится: «Умеренное употребление алкоголя может защитить сердце». После поправки Стоквелла Великобритания пересмотрела лимиты до 14 единиц в неделю для all пьющие (ранее 21 у мужчин). Ни одна сумма не была объявлена ​​«безопасной».

US

Dietary Guidelines Advisory Committee

Исследования J-кривой проводились в течение 2015 года. Комитет 2020 года рекомендовал снизить пределы до 1 напитка в день для мужчин, признавая предвзятость референтной группы.

AU

Australian Guidelines

Safe drinking limits were delayed by industry-funded J-curve research promoting “cardioprotective” moderate intake.

Есть ли у вас ≥3 уровней воздействия (а не только воздействие или отсутствие воздействия)?
Yes →

Является ли эта связь вероятно нелинейной?

Yes → Restricted cubic splines (3–5 knots). Compare AIC with linear model.
No → Linear dose-response meta-regression may suffice
No →

Standard pairwise meta-analysis (no dose-response possible with only two levels)

Warning: Всегда проверяйте: чистая ли ваша референтная категория? Урок J-кривой: загрязненная референтная группа создает фантомную нелинейность.

Q1. What makes restricted cubic splines useful in dose–response meta-analysis?

A. They always produce a straight line
B. They flexibly capture non-linear dose–response curves
C. Они сокращают количество необходимых исследований
D. They simplify the model to fewer parameters

Module 16 Complete

«Доза создает яд. А форма кривой показывает, настоящий ли яд».

Отсутствие доказательств не является доказательством отсутствия.

Модуль 17: Хрупкость

========================================================== МОДУЛЬ 17: ХРУПКОСТЬ (Осельтамивир / Джефферсон 2014) =========================================================

Отсутствие доказательств не является доказательством отсутствия.

Модуль 17: Хрупкость

🎯 Learning Objectives

  • Рассчитать и интерпретировать индекс хрупкости
  • Используйте графики GOSH для выявления влиятельных исследований и эффектов подмножества.
  • Interpret contour-enhanced funnel plots
  • Применить модели выбора Copas и PET-PEESE для предотвращения предвзятости публикаций.
  • Understand how sensitivity analyses strengthen meta-analytic conclusions

Governments stockpiled billions

на основе доказательств, которые они не могли видеть.

После H1N1 правительства потратили миллиарды на запасы осельтамивира (Тамифлю). Команда Кокрейна (Джефферсон и др., 2014) годами боролась за доступ к неопубликованным данным. Когда они наконец это сделали, доказательства предотвращения осложнений испарились.

Индекс хрупкости спрашивает: "How many patients would need to change outcome to flip a statistically significant result to non-significant?" Он итеративно добавляет события (преобразует не-события в события) в группу с меньшим количеством событий до тех пор, пока p > 0,05.

FI = 1
Extremely fragile. One patient flip changes conclusion.
FI > 8
Reasonably robust. Less sensitive to individual outcomes.

Enter a 2×2 table to calculate the fragility index. Watch events shift until significance flips.

Events
Total N
Treatment
Control
Researcher

Графический обзор неоднородности исследования (GOSH) адаптирует модели метаанализа ко всем возможным подмножествам исследований. Каждая точка отображает объединенный эффект в зависимости от I² для одного подмножества. Кластеры предполагают отдельные подгруппы; Облака-выбросы предполагают одно исследование, определяющее гетерогенность.

Для k исследований имеется 2k−1 subsets. For k > 15, random sampling is used.

Researcher

Standard funnel plots show effect size vs standard error. Contour-enhanced версии добавляют заштрихованные области для p <0,01, p <0,05 и p <0,10. Если отсутствующие исследования попадают в незначительные регионы, вероятна предвзятость публикации. Если они попадают в значительные регионы, асимметрию могут объяснить другие причины (например, качество исследования).

Methodologist
1

Copas Selection Model

Моделирует вероятность публикации исследования в зависимости от его SE и размера эффекта. Совместно оценивается истинный эффект и механизм отбора.

2

PET-PEESE

Precision-Effect Test (PET): regress effects on SE. If intercept = 0, no true effect. PEESE uses SE² for better performance when a true effect exists.

Сага об Осельтамивире

Оригинальный метаанализ, финансируемый компанией «Рош» (Kaiser 2003), показал, что осельтамивир снижает осложнения гриппа на 67%. Но 8 из 10 исследований так и не были опубликованы. После того, как Кокрейн получил отчеты о клинических исследованиях, польза от осложнений упала до незначительных 11%.

Хрупкость была не просто статистической, она была информационной. В самой доказательной базе отсутствовала большая часть данных.

Вы рассчитали индекс хрупкости. Что означает число?
FI ≤ 3

Highly fragile. Несколько различных событий изменили бы этот вывод. Интерпретируйте с особой осторожностью.

FI 4–8

Moderately fragile. Чувствителен к небольшим возмущениям. Существуют ли неопубликованные исследования, которые могли бы изменить ситуацию?

FI > 8

Relatively robust. But remember: fragility is only one dimension. Publication bias can undermine even robust results.

Walsh et al. (2014, J Clin Epidemiol) обнаружили, что в 399 РКИ, опубликованных в ведущих журналах, средний индекс хрупкости составлял всего 8. Более 25% имели FI ≤ 3. Знаменательные исследования, влияющие на клиническую практику, часто висели на волоске статистики.

Methodologist

Раскрыта сага об осельтамивире three types of fragility— а Индекс хрупкости учитывает только первое.

1

Statistical Fragility (FI)

Сколько событий меняют значение p? Именно это и измеряет Индекс хрупкости. Он количественно определяет чувствительность к результатам лечения отдельных пациентов.

2

Informational Fragility

Какая часть доказательств скрыта? Восемь из десяти исследований осельтамивира компании «Рош» остались неопубликованными. Доказательная база была структурно неполной.

3

Analytical Fragility

Сколько степеней свободы исследователя могло бы изменить вывод? Различные определения результатов, группы анализа или статистические методы.

Обратный звонок к модулю 10 (пароксетин): Повторный анализ с другими определениями исходов полностью изменил этот вывод. Это была аналитическая хрупкость: FI никогда не рассчитывался, потому что сама конечная точка была спорной. Полная оценка надежности исследует все три измерения.

Q1. В исследовании приняли участие 200 пациентов в каждой группе, 12 событий в группе лечения и 25 в группе контроля (p=0,03). Индекс хрупкости равен 3. Что это значит?

A. Размер эффекта равен ровно 3
B. Changing just 3 patient outcomes would flip the result to non-significant
C. Результат очень надежен благодаря 3 подтверждающим исследованиям.
D. Для исследования необходимо минимум 3 пациента.

Module 17 Complete

«Число, которое выдержит любую попытку его сломать, — это число, которому стоит доверять».

Не каждый сигнал является правдой.

Модуль 18: Капитал

==================================================================== МОДУЛЬ 18: АКЦИОНЕР (ИСКЛЮЧЕНИЯ СПРИНТ / ПРОГРЕСС-Плюс) =========================================================

Certainty must be earned, not assumed.

Модуль 18: Капитал

🎯 Learning Objectives

  • Identify how trial exclusion criteria create evidence gaps
  • Применить систему ПРОГРЕСС-Плюс для оценки равенства доказательств
  • Use PRISMA-Equity reporting guidelines
  • Understand transportability: when trial findings fail in practice
  • Design equity-sensitive search and synthesis strategies

SPRINT proved tight blood pressure control

saves lives. But whose lives?

В знаковое исследование SPRINT были исключены пациенты с диабетом, перенесенным инсультом и сердечной недостаточностью. Более 75% пациентов с гипертонической болезнью в США не прошли бы квалификацию. Доказательства были убедительными, но применимость была узкой.

Слайд A: Недостающее большинство

В исследовании SPRINT приняли участие 9361 пациент и было доказано, что интенсивный контроль артериального давления (целевой показатель <120 мм рт.ст.) снижает сердечно-сосудистые события на 25% (ОР 0,75, 95% ДИ 0,64–0,89). Но критерии включения говорили о другом.

Кого исключили:

  • Diabetes — 35% взрослых в США страдают гипертонией
  • Prior stroke — 8% гипертоников
  • Symptomatic heart failure — 6% of hypertensive adults
  • Expected survival <3 years — самые слабые пациенты
  • Nursing home residents — excluded entirely
  • GFR <20 mL/min — advanced kidney disease

Результат: более 75% взрослых в США, страдающих гипертонией, НЕ прошли бы квалификацию. Доказательства были убедительными. Но для кого?

Слайд B: География доказательств

Откуда берутся доказательства

78%

of cardiovascular mega-trial participants came from high-income countries (2000–2020).

6%

from sub-Saharan Africa — where cardiovascular disease is rising fastest.

Испытания полипилл: 4 из 5 были проведены в группах населения со средним ИМТ <25. Средний индекс массы тела в США составляет 30. Метаболизм лекарств, характер сопутствующих заболеваний, доступ к здравоохранению и генетические вариации различаются в разных популяциях. Efficacy in one population does not guarantee effectiveness in another.

Ссылка: Международные исследования и пробел ПРОГРЕСС-Плюс.

P
Place of residence
R
Race / ethnicity
O
Occupation
G
Gender / sex
R
Religion
E
Education
S
SES (socioeconomic)
S
Social capital

Plus: Age, disability, sexual orientation, other vulnerable groups.

Researcher

PRISMA-Equity расширяет PRISMA, требуя отчетность о том, как справедливость учитывалась в обзоре: характеристики населения, анализ подгрупп по неблагоприятным условиям и оценка применимости к группам населения, недостаточно обслуживаемым.

Transportability: Эффективность испытаний не равна эффективности в реальной жизни. Существуют методы повторного взвешивания данных испытаний, чтобы они соответствовали распределению целевой группы населения.

Слайд C: Вопрос транспортабельности
Researcher

Transportability = Могут ли результаты исследования группы X быть применены к целевой группе Y? Это не философский вопрос — у него есть формальные методы.

1

Inverse Probability of Participation Weighting (IPPW)

Re-weights trial participants so they resemble the target population on key covariates.

2

Generalizability Index

Количественно определяет, насколько пробная выборка похожа на целевую совокупность по наблюдаемым характеристикам.

Stuart et al. (2015, Stat Med): Когда результаты SPRINT были повторно взвешены, чтобы соответствовать населению США с гипертонической болезнью, предполагаемая польза была снижена — HR 0,82 (по сравнению с 0,75 в исследовании). Лечение все еще работает. Но масштабы меняются, когда меняется численность населения.

СПРИНТ и недостающее большинство

SPRINT представляло собой хорошо спланированное исследование с участием 9361 пациента. Его открытие (HR 0,75 для интенсивного и стандартного контроля АД) изменило рекомендации во всем мире. Но последующий анализ показал, что польза была самой сильной в подгруппе, наиболее похожей на исследуемую популяцию, и неопределенна для исключенных групп.

Справедливость в синтезе доказательств означает вопрос не просто «Работает ли это?» но «Для кого это работает?»

ROOT: Получены ли данные вашего обзора из групп населения, схожих с вашей целевой аудиторией?

YES → Good. But check: Are subgroups (age, sex, ethnicity, SES) reported separately?

  • Yes: Use subgroup effects for population-specific recommendations
  • No: Flag as limitation — equity gap in reporting

NO → Does PROGRESS-Plus analysis reveal differential effects?

  • Yes: Population-specific recommendations needed. Consider transportability re-weighting.
  • No: Cautious generalization with explicit equity statement in discussion
Слайд E: Обратный вызов к модулю 3
Methodologist

Callback: The HRT Lesson Revisited

Помните Модуль 3? История HRT показала, что healthy-user bias сделало вредное лечение полезным. У SPRINT может быть противоположная проблема — эффект «здорового добровольца» может привести к появлению эффективного лечения. more effective than it would be in the real world.

Каждый метаанализ должен задавать вопрос: кто был включен? Кого исключили? И имеет ли это значение?

Q1. What does the PROGRESS-Plus framework help reviewers assess?

A. Statistical heterogeneity
B. Equity and applicability across disadvantaged populations
C. Внутренняя валидность включенных исследований
D. Общая достоверность доказательств

Module 18 Complete

«Доказательства, исключающие уязвимых, не могут претендовать на то, чтобы служить им».

Не каждый сигнал является правдой.

Модуль 19: Машина

========================================================== МОДУЛЬ 19: МАШИНА (Кокрейновский скрининг на COVID) =========================================================

Количество без происхождения не является числом.

Модуль 19: Машина

🎯 Learning Objectives

  • Describe how AI/ML is used in systematic review screening
  • Explain active learning and human-in-the-loop workflows
  • Assess automation validation: recall, workload savings, and risk
  • Признайте ограничения и предвзятости алгоритмического скрининга
  • Применять основы для ответственного использования ИИ при синтезе доказательств

When COVID-19 hit,

papers arrived faster than humans could read.

К 2021 году существовало более 300 000 статей о COVID. Кокрейн использовал классификаторы машинного обучения для сортировки исследований и их быстрых обзоров, что позволило сократить рабочую нагрузку по скринингу до 70% при сохранении запоминаемости >95%.

By April 2020, 4,000 COVID preprints appeared every week.

PubMed indexed 500 new COVID articles per day.

Cochrane's screening queue hit 10,000 unreviewed titles.

🔍 Математика невозможности

A pair of reviewers screens ~200 titles per day.

At 500 new articles/day, they fell further behind with every hour.

Живой обзор умирал, не успев жить.

Первые попытки

Идея не была новой. Коэн и др. (2006, JAMIA) впервые показали, что машинное обучение может снизить нагрузку на проверку на 50 % — при этом потеря памяти составляет менее 5 %.

📅
2006: Cohen et al. — SVM classifiers for drug class reviews. Proof of concept.
📅
2016: RobotReviewer (Marshall et al., JMLR) — ML for risk of bias assessment. Inter-rater reliability comparable to human reviewers.
📅
2021: ASReview (van de Schoot et al., Nature Machine Intelligence) — active learning that simulated 95% workload reduction.

Но симуляция – это не реальность. COVID станет первым настоящим масштабным испытанием.

1

Screening Prioritization

Active learning ranks citations by relevance. Reviewers screen the most likely relevant first.

2

Помощь в извлечении данных

НЛП извлекает элементы, исходы и результаты PICO. Всегда требует человеческой проверки.

3

Risk of Bias Assessment

ML classifiers predict RoB domains. Experimental—human judgment remains gold standard.

Researcher
Recall
>95% required. Missing 1 study can change conclusions.
WSS@95%
Work Saved over Sampling at 95% recall.
Stopping
When to stop screening? Consecutive irrelevant threshold.

Основное напряжение: Автоматизация экономит время, но создает новый источник ошибок. Всегда сообщайте об инструменте, версии, данных обучения и критериях остановки.

Кризис валидации
🔍 Парадокс валидации

Чтобы узнать, пропустила ли машина соответствующее исследование, you need a human to screen everything.

But if humans screen everything, зачем использовать машину?

The solution: prospective holdout validation.

  • Random 10% sample screened by both human and machine
  • Сравните: машина пропустила то, что нашел человек?
  • If recall drops below 95%, retrain and expand human screening

Доверяй, но проверяй. Машина заслужила свою роль, а не наследовала ее.

Cochrane's COVID Response

Кокрейн создал Регистр исследований COVID-19, используя классификаторы машинного обучения, обученные на миллионах записей. Система достигла чувствительности 99%, сократив при этом ручной скрининг с недель до дней.

Но машина была инструментом, а не заменой. Каждое включенное исследование по-прежнему проверялось рецензентами. Урок: ИИ дополняет рецензента, а не заменяет его.

Исследование, которое почти не было найдено

В июне 2020 года исследование RECOVERY опубликовало результаты по дексаметазону:the first treatment proven to reduce COVID mortality (28-day mortality: 22.9% vs 25.7%, RR 0.83).

Препринт появился на medRxiv с нестандартным названием. Подобные сценарии повторялись неоднократно во время пандемии: классификаторы ОД, обученные на существующей терминологии, низко оценивали незнакомые концепции.

В нескольких живых обзорах рецензенты, просматривающие помеченные названия, узнавали ключевые названия лекарств и расширяли исследования, которые классификаторы лишили приоритета.

Без этих людей важные результаты лечения могли бы подождать несколько недель, прежде чем они попадут в живой обзор.

Машина читает быстрее. Человек читает глубже. Ни того, ни другого недостаточно.

В вашем обзоре будет представлено более 5000 наименований?
Yes → Consider AI-assisted screening

Active learning prioritization. Dual-screen random 10% holdout. Stop when 3 consecutive batches yield 0 relevant studies.

Report: classifier type, training data, recall on holdout, stopping rule.

No → Manual screening is feasible

For <5,000 titles, dual human screening remains gold standard. AI adds complexity without proportionate benefit.

Это живой или быстрый обзор?

If yes → AI is especially valuable. Continuous classifier retraining on new evidence. But: никогда не позволяйте машине принимать окончательное решение о включении.

Узор повторяется
Methodologist

Помните Модуль 6? Полдерманс сфабриковал данные DECREASE, которые послужили основой для рекомендаций по периоперационному назначению бета-блокаторов в течение десятилетия.

AI can now detect statistical anomalies automatically:

  • GRIM test: Соответствуют ли сообщаемые средние значения целочисленным размерам выборки?
  • SPRITE: Можно ли восстановить представленную сводную статистику на основе правдоподобных индивидуальных данных?
  • Statcheck: Do reported p-values match the test statistics?

Эти инструменты обнаружили аномалии в hundreds of published papers—faster than any human auditor.

Но машина зависает. Человеческие судьи. Решение об отказе остается глубоко человеческим.

Q1. Каков минимально допустимый отзыв для скрининга с помощью ИИ в систематических обзорах?

A. 80%
B. 90%
C. >95%
D. 100%

Module 19 Complete

«Машина читает быстрее. Человек читает глубже. Вместе они читают правду».

Не каждый сигнал является правдой.

Модуль 20: Качественный

========================================================= МОДУЛЬ 20: КАЧЕСТВЕННЫЙ (Борен 2015 — уход за беременными) =========================================================

Методы защищают пациентов от нашего доверия.

Модуль 20: Качественный

🎯 Learning Objectives

  • Explain why some questions require qualitative evidence synthesis
  • Describe meta-ethnography (Noblit & Hare) and thematic synthesis
  • Apply the CERQual framework to assess confidence in qualitative findings
  • Understand mixed-methods synthesis approaches
  • Recognize when qualitative evidence changes practice

ВОЗ задала вопрос

ни одно РКИ не смогло ответить.

Почему женщины во всем мире испытывают неуважение и насилие во время родов? Борен и др. (2015) объединили 65 качественных исследований из 34 стран в структуру семи областей плохого обращения.

Слайд A: Вопрос, выходящий за рамки рандомизации

В 2014 году ВОЗ созвала комиссию для решения глобального кризиса: женщины подвергались физическому насилию, словесным унижениям и лишению медицинской помощи во время родов. Это не было редким событием — сообщения поступали из 34 countries.

They needed to understand WHY. What drives disrespect and abuse in maternity care?

Ни одно РКИ не смогло ответить на этот вопрос. Вы не можете рандомизировать женщин на жестокий и уважительный уход. Вы не можете ослепить акушерок. Вы не можете измерить «достоинство» по шкале Лайкерта. Доказательства должны были быть качественными.

Developed by Noblit & Hare (1988), meta-ethnography translates концепции в исследованиях, а не агрегирование цифр. Он создает новые структуры интерпретации (конструкты третьего порядка) на основе данных первого порядка (цитаты участников) и второго порядка (интерпретации автора).

Reciprocal
Исследования подтверждают друг друга
Refutational
Исследования противоречат друг другу
Line of
argument
Исследования создают новую теорию

What Bohren Found: A Taxonomy of Mistreatment

1. Physical abuse

Hitting, pinching, slapping during labor

2. Sexual abuse

Inappropriate touching, non-consensual procedures

3. Verbal abuse

Shouting, threats, judgmental comments

4. Stigma & discrimination

Based on HIV status, ethnicity, age, poverty

5. Professional standards failure

Neglect, lack of informed consent

6. Poor rapport

Poor communication, dismissiveness

7. Health system conditions

Overcrowding, understaffing, lack of supplies

65 исследований. 34 страны. Одни и те же закономерности повторяются в разных языках, культурах и системах. Это был не анекдот. Это были синтезированные доказательства.

Researcher

CERQual assesses confidence in qualitative review findings across four components:

1

Methodological Limitations

Качество сопутствующих исследований.

2

Coherence

Насколько хорошо данные подтверждают этот вывод.

3

Adequacy

Богатство данных (а не только количество исследований).

4

Relevance

Применимость к контексту контрольного вопроса.

Слайд C: От доказательств к действию

Bohren's synthesis informed the WHO's 2018 Recommendations on Intrapartum Care for a Positive Childbirth Experience. Specific changes grounded in qualitative evidence:

Rec. 15
Companionship during labor
Rec. 1
Respectful maternity care
Rec. 3
Effective communication
Rec. 12
Emotional support

Эти рекомендации, основанные на качественных данных, в настоящее время являются руководством по охране материнства в 194 государствах-членах ВОЗ. Ни один лесной участок не смог бы их произвести. Никакая статистика I² не могла бы их выявить.

Bohren's Framework of Mistreatment

Качественный синтез 2015 года выявил семь областей: физическое насилие, сексуальное насилие, словесное оскорбление, стигма и дискриминация, несоблюдение профессиональных стандартов, плохое взаимопонимание и состояние системы здравоохранения. Эта система легла в основу рекомендаций ВОЗ по уходу во время родов (2018 г.).

Никакое значение p не могло бы отразить ощущения от пощечины во время родов. Качественный синтез озвучил то, чего не могли дать цифры.

ROOT: Вопрос вашего исследования касается опыта, восприятия, барьеров или помощников?

YES → Ваш вопрос о том, КАК или ПОЧЕМУ, а не только о том, ЛИ?

  • Yes: Qualitative evidence synthesis (meta-ethnography, thematic synthesis, or framework synthesis)
  • No: Рассмотрите смешанные методы: количественные для эффекта + качественные для механизма.

NO → Ваш вопрос об эффективности/эффективности?

  • Yes: Quantitative meta-analysis
  • But: Дополнить качественным обзором препятствий на пути реализации (оценка CERQual)

Key insight: Самые сильные систематические обзоры отвечают на оба вопроса: работает ли это? (количественное) И Почему это работает или не работает? (качественный)

Q1. What distinguishes meta-ethnography from quantitative meta-analysis?

A. Он включает только 3–5 исследований.
B. It translates concepts across studies rather than pooling numbers
C. It does not require a systematic search
D. It is less rigorous than quantitative synthesis

Module 20 Complete

«Не все, что имеет значение, можно посчитать. Не все, что имеет значение, имеет значение».

Гетерогенность — это сообщение, а не шум.

Модуль 21: Многовариантность

========================================================== МОДУЛЬ 21: МНОГОВАРИАТНЫЙ (Коррелированные исходы / RVE) =========================================================

Гетерогенность — это сообщение, а не шум.

Модуль 21: Многовариантность

🎯 Learning Objectives

  • Распознавать, когда результаты в исследовании коррелируют
  • Explain multivariate random-effects models
  • Apply robust variance estimation (RVE) for dependent effect sizes
  • Понимание трехуровневых моделей для вложенных данных
  • Choose between multivariate approaches based on data structure

Cardiovascular trials report

смертность, ИМ, инсульт и многое другое.

Эти результаты коррелируют между пациентами. У умершего пациента не может быть конечной точки ИМ. Стандартный метаанализ рассматривает каждый результат независимо, игнорируя зависимость и потенциально двойной учет доказательств.

Слайд А: Ложь об удобстве

Откройте любой стандартный учебник по метаанализу. Модели предполагают, что каждое исследование вносит свой вклад one independent effect size. But reality is different.

В одном сердечно-сосудистом исследовании сообщается о смертности, инфаркте миокарда, инсульте и реваскуляризации. В одном психотерапевтическом исследовании сообщается о депрессии, тревоге и качестве жизни через 3, 6 и 12 месяцев.

30 trials
× 4 outcomes
= 120
effect sizes

Most analysts either: (a) treat all 120 as independent (inflating precision by a factor of √4), or (b) выберите один результат и отбросьте остальные. Оба подхода неверны.

In standard pairwise meta-analysis, each study contributes one effect size. But many studies report multiple outcomes, subgroups, timepoints, or arms—creating dependent размеры эффекта. Игнорирование этого повышает точность и искажает выводы.

RVE
Robust Variance Estimation. Sandwich estimator handles unknown correlation.
3-Level
Study → Outcome nesting modeled explicitly.
Researcher

RVE (Hedges, Tipton & Johnson, 2010) uses a sandwich-type оценщик, который обеспечивает действительные стандартные ошибки независимо от истинной корреляции между зависимыми эффектами. Нет необходимости знать или оценивать корреляцию внутри исследования. Лучше всего для ≥20 исследований.

Small-sample correction: Типтон и Пустейовский (2015) разработали поправки для малой выборки (CR2) для RVE, используя степени свободы Саттертуэйта, когда количество кластеров мало.

Слайд B: Математическая истина
Researcher

What Dependence Does to Your Confidence Intervals

Если 4 исхода одного и того же исследования имеют корреляцию внутри исследования ρ = 0,5:

Treating as independent

CI width = X

Учет зависимости

CI width = 1.58X

Ваш доверительный интервал должен быть 58% wider. Каждый метаанализ, который игнорировал это, публиковал ложно точные результаты.

RVE (Hedges, Tipton & Johnson, 2010): Uses a “sandwich” variance estimator that produces correct standard errors without needing to know the exact within-study correlation.

Researcher
1

Level 1: Sampling Variance

Measurement error within each effect size estimate.

2

Level 2: Within-Study Variance

Результаты и сроки варьируются в пределах одного исследования.

3

Level 3: Between-Study Variance

Исследования отличаются друг от друга популяциями, условиями и методами.

Example: В метаанализе психотерапии депрессии (k = 50 исследований, 180 размеров эффекта) 35% дисперсия была внутри исследования (разные результаты) и 65% было между исследованиями (различные методы лечения, группы населения). Это разложение показывает, насколько неоднородна within vs between studies.

Methodologist

Когда эффекты являются вложенными (например, множественные результаты в рамках исследований или исследования в исследовательских группах), three-level model дисперсия разделяется на: (1) выборочную дисперсию (уровень 1), (2) дисперсию внутри исследования (уровень 2) и (3) дисперсию между исследованиями (уровень 3). Это поддерживает правильный вывод, одновременно заимствуя силу на разных уровнях.

Сердечно-сосудистая проблема

Метаанализ статинов может включать 30 исследований, в каждом из которых сообщается о смертности, ИМ, инсульте и реваскуляризации. Это 120 размеров эффекта из 30 кластеров. Если рассматривать их как 120 независимых оценок, точность увеличивается на коэффициент, связанный с корреляцией внутри исследования.

RVE or multivariate models handle this correctly—producing wider, honest confidence intervals.

ROOT: Имеет ли ваш метаанализ несколько эффектов на одно исследование?

YES → Знаете ли вы (или можете оценить) корреляции внутри исследования?

  • Yes: Multivariate random-effects model (most efficient)
  • No: RVE with small-sample correction (robust to unknown correlations)

NO → Standard univariate random-effects model

Sub-question: Являются ли ваши множественные эффекты результатом разных результатов, моментов времени или подгрупп?

  • Different outcomes → Three-level model or RVE with clustering
  • Different timepoints → Network of timepoints with temporal correlation
  • Different subgroups → Consider if subgroups are meaningful or should be averaged

Q1. What problem does Robust Variance Estimation (RVE) solve?

A. Publication bias
B. Зависимость между несколькими величинами эффекта в одном исследовании
C. Between-study heterogeneity
D. Small-study effects

Module 21 Complete

«Когда результаты запутаны, притворяться, что они независимы, — это удобная ложь».

Количество без происхождения не является числом.

Модуль 22: Доказательство

========================================================== МОДУЛЬ 22: ДОКАЗАТЕЛЬСТВО (ошибка Excel Рейнхарта-Рогоффа) =========================================================

Количество без происхождения не является числом.

Модуль 22: Доказательство

🎯 Learning Objectives

  • Understand how computational errors propagate through policy
  • Дать определение воспроизводимости и отличить ее от воспроизводимости.
  • Применяйте хеширование доказательств и числа, подтверждающие доказательства.
  • Use reproducibility checklists for meta-analysis
  • Признать роль предварительной регистрации и открытых данных

A graduate student opened a spreadsheet

и обнаружил, что эра жесткой экономии была построена на ошибке.

В 2010 году Рейнхарт и Рогофф заявили, что страны с соотношением долга к ВВП >90% имели отрицательный рост. Это повлияло на политику жесткой экономии по всей Европе. В 2013 году Томас Херндон обнаружил ошибку Excel, из-за которой из среднего показателя были исключены 5 стран. Скорректированный результат: скромный положительный рост, а не крах.

Reproducible
Same data + same code = same result
Replicable
Новые данные + те же методы = стабильный результат

Reproducibility is the minimum standard. Если другие не могут воспроизвести вашу объединенную оценку на основе предоставленных вами данных, анализ не может быть проверен. Мета-анализы должны делиться: извлеченными данными, сценариями анализа, версиями программного обеспечения и случайными исходными данными.

Researcher

Every number in a meta-analysis should carry its provenance: откуда он взялся, как был преобразован и какой код его создал. Evidence hashing creates a cryptographic fingerprint of inputs so any change (accidental or deliberate) is detectable.

SHA

Input Hash

Хеш извлеченных данных SHA-256. Если одна ячейка изменится, хэш изменится. Цепочка происхождения: данные → код → результат → хеш.

Отметьте галочкой каждый пункт, чтобы оценить воспроизводимость метаанализа. Какова оценка вашего обзора?

Ошибка Excel, изменившая экономику

«Рост во время долга» Рейнхарта-Рогоффа цитировался в выступлениях Конгресса, отчетах Европейской комиссии и аналитических записках МВФ. Ошибка Excel (строки 30–34 были исключены из формулы СРЗНАЧ) означала, что пять стран — Австралия, Австрия, Бельгия, Канада и Дания — просто отсутствовали.

Скорректированное среднее значение изменилось с -0,1% до +2,2%. Политика жесткой экономии затронула миллионы людей. Воспроизводимость — это не академический перфекционизм, это гарантия от катастрофы.

Remember Module 5?

DECREASE Through the Lens of Reproducibility

Исследования DECREASE, проведенные Доном Полдермансом, были отозваны из-за сфабрикованных данных. Если бы существовали подтверждающие числа — хешированные входные данные, цепочки происхождения, проверенные вычисления — фальсификацию можно было бы обнаружить. before доказательства вошли в метаанализ и изменили хирургические рекомендации.

Q1. В чем заключалась ошибка Рейнхарта-Рогоффа?

A. They used too small a sample
B. An Excel formula excluded 5 countries, reversing the conclusion
C. They studied the wrong time period
D. They used the wrong statistical test

Module 22 Complete

«Число без происхождения — это не число. Анализ без воспроизводимости не является доказательством».

Certainty must be earned, not assumed.

Модуль 23: Ваш первый мета-спринт

Модуль 23: Capstone – ваш первый мета-спринт

Certainty must be earned, not assumed.

Модуль 23: Ваш первый мета-спринт

🎯 Learning Objectives

  • Понять рабочий процесс 40-дневной систематической проверки
  • Map the Seven Principles to real practice phases
  • Recognize Definition-of-Done (DoD) gates as quality checkpoints
  • Appreciate why structure prevents the failures you've studied
  • Graduate ready to conduct (not just understand) meta-analysis
Путешествие завершено

Вы выучили истории.

Теперь вы должны пройти этот путь.

Каждое изменение доказательств, которое вы изучали, произошло потому, что команды knew методы, но не follow them systematically.

Структура МЕТА-СПРИНТ

40-дневный структурированный рабочий процесс с 5 фазовыми воротами. Каждый шлюз представляет собой контрольную точку определения готовности (DoD), которая не позволяет вам двигаться вперед до тех пор, пока не будет гарантировано качество.

40
Days to Completion
5
DoD Phase Gates
Day 34
Hard Freeze

Why 40 days? Достаточно длинный для строгости и достаточно короткий, чтобы предотвратить расползание прицела. Сердечные сигналы росиглитазона были скрыты на долгие годы, потому что не было крайнего срока, требующего прозрачности.

Пять ворот
A

DoD-A: Protocol Lock (Days 1-3)

PICOS defined, timepoint rules set, model choices pre-specified. No moving target.

B

DoD-B: Search Lock (Days 6-10)

All databases searched, grey literature checked, PRESS validated. No hidden studies.

C

DoD-C: Extraction Lock (Days 10-28)

Dual extraction, provenance linked, RoB assessed. No fabricated numbers.

D

DoD-D: Блокировка анализа (дни 21–33)

Forest plots generated, sensitivity analyses run, heterogeneity explored. No cherry-picking.

E

DoD-E: Submission Lock (Days 33-40)

GRADE certainty rated, clinical summary written, manuscript finalized. No overconfidence.

Day 34 Freeze: Никакие новые исследования не могут быть добавлены после 34-го дня. Это предотвращает «расползание масштабов применения оружия», которое преследовало метаанализы метаанализа хирургии позвоночника BMP, где промышленность продолжала «находить» благоприятные исследования.

Every principle you learned maps to a specific phase gate:

DoD-A "Не каждый сигнал является правдой" — Предварительно укажите, что считать доказательством
DoD-B "What was hidden in plain sight?" — Search comprehensively
DoD-C "Число без происхождения — не число." — Свяжите каждую точку данных
DoD-D "Гетерогенность — это сообщение, а не шум" — Investigate, don't ignore
DoD-E "Certainty must be earned, not assumed" — GRADE everything

Принцип красной команды

Ваша собственная команда пытается разрушить вашу работу.

Каждый день два сменяющихся члена команды тратят 12 минут на проверку качества данных в качестве противников. Именно так мошенничество Болдта было обнаружено – не путем дружеской проверки, а путем скептической проверки, которая выявила невозможные показатели набора персонала.

What happens when you discover a critical problem mid-sprint?

CondGO = Conditional Go

A bounded rescue protocol. You have exactly 72 hours устранить проблему, используя только разрешенные действия. Если вы не можете это исправить, вы должны остановить проверку.

📖 Урок Авандии: GSK увидела сердечно-сосудистые сигналы в 2000 году, но не установила крайних сроков. Они «смотрели и ждали» 7 лет. Десятки тысяч пострадали. CondGO существует потому, что фраза «в конце концов мы с этим разберемся» убивает людей.

Вы начали этот курс с историй.

Вы заканчиваете его готовым к практике.

Рабочий процесс МЕТА-СПРИНТ объединяет все, чему вы научились, и структурирует это в 40-дневную систему, которая предотвращает неудачи, которые вы изучили.

Когда вы будете готовы провести настоящий систематический обзор, откройте приложение МЕТА-СПРИНТ. Истории, которые вы узнали здесь, будут вашим руководством — они будут напоминать вам на каждом этапе.

ИСТОРИЯ: Сотрудничество CTT — когда методы экономят миллионы

What does it look like when every principle is followed?

REAL DATA

Сотрудничество специалистов по лечению холестерина (CTT) является золотым стандартом метаанализа. Они получили индивидуальные данные пациентов от более чем 170 000 участников across 26 statin trials. Pre-specified protocol. IPD from all major trials. Standardized outcomes. Result: statins reduce major vascular events by 21% per mmol/L LDL reduction (RR 0.79, 95% CI 0.77-0.81), regardless of baseline risk. This finding, replicated across 5 метаанализов за 15 лет, has prevented an estimated millions of heart attacks and strokes worldwide.

Применение семи принципов
История СТТ показывает, что происходит, когда соблюдаются все принципы этого курса. Рассмотрим альтернативу:
ПУТЬ А: Без принципов
No protocol. Published data only. No RoB. No heterogeneity investigation. No GRADE.
Conflicting small trials. Statin controversy persists. Millions untreated.
OUTCOME: Preventable cardiovascular deaths continue
ПУТЬ Б: Путь СТТ
Предварительно зарегистрированный протокол. IPD из всех испытаний. Стандартизированные результаты. Прозрачные методы. Сорт Высокая уверенность.
Окончательный ответ. Глобальные рекомендации меняются. Статины назначают тем, кому это полезно.
OUTCOME: Millions of lives saved by rigorous evidence synthesis
THE REVELATION
Каждый принцип в этом курсе существует потому, что его отсутствие причинило вред. Сотрудничество CTT доказывает, что когда методы строгие, когда данные имеют происхождение, когда оценивается предвзятость и достигается уверенность, метаанализ становится самым мощным инструментом в медицине. Теперь вы несете эти принципы. Используйте их.

1. Какова цель «жесткой заморозки» Дня 34 в МЕТА-СПРИНТ?

А. Предоставить время для экспертной оценки
B. Чтобы предотвратить манипулирование результатами поздно добавленных исследований.
C. To speed up publication
D. Координировать сроки выполнения журнала

2. The CondGO protocol gives teams how long to fix critical problems?

A. 24 hours
B. 48 hours
C. 72 hours
D. 1 week

3. Red-team adversarial QA caught Joachim Boldt's fraud by noticing:

A. Impossible patient recruitment rates
B. p-hacking in statistical tests
C. Inconsistent effect sizes
D. Whistleblower testimony

Истории, которые вы узнали, не являются историей.

Это предупреждения, которые охраняют вашу будущую работу.

Когда вы проводите свой первый метаанализ,
remember CAST before you trust a signal,
remember Poldermans before you skip provenance,
помните о ребоксетине, прежде чем игнорировать воронку.

Теперь вы готовы. Следуйте структуре. Идите со смирением. Следуйте семи принципам.

Не каждый сигнал является правдой.

Модуль 24: Заключительный экзамен

Certainty must be earned, not assumed.

Final Examination

Проверьте свое владение принципами метаанализа. Каждый вопрос затрагивает основную концепцию курса.

Q1. Исследователь хочет изучить «влияние физических упражнений на здоровье». В чем ОСНОВНАЯ проблема этого исследовательского вопроса?

A. It lacks randomization
B. Sample size is too small
C. It is not answerable—lacks specific PICO elements
D. It lacks ethical approval

Q2. Воронкообразный график показывает выраженную асимметрию с отсутствующими исследованиями в нижней левой области. О чем это говорит?

A. Large studies have more precise estimates
B. Небольшие отрицательные исследования, вероятно, неопубликованы
C. The true effect is stronger than estimated
D. Random sampling error

Q3. Метаанализ сообщает, что I² = 85% и τ² = 0,42. Какова САМАЯ подходящая интерпретация?

A. There is an 85% chance of a true effect
B. The effect size is very large
C. Substantial between-study variance exists; investigate sources
D. Результаты клинически важны

Q4. В GRADE какова начальная достоверность совокупности доказательств рандомизированных контролируемых исследований?

A. High
B. Moderate
C. Low
D. Very low

Q5. In RoB 2.0, which domain assesses whether outcome assessors knew the treatment allocation?

A. D1: Randomization process
B. D2: Отклонения от намеченных вмешательств
C. D3: Отсутствующий результат данные
D. D4: Измерение результата

Q6. Исследование CAST показало, что антиаритмические препараты повышают смертность, несмотря на подавление аритмий. Это пример:

A. Random sampling error
B. Surrogate outcome failure
C. Confounding by indication
D. Reverse causation

Q7. When should a random-effects model be preferred over a fixed-effect model?

A. When sample sizes are large
B. Когда исходы бинарные
C. When between-study heterogeneity is expected
D. When publication bias is suspected

Q8. According to ICEMAN criteria, which makes a subgroup analysis MORE credible?

A. Hypothesis specified a priori
B. Large number of subgroups tested
C. No biological rationale
D. Inconsistent effects across trials within subgroup

Q9. What assumption must be checked in network meta-analysis to ensure valid indirect comparisons?

A. All studies have equal sample sizes
B. Все исследования измеряют один и тот же исход
C. Transitivity (consistency of effect modifiers)
D. Double-blinding in all trials

Q10. В последовательном анализе испытаний (TSA), что означает пересечение границы бесполезности?

A. Возможность лечения вред
B. Дальнейшие исследования вряд ли покажут значимый эффект
C. Доказательства убедительны в пользу пользы
D. Метаанализ недостаточен

Part 1 Complete — continue to Part 2 (Advanced Modules)

Часть 2: Вопросы для расширенного модуля (Q11-Q25)

Questions 11–25 cover Modules 13–22 (Bayesian, NMA, IPD, Dose-Response, Fragility, Equity, AI, Qualitative, Multivariate, Reproducibility).

Q11. Что происходит в байесовском метаанализе, если во многих исследованиях вы используете расплывчатое априорное значение?

A. Апостериорное значение близко соответствует частотному результату
B. Априорное значение доминирует над апостериорным
C. The credible interval becomes infinitely wide
D. Модель не может сходятся

Q12. Почему в антидепрессанте NMA Чиприани ни один препарат не был объявлен «победителем»?

A. Слишком мало исследований
B. Different drugs ranked best on different outcomes
C. Непрямых доказательств не было
D. SUCRA не может быть рассчитанный

Q13. Почему никогда не следует объединять IPD, как если бы это было одно мегаисследование?

A. IPD always has fewer studies than aggregate
B. Оно игнорирует кластеризацию исследований и вносит искажения
C. Он не может обрабатывать данные о времени до события
D. Binary outcomes cannot be pooled

Q14. What caused the alcohol "J-curve" to disappear in Stockwell's reanalysis?

A. Были добавлены новые исследования, которые не показали отсутствия польза
B. Бывшие пьющие были корректно исключены из референтной группы трезвенников
C. Размер выборки был увеличен
D. Лучшая корректировка для искажающих факторов

Q15. Что Кокрейн обнаружил в саге об осельтамивире при доступе к неопубликованным клиническим данным отчеты об исследованиях?

A. Препарат оказался совершенно неэффективен.
B. Эффект оказался сильнее, чем предполагалось изначально
C. Польза от осложнений в значительной степени исчезла
D. Side effects were more common than reported

Q16. Какой процент пациентов с гипертонической болезнью в США НЕ смог бы участвовать в исследовании SPRINT?

A. About 25%
B. About 50%
C. Over 75%
D. Nearly 100%

Q17. Why is AI considered an "augmenter" rather than a "replacer" in systematic reviews?

A. AI is slower than human reviewers
B. AI has perfect recall
C. AI screens fast but cannot make human-level contextual judgments
D. AI is too expensive for most reviews

Q18. What does the "adequacy" component of CERQual assess?

A. Только количество исследований
B. Богатство и количество данных, подтверждающих этот вывод
C. Согласованность результатов разных исследований
D. Generalizability to other populations

Q19. A meta-analysis includes 30 statin trials, each reporting 4 correlated outcomes (120 effect sizes). Which approach is correct?

A. Treat all 120 as independent effect sizes
B. Use RVE with small-sample correction
C. Pick only one outcome per study
D. Усредните 4 результата в каждом исследовании

Q20. Каким был скорректированный средний темп роста в странах с высоким долгом, согласно ошибке Рейнхарта-Рогоффа?

A. −0.1% (same as claimed)
B. +2.2%
C. 0%
D. +5%

Passing Score: 15/20 across both parts

Просмотрите все пропущенные вопросы, вернувшись к соответствующему модулю. Каждый вопрос проверяет основную концепцию.

Не каждый сигнал является правдой.

Методы защищают пациентов от нашего доверия.

Congratulations

Вы прошли «Обращение доказательств: курс метаанализа».

Пусть ваш синтез направляется истиной, ваше объединение — мудростью,
и ваши выводы по смирению.

Семь принципов:

«Не каждый сигнал является правдой».

«Методы защищают пациентов от нашего доверия».

"What was hidden in plain sight?"

«Число без происхождения — не число».

«Неоднородность — это сообщение, а не шум».

«Отсутствие доказательств не является доказательством отсутствия».

"Certainty must be earned, not assumed."

«Наставь нас на прямой путь…»