Не каждый сигнал является правдой.
Модуль 0: Открытие
🎯 Learning Objectives
- Дать определение метаанализу и объяснить его роль в синтезе доказательств.
- Определите, когда исследования НЕ следует объединять
- Опишите иерархию доказательств и место проведения систематических обзоров.
- Recognize that meta-analysis can mislead when done poorly
- Вспомните семь принципов, лежащих в основе этого курса.
Этот курс существует, потому что
медицина ошиблась.
Ни разу. Не редко. Неоднократно. Такими способами, которые убивали пациентов, которые верили в достоверность доказательств.
What is Meta-Analysis?
Статистический метод объединения результатов нескольких независимых исследований, посвященных одному и тому же вопросу.
*When well conducted. Quality of conduct matters more than study design alone — as GRADE recognizes.
Почему бассейновые исследования?
Increase Statistical Power
Individual studies may be too small to detect effects.
Improve Precision
Narrower confidence intervals around effect estimates.
Resolve Disagreement
Когда исследования конфликтуют, объединение может прояснить сигнал.
Explore Heterogeneity
Identify why effects differ across populations or settings.
But meta-analysis can also
MISLEAD
When done poorly, it amplifies bias rather than truth.
Когда НЕ объединяться в пул
Исследования измеряют принципиально разные вещи (яблоки и апельсины)
Extreme heterogeneity that cannot be explained
One study dominates all others (megastudy problem)
Исследования имеют высокий риск предвзятости, которую невозможно скорректировать с учетом
Объединение в пулы — это привилегия, а не право.
The decision to combine must be defended.
Иерархия доказательств
Systematic Reviews & Meta-Analyses of RCTs
Randomized Controlled Trials
Cohort Studies
Case-Control Studies
Case Series / Expert Opinion
Положение в иерархии зависит от качества методологии, а не только от типа исследования.
Этот курс преподает через
evidence reversals.
Каждый модуль открывается рассказом о том, как медицина ошиблась. Затем мы изучаем метод, который позволил бы предотвратить вред.
Семь принципов
Эти фразы будут возвращаться на протяжении всего вашего путешествия:
1. «Не каждый сигнал является правдой».
2. «Методы защищают пациентов от нашего доверия».
3. "What was hidden in plain sight?"
4. «Число без происхождения — не число».
5. «Неоднородность — это сообщение, а не шум».
6. «Отсутствие доказательств не является доказательством отсутствия».
7. "Certainty must be earned, not assumed."
Module 0 Quiz
1. Почему иногда НЕ следует объединять исследования в метаанализ?
2. Какое место в иерархии доказательств занимают систематические обзоры РКИ?
Начните путешествие.
Модуль 1: Вопрос
Не каждый сигнал является правдой.
Это не история об ошибке.
Это история об уверенности.
Модуль 1: Вопрос
🎯 Learning Objectives
- Сформулируйте конкретный вопрос PICO для систематического обзора.
- Distinguish surrogate outcomes from patient-important outcomes
- Explain why biological plausibility alone is insufficient evidence
- Описать исследование CAST и его значение для доказательной медицины.
- Применяйте принцип: «Не всякий яркий знак является руководством»
~9,000
excess deaths per year
From a treatment everyone believed worked.
Это история о том, как мы верили – и как мы ошибались.
The Observation
Patients with frequent PVCs after MI had 2-5x higher mortality.
A massive clinical need. A clear target.
The Response
Antiarrhythmic drugs were developed, FDA approved,
and prescribed to ~200,000 patients per year.
В этой истории не фигурирует ни один злодей.
Все действовали на основании имеющихся доказательств.
Логика, которая убедила всех
PVCs after MI predict sudden cardiac death
Antiarrhythmic drugs suppress PVCs
Suppressing PVCs should prevent sudden death
Antiarrhythmics save lives in post-MI patients
Цепочка была логичной. Вывод казался неизбежным.
CAST: The Cardiac Arrhythmia Suppression Trial
Finally, someone asked: "Does suppressing PVCs actually save lives?"
Результаты: апрель 1989 г.
Совет по мониторингу безопасности данных досрочно прекращает судебное разбирательство.
| Outcome | Drug (n=755) | Placebo (n=743) |
|---|---|---|
| Arrhythmic deaths | 33 | 9 |
| All cardiac deaths | 43 | 16 |
| Total deaths | 56 | 22 |
| Death rate | 7.4% | 3.0% |
Препараты, прекрасно подавлявшие аритмии, повышали смертность на 150%.
Человеческая цена
Before CAST, ~200,000 Americans per year received these drugs.
~9,000
excess deaths per year - possibly more
Vietnam War: ~6,000 US deaths/year • These drugs: ~9,000+ deaths/year
For every number, a name we will never know.
Look again.
Логика - Возвращение
PVCs after MI predict sudden cardiac death
Antiarrhythmic drugs suppress PVCs
Suppressing PVCs should prevent sudden death
Antiarrhythmics save lives in post-MI patients
Предположение о том, что подавление маркера исправит результат, никогда не проверялось.
What Went Wrong: The Surrogate Trap
ЖЭ были маркером поврежденной ткани, а не причиной смерти
The drugs had proarrhythmic effects - triggering deadlier rhythms
Суррогатная мать улучшилась, а исход ухудшился - диссоциированный суррогат
Суррогатная мать не лгала. Мы задали неправильный вопрос.
Структура PICO
Every answerable clinical question has four components:
Исследовательское упражнение: доказательства до CAST
Вы работаете кардиологом в 1988 году. Пациент пережил ИМ, но у него часты ЖЭ. Данные наблюдательной литературы ясны...
| Study | Пациенты с ЖЭ | Mortality Risk |
|---|---|---|
| Lown (1977) | High-grade PVCs | 2.4x higher |
| Bigger (1984) | >10 PVCs/hour | 3.1x higher |
| Mukharji (1984) | Complex PVCs | 4.8x higher |
Сигнал четкий. Механизм правдоподобен. Вы бы прописали антиаритмические препараты?
Before: Observational Logic
PVCs → Higher mortality
Drugs suppress PVCs
∴ Drugs should reduce mortality
After: CAST RCT (1989)
Death rate on drug: 7.4%
Death rate on placebo: 3.0%
RR = 2.5 (150% increase in deaths)
Суррогатная мать улучшилась. Больные умерли. Вот почему мы спрашиваем: «Какой результат имеет значение?»
Уроки синтеза доказательств
Биологическое правдоподобие не является доказательством
A logical mechanism doesn't guarantee the expected effect.
Surrogate endpoints can mislead
Improving a biomarker doesn't prove improvement in outcomes.
Рандомизированные исследования предоставляют самые убедительные причинно-следственные доказательства
Только данные наблюдений редко устанавливает причинно-следственную связь для вмешательства из-за смешивания факторов.
Консенсус не является доказательством
200 000 рецептов, одобрение FDA и рекомендации были неправильными.
This is why we do meta-analysis: to see past apparent truths.
Что, если вопрос, который вы задаете, определяет, кто выживет, а кто умрет?
REAL DATA
В 1989 году кардиологи знали, что подавление ПВХ достижимо с помощью энкаинида и флекаинида. Суррогатный конечный результат выглядел идеально: лекарства подавляли ЖЭ на 80%+. But CAST randomized 1,498 patients активное лекарство по сравнению с плацебо. Исследование было остановлено досрочно: 56 deaths in the drug group vs 22 in placebo. Mortality increased 2.5-fold. An estimated ~9,000 excess American deaths per year было связано с этими препаратами.
What appears certain may be wrong.
What everyone believes may be false.
Существуют методы, позволяющие пациентам не платить за наше доверие.
Вот почему вы здесь.
Module 1 Quiz
1. В чем заключалась фундаментальная ошибка антиаритмической логики?
2. Что означает буква «О» в PICO и почему она имеет значение?
Не каждый сигнал является правдой.
Методы защищают пациентов от нашего доверия.
What was hidden in plain sight?
Это история о
observational evidence.
Модуль 2: Протокол
🎯 Learning Objectives
- Explain why protocol pre-registration prevents bias
- Identify key elements of a PROSPERO registration
- Distinguish healthy user bias from true treatment effects
- Describe why observational studies overestimated HRT benefits
- Применяйте принцип: «Методы защищают пациентов от нашего доверия»
30+
observational studies
All showing hormone replacement therapy protected postmenopausal women from heart disease.
Доказательства казались неопровержимыми. Вывод казался однозначным.
Исследование здоровья медсестер
122,000 nurses followed for decades. HRT users had 40-50% lower cardiovascular mortality.
Landmark study. Impeccable methodology. Wrong conclusion.
Скрытая предвзятость
Healthy User Bias: Women who chose HRT were healthier, wealthier, better educated
Compliance Bias: Women who took HRT consistently also took better care of themselves
Prescriber Bias: Doctors gave HRT to healthier women with fewer risk factors
Лечение не защищало их. Они уже были защищены.
WHI: The Women's Health Initiative
The largest randomized trial of HRT ever conducted.
Результаты: июль 2002 г.
Trial stopped early after 5.2 years. Harm exceeded benefits.
| Outcome | Hazard Ratio | Direction |
|---|---|---|
| Coronary heart disease | 1.29 | HARM |
| Stroke | 1.41 | HARM |
| Breast cancer | 1.26 | HARM |
| Pulmonary embolism | 2.13 | HARM |
The Lesson
PRE-SPECIFY
A protocol written before the search begins prevents fishing, prevents bias, prevents hindsight distortion.
Что, если лечение сработает, но только для некоторых?
REAL DATA
WHI showed HRT increased cardiovascular events overall. But later analyses revealed a critical pattern: women who started HRT within 10 years of menopause had REDUCED cardiovascular risk. Women starting 20+ years after menopause had INCREASED risk. The overall null/harm result hid a timing effect.
PROSPERO Registration
Зарегистрируйтесь, прежде чем искать
PROSPERO: International prospective register of systematic reviews
Заблокируйте свои решения
PICO, search strategy, outcomes, analysis plan - all pre-specified
Document Amendments
Изменения разрешены, но должны быть прозрачными и обоснованными.
Prevent Duplication
Прежде чем начать, проверьте, существует ли ваш отзыв.
Module 2 Quiz
1. Почему исследование здоровья медсестер показало пользу от ЗГТ, а WHI – нет?
2. What is the primary purpose of PROSPERO registration?
Предварительное уточнение – это не бюрократия.
It is protection.
Against our own tendency to find what we expect.
Методы защищают пациентов от нашего доверия.
What was hidden in plain sight?
Модуль 3: Поиск
What was hidden in plain sight?
Это история о
what they didn't publish.
Модуль 3: Поиск
🎯 Learning Objectives
- Develop a comprehensive search strategy using PRESS guidelines
- Search multiple databases including grey literature sources
- Identify trial registries and regulatory databases (ClinicalTrials.gov, FDA)
- Explain how the rosiglitazone case exposed hidden cardiovascular harms
- Примените принцип: «Что было скрыто на виду?»
$3.2B
annual sales at peak
Авандия (росиглитазон) была одним из самых продаваемых в мире лекарств от диабета.
Опубликованные испытания выглядели обнадеживающими. Неопубликованные материалы рассказывали другую историю.
Опубликованные доказательства (до 2007 г.)
Published trials showed rosiglitazone effectively lowered HbA1c. Cardiovascular outcomes were rarely reported.
Суррогатная мать выглядела хорошо. Но как насчет реальных сердечно-сосудистых событий?
Nissen's Discovery: May 2007
Доктор Стивен Ниссен получил неопубликованные данные испытаний с собственного сайта GSK.
В соответствии с юридическим соглашением компания GSK была обязана опубликовать результаты клинических испытаний в Интернете. Ниссен и Вольски проанализировали 42 исследования, многие из которых никогда не публиковались в журналах.
Данные были технически общедоступными.
No one had systematically searched for it.
Результаты метаанализа
| Outcome | Odds Ratio | 95% CI |
|---|---|---|
| Myocardial Infarction | 1.43 | 1.03 - 1.98 |
| CV Death | 1.64 | 0.98 - 2.74 |
Published in NEJM. The FDA called an emergency advisory committee meeting.
The FDA Advisory Committee: July 2007
Комитет разделился. Некоторые хотели его отозвать. Некоторые назвали метаанализ ошибочным.
Но сигнал нельзя было не заметить.
The Aftermath
Black box warning added for heart failure risk (2007)
Severe restrictions on prescribing in the US (2010)
Withdrawn полностью с европейского рынка (2010 г.)
FDA now requires cardiovascular outcome trials for all diabetes drugs
What a Comprehensive Search Requires
Контрольный список для прессы
Peer Review of Electronic Search Strategies
Перевод исследовательского вопроса
Отражает ли поиск PICO элементы?
Булевы операторы и операторы близости
Правильно ли используются И, ИЛИ, НЕ?
Subject Headings
Подходят ли термины MeSH/Emtree и развернуты ли они?
Text Words
Synonyms, spelling variants, truncation?
PRESS Checklist (continued)
Spelling, Syntax, Line Numbers
Есть ли ошибки, которые могут привести к извлечению сбои?
Ограничения и фильтры
Соответствуют ли дата, язык, ограничения дизайна исследования?
Peer-reviewed searches substantially improve retrieval of key studies.
PRESS guideline: McGowan et al., 2016
Database Translation
Один и тот же поиск должен быть адаптирован для каждой базы данных:
"diabetes mellitus, type 2"[MeSH] OR "type 2 diabetes"[tiab]
'non insulin dependent diabetes mellitus'/exp OR 'type 2 diabetes':ti,ab
Subject headings, field tags, and operators differ between databases.
Что происходит, когда вы ищете и ничего не находите?
REAL DATA
Governments stockpiled $9 billion осельтамивира (Тамифлю) для лечения пандемического гриппа. Кокрановское сотрудничество попыталось проанализировать доказательства. Of 77 clinical trials, full reports existed for only 20. «Рош» отказалась предоставить данные для 5 years. Когда BMJ и Кокрейн наконец получили over 160,000 pages of clinical study reports, they found: Tamiflu reduced symptoms by less than 1 day, with no evidence it prevented hospitalizations or complications.
If Nissen had searched only PubMed,
the signal would have remained hidden.
Comprehensive search is survival.
What was hidden in plain sight?
Module 3 Quiz
1. Какой тип источника данных выявил сердечно-сосудистый сигнал росиглитазона?
2. What does PRESS stand for?
What was hidden in plain sight?
Модуль 4: Скрининг
Количество без происхождения не является числом.
Это история о
what they chose to report.
Модуль 4: Скрининг
🎯 Learning Objectives
- Apply PRISMA flow diagram to document study selection
- Implement dual-reviewer screening with conflict resolution
- Определить выборочную отчетность о результатах и манипулирование данными
- Calculate inter-rater reliability (Cohen's kappa)
- Применить принцип: «Число без происхождения не является числом»
88,000
heart attacks attributed to Vioxx
A blockbuster drug. A hidden signal. A preventable catastrophe.
Между В 1999 и 2004 годах это обезболивающее принимали миллионы. Некоторые так и не вернулись домой.
Расцвет Vioxx
Рофекоксиб (Vioxx) был селективным НПВП ЦОГ-2. Рекламируется как более безопасный для желудка, чем традиционные обезболивающие.
Испытание VIGOR (2000)
Vioxx Gastrointestinal Outcomes Research
What VIGOR Published
| GI Outcome | Vioxx | Naproxen |
|---|---|---|
| Confirmed GI events | 2.1 per 100 pt-yrs | 4.5 per 100 pt-yrs |
| Reduction | 54% fewer GI events | |
Заголовок: Vioxx безопаснее для желудка!
Так сказали врачи. Это то, во что верили пациенты.
What VIGOR Buried
| CV Outcome | Vioxx | Naproxen |
|---|---|---|
| Myocardial Infarction | 20 events | 4 events |
| Relative Risk | 5x higher in Vioxx group | |
Выборочное сообщение
Манипулирование данными: 3 additional heart attacks occurred after the cutoff used in publication
Spin: Сигнал сердечно-сосудистых заболеваний объяснялся кардиозащитным действием напроксена (нет доказательств)
Outcome switching: Сердечно-сосудистые события были заранее определены, но не подчеркнуты
Internal knowledge: Электронные письма компании Merck показывают, что они знали об этом сигнале
Испытание APPROVe (2004 г.)
Испытание по профилактике колоректальных полипов - остановлено досрочно из соображений безопасности.
Four years after VIGOR showed a 5x risk. Four years too late.
А вы рассматривали, что происходит, когда сигнал скрывается в шуме?
REAL DATA
Vioxx (рофекоксиб) был одобрен в 1999. By 2004, estimates suggest 88,000-140,000 excess heart attacks and 30,000-40,000 deaths. Merck's own VIGOR trial showed 5x cardiovascular risk in 2000—but it was dismissed as a "naproxen cardioprotective effect."
Блок-схема PRISMA
Every step of screening must be documented and transparent.
Dual Screening: Why Two Reviewers?
Reduces Selection Bias
One reviewer might unconsciously favor certain studies
Catches Errors
Усталость, неправильное прочтение и ошибки неизбежны
Forces Explicit Criteria
Disagreements reveal ambiguity in inclusion rules
Typical agreement: κ = 0.6-0.8
Disagreements resolved by discussion or third reviewer
Калибровка: пилотный этап
Before screening thousands of records, reviewers should calibrate on a sample of 50-100 records.
Screen the same set independently
Compare decisions and discuss disagreements
Refine inclusion criteria until κ > 0.7
Задокументируйте процесс калибровки и о любых изменениях правил
PRISMA 2020 Updates
В PRISMA 2020 существенно пересмотрен контрольный список с расширенной отчетностью по методам синтеза, оценке достоверности и регистрации протоколов.
If Vioxx's cardiovascular data had been screened by independent reviewers,
if all pre-specified outcomes had been required to be reported,
88,000 heart attacks might have been prevented.
Количество без происхождения не является числом.
Module 4 Quiz
1. Каков был относительный риск ИМ в исследовании VIGOR в группе Vioxx по сравнению с напроксеном?
2. Why is dual screening (two independent reviewers) important?
Количество без происхождения не является числом.
Модуль 5: Извлечение
Количество без происхождения не является числом.
Это история о
числа, которых никогда не существовало.
Модуль 5: Извлечение
🎯 Learning Objectives
- Разработать стандартизированную форму извлечения данных с полями происхождения
- Calculate effect sizes from various reported statistics (OR, RR, HR, SMD)
- Implement dual-extraction with discrepancy resolution
- Определить красные флажки для фальсификации данных и неправомерных действий
- Explain how the DECREASE fraud affected clinical guidelines
~10,000
possible excess deaths in Europe
Из рекомендаций, основанных на сфабрикованных клинических испытаниях данные.
Испытания DECREASE повлияли на периоперационный уход во всем мире. Данные были изобретены.
Don Poldermans: A Star Researcher
Professor at Erasmus Medical Center, Rotterdam. Author of over 500 papers. Lead author of ESC guidelines on perioperative cardiac care.
Казалось бы, безупречный источник. Пока кто-то не посмотрел на данные.
Испытания DECREASE: Заявление
| Trial | Finding | Impact |
|---|---|---|
| DECREASE-I (1999) | 90% reduction in cardiac death | Changed guidelines |
| DECREASE-IV (2009) | Beta-blockers safe in low-risk | Expanded recommendations |
Effect sizes were implausibly large.
90% reduction? Almost nothing in medicine works that well.
The Investigation: 2011
Erasmus MC investigated after whistleblower complaints
Сфабрикованные данные пациентов: Patients who didn't exist or weren't enrolled
No informed consent: Many "participants" never consented
Poldermans dismissed: From Erasmus MC in 2011
Каскад вреда
Когда DECREASE был удален из метаанализ...
Исследование POISE (2008) показало вред. Оно было отклонено, поскольку противоречило DECREASE.
Почему это не было обнаружено?
Trust in authority: Полдерманс был автором руководства, рассматривавшим свои собственные доказательства
No data verification: Никто не запрашивал данные отдельных пациентов
Publication prestige: Published in top journals, assumed valid
Implausible effects accepted: 90% reductions should raise suspicion
Data Extraction: Defense Against Fraud
Dual Extraction
Two extractors independently - catches transcription errors and forces scrutiny
Record Provenance
Table, page, paragraph - every number traceable to source
Verify Against Registry
ClinicalTrials.gov результаты по сравнению с публикацией - расхождения являются красными флажками
Request IPD
Individual patient data reveals what aggregate summaries hide
Effect Size Calculation
Во время извлечения вы рассчитываете величину эффекта на основе отчетных данных:
Odds Ratio, Risk Ratio, Risk Difference from 2x2 tables
Средняя разница, стандартизированная средняя разница от средних значений и стандартных отклонений
Всегда извлекайте данные из наиболее надежного источника.
Prefer: ITT results > per-protocol > subgroups
Red Flags During Extraction
Implausible effect sizes: 80-90% reductions should prompt scrutiny
Baseline imbalances: Группы, которые «слишком идеально» подобраны
Round numbers: "Exactly 50" or "exactly 100" patients per arm
Registry discrepancies: Опубликованный N отличается от зарегистрированного N
Effect Size Conversions
Исследования сообщают о результатах в различных показателях. Чтобы их объединить, вам часто нужны конверсии:
| From | To | Formula |
|---|---|---|
| SMD (d) | log-OR | log-OR = d × π / √3 |
| log-OR | SMD (d) | d = log-OR × √3 / π |
| Correlation (r) | Fisher z | z = 0.5 × ln((1+r)/(1−r)) |
| OR | RR | RR = OR / (1 − P₀ + P₀ × OR) |
| OR | NNT | NNT = 1 / (P₀ − OR×P₀ / (1−P₀+OR×P₀)) |
P₀ = исходный риск в контрольной группе. Эти формулы предполагают приближенные условия; см. Боренштейн и др. (гл. 7) для точных выводов.
Данные о времени до события (выживаемости)
Many trials report time-to-event outcomes using hazard ratios (HR). Pooling HRs in meta-analysis requires special handling:
Журнал (HR) + метод SE
Извлеките журнал (HR) и его SE из пробной версии. Если не указано, выведите SE из CI: SE = (ln(верхний) − ln(нижний)) / (2 × 1,96). Объединение с использованием стандартных методов обратной дисперсии.
Когда HR не сообщается
Существуют методы восстановления IPD по кривым Каплана-Мейера (Guyot et al., 2012) или оценки ЧСС на основе значений p и количества событий (Parmar et al., 1998). Всегда отдавайте предпочтение скорректированному ЧСС, о котором сообщается напрямую, если таковой имеется.
HR < 1 favors treatment; HR > 1 favors control. Do not convert HRs to ORs or RRs—they measure fundamentally different quantities.
Что, если данные, которые вы извлекаете, никогда не были реальными?
REAL DATA
Йоахим Болдт был самым плодовитым исследователем в области управления анестезиологическими растворами. Над 180 его публикаций были отозваны. — один из крупнейших случаев ретракции в истории медицины. Его сфабрикованные данные показали, что гидроксиэтилкрахмал (ГЭК) безопасен. Мета-анализ, включавший его исследования, пришел к выводу, что ГЭК безвреден. Когда исследования Болдта были удалены, объединенный эффект обратился вспять: HES increased kidney injury by 59% (RR 1.59, 95% CI 1.26-2.00) and mortality by ~9% (RR 1.09). An estimated thousands of patients received a harmful fluid based on fabricated evidence.
Каждое число в вашем метаанализе
must trace back to a verifiable source.
Количество без происхождения не является числом.
Fraudulent data can kill as surely as fraudulent drugs.
Module 5 Quiz
1. Что произошло, когда данные исследования DECREASE были исключены из метаанализа бета-блокаторов?
2. Why should dual extraction be standard practice?
Количество без происхождения не является числом.
Модуль 6: Предвзятость
Методы защищают пациентов от нашего доверия.
Это история о
предвзятость, которую мы не можем видеть.
Модуль 6: Предвзятость
🎯 Learning Objectives
- Apply Risk of Bias 2.0 (RoB 2) to randomized trials
- Применить ROBINS-I к нерандомизированным исследованиям
- Assess all five RoB 2 domains (randomization, deviations, missing data, measurement, selection)
- Distinguish confounding by indication from true treatment effects
- Explain how BART revealed hidden harms of aprotinin
20+
лет на рынке
Апротинин был золотым стандартом снижения хирургического кровотечения.
Затем кто-то провел РКИ. Правда была иной.
The Hidden Bias: Confounding by Indication
Sicker patients got aprotinin: Surgeons used it in complex, high-risk cases
Survivors bias: Dead patients can't report complications
Publication bias: Отрицательные исследования не были опубликованы
Наблюдательные исследования не смогли отделить эффект препарата от исходного риска для пациента.
БАРТ: Случайная правда
Blood Conservation Using Antifibrinolytics in a Randomized Trial
| Outcome | Aprotinin | Alternatives |
|---|---|---|
| 30-day mortality | 6.0% | 3.9% |
| Relative Risk | 1.53 (53% increased death) | |
Расследование: оцените предвзятость
Вы просматриваете наблюдательные исследования. Примените мышление о риске предвзятости:
| Question | Observational | BART (RCT) |
|---|---|---|
| Random allocation? | ❌ Surgeon choice | ✓ Yes |
| Baseline comparable? | ❌ Sicker got drug | ✓ Balanced |
| Blinding? | ❌ Open label | ✓ Double-blind |
Confounding by indication: Самым тяжелым пациентам хирурги давали апротинин. В обсервационных исследованиях выживаемость приписывалась препарату, тогда как они измеряли систематическую ошибку выживаемости.
Risk of Bias 2.0: The Five Domains
Randomization Process
Отклонения от запланированных вмешательств
Отсутствующие данные о результатах
Измерение результата
Выбор сообщаемого результата
РОБИНС-I: для нерандомизированных исследований
Если РКИ недоступны, используйте ROBINS-I (риск систематической ошибки в нерандомизированных исследованиях вмешательств).
Confounding
Baseline differences between groups
Selection of Participants
Exclusions related to intervention
Classification of Interventions
Misclassification of exposure status
Отклонения от запланированных вмешательств
Co-interventions, contamination
Missing Data
Differential loss to follow-up
Measurement of Outcomes
Ascertainment bias
Selection of Reported Result
Selective reporting
Ratings: Low / Moderate / Serious / Critical / No information
Что происходит, когда 64 исследования соглашаются, но все они неправы?
REAL DATA
Апротинин использовался в кардиохирургии для уменьшения кровотечения. 20 years. 64 small randomized trials предположил, что это безопасно и эффективно. Мета-анализ подтвердил пользу. Тогда BART trial (2008) randomized 2,331 patients: aprotinin vs. tranexamic acid vs. aminocaproic acid. Result: aprotinin increased mortality by 53% (ОР 1,53, 95% ДИ 1,06–2,22). Суд был остановился раньше времени из-за вреда. Через несколько месяцев компания Bayer отозвала апротинин с рынка.
Sixty-four small trials measured bleeding, not death.
One adequately powered trial revealed 53% increased mortality.
Количество доказательств не может заменить качество и силу.
Module 6 Quiz
1. Why did 64 small trials miss aprotinin's harm?
Методы защищают пациентов от нашего доверия.
Модуль 7: Синтез
Гетерогенность — это сообщение, а не шум.
Споры о магнии: 1991–1995 гг.
When pooling leads us astray.
Модуль 7: Синтез
🎯 Learning Objectives
- Calculate pooled effect sizes using fixed-effect and random-effects models
- Choose between DerSimonian-Laird and HKSJ estimators appropriately
- Interpret forest plots including weights, confidence intervals, and diamonds
- Explain why small-study effects can mislead meta-analyses
- Применяйте принцип: «Неоднородность — это сообщение, а не шум».
The Year: 1991
«Вы стоите на перекрестке надежд и доказательств...»
Heart disease kills more people worldwide than any other cause. In 1991, a new hope emerges: Could something as simple and cheap as intravenous magnesium save lives after myocardial infarction?
Биологическое обоснование было разумным:
Magnesium stabilizes cardiac membranes, prevents arrhythmias, and vasodilates coronary arteries.
ПРЕДЕЛ-2: Знаковое испытание
Leicester Intravenous Magnesium Intervention Trial, 1992
A cheap, safe intervention that could save 250,000 lives per year globally.
Медицинское сообщество было наэлектризовано.
The Meta-Analysis: 1993
Researchers pooled seven randomized trials of IV magnesium in MI:
| Trial | Year | N | Odds Ratio |
|---|---|---|---|
| Morton 1984 | 1984 | 40 | 0.10 |
| Rasmussen 1986 | 1986 | 273 | 0.35 |
| Smith 1986 | 1986 | 400 | 0.48 |
| Abraham 1987 | 1987 | 94 | 0.87 |
| Shechter 1990 | 1990 | 103 | 0.27 |
| Ceremuzynski 1989 | 1989 | 48 | 0.22 |
| LIMIT-2 | 1992 | 2,316 | 0.74 |
Investigation Exercise: The Meta-Analyst's Dilemma
Вы являетесь Кокрановским рецензентом в 1993 году. Вас попросили обобщить данные о применении магния при ИМ. Перед вами данные семи испытаний.
Вы видите закономерность на этом лесном сюжете?
Но подождите... вы что-нибудь заметили в пробных размерах?
Предупреждающие знаки
What should have given us pause?
Small sample sizes: Six of seven trials had <500 patients
Extreme effects: OR of 0.10 (90% reduction) is implausible for any drug
All positive: Где были отрицательные испытания? Проблема с файловым ящиком...
Funnel asymmetry: Small trials showed much larger effects than larger ones
Тест графика воронки
Прежде чем объединить данные, мы должны проверить предвзятость публикаций. Давайте рассмотрим график воронки.
⚠️ Asymmetric Funnel
Группа небольших испытаний слева (показана польза). Где небольшие отрицательные испытания?
Egger's test p = 0.04 — statistically significant asymmetry.
Год: 1995 — Отчеты ИГИЛ-4
«И тут пришла правда…»
The Fourth International Study of Infarct Survival (ISIS-4) enrolled 58,050 patients across 1,086 hospitals in 31 countries.
До и после: полная картина
Посмотрите, что произойдет, когда мы добавим мега-испытание на наш лесной участок...
BEFORE ISIS-4
7 small trials (N = 3,274)
OR = 0.44
Strong benefit signal
AFTER ISIS-4
8 trials (N = 61,324)
OR = 1.02
No effect
Why Did Small Trials Mislead?
Publication Bias
Small negative trials were never published—they sat in file drawers
Small-Study Effects
Smaller trials tend to show larger effects due to methodological weaknesses
Random High Bias
Совершенно случайно некоторые небольшие испытания дали экстремальные результаты — и они были опубликованы
Random-Effects Amplification
Random-effects models give more weight to small trials, amplifying bias
Fixed vs. Random Effects
Which model should you choose?
Assumes one true effect. Weights studies by inverse variance (precision). Large trials dominate.
Magnesium result: OR = 0.96 (p = 0.52)
Assumes distribution of effects. Gives more weight to small trials. Wider confidence intervals.
Magnesium result: OR = 0.59 (p = 0.01)
⚠️ Выбор модели определил вывод!
Случайные эффекты не устраняют предвзятость; с эффектами небольших исследований это может сместить вес в сторону более мелких исследований и изменить выводы.
Уроки магния
1. Проверьте наличие предвзятости публикации прежде чем доверять объединенной оценке. Ваши инструменты — воронкообразные графики и тест Эггера.
2. Be wary of small-study effects. If only small trials show benefit, wait for a large, well-conducted trial.
3. Model choice matters. Случайные эффекты могут усилить предвзятые доказательства. Рассмотрите обе модели и поймите последствия.
4. One large trial can overturn many small ones. Вот почему такие мега-испытания, как ISIS-4, так ценны.
Специальные планы исследований в метаанализе
Не во всех РКИ используются стандартные планы параллельных групп. Два распространенных варианта требуют особого подхода при объединении результатов:
Cluster-Randomized Trials
Рандомизировать группы (больницы, школы), а не отдельных лиц. < design effect = 1 + (m-1) × ICC уменьшает эффективный размер выборки. Разделите N на расчетный эффект перед объединением или используйте скорректированную SE из исследования. Игнорирование кластеризации приводит к искусственному сужению ДИ.
Crossover Trials
Каждый пациент получает оба вида лечения. Парный план уменьшает дисперсию, но для правильного объединения вам необходим within-patient correlation (или SE парного анализа). Использование SE параллельной группы консервативно; используя неправильные N пациентов с двойным подсчетом.
Подробные формулы и рабочие примеры см. в Кокрейновском справочнике v6.4, глава 23.
Что, если способ объединения исследований определяет, спасет ли лечение жизнь или бесполезно?
REAL DATA
Ранний сурфактант для недоношенных детей был поддержан 6 small trials showing reduced mortality (RR 0.84). A fixed-effect meta-analysis confirmed benefit (p=0.04). But a random-effects model showed no significance (p=0.12) — the confidence interval crossed 1.0. Later, SUPPORT (2010) and VON (2012), two large pragmatic trials with ~2,000 neonates combined, found no benefit ранним и поздним сурфактантом. Клиническая практика была изменена на основе небольших исследований и неправильной модели.
Module 7 Quiz
1. Почему метаанализ магния показал преимущества, которых не обнаружил ISIS-4?
2. What warning sign should have alerted reviewers to potential bias?
3. When publication bias is suspected, which model may amplify the bias?
Small trials can show false signals.
Large trials anchor the truth.
Гетерогенность — это сообщение, а не шум.
Гетерогенность — это сообщение, а не шум.
Модуль 8: Неоднородность
Гетерогенность — это сообщение, а не шум.
ACCORD: 2008
Когда среднее значение скрывает правду.
Модуль 8: Неоднородность
🎯 Learning Objectives
- Рассчитать и интерпретировать I², τ² и интервалы прогнозирования
- Apply ICEMAN criteria to assess subgroup credibility
- Distinguish between clinical, methodological, and statistical heterogeneity
- Conduct and interpret leave-one-out sensitivity analyses
- Explain how ACCORD revealed differential effects across subgroups
The Year: 2008
"Вы собираетесь стать свидетелем одного из самых шокирующих прекращений испытаний в истории история...»
На протяжении десятилетий диабетическое сообщество придерживалось одного руководящего принципа: lower blood sugar is better. Знаменательные исследования DCCT (1993) и UKPDS (1998) показали, что интенсивный контроль уровня глюкозы снижает микрососудистые осложнения — слепоту, почечную недостаточность, повреждение нервов.
Логическая экстраполяция:
If controlling glucose prevents complications, shouldn't intensive control prevent cardiovascular disease too?
ACCORD: Action to Control Cardiovascular Risk in Diabetes
The definitive test of intensive glucose control
У всех пациентов был диабет 2 типа с высоким сердечно-сосудистым риском — либо установленное сердечно-сосудистое заболевание, либо множественные факторы риска. Исследование было рассчитано на 5,6 лет.
February 6, 2008
Совет по мониторингу безопасности данных созывает экстренное совещание.
After 3.5 years, they make an unprecedented decision:
ПРЕКРАТИТЬ ИСПЫТАНИЕ.
Шокирующие результаты
| Outcome | Intensive | Standard | HR (95% CI) |
|---|---|---|---|
| Primary CV endpoint | 352 events | 371 events | 0.90 (0.78–1.04) |
| All-cause mortality | 257 deaths | 203 deaths | 1.22 (1.01–1.46) |
| Severe hypoglycemia | 10.5% | 3.5% | 3.0× higher |
Investigation Exercise: The Clinician's Dilemma
Вы эндокринолог, у вас 500 пациентов с диабетом. Результаты ACCORD опубликованы. Что вы скажете своим пациентам, которые стремятся к HbA1c <6%?
Интенсивный контроль вреден для всех? Или только для некоторых?
Выявленный анализ подгрупп:
| Subgroup | Intensive HR | Interpretation |
|---|---|---|
| No prior CVD | 1.00 (0.76–1.32) | No effect |
| Prior CVD | 1.45 (1.15–1.84) | Significant harm |
| Baseline HbA1c <8% | 1.02 (0.75–1.40) | No effect |
| Baseline HbA1c ≥8% | 1.29 (1.03–1.60) | Harm |
The average effect masked critical heterogeneity!
Для пациентов с установленными сердечно-сосудистыми заболеваниями или плохим исходным контролем интенсивная терапия была вредной.
Понимание гетерогенности: I² и за его пределами
Когда проводятся исследования (или подгруппы) показывают разные эффекты, мы должны количественно оценить это изменение.
I² = 0–25%: Низкая гетерогенность. Эффекты одинаковы во всех исследованиях.
I² = 25–50%: Moderate. Look for sources of variation.
I² = 50–75%: Substantial. Consider whether pooling is appropriate.
I² = 75–100%: Considerable. A single pooled estimate may mislead.
Но сам по себе I² не говорит вам, что делать — он сигнализирует о необходимости дальнейшего исследования.
Tau² (τ²): дисперсия между исследованиями
В то время как I² сообщает вам долю дисперсии из-за неоднородности, τ² сообщает вам величину.
"Какая доля общей дисперсии обусловлена истинными различиями между исследованиями?"
Scale: 0% to 100%
"Насколько истинные эффекты различаются между исследованиями?"
Same scale as the effect measure
Use τ² to calculate prediction intervals
Интервал прогнозирования показывает диапазон эффектов, которые вы ожидаете в новом исследовании - часто намного шире, чем доверительный интервал интервал.
The Prediction Interval: What ACCORD Really Tells Us
Consider a meta-analysis of intensive glucose control across multiple trials...
Confidence Interval
HR 1.10 (0.95–1.27)
"Наша лучшая оценка среднего эффекта"
Prediction Interval
HR 1.10 (0.70–1.73)
"The range of effects in a new setting"
Интервал прогнозирования охватывает как пользу, так и вред!
In some settings, intensive control might help. In others, it could kill.
When Is a Subgroup Effect Credible?
Subgroup Credibility Criteria (adapted from ICEMAN, Schandelmaier 2020 & Sun 2012)
Был ли анализ подгрупп заранее определен?
Апостериорные подгруппы склонны к получению данных дноуглубительные работы
Is there a plausible biological rationale?
Механизм должен быть ясным и независимым от данных
Is the effect consistent across related outcomes?
Если появляется вред для смертности, существует ли аналогичный вред для ИМ, инсульта?
Is there independent replication?
Подтвержден ли эффект подгруппы в других исследованиях?
ICEMAN Applied to ACCORD
| Criterion | Assessment | Score |
|---|---|---|
| Pre-specified? | Да — предшествующие сердечно-сосудистые заболевания были в протокол | ✓ |
| Biological rationale? | Yes—hypoglycemia more dangerous with CVD | ✓ |
| Consistent outcomes? | Yes—CV mortality and all-cause mortality aligned | ✓ |
| Independent replication? | Partially—ADVANCE, VADT showed similar patterns | ~ |
ICEMAN Rating: High Credibility
The differential harm in high-risk patients appears genuine.
Клинические последствия
Для пациентов без сердечно-сосудистых заболеваний: Moderate glucose control (HbA1c ~7%) remains the goal. Intensive control may reduce microvascular complications.
Для пациентов с установленными сердечно-сосудистыми заболеваниями: Avoid intensive targets. Hypoglycemia is dangerous for damaged hearts.
Для пожилых пациентов: Relaxed targets. Quality of life matters. Tight control causes falls, confusion, and excess mortality.
"One size fits all" treatment is not patient-centered medicine.
Meta-Regression: Explaining Heterogeneity
When heterogeneity is high, meta-regression can identify study-level covariates that explain variation.
Меняется ли систематически величина эффекта в зависимости от исследования характеристики?
Caution
Мета-регрессия требует ≥10 исследований на каждую ковариату. Поскольку исследований немного, они носят лишь исследовательский характер. Экологическая ошибка: ассоциации на уровне исследования могут быть неприменимы к отдельным людям.
Example: In ACCORD, meta-regression might test if treatment effect varies by baseline HbA1c, showing harm concentrated in patients with very high levels.
What number saves lives? Who decides?
REAL DATA
На протяжении десятилетий целью было: снизить кровяное давление до <140 mmHg systolic. Then came SPRINT (2015): 9,361 high-risk patients randomized to intensive (<120) vs standard (<140) targets. Intensive treatment reduced CV events by 25% and death by 27%. Trial stopped early for benefit. Guidelines changed worldwide.
Module 8 Quiz
1. Почему исследование ACCORD было остановлено досрочно?
2. What does a prediction interval tell us that a confidence interval doesn't?
3. According to ICEMAN, which factor is MOST important for subgroup credibility?
Если исследования расходятся во мнениях,
выслушайте несогласие.
Гетерогенность — это сообщение, а не шум.
Отсутствие доказательств не является доказательством отсутствия.
Модуль 9: Скрытые исследования
Отсутствие доказательств не является доказательством отсутствия.
Reboxetine: 2010
74%, которые так и не увидели света.
Модуль 9: Скрытые исследования
🎯 Learning Objectives
- Interpret funnel plots for asymmetry detection
- Примените тест Эггера и другие статистические тесты на предмет предвзятости публикации.
- Внедрить метод обрезки и заполнения для корректировки смещения
- Critically appraise the limitations of publication bias tests
- Применяйте принцип: «Отсутствие доказательств не является доказательством отсутствия»
The Year: 1997
"A new hope for depression patients who cannot tolerate SSRIs..."
Ребоксетин (Эдронакс) был новым антидепрессантом — селективным ингибитором обратного захвата норадреналина (NRI). В отличие от СИОЗС, он воздействовал на другую систему нейромедиаторов. Для пациентов, которые потерпели неудачу или не могли переносить флуоксетин или сертралин, был предложен новый механизм.
Опубликованные доказательства
What doctors could find in medical journals:
| Comparison | Published Trials | Published Result |
|---|---|---|
| Reboxetine vs Placebo | 3 trials (n=507) | Significantly better (SMD = 0.56) |
| Reboxetine vs SSRIs | 4 trials (n=628) | Equivalent or better |
Опубликованная литература рассказала ясную историю:
Reboxetine works. Patients benefit. Prescribe with confidence.
А как насчет испытаний, которые вы не могли видеть?
In 2010, German researchers at IQWiG made a request to the European Medicines Agency...
They demanded access to all данные испытаний – опубликованные и неопубликованные.
What they found changed everything.
Полная картина
Eyding et al., BMJ 2010
| Comparison | Published Only | ALL DATA |
|---|---|---|
| Reboxetine vs Placebo | SMD 0.56 (benefit) | SMD 0.10 (no benefit) |
| Patients in analysis | 507 (14%) | 2,731 (100%) |
| Reboxetine vs SSRIs | Equivalent | Низкий (1,23 руб. за вред) |
| Patients in analysis | 628 (26%) | 2,411 (100%) |
Investigation Exercise: The File Drawer
Вы являетесь систематическим обозревателем в 2008 году. Вы ищете в PubMed, Embase и Кокрейновской библиотеке все исследования ребоксетина. Вы найдете 7 опубликованных исследований, показавших пользу.
Можно ли доверять этим доказательствам?
⚠️Воронка кардинально асимметрична!
Все опубликованные исследования группируются на одной стороне. Где нулевые и отрицательные испытания?
Инструментарий по предвзятости публикаций
Funnel Plot
Plot effect size vs. standard error. A symmetric funnel suggests no bias; asymmetry raises alarms.
Egger's Regression Test
Regress effect/SE on 1/SE. A non-zero intercept (P < 0.10) suggests small-study effects. Note: inflated false-positive rate with binary outcomes; use Peters' test instead.
Peters' Test
For binary outcomes, regresses log OR on inverse of total sample size. Less prone to false positives.
Trim-and-Fill
Учитывает «недостающие» исследования, чтобы сделать воронку симметричной, а затем пересчитывает совокупный эффект.
Интерактивный режим: анализ обрезки и заполнения
Давайте применим обрезку и заполнение к данным по ребоксетину и посмотрим, какой будет скорректированная оценка...
Published Only
7 trials
SMD = 0.56
Significant benefit
Trim-and-Fill
7 + 5 imputed = 12 trials
SMD = 0.23
Reduced, still nominally significant
But even trim-and-fill underestimated the problem!
Истинный эффект для всех данных составил SMD = 0,10 (по существу нулевой).
Trim-and-fill is conservative—it doesn't fully correct for selective publication.
The Best Defense: Trial Registries
Методы обнаружения предвзятости публикаций несовершенны. Реальное решение prospective registration.
При поиске испытаний всегда проверяйте реестры. Сравните количество registered испытания на количество published. Разрыв — ваш предупреждающий сигнал.
Since 2005, ICMJE requires trial registration as a condition of publication.
Кампания AllTrials
"All trials registered. All results reported."
Скандал с ребоксетином, наряду с аналогичными случаями с другими препаратами, стал катализатором глобального движения:
2013: Политика EMA в отношении клинических данных
European Medicines Agency commits to publishing clinical study reports
2016: FDA Amendments Act enforcement
Mandatory results reporting on ClinicalTrials.gov within 12 months
AllTrials Coalition
Over 90,000 supporters, 700+ organizations demanding transparency
Последствия ребоксетина
Germany's IQWiG recommended against reboxetine for depression
Британский NICE понизил рейтинг до «не рекомендуется».
FDA отклонило ребоксетин в 2001 году (у них был доступ к неопубликованным данным).
Более десяти лет пациенты получали препарат не лучше, чем плацебо.
Потому что были опубликованы только положительные испытания.
Что, если опубликованное заключение противоречит фактическим данным?
REAL DATA
В исследовании 329 компании GlaxoSmithKline пароксетин был протестирован у adolescent depression. В опубликованной статье (2001) сделан вывод, что пароксетин "generally well tolerated and effective." Фактические данные: пароксетин failed on all 8 pre-specified outcomes. When re-analyzed (RIAT 2015), suicidal/self-harm events: 23 в группе пароксетина против 5 в группе плацебо. Опубликованная статья переопределила результаты post-hoc, чтобы оценить производственную значимость. В 2015 году повторный анализ RIAT (Восстановление невидимых и прерванных исследований) с использованием оригинального отчета о клиническом исследовании пришел к выводу: пароксетин был neither safe nor effective for adolescents.
Module 9 Quiz
1. Какой процент данных испытаний ребоксетина был скрыт из опубликованной литературы?
2. Why can trim-and-fill underestimate the correction needed?
3. What is the best prospective defense against publication bias?
То, что вы не можете см.
may be more important than what you can.
Отсутствие доказательств не является доказательством отсутствия.
Certainty must be earned, not assumed.
Модуль 10: Уверенность
Certainty must be earned, not assumed.
Early Surfactant: 2012
Когда появляются доказательства высокого качества.
Модуль 10: Уверенность
🎯 Learning Objectives
- Примените полную структуру GRADE для оценки достоверности доказательства
- Evaluate all five downgrade factors (RoB, inconsistency, indirectness, imprecision, publication bias)
- Identify when to upgrade for large effect, dose-response, or confounding
- Construct Summary of Findings tables with absolute effect estimates
- Применяйте принцип: «Уверенность необходимо заслужить, а не предполагать»
The Year: 1990s
"A revolution in neonatal care..."
Респираторный дистресс-синдром (РДС) был основной причиной смерти недоношенных детей. Разработка экзогенного surfactant— вещества, которое удерживает альвеолы от коллапса, — стала одним из величайших достижений в неонатальной медицине.
Встал вопрос: когда нам следует вводить сурфактант?
Prophylactically (to all high-risk infants) or selectively (only after RDS develops)?
Оригинальный Кокрейновский обзор (2003)
Multiple RCTs conducted before the era of routine CPAP
| Outcome | Prophylactic vs Selective | Certainty |
|---|---|---|
| Neonatal mortality | RR 0.73 (favors prophylactic) | High |
| BPD or death | RR 0.84 (favors prophylactic) | High |
Но мир ухода за новорожденными менялся...
A new technology emerged: Continuous Positive Airway Pressure (CPAP)
Non-invasive support that could help preterm lungs without intubation.
Применимы ли по-прежнему старые доказательства?
Кокрейновское обновление 2012 года
New trials conducted in the CPAP era
| Outcome | Old Trials | New Trials |
|---|---|---|
| BPD or death | RR 0.84 (favors prophylactic) | RR 1.12 (favors selective) |
| Потребность в механических вентиляция | Нижняя с профилактической | Высшая с профилактической! |
Investigation: Why Did Evidence Evolve?
Вы неонатолог. Коллега спрашивает: «Как рандомизированные исследования могут противоречить друг другу?»
Были ли первоначальные данные ошибочными?
Indirectness Changed
Old trials: No CPAP available. New trials: CPAP standard of care.
Улучшенный компаратор
Selective surfactant + CPAP is better than prophylactic intubation.
Context Matters
Данные одной эпохи могут не применяться к другой.
This is why GRADE assesses Indirectness!
High-quality evidence can become inapplicable when context changes.
GRADE Framework
Grading of Recommendations, Assessment, Development and Evaluations
GRADE отвечает на вопрос: Насколько мы уверены в этой оценке?
⊕⊕⊕⊕ HIGH: Very confident. True effect is close to the estimate.
⊕⊕⊕◯ MODERATE: Moderately confident. True effect likely close, but may differ substantially.
⊕⊕◯◯ LOW: Limited confidence. True effect may differ substantially.
⊕◯◯◯ VERY LOW: Very little confidence. True effect likely substantially different.
GRADE: Factors That Downgrade Certainty
Доказательства РКИ начинаются с ВЫСОКОГО уровня. Его можно понизить по следующим причинам:
Risk of Bias
Flawed randomization, lack of blinding, incomplete follow-up, selective reporting
Inconsistency
Unexplained heterogeneity across studies (large I², non-overlapping CIs)
Indirectness
Различия в популяции, вмешательстве, сравнительном анализаторе или исходах вопроса
Imprecision
Wide confidence intervals, small sample size, few events
ОЦЕНКА: Пятый фактор
Publication Bias
Asymmetric funnel plot, missing registered trials, sponsor influence
Each factor can downgrade by one or two levels
High → Moderate → Low → Very Low
Example: Метаанализ РКИ (начинается ВЫСОКИМ) с высоким риском систематической ошибки (↓1) и серьезной косвенностью (↓1) будет оценен LOW.
Interactive: Apply GRADE to Surfactant
Давайте оценим достоверность доказательств в пользу профилактического применения сурфактанта с использованием старых и новых исследований.
OLD TRIALS (Pre-CPAP)
Starting: HIGH (RCTs)
Risk of Bias: Low (−0)
Inconsistency: None (−0)
Indirectness: Serious (−1)
Different standard of care today
Final: ⊕⊕⊕◯ MODERATE
NEW TRIALS (CPAP Era)
Starting: HIGH (RCTs)
Risk of Bias: Low (−0)
Inconsistency: None (−0)
Indirectness: None (−0)
Matches current practice
Final: ⊕⊕⊕⊕ HIGH
GRADE: Factors That Upgrade Certainty
Наблюдательные данные начинаются с НИЗКОГО уровня. Его можно обновить для:
Large Magnitude of Effect
RR >2 или <0,5 без каких-либо правдоподобных искажений
Dose-Response Gradient
Higher exposure = larger effect in a consistent pattern
Residual Confounding
All plausible confounders would reduce the effect (strengthens causal inference)
Communicating Certainty
GRADE requires transparent language about confidence:
HIGH: "Prophylactic surfactant reduces mortality..."
MODERATE: "Prophylactic surfactant probably reduces mortality..."
LOW: "Prophylactic surfactant may reduce mortality..."
VERY LOW: "We are uncertain whether prophylactic surfactant reduces mortality..."
Этот язык позволяет врачам понять силу доказательств.
Can too much of a lifesaver become a killer?
REAL DATA
1940s-50s: High oxygen concentrations saved premature babies from respiratory failure. Then came an epidemic of blindness—retrolental fibroplasia (now called ROP). Doctors reduced oxygen dramatically. Blindness dropped. But then: increased deaths and brain damage от гипоксия. Требуемый оптимальный уровень кислорода decades of trials to find. Recent SUPPORT/BOOST II trials finally defined the therapeutic window: SpO2 91-95%.
Module 10 Quiz
1. Почему рекомендации по использованию поверхностно-активных веществ изменились в период с 2003 по 2012 год?
2. Что из перечисленного НЕ является фактором понижения ОЦЕНКИ?
3. Какой язык следует использовать для доказательств НИЗКОЙ достоверности?
Количества недостаточно.
Вы должны сообщить, насколько вы уверены.
Certainty must be earned, not assumed.
Методы защищают пациентов от нашего доверия.
Модуль 11: The Living Review
Методы защищают пациентов от нашего доверия.
COVID-19 Hydroxychloroquine: 2020
Когда срочность соответствует доказательствам.
Модуль 11: The Living Review
🎯 Learning Objectives
- Применить последовательный анализ испытаний, чтобы определить, когда доказательств достаточно
- Разработать и поддерживать живой систематический обзор
- Establish update triggers and futility/harm boundaries
- Manage multiplicity and alpha-spending in sequential analyses
- Explain how rapid evidence synthesis evolved during COVID-19
March 2020: A World in Crisis
"Вирус распространяется быстрее, чем наши понимание..."
COVID-19 убивал тысячи людей. Отделения интенсивной терапии были переполнены. Не было ни вакцины, ни лечения. Затем проблеск надежды: hydroxychloroquine (HCQ)—an old malaria drug—showed antiviral activity in lab studies.
Спешка усыновить
Через несколько недель после исследования Готре:
March 28: FDA issues Emergency Use Authorization for HCQ
April 4: India bans HCQ export (hoarding fears)
Global: Shortages affect lupus and rheumatoid arthritis patients
Millions received HCQ based on a 36-patient observational study
What could go wrong?
Расследование: Готре Исследование
Вы являетесь экспертом по доказательной медицине и попросили оценить исследование французского HCQ. Изучите конструкцию...
| Issue | Impact |
|---|---|
| Non-randomized | Selection bias—who got HCQ? |
| 6 patients excluded | 3 went to ICU, 1 died, 1 withdrew, 1 had nausea |
| Surrogate outcome | Viral load, not clinical outcomes |
| Контроль из другой больницы | Different care, different testing |
| No blinding | Expectation bias in lab testing |
Это исследование будет иметь ВЫСОКИЙ риск систематической ошибки по RoB 2.0
GRADE certainty: VERY LOW. Yet it changed global policy.
Why Observational COVID Studies Misled
Immortal Time Bias
Patients must survive long enough to receive treatment. Survivors are compared to non-survivors.
Confounding by Indication
Sicker patients may get different treatments. Healthier patients received HCQ early.
Healthy User Effect
Patients who seek treatment tend to be healthier overall.
Outcome Reporting
Исследования с положительными результатами публикуются быстрее.
Июнь 2020 г.: Отчет о РКИ
Large, rigorous trials completed at remarkable speed
| Trial | N | Result |
|---|---|---|
| RECOVERY (UK) | 4,716 | No benefit on mortality (RR 1.09) |
| WHO SOLIDARITY | 954 | No benefit (RR 1.19) |
| ORCHID (US) | 479 | Остановлен бесполезность |
Хронология: наблюдения и данные РКИ
March-May 2020
Observational: ~20 studies
Suggest benefit
Pooled OR ~0.65
June-July 2020
RCTs: RECOVERY, SOLIDARITY
Show no benefit/harm
Pooled RR ~1.10
От «многообещающего» до «неэффективного» за 3 месяца
Вот почему нам нужна рандомизация — и живые обзоры для отслеживания развивающихся доказательств.
Living Systematic Reviews
Новый подход для быстрого развития доказательства:
Continuous Surveillance
Ищите в литературе еженедельно или даже ежедневно новые доказательства
Cumulative Meta-Analysis
Update pooled estimates as each new trial reports
Последовательный анализ испытаний (TSA)
Determine when sufficient information has accumulated to conclude
Transparent Versioning
Track every change, maintain full audit trail
Последовательный анализ испытаний (TSA)
When have we learned enough?
TSA применяет останавливающие границы к метаанализу — аналогично промежуточному анализу в одном исследовании. Это объясняет required information size (RIS) needed to detect or exclude a clinically meaningful effect.
Для HCQ в условиях COVID TSA показало, что граница бесполезности была пересечена к июню 2020 года.
Уроки саги о HCQ
1. Observational studies can mislead spectacularly , когда предвзятость преобладает. Даже многие исследования, указывающие в одном и том же направлении, могут быть ошибочными.
2. RCTs can be conducted quickly when the will exists. RECOVERY enrolled 5,000+ patients in weeks.
3. Живые отзывы очень важны for evolving topics. Fixed-point-in-time reviews become obsolete instantly.
4. Political pressure doesn't change biology. Тщательные методы защищают пациентов даже в стрессовых ситуациях.
Что, если профилактика ЯВЛЯЕТСЯ причиной?
REAL DATA
For decades, pediatric guidelines recommended: avoid peanuts in infancy to prevent allergy. Meanwhile, peanut allergy rates tripled с 1997 по 2008 год. Тогда пришел LEAP (2015): 640 high-risk infants randomized to early peanut introduction vs. avoidance. Result: Early introduction reduced peanut allergy by 81% (1,9% против 13,7%). Стратегия профилактики стала причиной эпидемии.
Module 11 Quiz
1. В чем заключался основной недостаток исследования гидроксихлорохина Готре?
2. What does Trial Sequential Analysis help determine?
3. Почему наблюдательные исследования COVID показали пользу HCQ, а РКИ — нет?
Speed cannot replace rigor.
But rigor can be fast.
Living reviews balance both.
Не каждый сигнал является правдой.
Модуль 12: Расширенные методы
Не каждый сигнал является правдой.
Advanced Methods
Beyond pairwise meta-analysis.
Модуль 12: Расширенные методы
🎯 Learning Objectives
- Interpret network meta-analysis geometry and SUCRA rankings
- Apply bivariate models for diagnostic test accuracy meta-analysis
- Conduct dose-response meta-analysis with flexible splines
- Understand when individual patient data (IPD) meta-analysis is needed
- Определите предположения и ограничения каждого из них расширенный метод
Когда пар недостаточно
"Иногда вопрос более сложен, чем вопрос A или B..."
Методы, которые вы изучили, составляют основу. Но клиническая реальность часто требует большего: Which of 10 antidepressants is best? What's the optimal dose of statin? Does this test accurately diagnose early cancer?
В этом модуле представлены четыре продвинутых метода, каждый из которых отвечает на разные сложные вопросы.
Network Meta-Analysis (NMA)
When you have many treatments but few head-to-head trials
NMA combines direct evidence (A vs B) with indirect evidence (A vs C, B vs C → inferred A vs B) to compare multiple treatments simultaneously.
NMA Example: Antidepressants
The landmark Cipriani 2018 NMA compared 21 antidepressants using 522 trials.
The Challenge
21 drugs, but not every pair tested head-to-head
Many vs. placebo, few vs. each other
The Solution
NMA объединяет прямые и косвенные доказательства по всей сети.
Оценивает все 21 по эффективности и приемлемости
Результат: одни лекарства получили более высокий рейтинг по эффективности, другие по приемлемости.
Ни один препарат не является универсально «лучшим»; интерпретируйте рейтинги с достоверными интервалами, транзитивностью и клиническими компромиссами.
NMA: Critical Assumptions
Transitivity
Effect modifiers should be similarly distributed across comparisons; otherwise indirect comparisons may be biased
Consistency
Прямые и косвенные доказательства согласуются (проверяемые)
Connected Network
All treatments linked through at least one common comparator
When assumptions fail, NMA can mislead
Всегда оценивайте транзитивность и проверяйте ее на наличие несоответствие.
Dose-Response Meta-Analysis
Нахождение оптимальной дозы
Uses the Greenland-Longnecker method с ограниченными кубическими сплайнами для моделирования нелинейных взаимосвязей между дозой и эффектом.
Non-linear patterns
J-shaped (alcohol & mortality), U-shaped (vitamin D), threshold (aspirin)
Clinical relevance
Найдите дозу с наилучшим балансом пользы и вреда, а не просто «чем больше, тем лучше».
Индивидуальные данные пациента (IPD)
Золотой стандарт анализа подгрупп
Instead of published summary data, obtain необработанные данные на уровне пациента от испытателей. Обеспечивает точный анализ подгрупп, моделирование времени до события и стандартизированные определения.
Совместная группа исследователей раннего рака молочной железы стала пионером IPD MA в 1980-х годах.
Diagnostic Test Accuracy (DTA)
Когда «вмешательство» — это испытание
DTA meta-analysis synthesizes sensitivity (истинно положительный показатель) и specificity (true negative rate)—two correlated outcomes requiring bivariate models.
Bivariate/HSROC Model
Учитывает корреляцию между чувствительностью и специфичностью.
SROC Curve
Сводная кривая ROC с достоверностью 95 % и прогнозируемыми областями
QUADAS-2
Quality Assessment of Diagnostic Accuracy Studies
Выбор правильного метода
| Question | Method |
|---|---|
| Does A beat B? | Pairwise MA |
| Which of many treatments is best? | Network MA (NMA) |
| Какова оптимальная доза? | Dose-Response MA |
| Who benefits most? (subgroups) | IPD MA |
| Насколько точен этот тест? | DTA MA |
| Как эффект развивается с течением времени? | Survival/Time-to-Event MA |
Метод должен соответствовать вопросу. Никогда не задавайте вопрос неправильным методом.
Three large trials. Three different answers. What do you believe?
REAL DATA
CORTICUS (2008): 499 patients. Hydrocortisone in septic shock. No mortality benefit. ADRENAL (2018): 3,658 patients. Hydrocortisone. No mortality benefit. APROCCHSS (2018): 1,241 patients. Hydrocortisone + fludrocortisone. Mortality reduced (43% vs 49.1%, p=0.03). Same class of intervention. Different protocols. Different results.
Module 12 Quiz
1. В чем ключевое преимущество сетевого метаанализа перед парным?
2. Why does DTA meta-analysis require bivariate models?
3. What does the "consistency" assumption in NMA require?
Экосистема курса
Этот курс охватывает весь рабочий процесс систематического обзора. Для более глубокого погружения изучите сопутствующие курсы:
Bivariate/HSROC, SROC curves, QUADAS-2
RoB 2, ROBINS-I/E, domain-level assessment
Full SoF tables, GRADE-CERQual
One-stage/two-stage, mixed-effects models
Copas, PET-PEESE, p-curve, selection models
AMSTAR 2, ROBIS, overlap correction
CHARMS, PROBAST, c-statistic pooling
TSA, update triggers, abbreviated methods
Module 12 Complete
«Метод должен соответствовать вопросу. Продвинутые методы отвечают на сложные вопросы, но основы никогда не меняются».
Вы освоили основной рабочий процесс. Следующие десять модулей исследуют новые горизонты: байесовский вывод, сетевой метаанализ, индивидуальные данные пациентов, моделирование зависимости «доза-реакция», надежность и хрупкость, справедливость, синтез с помощью искусственного интеллекта, качественные доказательства, многомерные методы и воспроизводимость.
Не каждый сигнал является правдой.
Модуль 13: Байесовский поворот
Не каждый сигнал является правдой.
Модуль 13: Байесовский поворот
Модуль 13: Байесовский поворот
🎯 Learning Objectives
- Объясните разницу между частотным и байесовским выводами.
- Interpret prior distributions, likelihoods, and posterior distributions
- Distinguish credible intervals from confidence intervals
- Understand when Bayesian meta-analysis offers advantages
- Recognize how prior choice affects conclusions
In 2005, a trial began
that would never truly end.
В исследовании STAMPEDE по лечению рака простаты использовалась многоэтапная платформа (MAMS). Оружие могло быть добавлено или сброшено по мере накопления доказательств. Хотя статистика была частой, адаптивная философия воплощала байесовский дух: обновление решений по мере накопления данных.
Частотное мировоззрение
In frequentist statistics, probability means long-run frequency. 95% ДИ НЕ означает «вероятность 95%, что истинный эффект находится внутри». Это значит: если бы мы повторяли исследование бесконечно, 95% интервалов содержали бы истину.
Байесовское мировоззрение
In Bayesian statistics, probability represents degree of belief. We start with a prior (во что мы верим до данных), обновить с помощью likelihood (о чем нам говорят данные) и получить posterior (updated belief).
Prior × Likelihood = Posterior
Теорема Байеса: P(θ|данные) ∝ P(данные|θ) × P(θ)
Credible Intervals
95%-ный доверительный интервал является вероятностно интерпретируемым, зависящим от указанной модели и предшествующего уровня.
Choosing Priors
Non-informative (Vague)
Нормальный (0, 10000) или равномерный. Позволяет данным доминировать. Имитирует результаты часто встречающихся пользователей.
Weakly Informative
Normal(0, 1) for log-OR. Regularizes extreme estimates while remaining flexible.
Informative
Based on previous evidence. Powerful but controversial. Must be pre-specified.
Half-Cauchy for τ
Recommended for heterogeneity. Half-Cauchy(0, 0.5) allows large τ but concentrates near zero.
MCMC Sampling
Most Bayesian models cannot be solved analytically. We use Markov Chain Monte Carlo (MCMC), чтобы взять образцы сзади. Инструменты: JAGS, Stan, brms (R), PyMC (Python).
Bayesian Model Averaging
Instead of choosing between fixed-effect and random-effects models, Bayesian model averaging (BMA) взвешивает каждую модель по ее апостериорной вероятности. Это объясняет неопределенность модели в окончательной оценке.
Bayes Factors
BF₁₀ > 10 = убедительное доказательство H₁. BF₁₀ < 1/10 = убедительное доказательство H₀.
Interactive: Posterior Visualizer
Отрегулируйте предыдущую силу, чтобы увидеть, как она влияет на заднюю часть. Посмотрите, как новые данные превосходят предыдущие.
История STAMPEDE
STAMPEDE была запущена в 2005 году с участием пяти исследовательских групп, сравнивающих методы лечения распространенного рака простаты. К 2016 году к нему был добавлен абиратерон, что позволило снизить смертность на 37% (ОР 0,63, 95% ДИ 0,52–0,76).
Дизайн платформы воплощает в себе байесовское адаптивное мышление: промежуточные анализы определяют выбор препаратов, новые препараты могут вводиться по мере появления методов лечения, а бесполезные препараты рано прекращаются, что спасает пациентов от неэффективных методов лечения.
В исследование STAMPEDE вошли более 10 000 пациентов из более чем 100 центров и фундаментально изменились методы лечения рака простаты. Байесовский подход позволяет накапливать доказательства и принимать решения в режиме реального времени.
Decision Tree: When to Go Bayesian?
Remember Module 1?
CAST Through a Bayesian Lens
Если бы байесовский анализ CAST использовал информативную априорную информацию из фундаментальной науки (антиаритмические средства подавляют ЖЭ), апостериорная часть все равно сильно сместилась бы в сторону вреда. При наличии достаточного количества данных даже сильный априор уступает вероятности. Урок: байесовские методы не защищают от плохих априорных значений, но они делают предположения. transparent.
Module 13 Quiz
Q1. What does a 95% Bayesian credible interval mean?
Q2. Каков рекомендуемый априорный уровень гетерогенности между исследованиями (τ)?
Module 13 Complete
«Байесовский поворот — это не математика. Речь идет о честности — сделать наши предположения видимыми».
Не каждый сигнал является правдой.
Модуль 14: Сеть
Методы защищают пациентов от нашего доверия.
Модуль 14: Сеть
Модуль 14: Сеть
🎯 Learning Objectives
- Explain why pairwise comparisons are insufficient when many treatments exist
- Interpret network geometry (nodes, edges, thickness)
- Понимать транзитивность, последовательность и роль косвенных доказательств.
- Interpret SUCRA rankings and league tables
- Recognize when NMA assumptions are violated
A clinician faces a patient
с депрессией. Какой препарат?
Существует 21 обычно назначаемый антидепрессант. В большинстве параллельных исследований сравниваются только 2 или 3. Cipriani et al. (2018, Lancet) объединили в единую сеть 522 исследования и 116 477 пациентов.
Логика сетевого метаанализа
Direct Evidence
Trials directly comparing A vs B give the most reliable estimate.
Indirect Evidence
Если существуют A vs C и B vs C, мы можем сделать вывод A vs B. Это «транзитивное» предположение.
Mixed Evidence
NMA combines both, weighted by precision, to rank all treatments simultaneously.
Interactive: Network Graph
Каждый узел – это лечение. Толщина края представляет собой количество исследований, сравнивающих эти два метода лечения.
Transitivity & Consistency
Transitivity: Косвенная оценка (через общий компаратор) должна приближаться к прямой оценке. Для этого необходимо, чтобы модификаторы эффектов были одинаково распределены по сравнениям.
Consistency: Статистический тест, сравнивающий прямые и косвенные доказательства. Глобальные (взаимодействие схемы лечения) и локальные (разделение узлов) тесты помогают выявить петли несоответствия.
SUCRA & P-scores
Caution: Ranking is seductive but misleading when differences between treatments are small or uncertain. Always report credible/confidence intervals alongside ranks.
Component NMA
When interventions are complex (e.g., behavioral + pharmacological), component NMA decomposes multi-component treatments to estimate the individual contribution of each component. Uses additive models: effect(A+B) = effect(A) + effect(B) + interaction.
Сеть Cipriani
Анализ журнала Lancet 2018 года показал, что все 21 антидепрессант были более эффективными, чем плацебо. Амитриптилин, миртазапин и венлафаксин заняли первое место по эффективности. Агомелатин, флуоксетин и эсциталопрам заняли самые высокие места по приемлемости (наименьшее количество выбывших из исследования).
Ни один препарат не «выиграл» по всем исходам. Сеть выявила компромиссы, невидимые при парном анализе.
Decision Tree: Is NMA Appropriate?
Module 14 Quiz
Q1. Какое предположение должно соблюдаться, чтобы косвенные доказательства были действительными в NMA?
Module 14 Complete
«Сеть видит то, чего не могут парные сравнения: всю картину выбора лечения».
Не каждый сигнал является правдой.
Модуль 15: Индивидуальность
What was hidden in plain sight?
Модуль 15: Индивидуальность
Модуль 15: Индивидуальность
🎯 Learning Objectives
- Explain why aggregate data can mask treatment–covariate interactions
- Distinguish one-stage from two-stage IPD models
- Recognize ecological bias in aggregate meta-analysis
- Understand the practical challenges of IPD collection
- Interpret treatment–covariate interaction plots
For decades, breast cancer trials
опубликованные сводки. Не пациенты.
Совместная группа исследователей раннего рака молочной железы (EBTCTCG) собрала индивидуальные записи более чем 100 000 женщин из сотен исследований. Их мета-анализ IPD показал, что польза тамоксифена во многом зависит от статуса рецепторов эстрогена – чего-то невидимого в совокупных данных.
Что скрывают сводки
В каждом опубликованном исследовании тамоксифена сообщалось об общем результате. Согласно результатам сотен исследований, тамоксифен показал скромную пользу. Но «скромная польза» была средним показателем, за которым скрывалась глубокая истина.
Скрытое разделение на подгруппы
Общий совокупный эффект — смешение реагирующих и неотзывчивых пациентов — был статистической фикцией. «Скромное» среднее значение, которое преувеличивает пользу для одной группы и подразумевает выгоду там, где ее не было для другой.
Агрегированные и индивидуальные данные пациентов
IPD позволяет: (1) последовательно определять исходы, (2) анализ подгрупп по характеристикам пациентов, (3) моделирование времени до события, (4) проверку экологической предвзятости. Это gold standard for exploring treatment effect modification.
One-Stage vs Two-Stage IPD
Two-Stage
Analyze each study separately, then combine estimates (like standard MA). Simple but loses information.
One-Stage
Подбор одной модели со смешанными эффектами ко всем данным пациента одновременно. Более мощный для взаимодействий и редких событий.
Key: Оба должны учитывать кластеризацию исследований. Никогда не объединяйте IPD, как если бы они были получены из одного мегаиспытания — это вносит путаницу (парадокс Симпсона).
Ecological Bias
A meta-regression using study-level mean age might show older patients benefit more. But this could be ecological bias— связь на уровне исследования не отражает истину на уровне пациента. Только IPD может разделять within-study from between-study effects.
Когда целое зависит от своих частей
Парадокс Симпсона: тенденция, которая появляется в совокупных данных, меняется на противоположную, когда данные группируются по мешающей переменной.
Парадокс в Практикуйте
A mega-trial analysis found Treatment X beneficial overall. But в каждом исследовании, это было вредно. Как? Различия в исходном риске между исследованиями создали иллюзию — более больные группы населения получали больше лечения, что привело к завышению совокупной пользы.
Cates (2002, BMJ) показало, что объединение результатов исследований без учета кластеризации может обратить вспять очевидное направление эффекта.
Вот почему одноэтапные модели ИПЗ включают исследование в качестве переменной кластеризации — чтобы предотвратить маскировку результатов между исследованиями под эффект лечения.
Наследие EBCTCG
Мета-анализ IPD EBCTCG определил лечение рака молочной железы на 40 лет. Их анализ 2005 года по сравнению с отсутствием лечения тамоксифеном показал явную пользу при ER-положительных опухолях (ОР 0,59), но не приносил пользы при ER-негативных опухолях (ОР 0,97).
Без ИПЗ общий совокупный эффект был бы объединен в обеих группах, уменьшая пользу и потенциально лишая ER-позитивных пациентов величины их выигрыша.
Decision Tree: When Is IPD Worth Pursuing?
Можете ли вы получить ИПЗ в >80% исследований?
Is ecological bias a concern?
EBCTCG собрал данные сотен исследований за 40 лет. Большинство метаанализов ИПЗ включают 5–20 исследований. Решение зависит от вопроса, а не от амбиций.
Узор повторяется
Помните Модуль 3? ЗГТ оказалась полезной в обсервационных исследованиях, но вредной в РКИ. Произошло то же самое совокупное маскирование: общая польза скрывала вред подгруппы.
Анализ IPD Инициативы по здоровью женщин позже показал, что timing mattered— у женщин, начавших ЗГТ в течение 10 лет после менопаузы, были другие результаты, чем у женщин, начавших позже. «Гипотеза времени» была невидима в опубликованных сводных сводках.
Урок повторяется: совокупные данные могут скрыть важные взаимодействия между лечением и ковариантами. Будь то статус ER при раке молочной железы или время начала ЗГТ, данные на индивидуальном уровне показывают то, что скрывают сводные данные.
Module 15 Quiz
Q1. В чем основное преимущество IPD перед метаанализом агрегированных данных?
Module 15 Complete
«За каждой объединенной оценкой стоят люди, чьи истории не может рассказать совокупность».
Гетерогенность — это сообщение, а не шум.
Модуль 16: Доза
Гетерогенность — это сообщение, а не шум.
Модуль 16: Доза
Модуль 16: Доза
🎯 Learning Objectives
- Explain why simple pairwise comparisons miss dose–response relationships
- Distinguish linear, quadratic, and spline dose–response models
- Interpret restricted cubic splines with knots
- Identify threshold effects and J/U-shaped curves
- Understand model comparison with AIC/BIC
На протяжении десятилетий умеренное употребление алкоголя
казалось, защищал сердце.
«J-образная кривая» показала, что у непьющих смертность от сердечно-сосудистых заболеваний выше, чем у умеренно пьющих. Но Стоквелл и др. (2016) продемонстрировали, что J-кривая является результатом ошибочной классификации бывших алкоголиков (бросивших курить из-за болезни) как «трезвенников».
A Scientific Consensus Built on Sand
К 2010 году более 100 обсервационных исследований подтвердили J-кривую. Медицинские учебники учили этому. Об этом рассказали кардиологи. Лоббисты винодельческой отрасли финансировали конференции, посвященные этому вопросу.
Доказательства казались неопровержимыми. Но что, если группа сравнения — «трезвенники» — была заражена?
Больной, бросивший курить
A Hidden Confounder
The Problem
People who stop drinking often do so because they are already ill— заболевания печени, лекарственное взаимодействие, диагностика рака. В большинстве исследований эти «бывшие пьющие» были классифицированы как «трезвенники».
The Effect: The reference group (abstainers) appeared less healthy— не потому, что воздержание было вредно, а потому, что к нему присоединились больные люди.
When Stockwell et al. (2016, J Stud Alcohol Drugs) removed former drinkers and applied appropriate study-quality corrections: J-кривая исчезла. Защитный эффект был фантомным.
Dose–Response Meta-Analysis
Standard meta-analysis asks: "Does treatment X work?" Dose–response meta-analysis asks: "At what dose действует ли лечение Х лучше всего?» Он моделирует взаимосвязь между уровнем дозы и результатом в ходе нескольких исследований.
Restricted Cubic Splines
RCS place knots в заранее заданных точках дозы и подгонять гладкие полиномы между ними. Обычно 3–5 узлов в квантилях распределения дозы. Линейные заграничные узлы. Тесты на нелинейность сравнивают сплайновую модель с более простой линейной моделью.
Model Comparison
AIC/BIC сравнивает линейную и сплайновую посадку. Ниже = лучше. Также проверьте отклонение от линейности (значение p для сплайновых условий).
Interactive: Dose–Response Builder
Сравните линейную, квадратичную и сплайновую аппроксимацию. Посмотрите, как меняется форма модели при различных предположениях.
Разоблачение J-кривой алкоголя
Повторный анализ Стоквелла в 2016 году показал, что, когда бывших пьющих правильно исключили из референтной группы «трезвенников», защитный эффект умеренного употребления алкоголя исчез. J-кривая была обусловлена предвзятостью в отношении тех, кто бросил курить по болезни.
Метаанализ «доза-реакция» выявил истину: форма кривой во многом зависит от того, как вы определяете «нулевую дозу». Неправильная ссылочная категория создала фантомную выгоду.
When Curves Shape Policy
The phantom J-curve influenced alcohol guidelines worldwide:
NHS Guidance (until 2016)
В официальном руководстве говорится: «Умеренное употребление алкоголя может защитить сердце». После поправки Стоквелла Великобритания пересмотрела лимиты до 14 единиц в неделю для all пьющие (ранее 21 у мужчин). Ни одна сумма не была объявлена «безопасной».
Dietary Guidelines Advisory Committee
Исследования J-кривой проводились в течение 2015 года. Комитет 2020 года рекомендовал снизить пределы до 1 напитка в день для мужчин, признавая предвзятость референтной группы.
Australian Guidelines
Safe drinking limits were delayed by industry-funded J-curve research promoting “cardioprotective” moderate intake.
Decision Tree: Is Dose-Response Analysis Appropriate?
Является ли эта связь вероятно нелинейной?
Standard pairwise meta-analysis (no dose-response possible with only two levels)
Module 16 Quiz
Q1. What makes restricted cubic splines useful in dose–response meta-analysis?
Module 16 Complete
«Доза создает яд. А форма кривой показывает, настоящий ли яд».
Отсутствие доказательств не является доказательством отсутствия.
Модуль 17: Хрупкость
Отсутствие доказательств не является доказательством отсутствия.
Модуль 17: Хрупкость
Модуль 17: Хрупкость
🎯 Learning Objectives
- Рассчитать и интерпретировать индекс хрупкости
- Используйте графики GOSH для выявления влиятельных исследований и эффектов подмножества.
- Interpret contour-enhanced funnel plots
- Применить модели выбора Copas и PET-PEESE для предотвращения предвзятости публикаций.
- Understand how sensitivity analyses strengthen meta-analytic conclusions
Governments stockpiled billions
на основе доказательств, которые они не могли видеть.
После H1N1 правительства потратили миллиарды на запасы осельтамивира (Тамифлю). Команда Кокрейна (Джефферсон и др., 2014) годами боролась за доступ к неопубликованным данным. Когда они наконец это сделали, доказательства предотвращения осложнений испарились.
Индекс хрупкости
Индекс хрупкости спрашивает: "How many patients would need to change outcome to flip a statistically significant result to non-significant?" Он итеративно добавляет события (преобразует не-события в события) в группу с меньшим количеством событий до тех пор, пока p > 0,05.
Interactive: Fragility Calculator
Enter a 2×2 table to calculate the fragility index. Watch events shift until significance flips.
GOSH Plots
Графический обзор неоднородности исследования (GOSH) адаптирует модели метаанализа ко всем возможным подмножествам исследований. Каждая точка отображает объединенный эффект в зависимости от I² для одного подмножества. Кластеры предполагают отдельные подгруппы; Облака-выбросы предполагают одно исследование, определяющее гетерогенность.
Для k исследований имеется 2k−1 subsets. For k > 15, random sampling is used.
Contour-Enhanced Funnel Plots
Standard funnel plots show effect size vs standard error. Contour-enhanced версии добавляют заштрихованные области для p <0,01, p <0,05 и p <0,10. Если отсутствующие исследования попадают в незначительные регионы, вероятна предвзятость публикации. Если они попадают в значительные регионы, асимметрию могут объяснить другие причины (например, качество исследования).
Copas Selection & PET-PEESE
Copas Selection Model
Моделирует вероятность публикации исследования в зависимости от его SE и размера эффекта. Совместно оценивается истинный эффект и механизм отбора.
PET-PEESE
Precision-Effect Test (PET): regress effects on SE. If intercept = 0, no true effect. PEESE uses SE² for better performance when a true effect exists.
Сага об Осельтамивире
Оригинальный метаанализ, финансируемый компанией «Рош» (Kaiser 2003), показал, что осельтамивир снижает осложнения гриппа на 67%. Но 8 из 10 исследований так и не были опубликованы. После того, как Кокрейн получил отчеты о клинических исследованиях, польза от осложнений упала до незначительных 11%.
Хрупкость была не просто статистической, она была информационной. В самой доказательной базе отсутствовала большая часть данных.
Дерево решений: интерпретация результатов нестабильности
Highly fragile. Несколько различных событий изменили бы этот вывод. Интерпретируйте с особой осторожностью.
Moderately fragile. Чувствителен к небольшим возмущениям. Существуют ли неопубликованные исследования, которые могли бы изменить ситуацию?
Relatively robust. But remember: fragility is only one dimension. Publication bias can undermine even robust results.
Walsh et al. (2014, J Clin Epidemiol) обнаружили, что в 399 РКИ, опубликованных в ведущих журналах, средний индекс хрупкости составлял всего 8. Более 25% имели FI ≤ 3. Знаменательные исследования, влияющие на клиническую практику, часто висели на волоске статистики.
Beyond the Index: Structural Fragility
Раскрыта сага об осельтамивире three types of fragility— а Индекс хрупкости учитывает только первое.
Statistical Fragility (FI)
Сколько событий меняют значение p? Именно это и измеряет Индекс хрупкости. Он количественно определяет чувствительность к результатам лечения отдельных пациентов.
Informational Fragility
Какая часть доказательств скрыта? Восемь из десяти исследований осельтамивира компании «Рош» остались неопубликованными. Доказательная база была структурно неполной.
Analytical Fragility
Сколько степеней свободы исследователя могло бы изменить вывод? Различные определения результатов, группы анализа или статистические методы.
Обратный звонок к модулю 10 (пароксетин): Повторный анализ с другими определениями исходов полностью изменил этот вывод. Это была аналитическая хрупкость: FI никогда не рассчитывался, потому что сама конечная точка была спорной. Полная оценка надежности исследует все три измерения.
Module 17 Quiz
Q1. В исследовании приняли участие 200 пациентов в каждой группе, 12 событий в группе лечения и 25 в группе контроля (p=0,03). Индекс хрупкости равен 3. Что это значит?
Module 17 Complete
«Число, которое выдержит любую попытку его сломать, — это число, которому стоит доверять».
Не каждый сигнал является правдой.
Модуль 18: Капитал
Certainty must be earned, not assumed.
Модуль 18: Капитал
Модуль 18: Капитал
🎯 Learning Objectives
- Identify how trial exclusion criteria create evidence gaps
- Применить систему ПРОГРЕСС-Плюс для оценки равенства доказательств
- Use PRISMA-Equity reporting guidelines
- Understand transportability: when trial findings fail in practice
- Design equity-sensitive search and synthesis strategies
SPRINT proved tight blood pressure control
saves lives. But whose lives?
В знаковое исследование SPRINT были исключены пациенты с диабетом, перенесенным инсультом и сердечной недостаточностью. Более 75% пациентов с гипертонической болезнью в США не прошли бы квалификацию. Доказательства были убедительными, но применимость была узкой.
Исследование, в котором исключено большинство пациентов
В исследовании SPRINT приняли участие 9361 пациент и было доказано, что интенсивный контроль артериального давления (целевой показатель <120 мм рт.ст.) снижает сердечно-сосудистые события на 25% (ОР 0,75, 95% ДИ 0,64–0,89). Но критерии включения говорили о другом.
Кого исключили:
- Diabetes — 35% взрослых в США страдают гипертонией
- Prior stroke — 8% гипертоников
- Symptomatic heart failure — 6% of hypertensive adults
- Expected survival <3 years — самые слабые пациенты
- Nursing home residents — excluded entirely
- GFR <20 mL/min — advanced kidney disease
Результат: более 75% взрослых в США, страдающих гипертонией, НЕ прошли бы квалификацию. Доказательства были убедительными. Но для кого?
Откуда берутся доказательства
78%
of cardiovascular mega-trial participants came from high-income countries (2000–2020).
6%
from sub-Saharan Africa — where cardiovascular disease is rising fastest.
Испытания полипилл: 4 из 5 были проведены в группах населения со средним ИМТ <25. Средний индекс массы тела в США составляет 30. Метаболизм лекарств, характер сопутствующих заболеваний, доступ к здравоохранению и генетические вариации различаются в разных популяциях. Efficacy in one population does not guarantee effectiveness in another.
Ссылка: Международные исследования и пробел ПРОГРЕСС-Плюс.
PROGRESS-Plus Framework
Plus: Age, disability, sexual orientation, other vulnerable groups.
PRISMA-Equity & Transportability
PRISMA-Equity расширяет PRISMA, требуя отчетность о том, как справедливость учитывалась в обзоре: характеристики населения, анализ подгрупп по неблагоприятным условиям и оценка применимости к группам населения, недостаточно обслуживаемым.
Transportability: Эффективность испытаний не равна эффективности в реальной жизни. Существуют методы повторного взвешивания данных испытаний, чтобы они соответствовали распределению целевой группы населения.
From Trial to Real World: Transportability
Transportability = Могут ли результаты исследования группы X быть применены к целевой группе Y? Это не философский вопрос — у него есть формальные методы.
Inverse Probability of Participation Weighting (IPPW)
Re-weights trial participants so they resemble the target population on key covariates.
Generalizability Index
Количественно определяет, насколько пробная выборка похожа на целевую совокупность по наблюдаемым характеристикам.
Stuart et al. (2015, Stat Med): Когда результаты SPRINT были повторно взвешены, чтобы соответствовать населению США с гипертонической болезнью, предполагаемая польза была снижена — HR 0,82 (по сравнению с 0,75 в исследовании). Лечение все еще работает. Но масштабы меняются, когда меняется численность населения.
СПРИНТ и недостающее большинство
SPRINT представляло собой хорошо спланированное исследование с участием 9361 пациента. Его открытие (HR 0,75 для интенсивного и стандартного контроля АД) изменило рекомендации во всем мире. Но последующий анализ показал, что польза была самой сильной в подгруппе, наиболее похожей на исследуемую популяцию, и неопределенна для исключенных групп.
Справедливость в синтезе доказательств означает вопрос не просто «Работает ли это?» но «Для кого это работает?»
Схема принятия решений: оценка справедливости для вашего обзора
ROOT: Получены ли данные вашего обзора из групп населения, схожих с вашей целевой аудиторией?
YES → Good. But check: Are subgroups (age, sex, ethnicity, SES) reported separately?
- Yes: Use subgroup effects for population-specific recommendations
- No: Flag as limitation — equity gap in reporting
NO → Does PROGRESS-Plus analysis reveal differential effects?
- Yes: Population-specific recommendations needed. Consider transportability re-weighting.
- No: Cautious generalization with explicit equity statement in discussion
Callback: The HRT Lesson Revisited
Помните Модуль 3? История HRT показала, что healthy-user bias сделало вредное лечение полезным. У SPRINT может быть противоположная проблема — эффект «здорового добровольца» может привести к появлению эффективного лечения. more effective than it would be in the real world.
Каждый метаанализ должен задавать вопрос: кто был включен? Кого исключили? И имеет ли это значение?
Module 18 Quiz
Q1. What does the PROGRESS-Plus framework help reviewers assess?
Module 18 Complete
«Доказательства, исключающие уязвимых, не могут претендовать на то, чтобы служить им».
Не каждый сигнал является правдой.
Модуль 19: Машина
Количество без происхождения не является числом.
Модуль 19: Машина
Модуль 19: Машина
🎯 Learning Objectives
- Describe how AI/ML is used in systematic review screening
- Explain active learning and human-in-the-loop workflows
- Assess automation validation: recall, workload savings, and risk
- Признайте ограничения и предвзятости алгоритмического скрининга
- Применять основы для ответственного использования ИИ при синтезе доказательств
When COVID-19 hit,
papers arrived faster than humans could read.
К 2021 году существовало более 300 000 статей о COVID. Кокрейн использовал классификаторы машинного обучения для сортировки исследований и их быстрых обзоров, что позволило сократить рабочую нагрузку по скринингу до 70% при сохранении запоминаемости >95%.
The Flood
By April 2020, 4,000 COVID preprints appeared every week.
PubMed indexed 500 new COVID articles per day.
Cochrane's screening queue hit 10,000 unreviewed titles.
A pair of reviewers screens ~200 titles per day.
At 500 new articles/day, they fell further behind with every hour.
Живой обзор умирал, не успев жить.
Первые попытки
Идея не была новой. Коэн и др. (2006, JAMIA) впервые показали, что машинное обучение может снизить нагрузку на проверку на 50 % — при этом потеря памяти составляет менее 5 %.
Но симуляция – это не реальность. COVID станет первым настоящим масштабным испытанием.
AI in Systematic Reviews
Screening Prioritization
Active learning ranks citations by relevance. Reviewers screen the most likely relevant first.
Помощь в извлечении данных
НЛП извлекает элементы, исходы и результаты PICO. Всегда требует человеческой проверки.
Risk of Bias Assessment
ML classifiers predict RoB domains. Experimental—human judgment remains gold standard.
Validating Automation
Основное напряжение: Автоматизация экономит время, но создает новый источник ошибок. Всегда сообщайте об инструменте, версии, данных обучения и критериях остановки.
Чтобы узнать, пропустила ли машина соответствующее исследование, you need a human to screen everything.
But if humans screen everything, зачем использовать машину?
The solution: prospective holdout validation.
- Random 10% sample screened by both human and machine
- Сравните: машина пропустила то, что нашел человек?
- If recall drops below 95%, retrain and expand human screening
Доверяй, но проверяй. Машина заслужила свою роль, а не наследовала ее.
Cochrane's COVID Response
Кокрейн создал Регистр исследований COVID-19, используя классификаторы машинного обучения, обученные на миллионах записей. Система достигла чувствительности 99%, сократив при этом ручной скрининг с недель до дней.
Но машина была инструментом, а не заменой. Каждое включенное исследование по-прежнему проверялось рецензентами. Урок: ИИ дополняет рецензента, а не заменяет его.
Исследование, которое почти не было найдено
В июне 2020 года исследование RECOVERY опубликовало результаты по дексаметазону:the first treatment proven to reduce COVID mortality (28-day mortality: 22.9% vs 25.7%, RR 0.83).
Препринт появился на medRxiv с нестандартным названием. Подобные сценарии повторялись неоднократно во время пандемии: классификаторы ОД, обученные на существующей терминологии, низко оценивали незнакомые концепции.
В нескольких живых обзорах рецензенты, просматривающие помеченные названия, узнавали ключевые названия лекарств и расширяли исследования, которые классификаторы лишили приоритета.
Без этих людей важные результаты лечения могли бы подождать несколько недель, прежде чем они попадут в живой обзор.
Машина читает быстрее. Человек читает глубже. Ни того, ни другого недостаточно.
Decision Tree: When Should You Use AI?
Active learning prioritization. Dual-screen random 10% holdout. Stop when 3 consecutive batches yield 0 relevant studies.
Report: classifier type, training data, recall on holdout, stopping rule.
For <5,000 titles, dual human screening remains gold standard. AI adds complexity without proportionate benefit.
If yes → AI is especially valuable. Continuous classifier retraining on new evidence. But: никогда не позволяйте машине принимать окончательное решение о включении.
Узор повторяется
Помните Модуль 6? Полдерманс сфабриковал данные DECREASE, которые послужили основой для рекомендаций по периоперационному назначению бета-блокаторов в течение десятилетия.
AI can now detect statistical anomalies automatically:
- GRIM test: Соответствуют ли сообщаемые средние значения целочисленным размерам выборки?
- SPRITE: Можно ли восстановить представленную сводную статистику на основе правдоподобных индивидуальных данных?
- Statcheck: Do reported p-values match the test statistics?
Эти инструменты обнаружили аномалии в hundreds of published papers—faster than any human auditor.
Но машина зависает. Человеческие судьи. Решение об отказе остается глубоко человеческим.
Module 19 Quiz
Q1. Каков минимально допустимый отзыв для скрининга с помощью ИИ в систематических обзорах?
Module 19 Complete
«Машина читает быстрее. Человек читает глубже. Вместе они читают правду».
Не каждый сигнал является правдой.
Модуль 20: Качественный
Методы защищают пациентов от нашего доверия.
Модуль 20: Качественный
Модуль 20: Качественный
🎯 Learning Objectives
- Explain why some questions require qualitative evidence synthesis
- Describe meta-ethnography (Noblit & Hare) and thematic synthesis
- Apply the CERQual framework to assess confidence in qualitative findings
- Understand mixed-methods synthesis approaches
- Recognize when qualitative evidence changes practice
ВОЗ задала вопрос
ни одно РКИ не смогло ответить.
Почему женщины во всем мире испытывают неуважение и насилие во время родов? Борен и др. (2015) объединили 65 качественных исследований из 34 стран в структуру семи областей плохого обращения.
Вопрос за пределами рандомизации
В 2014 году ВОЗ созвала комиссию для решения глобального кризиса: женщины подвергались физическому насилию, словесным унижениям и лишению медицинской помощи во время родов. Это не было редким событием — сообщения поступали из 34 countries.
They needed to understand WHY. What drives disrespect and abuse in maternity care?
Ни одно РКИ не смогло ответить на этот вопрос. Вы не можете рандомизировать женщин на жестокий и уважительный уход. Вы не можете ослепить акушерок. Вы не можете измерить «достоинство» по шкале Лайкерта. Доказательства должны были быть качественными.
Meta-Ethnography
Developed by Noblit & Hare (1988), meta-ethnography translates концепции в исследованиях, а не агрегирование цифр. Он создает новые структуры интерпретации (конструкты третьего порядка) на основе данных первого порядка (цитаты участников) и второго порядка (интерпретации автора).
argument
What Bohren Found: A Taxonomy of Mistreatment
Hitting, pinching, slapping during labor
Inappropriate touching, non-consensual procedures
Shouting, threats, judgmental comments
Based on HIV status, ethnicity, age, poverty
Neglect, lack of informed consent
Poor communication, dismissiveness
Overcrowding, understaffing, lack of supplies
65 исследований. 34 страны. Одни и те же закономерности повторяются в разных языках, культурах и системах. Это был не анекдот. Это были синтезированные доказательства.
CERQual: уверенность в качественных доказательствах
CERQual assesses confidence in qualitative review findings across four components:
Methodological Limitations
Качество сопутствующих исследований.
Coherence
Насколько хорошо данные подтверждают этот вывод.
Adequacy
Богатство данных (а не только количество исследований).
Relevance
Применимость к контексту контрольного вопроса.
When Qualitative Evidence Changes Practice
Bohren's synthesis informed the WHO's 2018 Recommendations on Intrapartum Care for a Positive Childbirth Experience. Specific changes grounded in qualitative evidence:
Эти рекомендации, основанные на качественных данных, в настоящее время являются руководством по охране материнства в 194 государствах-членах ВОЗ. Ни один лесной участок не смог бы их произвести. Никакая статистика I² не могла бы их выявить.
Bohren's Framework of Mistreatment
Качественный синтез 2015 года выявил семь областей: физическое насилие, сексуальное насилие, словесное оскорбление, стигма и дискриминация, несоблюдение профессиональных стандартов, плохое взаимопонимание и состояние системы здравоохранения. Эта система легла в основу рекомендаций ВОЗ по уходу во время родов (2018 г.).
Никакое значение p не могло бы отразить ощущения от пощечины во время родов. Качественный синтез озвучил то, чего не могли дать цифры.
Decision Tree: When Is Qualitative Synthesis Appropriate?
ROOT: Вопрос вашего исследования касается опыта, восприятия, барьеров или помощников?
YES → Ваш вопрос о том, КАК или ПОЧЕМУ, а не только о том, ЛИ?
- Yes: Qualitative evidence synthesis (meta-ethnography, thematic synthesis, or framework synthesis)
- No: Рассмотрите смешанные методы: количественные для эффекта + качественные для механизма.
NO → Ваш вопрос об эффективности/эффективности?
- Yes: Quantitative meta-analysis
- But: Дополнить качественным обзором препятствий на пути реализации (оценка CERQual)
Key insight: Самые сильные систематические обзоры отвечают на оба вопроса: работает ли это? (количественное) И Почему это работает или не работает? (качественный)
Module 20 Quiz
Q1. What distinguishes meta-ethnography from quantitative meta-analysis?
Module 20 Complete
«Не все, что имеет значение, можно посчитать. Не все, что имеет значение, имеет значение».
Гетерогенность — это сообщение, а не шум.
Модуль 21: Многовариантность
Гетерогенность — это сообщение, а не шум.
Модуль 21: Многовариантность
Модуль 21: Многовариантность
🎯 Learning Objectives
- Распознавать, когда результаты в исследовании коррелируют
- Explain multivariate random-effects models
- Apply robust variance estimation (RVE) for dependent effect sizes
- Понимание трехуровневых моделей для вложенных данных
- Choose between multivariate approaches based on data structure
Cardiovascular trials report
смертность, ИМ, инсульт и многое другое.
Эти результаты коррелируют между пациентами. У умершего пациента не может быть конечной точки ИМ. Стандартный метаанализ рассматривает каждый результат независимо, игнорируя зависимость и потенциально двойной учет доказательств.
Предположение, которое никто не подвергает сомнению
Откройте любой стандартный учебник по метаанализу. Модели предполагают, что каждое исследование вносит свой вклад one independent effect size. But reality is different.
В одном сердечно-сосудистом исследовании сообщается о смертности, инфаркте миокарда, инсульте и реваскуляризации. В одном психотерапевтическом исследовании сообщается о депрессии, тревоге и качестве жизни через 3, 6 и 12 месяцев.
Most analysts either: (a) treat all 120 as independent (inflating precision by a factor of √4), or (b) выберите один результат и отбросьте остальные. Оба подхода неверны.
Проблема зависимости
In standard pairwise meta-analysis, each study contributes one effect size. But many studies report multiple outcomes, subgroups, timepoints, or arms—creating dependent размеры эффекта. Игнорирование этого повышает точность и искажает выводы.
Robust Variance Estimation
RVE (Hedges, Tipton & Johnson, 2010) uses a sandwich-type оценщик, который обеспечивает действительные стандартные ошибки независимо от истинной корреляции между зависимыми эффектами. Нет необходимости знать или оценивать корреляцию внутри исследования. Лучше всего для ≥20 исследований.
Small-sample correction: Типтон и Пустейовский (2015) разработали поправки для малой выборки (CR2) для RVE, используя степени свободы Саттертуэйта, когда количество кластеров мало.
What Dependence Does to Your Confidence Intervals
Если 4 исхода одного и того же исследования имеют корреляцию внутри исследования ρ = 0,5:
Treating as independent
CI width = X
Учет зависимости
CI width = 1.58X
Ваш доверительный интервал должен быть 58% wider. Каждый метаанализ, который игнорировал это, публиковал ложно точные результаты.
RVE (Hedges, Tipton & Johnson, 2010): Uses a “sandwich” variance estimator that produces correct standard errors without needing to know the exact within-study correlation.
Three-Level Models: Making Structure Explicit
Level 1: Sampling Variance
Measurement error within each effect size estimate.
Level 2: Within-Study Variance
Результаты и сроки варьируются в пределах одного исследования.
Level 3: Between-Study Variance
Исследования отличаются друг от друга популяциями, условиями и методами.
Example: В метаанализе психотерапии депрессии (k = 50 исследований, 180 размеров эффекта) 35% дисперсия была внутри исследования (разные результаты) и 65% было между исследованиями (различные методы лечения, группы населения). Это разложение показывает, насколько неоднородна within vs between studies.
Three-Level Models: Formal Framework
Когда эффекты являются вложенными (например, множественные результаты в рамках исследований или исследования в исследовательских группах), three-level model дисперсия разделяется на: (1) выборочную дисперсию (уровень 1), (2) дисперсию внутри исследования (уровень 2) и (3) дисперсию между исследованиями (уровень 3). Это поддерживает правильный вывод, одновременно заимствуя силу на разных уровнях.
Сердечно-сосудистая проблема
Метаанализ статинов может включать 30 исследований, в каждом из которых сообщается о смертности, ИМ, инсульте и реваскуляризации. Это 120 размеров эффекта из 30 кластеров. Если рассматривать их как 120 независимых оценок, точность увеличивается на коэффициент, связанный с корреляцией внутри исследования.
RVE or multivariate models handle this correctly—producing wider, honest confidence intervals.
Decision Tree: Which Approach for Dependent Effect Sizes?
ROOT: Имеет ли ваш метаанализ несколько эффектов на одно исследование?
YES → Знаете ли вы (или можете оценить) корреляции внутри исследования?
- Yes: Multivariate random-effects model (most efficient)
- No: RVE with small-sample correction (robust to unknown correlations)
NO → Standard univariate random-effects model
Sub-question: Являются ли ваши множественные эффекты результатом разных результатов, моментов времени или подгрупп?
- Different outcomes → Three-level model or RVE with clustering
- Different timepoints → Network of timepoints with temporal correlation
- Different subgroups → Consider if subgroups are meaningful or should be averaged
Module 21 Quiz
Q1. What problem does Robust Variance Estimation (RVE) solve?
Module 21 Complete
«Когда результаты запутаны, притворяться, что они независимы, — это удобная ложь».
Количество без происхождения не является числом.
Модуль 22: Доказательство
Количество без происхождения не является числом.
Модуль 22: Доказательство
Модуль 22: Доказательство
🎯 Learning Objectives
- Understand how computational errors propagate through policy
- Дать определение воспроизводимости и отличить ее от воспроизводимости.
- Применяйте хеширование доказательств и числа, подтверждающие доказательства.
- Use reproducibility checklists for meta-analysis
- Признать роль предварительной регистрации и открытых данных
A graduate student opened a spreadsheet
и обнаружил, что эра жесткой экономии была построена на ошибке.
В 2010 году Рейнхарт и Рогофф заявили, что страны с соотношением долга к ВВП >90% имели отрицательный рост. Это повлияло на политику жесткой экономии по всей Европе. В 2013 году Томас Херндон обнаружил ошибку Excel, из-за которой из среднего показателя были исключены 5 стран. Скорректированный результат: скромный положительный рост, а не крах.
Reproducibility vs Replicability
Reproducibility is the minimum standard. Если другие не могут воспроизвести вашу объединенную оценку на основе предоставленных вами данных, анализ не может быть проверен. Мета-анализы должны делиться: извлеченными данными, сценариями анализа, версиями программного обеспечения и случайными исходными данными.
Proof-Carrying Numbers
Every number in a meta-analysis should carry its provenance: откуда он взялся, как был преобразован и какой код его создал. Evidence hashing creates a cryptographic fingerprint of inputs so any change (accidental or deliberate) is detectable.
Input Hash
Хеш извлеченных данных SHA-256. Если одна ячейка изменится, хэш изменится. Цепочка происхождения: данные → код → результат → хеш.
Interactive: Reproducibility Checklist
Отметьте галочкой каждый пункт, чтобы оценить воспроизводимость метаанализа. Какова оценка вашего обзора?
Ошибка Excel, изменившая экономику
«Рост во время долга» Рейнхарта-Рогоффа цитировался в выступлениях Конгресса, отчетах Европейской комиссии и аналитических записках МВФ. Ошибка Excel (строки 30–34 были исключены из формулы СРЗНАЧ) означала, что пять стран — Австралия, Австрия, Бельгия, Канада и Дания — просто отсутствовали.
Скорректированное среднее значение изменилось с -0,1% до +2,2%. Политика жесткой экономии затронула миллионы людей. Воспроизводимость — это не академический перфекционизм, это гарантия от катастрофы.
Remember Module 5?
DECREASE Through the Lens of Reproducibility
Исследования DECREASE, проведенные Доном Полдермансом, были отозваны из-за сфабрикованных данных. Если бы существовали подтверждающие числа — хешированные входные данные, цепочки происхождения, проверенные вычисления — фальсификацию можно было бы обнаружить. before доказательства вошли в метаанализ и изменили хирургические рекомендации.
Module 22 Quiz
Q1. В чем заключалась ошибка Рейнхарта-Рогоффа?
Module 22 Complete
«Число без происхождения — это не число. Анализ без воспроизводимости не является доказательством».
Certainty must be earned, not assumed.
Модуль 23: Ваш первый мета-спринт
Certainty must be earned, not assumed.
Модуль 23: Ваш первый мета-спринт
Модуль 23: Ваш первый мета-спринт
🎯 Learning Objectives
- Понять рабочий процесс 40-дневной систематической проверки
- Map the Seven Principles to real practice phases
- Recognize Definition-of-Done (DoD) gates as quality checkpoints
- Appreciate why structure prevents the failures you've studied
- Graduate ready to conduct (not just understand) meta-analysis
Вы выучили истории.
Теперь вы должны пройти этот путь.
Каждое изменение доказательств, которое вы изучали, произошло потому, что команды knew методы, но не follow them systematically.
Структура МЕТА-СПРИНТ
40-дневный структурированный рабочий процесс с 5 фазовыми воротами. Каждый шлюз представляет собой контрольную точку определения готовности (DoD), которая не позволяет вам двигаться вперед до тех пор, пока не будет гарантировано качество.
Why 40 days? Достаточно длинный для строгости и достаточно короткий, чтобы предотвратить расползание прицела. Сердечные сигналы росиглитазона были скрыты на долгие годы, потому что не было крайнего срока, требующего прозрачности.
Пять фазовых врат
DoD-A: Protocol Lock (Days 1-3)
PICOS defined, timepoint rules set, model choices pre-specified. No moving target.
DoD-B: Search Lock (Days 6-10)
All databases searched, grey literature checked, PRESS validated. No hidden studies.
DoD-C: Extraction Lock (Days 10-28)
Dual extraction, provenance linked, RoB assessed. No fabricated numbers.
The Five Phase Gates (continued)
DoD-D: Блокировка анализа (дни 21–33)
Forest plots generated, sensitivity analyses run, heterogeneity explored. No cherry-picking.
DoD-E: Submission Lock (Days 33-40)
GRADE certainty rated, clinical summary written, manuscript finalized. No overconfidence.
Day 34 Freeze: Никакие новые исследования не могут быть добавлены после 34-го дня. Это предотвращает «расползание масштабов применения оружия», которое преследовало метаанализы метаанализа хирургии позвоночника BMP, где промышленность продолжала «находить» благоприятные исследования.
Семь принципов на практике
Every principle you learned maps to a specific phase gate:
Принцип красной команды
Ваша собственная команда пытается разрушить вашу работу.
Каждый день два сменяющихся члена команды тратят 12 минут на проверку качества данных в качестве противников. Именно так мошенничество Болдта было обнаружено – не путем дружеской проверки, а путем скептической проверки, которая выявила невозможные показатели набора персонала.
CondGO: When Things Go Wrong
What happens when you discover a critical problem mid-sprint?
CondGO = Conditional Go
A bounded rescue protocol. You have exactly 72 hours устранить проблему, используя только разрешенные действия. Если вы не можете это исправить, вы должны остановить проверку.
📖 Урок Авандии: GSK увидела сердечно-сосудистые сигналы в 2000 году, но не установила крайних сроков. Они «смотрели и ждали» 7 лет. Десятки тысяч пострадали. CondGO существует потому, что фраза «в конце концов мы с этим разберемся» убивает людей.
Вы начали этот курс с историй.
Вы заканчиваете его готовым к практике.
Рабочий процесс МЕТА-СПРИНТ объединяет все, чему вы научились, и структурирует это в 40-дневную систему, которая предотвращает неудачи, которые вы изучили.
Когда вы будете готовы провести настоящий систематический обзор, откройте приложение МЕТА-СПРИНТ. Истории, которые вы узнали здесь, будут вашим руководством — они будут напоминать вам на каждом этапе.
What does it look like when every principle is followed?
REAL DATA
Сотрудничество специалистов по лечению холестерина (CTT) является золотым стандартом метаанализа. Они получили индивидуальные данные пациентов от более чем 170 000 участников across 26 statin trials. Pre-specified protocol. IPD from all major trials. Standardized outcomes. Result: statins reduce major vascular events by 21% per mmol/L LDL reduction (RR 0.79, 95% CI 0.77-0.81), regardless of baseline risk. This finding, replicated across 5 метаанализов за 15 лет, has prevented an estimated millions of heart attacks and strokes worldwide.
Capstone Quiz
1. Какова цель «жесткой заморозки» Дня 34 в МЕТА-СПРИНТ?
2. The CondGO protocol gives teams how long to fix critical problems?
3. Red-team adversarial QA caught Joachim Boldt's fraud by noticing:
Истории, которые вы узнали, не являются историей.
Это предупреждения, которые охраняют вашу будущую работу.
Когда вы проводите свой первый метаанализ,
remember CAST before you trust a signal,
remember Poldermans before you skip provenance,
помните о ребоксетине, прежде чем игнорировать воронку.
Теперь вы готовы. Следуйте структуре. Идите со смирением. Следуйте семи принципам.
Не каждый сигнал является правдой.
Модуль 24: Заключительный экзамен
Certainty must be earned, not assumed.
Final Examination
Final Exam: Part 1 of 2
Проверьте свое владение принципами метаанализа. Каждый вопрос затрагивает основную концепцию курса.
Q1. Исследователь хочет изучить «влияние физических упражнений на здоровье». В чем ОСНОВНАЯ проблема этого исследовательского вопроса?
Q2. Воронкообразный график показывает выраженную асимметрию с отсутствующими исследованиями в нижней левой области. О чем это говорит?
Q3. Метаанализ сообщает, что I² = 85% и τ² = 0,42. Какова САМАЯ подходящая интерпретация?
Q4. В GRADE какова начальная достоверность совокупности доказательств рандомизированных контролируемых исследований?
Q5. In RoB 2.0, which domain assesses whether outcome assessors knew the treatment allocation?
Final Exam: Part 2 of 2
Q6. Исследование CAST показало, что антиаритмические препараты повышают смертность, несмотря на подавление аритмий. Это пример:
Q7. When should a random-effects model be preferred over a fixed-effect model?
Q8. According to ICEMAN criteria, which makes a subgroup analysis MORE credible?
Q9. What assumption must be checked in network meta-analysis to ensure valid indirect comparisons?
Q10. В последовательном анализе испытаний (TSA), что означает пересечение границы бесполезности?
Part 1 Complete — continue to Part 2 (Advanced Modules)
Final Exam: Part 2 of 2 (Advanced)
Questions 11–25 cover Modules 13–22 (Bayesian, NMA, IPD, Dose-Response, Fragility, Equity, AI, Qualitative, Multivariate, Reproducibility).
Q11. Что происходит в байесовском метаанализе, если во многих исследованиях вы используете расплывчатое априорное значение?
Q12. Почему в антидепрессанте NMA Чиприани ни один препарат не был объявлен «победителем»?
Q13. Почему никогда не следует объединять IPD, как если бы это было одно мегаисследование?
Q14. What caused the alcohol "J-curve" to disappear in Stockwell's reanalysis?
Q15. Что Кокрейн обнаружил в саге об осельтамивире при доступе к неопубликованным клиническим данным отчеты об исследованиях?
Q16. Какой процент пациентов с гипертонической болезнью в США НЕ смог бы участвовать в исследовании SPRINT?
Q17. Why is AI considered an "augmenter" rather than a "replacer" in systematic reviews?
Q18. What does the "adequacy" component of CERQual assess?
Q19. A meta-analysis includes 30 statin trials, each reporting 4 correlated outcomes (120 effect sizes). Which approach is correct?
Q20. Каким был скорректированный средний темп роста в странах с высоким долгом, согласно ошибке Рейнхарта-Рогоффа?
Passing Score: 15/20 across both parts
Просмотрите все пропущенные вопросы, вернувшись к соответствующему модулю. Каждый вопрос проверяет основную концепцию.
Не каждый сигнал является правдой.
Методы защищают пациентов от нашего доверия.
Congratulations
Вы прошли «Обращение доказательств: курс метаанализа».
Пусть ваш синтез направляется истиной, ваше объединение — мудростью,
и ваши выводы по смирению.
Семь принципов:
«Не каждый сигнал является правдой».
«Методы защищают пациентов от нашего доверия».
"What was hidden in plain sight?"
«Число без происхождения — не число».
«Неоднородность — это сообщение, а не шум».
«Отсутствие доказательств не является доказательством отсутствия».
"Certainty must be earned, not assumed."
«Наставь нас на прямой путь…»