AI > Обещание и опасность
=================== МОДУЛЬ 1: ОБЕЩАНИЕ И ОПАСНОСТЬ ===================
==================== МОДУЛЬ 2: СКРИНИНГ С ПОМОЩЬЮ ИИ ===================
================== МОДУЛЬ 3: LLM ДЛЯ ИЗВЛЕЧЕНИЯ ДАННЫХ ===================
=================== МОДУЛЬ 4: АВТОМАТИЗИРОВАННЫЙ РИСК ПРЕДСТАВИТЕЛЬСТВА ===================
=================== МОДУЛЬ 5: GPT ДЛЯ НАПИСАНИЯ ПРОТОКОЛОВ ===================
==================== МОДУЛЬ 6: ЖИВЫЕ ОТЗЫВЫ + ИИ ===================
=================== МОДУЛЬ 7: СТРУКТУРА ОБЕСПЕЧЕНИЯ КАЧЕСТВА ===================
=================== МОДУЛЬ 8: ЭТИЧЕСКИЕ СООБРАЖЕНИЯ ===================
=================== МОДУЛЬ 9: БУДУЩИЕ НАПРАВЛЕНИЯ ===================
=================== МОДУЛЬ 10: ВИКТОРИНА И ССЫЛКИ ===================
=================== МОДУЛЬ 11: ПОШАГОВЫЙ ПРОСМОТР ===================
=================== МОДУЛЬ 12: ИНЖЕНЕРНАЯ БИБЛИОТЕКА PROMPT ===================
==================== МОДУЛЬ 13: ЧТЕНИЕ ОТЗЫВОВ С ПОМОЩЬЮ ИИ ===================
=================== МОДУЛЬ 14: НАСТРОЙКИ, ОГРАНИЧЕННЫЕ РЕСУРСАМИ ===================
=================== МОДУЛЬ 15: ПРОВЕРОЧНЫЕ РАСЧЕТЫ ===================
Разве вы не слышали о машине, которая читает
ten thousand abstracts in an hour,
который извлекает данные, пока вы спите,
that promises to освободить тебя от тяжелой работы?
ten thousand abstracts in an hour,
который извлекает данные, пока вы спите,
that promises to освободить тебя от тяжелой работы?
Революция искусственного интеллекта в синтезе доказательств
67%
Workload reduction
with AI screening
with AI screening
95%
Recall achievable
с активным обучением
с активным обучением
10x
Faster screening
than manual
than manual
THE PROMISE
ИИ может проверять рефераты, извлекать данные, оценивать риск предвзятости и отслеживать новые доказательства.if used correctly.
When AI Fails in Healthcare
IBM WATSON ONCOLOGY, MD ANDERSON, 2013-2017
В 2013 году Онкологический центр доктора медицины Андерсона в партнерстве с IBM Watson произвел революцию в рекомендациях по лечению рака. Стоимость проекта $62 million.
К 2017 году проект был заброшен. Рекомендации Ватсона оказались «небезопасно и неправильно» in multiple cases.
In one documented case, Watson recommended a treatment that would cause severe bleeding in a patient already on blood thinners.
The core problem: Watson had been trained primarily on hypothetical cases created by physicians, а не реальные данные пациента. ИИ научился имитировать мнения экспертов, а не учиться на реальных результатах.
К 2017 году проект был заброшен. Рекомендации Ватсона оказались «небезопасно и неправильно» in multiple cases.
In one documented case, Watson recommended a treatment that would cause severe bleeding in a patient already on blood thinners.
The core problem: Watson had been trained primarily on hypothetical cases created by physicians, а не реальные данные пациента. ИИ научился имитировать мнения экспертов, а не учиться на реальных результатах.
Stat News, 2017; IEEE Spectrum, 2019
THE LESSON
ИИ, обученный на синтетических или гипотетических данных, не работает на реальных пациентах. Разрыв между обучающими данными и реальностью может быть смертельным.
Проблема галлюцинаций
LAWYERS SANCTIONED, NEW YORK, 2023
Attorneys used ChatGPT to research case law for a federal court brief.
ИИ привел шесть случаев с полными цитатами, цитатами и номерами страниц.
Ни одного случая не было.
Судья счел цитаты «бредом» и наложил на адвокатов санкции.
Это не ошибка. Именно так работают большие языковые модели: они предсказывают правдоподобный текст, а не проверенную истину.
ИИ привел шесть случаев с полными цитатами, цитатами и номерами страниц.
Ни одного случая не было.
Судья счел цитаты «бредом» и наложил на адвокатов санкции.
Это не ошибка. Именно так работают большие языковые модели: они предсказывают правдоподобный текст, а не проверенную истину.
Mata v. Avianca, Inc., 22-cv-1461 (S.D.N.Y. 2023)
Основной вопрос
When to Trust AI in Meta-Analysis
AI Tool Output
↓
Task Type?
Ranking/Prioritization
Lower riskHuman reviews top-ranked
Binary Decision
Medium riskNeeds validation
Text Generation
High riskHallucination possible
Что может и не может сделать ИИ
Honest Assessment
Screening prioritization
✓ Excellent
Duplicate detection
✓ Excellent
Извлечение данных (структурированное)
⚠ Needs verification
Risk of bias assessment
⚠ Preliminary only
Написание протокола/методов
⚠ Draft only
Statistical analysis
✗ Human required
Clinical interpretation
✗ Human required
«Машина читает быстро, но ничего не понимает.
Он предсказывает следующее слово, а не истину.
Используйте его для ускорения, а не для замены.
The judgment must remain yours."
Он предсказывает следующее слово, а не истину.
Используйте его для ускорения, а не для замены.
The judgment must remain yours."
Вы не видели рецензента?
who screened ten thousand titles by hand,
whose eyes grew tired, whose attention wandered,
кто пропустил одно исследование, которое имело значение?
who screened ten thousand titles by hand,
whose eyes grew tired, whose attention wandered,
кто пропустил одно исследование, которое имело значение?
Инструменты скрининга
ASReview
Active learning
Open source
Open source
Free
Rayyan
AI recommendations
Collaboration
Collaboration
Freemium
Abstrackr
Semi-automated
Web-based
Web-based
Free
EPPI-Reviewer
Priority screening
Full workflow
Full workflow
Subscription
How Active Learning Works
ASReview Workflow
Import References
↓
Screen seed papers10-20 known relevant
↓
AI learns patternsОбновления при каждом решении
↓
Prioritizes likely relevantMost promising first
↓
Stopping rule?
Consecutive irrelevante.g., 100-200 in row
% screenedнапример, 50% с проверкой отзыва
Реальные данные о производительности
VAN DE SCHOOT ET AL., 2021
Systematic evaluation of ASReview across 4 datasets:
• PTSD dataset: 95% recall after screening 40% of records
• Software fault prediction: 95% recall after 20%
• Virus metagenomics: 95% recall after 10%
Average workload reduction: 67-95% depending on prevalence.
But: Performance varies by topic and prevalence. Low-prevalence topics show greater efficiency gains.
• PTSD dataset: 95% recall after screening 40% of records
• Software fault prediction: 95% recall after 20%
• Virus metagenomics: 95% recall after 10%
Average workload reduction: 67-95% depending on prevalence.
But: Performance varies by topic and prevalence. Low-prevalence topics show greater efficiency gains.
Van de Schoot R et al. Nat Mach Intell. 2021;3:125-133
When AI-Assisted Screening Works
ASREVIEW AND COCHRANE COVID-19 RESPONSE, 2020
During the COVID-19 pandemic, Cochrane needed to screen 50,000+ citations weekly to keep reviews current.
Система активного обучения ASReview была развернута под строгим человеческим контролем:
• Reduced human screening workload by 75%
• Missed fewer than 1% of relevant studies
• Validated at every stage by human reviewers
Ключ к успеху: human-in-the-loop validation at every stage. ИИ расставлял приоритеты, но люди принимали окончательные решения и проверяли образцы записей, исключенных ИИ.
Система активного обучения ASReview была развернута под строгим человеческим контролем:
• Reduced human screening workload by 75%
• Missed fewer than 1% of relevant studies
• Validated at every stage by human reviewers
Ключ к успеху: human-in-the-loop validation at every stage. ИИ расставлял приоритеты, но люди принимали окончательные решения и проверяли образцы записей, исключенных ИИ.
Cochrane COVID-NMA consortium, 2020-2021
THE LESSON
ИИ усиливает человеческое суждение; оно не заменяет его. Успех достигается благодаря партнерству, а не автоматизации.
When Internal Validation Fails
EPIC SEPSIS MODEL, JAMA INTERNAL MEDICINE, 2021
Epic Systems deployed a sepsis prediction algorithm to hundreds of hospitals в Соединенных Штатах.
Epic's internal validation showed excellent performance. Hospitals trusted it.
Затем последовало внешнее исследование в JAMA Internal Medicine:
• The model missed 67% of sepsis cases
• It triggered thousands of false alarms
• Nurses developed severe "alert fatigue"
Модель была проверена на исторических данных из той же системы — она никогда не тестировалась в реальной клинической среде, где она могла бы использоваться. развернут.
Epic's internal validation showed excellent performance. Hospitals trusted it.
Затем последовало внешнее исследование в JAMA Internal Medicine:
• The model missed 67% of sepsis cases
• It triggered thousands of false alarms
• Nurses developed severe "alert fatigue"
Модель была проверена на исторических данных из той же системы — она никогда не тестировалась в реальной клинической среде, где она могла бы использоваться. развернут.
Wong A et al. JAMA Intern Med. 2021;181(8):1065-1070
THE LESSON
Внутренняя проверка не является внешней проверкой. Модель, которая работает в разработке, может потерпеть неудачу при развертывании. Всегда проверяйте в реальном контексте.
Проблема остановки
СКРЫТАЯ ОПАСНОСТЬ
Когда вы прекратите скрининг с активным обучением?
Если вы тоже прекратите раньше: Вы пропустите соответствующие исследования
Если вы остановитесь слишком поздно: Вы потеряете прирост эффективности
Алгоритм не сможет сказать вам, когда вы все нашли. Он ранжирует только то, что осталось.
There is no perfect stopping rule. Every rule trades recall for efficiency.
Если вы тоже прекратите раньше: Вы пропустите соответствующие исследования
Если вы остановитесь слишком поздно: Вы потеряете прирост эффективности
Алгоритм не сможет сказать вам, когда вы все нашли. Он ранжирует только то, что осталось.
There is no perfect stopping rule. Every rule trades recall for efficiency.
CRITICAL POINT
You must подтвердите свое правило остановки by manually checking
a random sample of unscreened records.
AI Screening Decision Tree
Следует ли использовать проверку ИИ?
Large Reference Set?
↓
<500 refs
Manual OKНакладные расходы на ИИ того не стоят
500-2000 refs
AI helpfulModerate efficiency gain
>2000 refs
AI essentialMajor time savings
↓
Always validate with random sampleReport methodology in paper
"Машина находит иглы быстрее,
but it cannot guarantee none remain in the haystack.
Доверяйте ранжированию, проверяйте остановку,
и всегда сообщайте о том, что вы сделали."
but it cannot guarantee none remain in the haystack.
Доверяйте ранжированию, проверяйте остановку,
и всегда сообщайте о том, что вы сделали."
Разве вы не мечтали о помощнике
who reads every paper and fills every cell,
who never tires, never errs,
who extracts perfectly?
Этого помощника не существует.
who reads every paper and fills every cell,
who never tires, never errs,
who extracts perfectly?
Этого помощника не существует.
Проблема точности извлечения
ИЗВЛЕЧЕНИЕ ДАННЫХ GPT-4 ИССЛЕДОВАНИЕ, 2024 г.
Исследователи протестировали GPT-4 для извлечения данных из 100 работ РКИ.
Results:
• Sample sizes: 89% accurate
• Effect estimates: 76% accurate
• Confidence intervals: 71% accurate
• Risk of bias judgments: 62% agreement with humans
A 24% error rate по сути, оценки означают, что примерно 1 из 4 исследований будет иметь неверные данные в вашем метаанализе.
Results:
• Sample sizes: 89% accurate
• Effect estimates: 76% accurate
• Confidence intervals: 71% accurate
• Risk of bias judgments: 62% agreement with humans
A 24% error rate по сути, оценки означают, что примерно 1 из 4 исследований будет иметь неверные данные в вашем метаанализе.
Guo Y et al. J Clin Epidemiol. 2024;165:111203
Фальсификация Проблема
GPT-4 HALLUCINATIONS IN SYSTEMATIC REVIEWS, 2023
Исследователи протестировали GPT-4 для извлечения данных из систематических обзорных статей. Модель получила PDF-файлы и попросила извлечь размеры выборки, значения p и оценки эффекта.
GPT-4 confidently provided all requested numbers with precise formatting.
But 23% извлечений были «галлюцинациями»— числами, не имеющими под собой основы в исходном тексте.
In one case, the model fabricated a statistically significant result (p=0.003) из исследования, которое на самом деле найдено no significant effect (p=0.42).
Достоверность модели не отличалась от реальных и сфабрикованных данных.
GPT-4 confidently provided all requested numbers with precise formatting.
But 23% извлечений были «галлюцинациями»— числами, не имеющими под собой основы в исходном тексте.
In one case, the model fabricated a statistically significant result (p=0.003) из исследования, которое на самом деле найдено no significant effect (p=0.42).
Достоверность модели не отличалась от реальных и сфабрикованных данных.
Систематический обзор исследований по проверке ИИ, 2023 г.
THE LESSON
LLM требует 100% проверки человеком количественных данных. Нет короткого пути. Каждое число необходимо сверить с источником.
Рабочий процесс извлечения данных LLM
Safe LLM Extraction Protocol
PDF/Full Text
↓
LLM извлекает данныеStructured prompt
↓
Human verifies 100%NOT sampling
↓
Discrepancy?
Yes
Human value usedDocument error
No
ProceedLog verification
Подсказка по проектированию для извлечения
# Example extraction prompt
Extract следующее из этого RCT:
1. Sample size (intervention arm): [number]
2. Sample size (control arm): [number]
3. Primary outcome definition: [text]
4. Effect estimate: [number with unit]
5. 95% CI: [lower, upper]
6. p-value: [number]
If not reported, write "NR"
If unclear, write "UNCLEAR: [reason]"
# Provide exact quotes for verification
Extract следующее из этого RCT:
1. Sample size (intervention arm): [number]
2. Sample size (control arm): [number]
3. Primary outcome definition: [text]
4. Effect estimate: [number with unit]
5. 95% CI: [lower, upper]
6. p-value: [number]
If not reported, write "NR"
If unclear, write "UNCLEAR: [reason]"
# Provide exact quotes for verification
When LLMs Help vs. Hurt
LLM Extraction Value Assessment
Standardized fields (author, year)
✓ High accuracy
Simple numeric (sample size)
✓ Usually reliable
Complex numeric (adjusted OR)
⚠ Often wrong model
Composite outcomes
⚠ Misses components
Intention-to-treat vs per-protocol
✗ Frequently confused
Subgroup data
✗ High error rate
"The LLM extracts plausible numbers,
не обязательно правильные цифры.
Это быстрый первый черновик, а не окончательный ответ.
Every cell must be verified by human eyes."
не обязательно правильные цифры.
Это быстрый первый черновик, а не окончательный ответ.
Every cell must be verified by human eyes."
Разве ты не желал, чтобы судья
who reads every methods section,
who assesses bias without bias,
который никогда не соглашается с themselves?
who reads every methods section,
who assesses bias without bias,
который никогда не соглашается с themselves?
RobotReviewer
MARSHALL ET AL., NATURE MACHINE INTELLIGENCE, 2019
RobotReviewer uses machine learning to assess risk of bias in RCTs.
Validation against Cochrane assessments:
• Random sequence generation: 71% agreement
• Allocation concealment: 65% agreement
• Blinding of participants: 69% agreement
• Blinding of outcome assessment: 62% agreement
Human inter-rater agreement is typically 70-80%.
RobotReviewer approaches but does not exceed human performance.
Validation against Cochrane assessments:
• Random sequence generation: 71% agreement
• Allocation concealment: 65% agreement
• Blinding of participants: 69% agreement
• Blinding of outcome assessment: 62% agreement
Human inter-rater agreement is typically 70-80%.
RobotReviewer approaches but does not exceed human performance.
Marshall IJ et al. Nat Mach Intell. 2019;1:115-117
RoB Automation Decision Tree
When to Use Automated RoB
Risk of Bias Assessment
↓
Review Type?
Rapid review
Automated OKAcknowledge limitation
Scoping review
Automated OKIf RoB included
Полный систематический обзор
Preliminary onlyHuman verification required
Cochrane review
Human requiredDraft support only
Limitations of Automated RoB
What Machines Cannot Assess
✗ Outcome-specific bias (RoB 2 domain 4)
✗ Selective reporting based on protocol comparison
✗ Contextual judgment (Is this design appropriate?)
✗ Cross-paper inconsistencies (multiple reports)
✗ Влияние финансирования на интерпретацию результатов
ФУНДАМЕНТАЛЬНЫЙ ПРЕДЕЛ
AI reads what is written.
Bias assessment often requires judging what is not written.
Гибридный рабочий процесс для RoB
Best Practice Protocol
Full Text PDFs
↓
RobotReviewer screeningFlags potential issues
↓
Reviewer 1 assessesUsing AI output as reference
↓
Reviewer 2 independentlyBlinded to AI output
↓
Consensus meeting
↓
Final assessmentHuman decision documented
"Робот читает раздел методов
but cannot read between the lines.
Используйте его, чтобы отмечать, а не осуждать.
Вердикт должен быть человечным».
but cannot read between the lines.
Используйте его, чтобы отмечать, а не осуждать.
Вердикт должен быть человечным».
Разве вы не желали писателю
who drafts your protocol in minutes,
who knows every PRISMA item,
who writes in perfect academic prose?
who drafts your protocol in minutes,
who knows every PRISMA item,
who writes in perfect academic prose?
LLM по составлению протоколов
✓
Structure
generation
generation
✓
Boilerplate
text
text
⚠
PICO
formulation
formulation
✗
Search
strategy
strategy
ЦЕННОЕ ПРЕДЛОЖЕНИЕ
LLM могут составить проект структура и стандартный язык. Вы должны предоставить scientific decisions.
Опасность стратегии поиска
TESTED ACROSS MULTIPLE LLMs, 2023-2024
Researchers asked GPT-4 and Claude to generate MEDLINE search strategies.
Common errors:
• Invented MeSH terms that don't exist
• Wrong field codes (e.g., [tiab] vs [tw])
• Отсутствие ключевых понятий в вопросе исследования.
• Overly narrow strategies missing relevant studies
• Syntax errors that wouldn't execute
An information specialist must write or validate all search strategies.
Common errors:
• Invented MeSH terms that don't exist
• Wrong field codes (e.g., [tiab] vs [tw])
• Отсутствие ключевых понятий в вопросе исследования.
• Overly narrow strategies missing relevant studies
• Syntax errors that wouldn't execute
An information specialist must write or validate all search strategies.
Множественные проверочные исследования 2023–2024 гг.
Protocol Writing Decision Tree
LLM Use in Protocol Development
Protocol Section
↓
Background/Rationale
LLM helpfulDraft + fact-check
Methods structure
LLM helpfulTemplate generation
PICO criteria
Human decidesLLM refines wording
Search strategy
Human/SpecialistAI too unreliable
Safe LLM Protocol Workflow
Quality Assurance Steps
1 Define PICO yourself (human scientific decision)
2 Ask LLM to draft protocol sections
3 Verify all cited guidelines exist (PRISMA, Cochrane)
4 Write search strategy with information specialist
5 Check all methodological decisions are defensible
6 Disclose AI assistance in protocol
7 Зарегистрируйте проверенную человеком версию
«Машина может писать слова,
but it cannot make the decisions.
Вы определяете вопрос. Вы выбираете методы.
Протокол ваш, а машинистка — ИИ».
but it cannot make the decisions.
Вы определяете вопрос. Вы выбираете методы.
Протокол ваш, а машинистка — ИИ».
Вы не видели систематический обзор?
оно устарело еще до публикации,
while new trials accumulated in the literature,
unsynthesized, unknown?
оно устарело еще до публикации,
while new trials accumulated in the literature,
unsynthesized, unknown?
Проблема живого обзора
ДОКАЗАТЕЛЬСТВА ЦУНАМИ КОВИД-19, 2020 Г.
В первый год пандемии:
• 100,000+ COVID papers published
• Traditional reviews obsolete within weeks
• Clinicians made decisions on incomplete evidence
Консорциум COVID-NMA использовал AI-assisted surveillance to monitor new trials daily and update meta-analyses weekly.
Для этого потребовались: автоматизированный мониторинг поиска, определение приоритетов проверки ИИ, быстрые рабочие процессы извлечения данных и постоянное обновление статистики.
• 100,000+ COVID papers published
• Traditional reviews obsolete within weeks
• Clinicians made decisions on incomplete evidence
Консорциум COVID-NMA использовал AI-assisted surveillance to monitor new trials daily and update meta-analyses weekly.
Для этого потребовались: автоматизированный мониторинг поиска, определение приоритетов проверки ИИ, быстрые рабочие процессы извлечения данных и постоянное обновление статистики.
Defined in Cochrane Living Reviews guidance
AI-компоненты для жизни. Обзоры
Automated Surveillance Stack
Живая система обзора
↓
Auto-searchDaily/weekly runs
AI triagePriority screening
Rapid extractionLLM-assisted
Auto-updateCumulative MA
↓
Human oversight at each stageРедакционная проверка перед публикацией
Инструменты для непрерывного мониторинга
PubMed Alerts
Free email alerts
Saved searches
Saved searches
Basic
Epistemonikos
Systematic review
database
database
AI-curated
Covidence
Auto-import
Living mode
Living mode
Subscription
DistillerSR
AI screening
+ monitoring
+ monitoring
Enterprise
Система принятия решений по анализу жизни
Когда делать обзор «Живой»
Должно ли это быть живым?
↓
Criteria Check
Priority questionClinical importance
Evidence evolvingActive trial pipeline
Resources securedФинансирование на срок более 2 лет
↓
All three required for living status
«Машина смотрит литературу
пока ты спишь.
But someone must wake to judge
изменят ли новые доказательства правду».
пока ты спишь.
But someone must wake to judge
изменят ли новые доказательства правду».
Если вы используете машину без проверки,
вы не знаете, какие ошибки вы допустили.
Если вы проверите все, что производит машина,
what time have you saved?
Ответ кроется в strategic verification.
вы не знаете, какие ошибки вы допустили.
Если вы проверите все, что производит машина,
what time have you saved?
Ответ кроется в strategic verification.
Парадокс проверки
THE DILEMMA
Full verification = No time savings
No verification = Unknown error rate
Strategic verification = Validated efficiency
No verification = Unknown error rate
Strategic verification = Validated efficiency
Verification Strategy by Risk
High-risk tasks
100% human reviewИзвлечение данных, RoB
Medium-risk tasks
Sample validationScreening decisions
Low-risk tasks
Spot checksDeduplication
When Oversight Catches Bias
COCHRANE MACHINE LEARNING PILOT, 2022
Cochrane tested ML-assisted risk of bias assessment to accelerate systematic reviews.
Алгоритм достиг 85% согласия с рецензентами—seemingly impressive.
Но команда контроля качества проанализировала 15% разногласий и обнаружила закономерность:
The AI was systematically biased toward rating industry-funded trials as low risk.
Данные обучения содержали больше меток «низкого риска» для исследований фармацевтических компаний — алгоритм усвоил эту корреляцию, не понимая основных методологических проблем.
Human oversight caught the pattern before any biased reviews were published.
Алгоритм достиг 85% согласия с рецензентами—seemingly impressive.
Но команда контроля качества проанализировала 15% разногласий и обнаружила закономерность:
The AI was systematically biased toward rating industry-funded trials as low risk.
Данные обучения содержали больше меток «низкого риска» для исследований фармацевтических компаний — алгоритм усвоил эту корреляцию, не понимая основных методологических проблем.
Human oversight caught the pattern before any biased reviews were published.
Пилотное исследование Кокрановской методической группы, 2022 г.
THE LESSON
Анализ разногласий выявляет систематическую предвзятость. Высокая общая точность может скрыть опасные закономерности. Всегда анализируйте, где и как ИИ дает сбой, а не только то, как часто.
Система обеспечения качества для проверок с помощью искусственного интеллекта
Minimum Quality Standards
1 Pre-specify AI use in protocol (which tools, which tasks)
2 Document AI settings (model version, prompts, parameters)
3 Validate screening with random sample (calculate recall estimate)
4 Проверьте все извлеченные данные against source documents
5 Human RoB assessment (AI as preliminary only)
6 Track error rates per AI task
7 Report transparently in methods section
Reporting AI Use (PRISMA-S)
О ЧЕМ СООБЩАТЬ В ВАШЕЙ СТАТЬЕ
• Which AI tools were used (name, version, date)
• Which tasks were AI-assisted
• What validation was performed
• What error rates were observed
• What human oversight was maintained
• Any deviations из протокола из-за ограничений ИИ
• Which tasks were AI-assisted
• What validation was performed
• What error rates were observed
• What human oversight was maintained
• Any deviations из протокола из-за ограничений ИИ
EMERGING STANDARD
Journals increasingly require AI use statements.
PRISMA-S extension for search reporting includes automation.
Полный рабочий процесс AI-MA
Integrated Human-AI Process
Protocol (Human + LLM draft)
↓
Search (Human/Specialist)
↓
Screening (AI prioritize + Human decide)
↓
Extraction (LLM draft + Human verify 100%)
↓
RoB (AI flag + Human assess)
↓
Analysis (Human)
↓
Interpretation (Human)
"The machine is neither colleague nor replacement.
Это инструмент — мощный, быстрый и подверженный ошибкам.
Document what you used. Validate what it produced.
Ответственность остается за вами».
Это инструмент — мощный, быстрый и подверженный ошибкам.
Document what you used. Validate what it produced.
Ответственность остается за вами».
Вы не рассматривали
whose labor trained the model,
whose data it consumed without consent,
whose jobs it may displace?
whose labor trained the model,
whose data it consumed without consent,
whose jobs it may displace?
Скрытый труд
KENYAN DATA LABELERS, TIME MAGAZINE 2023
ChatGPT стал «безопасным» благодаря процессу под названием RLHF — обучение с подкреплением на основе обратной связи между людьми.
Люди, предоставлявшие эту обратную связь, были рабочими в Кении, им платили less than $2 per hour читать и маркировать токсичный, жестокий и тревожный контент.
От работы у них развилась психологическая травма.
Каждый инструмент ИИ, который вы используете, основан на человеческом труде — часто невидимом, часто недоплачиваемом, часто причиняющем вред.
Люди, предоставлявшие эту обратную связь, были рабочими в Кении, им платили less than $2 per hour читать и маркировать токсичный, жестокий и тревожный контент.
От работы у них развилась психологическая травма.
Каждый инструмент ИИ, который вы используете, основан на человеческом труде — часто невидимом, часто недоплачиваемом, часто причиняющем вред.
Perrigo B. Time Magazine. 2023 Jan 18.
Automating Inequality
UK A-LEVEL ALGORITHM SCANDAL, 2020
Когда COVID-19 отменил экзамены A-Level в Великобритании, правительство использовало алгоритм для прогнозирования оценок учащихся на основе исторических успеваемости в школе.
The results:
• Students from disadvantaged schools were systematically downgraded
• Students from частные школы были модернизированы
• Алгоритм опроверг прогнозы учителей о том, что ученики добьются успеха.
After massive public outcry, 40% оценок были пересмотрены.
Алгоритм закодировал historical inequality as prediction. Школы, которые исторически отправляли в университет меньше студентов, подвергались штрафам, независимо от индивидуальных способностей учащихся.
The results:
• Students from disadvantaged schools were systematically downgraded
• Students from частные школы были модернизированы
• Алгоритм опроверг прогнозы учителей о том, что ученики добьются успеха.
After massive public outcry, 40% оценок были пересмотрены.
Алгоритм закодировал historical inequality as prediction. Школы, которые исторически отправляли в университет меньше студентов, подвергались штрафам, независимо от индивидуальных способностей учащихся.
UK Office of Qualifications and Examinations Regulation, 2020
THE LESSON
ИИ может автоматизировать предвзятость в масштабе. Когда исторические данные отражают системное неравенство, алгоритмы, обученные на этих данных, увековечивают и усиливают его.
Этическая основа использования ИИ в исследованиях
Questions to Ask
1 Transparency: Can I fully disclose how AI was used?
2 Accountability: Кто несет ответственность за ошибки ИИ?
3 Equity: Does AI access create research inequities?
4 Labor: Чья работа позволила использовать этот инструмент?
5 Environment: What is the carbon cost of model training?
6 Reproducibility: Can others replicate my AI-assisted work?
Authorship and AI
ICMJE POSITION
AI tools cannot be listed as authors.
Authors must take responsibility for AI-generated content.
AI use must be disclosed in methods or acknowledgments.
Authors must take responsibility for AI-generated content.
AI use must be disclosed in methods or acknowledgments.
YOUR RESPONSIBILITY
Если у ИИ начнутся галлюцинации, и вы это опубликуете,
ты несешь ответственность— не OpenAI, не Anthropic, не инструмент.
«У машины нет совести.
Его не волнует, верны ли данные.
Он не знает, кто пострадал при его обучении.
Вы должны быть совестью, которой ему не хватает».
Его не волнует, верны ли данные.
Он не знает, кто пострадал при его обучении.
Вы должны быть совестью, которой ему не хватает».
Дорога вперед
Куда движется искусственный интеллект в синтезе доказательств
Emerging Capabilities
Multimodal AI
Extract from
figures/tables
figures/tables
2024-2025
Agent Systems
Multi-step
workflows
workflows
Emerging
RAG Systems
Retrieval-augmented
generation
generation
Active research
Fine-tuned Models
MA-specific
training
training
In development
Что НЕ изменится
Enduring Human Requirements
★ Определение вопроса исследования (клиническое заключение)
★ Interpreting clinical significance (domain expertise)
★ Assessing applicability (contextual knowledge)
★ Making recommendations (value judgments)
★ Taking responsibility (ethical accountability)
THE CONSTANT
ИИ ускорит механику.
Наука остается человеческой.
Наука остается человеческой.
Подготовка к будущему
Skills to Develop
Future-Ready Researcher
↓
Prompt engineeringGetting good AI outputs
Validation methodsKnowing when AI errs
Core methodsAI cannot replace
↓
Лучшие пользователи ИИ — лучшие методистыUnderstanding enables oversight
"The machine grows stronger each year.
Но вопрос остается прежним:
What is true? What helps patients?
ИИ может помочь в поиске.
Только вы можете дать ответ».
Но вопрос остается прежним:
What is true? What helps patients?
ИИ может помочь в поиске.
Только вы можете дать ответ».
Проверьте свои знания
Каково основное ограничение использования LLM для извлечения данных?
Они слишком медленные
They can generate plausible but incorrect data (hallucinations)
They cannot read PDFs
Они слишком дорогие
When using AI screening (e.g., ASReview), what must you always do?
Trust the AI completely after training
Screen only the top 10% of ranked records
Проверка правила остановки на случайной выборке
Используйте несколько инструментов искусственного интеллекта одновременно
Для какой задачи ИИ НИКОГДА не должен принимать окончательное решение?
Deduplication
Screening prioritization
Клиническая интерпретация результатов
Reference formatting
References
Key Sources
- Van de Schoot R et al. Nat Mach Intell. 2021;3:125-133. [ASReview]
- Marshall IJ et al. Nat Mach Intell. 2019;1:115-117. [RobotReviewer]
- Guo Y et al. J Clin Epidemiol. 2024;165:111203. [GPT-4 extraction]
- Mata v. Avianca, 22-cv-1461 (S.D.N.Y. 2023). [Hallucination case]
- Perrigo B. Time Magazine. 2023 Jan 18. [AI labor ethics]
- Elliott JH et al. J Clin Epidemiol. 2017;91:23-30. [Living reviews]
- Cochrane Handbook 2023. Chapter on automation.
- ICMJE. Recommendations on AI authorship. 2023.
- Rethlefsen ML et al. J Med Libr Assoc. 2021. [PRISMA-S]
- Wang S et al. Syst Rev. 2023;12:178. [AI screening validation]
✔
Course Complete
«Теперь вы знаете Силиконового Писца…
its powers and its limits.
Используйте его для ускорения, а не для замены.
Validate what it produces.
Задокументируйте то, что вы сделали.
И помни всегда:
Машина предсказывает следующее слово.
Вам предстоит судить, истинно ли это слово».
its powers and its limits.
Используйте его для ускорения, а не для замены.
Validate what it produces.
Задокументируйте то, что вы сделали.
И помни всегда:
Машина предсказывает следующее слово.
Вам предстоит судить, истинно ли это слово».
ASReview: Step-by-Step Tutorial
От установки до решения об остановке
Step 1: Installation
# Option A: Python pip (recommended)
pip install asreview
# Вариант Б. Загрузите настольное приложение.
# https://asreview.nl/download/
# Launch ASReview LAB
asreview lab
pip install asreview
# Вариант Б. Загрузите настольное приложение.
# https://asreview.nl/download/
# Launch ASReview LAB
asreview lab
REQUIREMENTS
• Python 3.8+ (для установки по протоколу)
• OR: Windows/Mac desktop app (no Python needed)
• Your references in RIS, CSV, or EndNote XML format
• OR: Windows/Mac desktop app (no Python needed)
• Your references in RIS, CSV, or EndNote XML format
Step 2: Create Project & Import
Project Setup Workflow
New Project
↓
Назовите свой проектDescriptive, include date
↓
Import referencesRIS/CSV/XML file
↓
ASReview deduplicatesCheck count matches expected
↓
Готов к предварительным знаниям
Step 3: Add Prior Knowledge
CRITICAL STEP
Модель учится на ваших первоначальных решениях.
You need как актуальные, так и нерелевантные examples.
You need как актуальные, так и нерелевантные examples.
Prior Knowledge Strategy
1 Add 5-10 known relevant исследования (из объемного поиска)
2 Search for clearly irrelevant topics (random sample)
3 Mark 10-20 irrelevant as negative examples
4 Aim for ~1:2 ratio (relevant:irrelevant) to start
WARNING
Poor prior knowledge = poor model performance.
Garbage in, garbage out.
Garbage in, garbage out.
Step 4: Screen with Active Learning
Screening Loop
ASReview presents record
↓
Your decision
RelevantВключить для полнотекстового просмотра
IrrelevantExclude
↓
Model updatesRe-ranks remaining
↓
Next most likely relevantRepeat until stopping rule
Step 5: Stopping Decision
Stopping Rules Compared
Consecutive irrelevant (50-200)
Common, but no recall guarantee
% of total screened (e.g., 50%)
Predictable effort, variable recall
All records screened
100% recall, no time savings
Statistical stopping (Busfelder)
Evidence-based, requires plugin
VALIDATION REQUIREMENT
After stopping: manually screen random sample of unscreened records.
Report estimated recall with confidence interval.
Report estimated recall with confidence interval.
«Инструмент простой. Решения нет.
Feed it good examples. Check when you stop.
Экспортируйте файл проекта — это ваш контрольный журнал».
Feed it good examples. Check when you stop.
Экспортируйте файл проекта — это ваш контрольный журнал».
Оперативная инженерная библиотека
Validated prompts for meta-analysis tasks
Prompt Principles
Для надежных результатов LLM
1 Be specific: Define exact fields and formats
2 Provide examples: Show expected output format
3 Request uncertainty: Запросите флаги «NR» или «НЕЯСНО»
4 Demand quotes: Require source text for verification
5 Limit scope: One task per prompt, not everything at once
Подсказка 1: Извлечение данных RCT
Извлеките из этого РКИ следующее. Для каждого поля укажите:
- The value
- Точная цитата из статьи (в кавычках)
- «NR», если не сообщается, «НЕЯСНО», если неоднозначно
FIELDS:
1. Intervention group sample size (ITT): [n]
2. Control group sample size (ITT): [n]
3. Primary outcome definition: [text]
4. Primary outcome: intervention events/total: [x/n]
5. Primary outcome: control events/total: [x/n]
6. Risk ratio (95% CI): [RR (lower, upper)]
7. Follow-up duration: [weeks/months]
OUTPUT FORMAT: JSON со «значением» и «кавычкой» для каждого поля.
- The value
- Точная цитата из статьи (в кавычках)
- «NR», если не сообщается, «НЕЯСНО», если неоднозначно
FIELDS:
1. Intervention group sample size (ITT): [n]
2. Control group sample size (ITT): [n]
3. Primary outcome definition: [text]
4. Primary outcome: intervention events/total: [x/n]
5. Primary outcome: control events/total: [x/n]
6. Risk ratio (95% CI): [RR (lower, upper)]
7. Follow-up duration: [weeks/months]
OUTPUT FORMAT: JSON со «значением» и «кавычкой» для каждого поля.
Подсказка 2: Характеристики исследования
Извлеките характеристики исследования. Предоставьте точные котировки для проверки.
FIELDS:
1. Study design: [RCT / Cluster RCT / Crossover / Other]
2. Country/countries: [list]
3. Setting: [hospital / primary care / community / other]
4. Recruitment period: [start date - end date]
5. Funding source: [text]
6. Trial registration: [ID number or "NR"]
7. Conflicts of interest declared: [Yes/No/NR]
If information is in supplementary materials, note "See Supplement".
If truly not reported anywhere, mark "NR".
FIELDS:
1. Study design: [RCT / Cluster RCT / Crossover / Other]
2. Country/countries: [list]
3. Setting: [hospital / primary care / community / other]
4. Recruitment period: [start date - end date]
5. Funding source: [text]
6. Trial registration: [ID number or "NR"]
7. Conflicts of interest declared: [Yes/No/NR]
If information is in supplementary materials, note "See Supplement".
If truly not reported anywhere, mark "NR".
Prompt 3: Population Characteristics
Extract baseline population characteristics.
Отчитывайтесь отдельно по группам ВМЕШАТЕЛЬСТВА и КОНТРОЛЯ.
FIELDS (per group):
1. N randomized: [n]
2. N analyzed: [n]
3. Age: [mean (SD) or median (IQR)]
4. Sex (% female): [%]
5. Key inclusion criteria: [text]
6. Key exclusion criteria: [text]
7. Disease severity at baseline: [measure and value]
NOTE: If groups combined only, report combined with note.
Отчитывайтесь отдельно по группам ВМЕШАТЕЛЬСТВА и КОНТРОЛЯ.
FIELDS (per group):
1. N randomized: [n]
2. N analyzed: [n]
3. Age: [mean (SD) or median (IQR)]
4. Sex (% female): [%]
5. Key inclusion criteria: [text]
6. Key exclusion criteria: [text]
7. Disease severity at baseline: [measure and value]
NOTE: If groups combined only, report combined with note.
Prompt 4: Risk of Bias Screening
NOTE: Это только для ПРЕДВАРИТЕЛЬНОЙ маркировки.
Human assessment required for final judgment.
For each RoB 2 domain, identify relevant text:
D1 Randomization:
- Метод генерации последовательности: [цитата или НР]
- Метод сокрытия выделения: [цитата или НР]
D2 Deviations:
- Blinding of participants: [quote or NR]
- Blinding of personnel: [quote or NR]
D3 Missing data:
- Attrition rates: [intervention: x%, control: y%]
- Обработка недостающих данных: [цитата или НР]
DO NOT make judgments. Only extract quotes.
Human assessment required for final judgment.
For each RoB 2 domain, identify relevant text:
D1 Randomization:
- Метод генерации последовательности: [цитата или НР]
- Метод сокрытия выделения: [цитата или НР]
D2 Deviations:
- Blinding of participants: [quote or NR]
- Blinding of personnel: [quote or NR]
D3 Missing data:
- Attrition rates: [intervention: x%, control: y%]
- Обработка недостающих данных: [цитата или НР]
DO NOT make judgments. Only extract quotes.
«Подсказка — это ваш контракт с машиной.
Будьте точны в том, что вы спрашиваете.
Требуйте доказательств для каждого ответа.
Verify every output against the source."
Будьте точны в том, что вы спрашиваете.
Требуйте доказательств для каждого ответа.
Verify every output against the source."
Возможно, вы никогда не напишете систематический обзор.
Но ты будешь read them.
Как узнать, помогает ли ИИ
was done well or poorly?
Но ты будешь read them.
Как узнать, помогает ли ИИ
was done well or poorly?
The IBM Watson Oncology Failure
MD ANDERSON CANCER CENTER, 2017
IBM Watson for Oncology был обучен рекомендовать методы лечения рака.
After spending $62 million, доктор медицины Андерсон отменил проект.
Internal documents showed Watson made «небезопасно и неправильно» рекомендации по лечению. Обучение проводилось на синтетических случаях, а не на реальных данных пациентов.
ИИ выглядел уверенным. Рекомендации были опасны.
Lesson: AI confidence ≠ AI correctness
After spending $62 million, доктор медицины Андерсон отменил проект.
Internal documents showed Watson made «небезопасно и неправильно» рекомендации по лечению. Обучение проводилось на синтетических случаях, а не на реальных данных пациентов.
ИИ выглядел уверенным. Рекомендации были опасны.
Lesson: AI confidence ≠ AI correctness
STAT News investigation, 2017; IEEE Spectrum 2019
Вопросы для обзоров с помощью ИИ
Что искать в методах
1 Did they назвать инструменты ИИ used? (version, date)
2 Did they specify which tasks were AI-assisted?
3 Did they validate AI outputs? How?
4 Для скрининга ИИ: Что stopping rule? What estimated recall?
5 Для извлечения ИИ: Было 100% human verified?
6 Was there human oversight of all AI decisions?
Red Flags in AI-Assisted Reviews
Warning Signs
"AI screened all titles"
No human involvement?
«Извлеченные данные GPT»
No verification mentioned?
"Stopped after 500 consecutive irrelevant"
No recall estimate?
"AI-generated protocol"
Human decisions unclear?
No AI tools mentioned but clearly AI-written
Hidden AI use
Для пациентов и врачей
ЧТО ВАМ НУЖНО ЗНАТЬ
Good AI use: Speeds up the work, human verifies
Bad AI use: Replaces human judgment, no validation
An AI-assisted review can be trustworthy—if done right.
Bad AI use: Replaces human judgment, no validation
An AI-assisted review can be trustworthy—if done right.
Simple Questions to Ask
? «Использовался ли в этом обзоре искусственный интеллект?»
? «Были ли результаты ИИ проверены людьми?»
? "Could AI have missed important studies?"
"AI assistance is not a flaw—it is often an advantage.
But only if validated, only if disclosed.
Спросите: Машину проверяли?
Если ответ неясен, то и обзор тоже».
But only if validated, only if disclosed.
Спросите: Машину проверяли?
Если ответ неясен, то и обзор тоже».
Разве вы не считали исследователя
with unstable internet, limited compute,
no institutional subscription,
who still needs to synthesize evidence?
with unstable internet, limited compute,
no institutional subscription,
who still needs to synthesize evidence?
Бесплатные и офлайн-инструменты
ASReview
Desktop app
Works offline
Works offline
FREE
Abstrackr
Web-based
Free accounts
Free accounts
FREE
Rayyan
Free tier
Limited AI
Limited AI
FREEMIUM
RevMan
Cochrane tool
Full MA software
Full MA software
FREE
Offline Workflow
When Internet is Unreliable
Search Phase
↓
Библиотека/кафе: скачать все PDF-файлыПакетная загрузка при подключении
↓
Screening Phase
↓
ASReview desktopWorks fully offline
↓
Extraction Phase
↓
Spreadsheet + local PDFsNo AI needed
Low-Cost LLM Alternatives
WHEN API COSTS ARE PROHIBITIVE
• Claude/ChatGPT free tiers: Limited but functional
• Ollama + local models: Free, runs on laptop (requires download)
• Hugging Face inference: Free tier available
• Manual extraction: Still gold standard, just slower
• Ollama + local models: Free, runs on laptop (requires download)
• Hugging Face inference: Free tier available
• Manual extraction: Still gold standard, just slower
HONEST ASSESSMENT
ИИ — это удобство, а не необходимость.
All Cochrane reviews were done without AI.
Качество зависит от методов, а не от инструментов.
All Cochrane reviews were done without AI.
Качество зависит от методов, а не от инструментов.
Resource-Limited Decision Tree
Выбор подхода
Your Resources
↓
Internet reliability?
Stable
Web tools OKRayyan, Covidence
Unreliable
Desktop toolsASReview offline
None
Manual + spreadsheetsStill valid
«Доказательства принадлежат всем,
не только те, у кого быстрый интернет и платные подписки.
Инструменты могут отличаться. Методы остаются.
Quality synthesis is possible anywhere."
не только те, у кого быстрый интернет и платные подписки.
Инструменты могут отличаться. Методы остаются.
Quality synthesis is possible anywhere."
Validation Calculations
Размеры выборки для проверки ИИ
Estimating Recall After AI Screening
THE PROBLEM
Вы прекратили проверку на 1000 из 5000 записей.
Насколько вы уверены, что нашли все соответствующие исследования?
Насколько вы уверены, что нашли все соответствующие исследования?
Validation Sampling
Unscreened records (n=4000)
↓
Random sample (n=400)10% or at least 200
↓
Manual screening
0 relevant foundRecall ≈ 95-100%
Relevant foundScreen all remaining
Sample Size Formula
ДЛЯ 95% ДОВЕРИЯ В ОТЗЫВЕ
n = ln(1 - confidence) / ln(1 - prevalence)
Example:
If prevalence of relevant = 1% (0.01)
For 95% confidence (0.95):
n = ln(1 - 0.95) / ln(1 - 0.01)
n = ln(0.05) / ln(0.99)
n ≈ 299 records to sample
Example:
If prevalence of relevant = 1% (0.01)
For 95% confidence (0.95):
n = ln(1 - 0.95) / ln(1 - 0.01)
n = ln(0.05) / ln(0.99)
n ≈ 299 records to sample
Quick Reference Table
Размеры выборки для проверки
Prevalence 0.5%, 95% conf
598 records
Prevalence 1%, 95% conf
299 records
Prevalence 2%, 95% conf
149 records
Prevalence 5%, 95% conf
59 records
Practical minimum
200 records (conservative)
Отчет о вашей проверке
Пример текста методов:
«Мы использовали ASReview LAB (v1.2) для просмотра заголовков/аннотаций с помощью
active learning. Screening ceased after 150 consecutive
irrelevant records, having screened 1,247 of 4,892 records
(25%). To validate recall, we manually screened a random
sample of 300 unscreened records. No additional relevant
были выявлены исследования, предполагающие, что предполагаемый уровень запоминания составляет ≥95%
(binomial 95% CI: 91-100%)."
«Мы использовали ASReview LAB (v1.2) для просмотра заголовков/аннотаций с помощью
active learning. Screening ceased after 150 consecutive
irrelevant records, having screened 1,247 of 4,892 records
(25%). To validate recall, we manually screened a random
sample of 300 unscreened records. No additional relevant
были выявлены исследования, предполагающие, что предполагаемый уровень запоминания составляет ≥95%
(binomial 95% CI: 91-100%)."
«Проверка не является обязательной — это цена эффективности.
Calculate your sample. Screen it manually.
Сообщите о том, что вы нашли. Признайтесь, что вы могли упустить».
Calculate your sample. Screen it manually.
Сообщите о том, что вы нашли. Признайтесь, что вы могли упустить».
1 / 6