Le Silicon Scribe : l'IA en méta-analyse

N'avez-vous pas entendu parler de la machine qui lit
ten thousand abstracts in an hour,
qui extrait les données pendant que vous dormez,
that promises to libérez-vous de la corvée?

La révolution de l'IA dans la synthèse des preuves

67%

Workload reduction
with AI screening

95%

Recall achievable
avec l'apprentissage actif

10x

Faster screening
than manual

THE PROMISE

L'IA peut filtrer des résumés, extraire des données, évaluer le risque de biais et surveiller les nouveaux preuves—if used correctly.

When AI Fails in Healthcare

IBM WATSON ONCOLOGY, MD ANDERSON, 2013-2017

En 2013, le MD Anderson Cancer Center s'est associé à IBM Watson pour révolutionner les recommandations de traitement du cancer. Le coût du projet $62 million.

En 2017, le projet a été abandonné. Les recommandations de Watson se sont révélées "dangereuses et incorrectes" in multiple cases.

In one documented case, Watson recommended a treatment that would cause severe bleeding in a patient already on blood thinners.

The core problem: Watson had been trained primarily on hypothetical cases created by physicianset ne correspondent pas à des données réelles sur les patients. L'IA a appris à imiter les opinions d'experts plutôt que d'apprendre des résultats réels.

Stat News, 2017; IEEE Spectrum, 2019

THE LESSON

L'IA formée sur des données synthétiques ou hypothétiques échoue sur de vrais patients. L'écart entre les données d'entraînement et la réalité peut être mortel.

Le problème des hallucinations

LAWYERS SANCTIONED, NEW YORK, 2023

Attorneys used ChatGPT to research case law for a federal court brief.

L'IA a cité six cas avec des citations complètes, des citations et des numéros de page.

Aucun de ces cas n'existait.

Le juge a conclu que les citations étaient "charabia" et sanctionné les avocats.

Ce n'est pas un bug. C'est ainsi que fonctionnent les grands modèles de langage : ils prédisent un texte plausible, et non une vérité vérifiée.

Mata v. Avianca, Inc., 22-cv-1461 (S.D.N.Y. 2023)

La question centrale

When to Trust AI in Meta-Analysis

AI Tool Output

↓

Task Type?

Ranking/Prioritization

Lower riskHuman reviews top-ranked

Binary Decision

Medium riskNeeds validation

Text Generation

High riskHallucination possible

Ce que l'IA peut et ne peut pas faire

Honest Assessment

Screening prioritization ✓ Excellent

Duplicate detection ✓ Excellent

Extraction de données (structurée) ⚠ Needs verification

Risk of bias assessment ⚠ Preliminary only

Écriture protocole/méthodes ⚠ Draft only

Statistical analysis ✗ Human required

Clinical interpretation ✗ Human required

"La machine lit vite mais ne comprend pas.
Elle prédit le mot suivant, pas la vérité.
Utilisez-la pour accélérer, pas pour remplacer.
The judgment must remain yours."

N'avez-vous pas vu le réviseur
who screened ten thousand titles by hand,
whose eyes grew tired, whose attention wandered,
qui a manqué le une étude qui comptait?

Les outils de dépistage

ASReview

Active learning
Open source

Free

Rayyan

AI recommendations
Collaboration

Freemium

Abstrackr

Semi-automated
Web-based

Free

EPPI-Reviewer

Priority screening
Full workflow

Subscription

How Active Learning Works

ASReview Workflow

Import References

↓

Screen seed papers10-20 known relevant

↓

AI learns patternsMises à jour à chaque décision

↓

Prioritizes likely relevantMost promising first

↓

Stopping rule?

Consecutive irrelevante.g., 100-200 in row

% screenedpar exemple, 50 % avec contrôle de rappel

Performance réelle Données

VAN DE SCHOOT ET AL., 2021

Systematic evaluation of ASReview across 4 datasets:

• PTSD dataset: 95% recall after screening 40% of records
• Software fault prediction: 95% recall after 20%
• Virus metagenomics: 95% recall after 10%

Average workload reduction: 67-95% depending on prevalence.

But: Performance varies by topic and prevalence. Low-prevalence topics show greater efficiency gains.

Van de Schoot R et al. Nat Mach Intell. 2021;3:125-133

When AI-Assisted Screening Works

ASREVIEW AND COCHRANE COVID-19 RESPONSE, 2020

During the COVID-19 pandemic, Cochrane needed to screen 50,000+ citations weekly to keep reviews current.

Le système d'apprentissage actif d'ASReview a été déployé sous une surveillance humaine rigoureuse :

• Reduced human screening workload by 75%
• Missed fewer than 1% of relevant studies
• Validated at every stage by human reviewers

La clé du succès : human-in-the-loop validation at every stage.

Cochrane COVID-NMA consortium, 2020-2021

THE LESSON

L'IA augmente le jugement humain ; il ne le remplace pas. Le succès vient du partenariat et non de l’automatisation.

When Internal Validation Fails

EPIC SEPSIS MODEL, JAMA INTERNAL MEDICINE, 2021

Epic Systems deployed a sepsis prediction algorithm to hundreds of hospitals à travers les États-Unis.

Epic's internal validation showed excellent performance. Hospitals trusted it.

Puis est venue l’étude de validation externe dans JAMA Internal Medicine :

• The model missed 67% of sepsis cases
• It triggered thousands of false alarms
• Nurses developed severe "alert fatigue"

Le modèle avait été validé sur des données historiques provenant du même système ; il n’avait jamais été testé dans l’environnement clinique réel où il serait déployé.

Wong A et al. JAMA Intern Med. 2021;181(8):1065-1070

THE LESSON

La validation interne n'est pas une validation externe. Un modèle qui fonctionne en développement peut échouer lors du déploiement. Validez toujours dans le contexte du monde réel.

Le problème de l'arrêt

LE DANGER CACHÉ

Quand arrête-t-on le dépistage avec apprentissage actif ?

Si vous arrêtez trop tôt : Vous manquez des études pertinentes
Si vous arrêtez trop tard : Vous perdez des gains d’efficacité

L'algorithme ne peut pas vous dire quand vous avez tout trouvé. Il ne classe que ce qui reste.

There is no perfect stopping rule. Every rule trades recall for efficiency.

CRITICAL POINT

You must validez votre règle d'arrêt by manually checking a random sample of unscreened records.

AI Screening Decision Tree

Devriez-vous utiliser le dépistage par IA ?

Large Reference Set?

↓

<500 refs

Manual OKLes frais généraux de l'IA n'en valent pas la peine

500-2000 refs

AI helpfulModerate efficiency gain

>2000 refs

AI essentialMajor time savings

↓

Always validate with random sampleReport methodology in paper

"La machine trouve les aiguilles plus rapidement,
but it cannot guarantee none remain in the haystack.
Faites confiance au classement, vérifiez les arrêts,
et signalez toujours ce que vous avez fait.

N'as-tu pas rêvé de l'assistant
who reads every paper and fills every cell,
who never tires, never errs,
who extracts perfectly?

Cet assistant n'existe pas.

Le problème de la précision de l’extraction

ÉTUDE D'EXTRACTION DE DONNÉES GPT-4, 2024

Les chercheurs ont testé GPT-4 pour extraire les données de 100 articles ECR.

Results:
• Sample sizes: 89% accurate
• Effect estimates: 76% accurate
• Confidence intervals: 71% accurate
• Risk of bias judgments: 62% agreement with humans

A 24% error rate en effet, les estimations signifient qu'environ 1 étude sur 4 aurait des données erronées dans votre méta-analyse.

Guo Y et al. J Clin Epidemiol. 2024;165:111203

Le problème de la fabrication

GPT-4 HALLUCINATIONS IN SYSTEMATIC REVIEWS, 2023

Les chercheurs ont testé GPT-4 pour l’extraction de données à partir d’articles de revue systématique. Le modèle a reçu des fichiers PDF et a été invité à extraire la taille des échantillons, les valeurs p et les estimations des effets.

GPT-4 confidently provided all requested numbers with precise formatting.

But 23% des extractions étaient des « hallucinations »— nombres sans base dans le texte source.

In one case, the model fabricated a statistically significant result (p=0.003) d'une étude qui a effectivement révélé no significant effect (p=0.42).

La confiance du modèle était impossible à distinguer entre les données réelles et fabriquées.

Examen systématique des études de validation de l'IA, 2023

THE LESSON

Les LLM nécessitent une vérification humaine à 100 % pour les données quantitatives. Il n'y a pas de raccourci. Chaque numéro doit être vérifié par rapport à la source.

Flux de travail d'extraction de données LLM

Safe LLM Extraction Protocol

PDF/Full Text

↓

LLM extrait les donnéesStructured prompt

↓

Human verifies 100%NOT sampling

↓

Discrepancy?

Yes

Human value usedDocument error

No

ProceedLog verification

Ingénierie rapide pour l’extraction

# Example extraction prompt

Extract ce qui suit de cet ECR :

1. Sample size (intervention arm): [number]
2. Sample size (control arm): [number]
3. Primary outcome definition: [text]
4. Effect estimate: [number with unit]
5. 95% CI: [lower, upper]
6. p-value: [number]

If not reported, write "NR"
If unclear, write "UNCLEAR: [reason]"

# Provide exact quotes for verification

When LLMs Help vs. Hurt

LLM Extraction Value Assessment

Standardized fields (author, year) ✓ High accuracy

Simple numeric (sample size) ✓ Usually reliable

Complex numeric (adjusted OR) ⚠ Often wrong model

Composite outcomes ⚠ Misses components

Intention-to-treat vs per-protocol ✗ Frequently confused

Subgroup data ✗ High error rate

"The LLM extracts plausible numbers,
pas nécessairement des chiffres corrects.
Il s’agit d’une première ébauche rapide, pas d’une réponse finale.
Every cell must be verified by human eyes."

N'as-tu pas souhaité un juge
who reads every methods section,
who assesses bias without bias,
qui n'est jamais en désaccord avec themselves?

RobotReviewer

MARSHALL ET AL., NATURE MACHINE INTELLIGENCE, 2019

RobotReviewer uses machine learning to assess risk of bias in RCTs.

Validation against Cochrane assessments:
• Random sequence generation: 71% agreement
• Allocation concealment: 65% agreement
• Blinding of participants: 69% agreement
• Blinding of outcome assessment: 62% agreement

Human inter-rater agreement is typically 70-80%.

RobotReviewer approaches but does not exceed human performance.

Marshall IJ et al. Nat Mach Intell. 2019;1:115-117

RoB Automation Decision Tree

When to Use Automated RoB

Risk of Bias Assessment

↓

Review Type?

Rapid review

Automated OKAcknowledge limitation

Scoping review

Automated OKIf RoB included

Revue systématique complète

Preliminary onlyHuman verification required

Cochrane review

Human requiredDraft support only

Limitations of Automated RoB

What Machines Cannot Assess

✗ Outcome-specific bias (RoB 2 domain 4)

✗ Selective reporting based on protocol comparison

✗ Contextual judgment (Is this design appropriate?)

✗ Cross-paper inconsistencies (multiple reports)

✗ Influence du financement sur l’interprétation des résultats

LA LIMITE FONDAMENTALE

AI reads what is written. Bias assessment often requires judging what is not written.

Workflow hybride pour RoB

Best Practice Protocol

Full Text PDFs

↓

RobotReviewer screeningFlags potential issues

↓

Reviewer 1 assessesUsing AI output as reference

↓

Reviewer 2 independentlyBlinded to AI output

↓

Consensus meeting

↓

Final assessmentHuman decision documented

"Le robot lit la section méthodes
but cannot read between the lines.
Utilisez-le pour signaler, pas pour juger.
Le verdict doit être humain."

N'as-tu pas souhaité l'écrivain
who drafts your protocol in minutes,
who knows every PRISMA item,
who writes in perfect academic prose?

LLM pour la rédaction de protocoles

✓

Structure
generation

✓

Boilerplate
text

⚠

PICO
formulation

✗

Search
strategy

LA PROPOSITION DE VALEUR

Les LLM peuvent rédiger le structure et langage standard. Vous devez fournir le scientific decisions.

Le danger de la stratégie de recherche

TESTED ACROSS MULTIPLE LLMs, 2023-2024

Researchers asked GPT-4 and Claude to generate MEDLINE search strategies.

Common errors:
• Invented MeSH terms that don't exist
• Wrong field codes (e.g., [tiab] vs [tw])
• Concepts clés manquants dans la question de recherche
• Overly narrow strategies missing relevant studies
• Syntax errors that wouldn't execute

An information specialist must write or validate all search strategies.

Études de validation multiples 2023-2024

Protocol Writing Decision Tree

LLM Use in Protocol Development

Protocol Section

↓

Background/Rationale

LLM helpfulDraft + fact-check

Methods structure

LLM helpfulTemplate generation

PICO criteria

Human decidesLLM refines wording

Search strategy

Human/SpecialistAI too unreliable

Safe LLM Protocol Workflow

Quality Assurance Steps

1 Define PICO yourself (human scientific decision)

2 Ask LLM to draft protocol sections

3 Verify all cited guidelines exist (PRISMA, Cochrane)

4 Write search strategy with information specialist

5 Check all methodological decisions are defensible

6 Disclose AI assistance in protocol

7 Enregistrez la version vérifiée par l'homme

"La machine peut écrire les mots,
but it cannot make the decisions.
Vous définissez la question. Vous choisissez les méthodes.
Le protocole vous appartient : l'IA est la dactylographe. »

N'avez-vous pas vu la revue systématique
qui était obsolète avant sa publication,
while new trials accumulated in the literature,
unsynthesized, unknown?

Le problème de la revue vivante

PREUVE DU COVID-19 TSUNAMI, 2020

Au cours de la première année de la pandémie :

• 100,000+ COVID papers published
• Traditional reviews obsolete within weeks
• Clinicians made decisions on incomplete evidence

Le consortium COVID-NMA a utilisé AI-assisted surveillance to monitor new trials daily and update meta-analyses weekly.

Cela nécessitait : une surveillance automatisée des recherches, une priorisation du filtrage par l'IA, des flux de travail d'extraction de données rapides et des mises à jour statistiques continues.

Defined in Cochrane Living Reviews guidance

Composants d'IA pour les critiques vivantes

Automated Surveillance Stack

Système d'examen vivant

↓

Auto-searchDaily/weekly runs

AI triagePriority screening

Rapid extractionLLM-assisted

Auto-updateCumulative MA

↓

Human oversight at each stageRevue éditoriale avant publication

Outils de surveillance continue

PubMed Alerts

Free email alerts
Saved searches

Basic

Epistemonikos

Systematic review
database

AI-curated

Covidence

Auto-import
Living mode

Subscription

DistillerSR

AI screening
+ monitoring

Enterprise

Cadre décisionnel d’examen vivant

Quand faire une critique « vivante »

Est-ce que cela devrait être vivant ?

↓

Criteria Check

Priority questionClinical importance

Evidence evolvingActive trial pipeline

Resources securedFinancement pour 2 ans et plus

↓

All three required for living status

"La machine surveille la littérature
pendant que vous dormez.
But someone must wake to judge
si les nouvelles preuves changent la vérité."

Si vous utilisez la machine sans vérification,
vous ne savez pas quelles erreurs vous avez commises.

Si vous vérifiez tout ce que la machine produit,
what time have you saved?

La réponse se trouve dans strategic verification.

Le paradoxe de la vérification

THE DILEMMA

Full verification = No time savings
No verification = Unknown error rate
Strategic verification = Validated efficiency

Verification Strategy by Risk

High-risk tasks

100% human reviewExtraction de données, RoB

Medium-risk tasks

Sample validationScreening decisions

Low-risk tasks

Spot checksDeduplication

When Oversight Catches Bias

COCHRANE MACHINE LEARNING PILOT, 2022

Cochrane tested ML-assisted risk of bias assessment to accelerate systematic reviews.

L'algorithme a atteint 85 % d'accord avec les évaluateurs humains—seemingly impressive.

Mais l'équipe d'assurance qualité a analysé les 15 % de désaccords et a trouvé un modèle :

The AI was systematically biased toward rating industry-funded trials as low risk.

Les données de formation contenaient davantage d'étiquettes « à faible risque » pour les essais des sociétés pharmaceutiques ; l'algorithme a appris cette corrélation sans comprendre les préoccupations méthodologiques sous-jacentes.

Human oversight caught the pattern before any biased reviews were published.

Étude pilote du Cochrane Methods Groupe, 2022

THE LESSON

L'analyse des désaccords révèle un biais systématique. Une précision globale élevée peut masquer des schémas dangereux. Analysez toujours où et comment l'IA échoue, pas seulement à quelle fréquence.

Cadre d'assurance qualité pour les examens assistés par l'IA

Minimum Quality Standards

1 Pre-specify AI use in protocol (which tools, which tasks)

2 Document AI settings (model version, prompts, parameters)

3 Validate screening with random sample (calculate recall estimate)

4 Vérifiez toutes les données extraites against source documents

5 Human RoB assessment (AI as preliminary only)

6 Track error rates per AI task

7 Report transparently in methods section

Reporting AI Use (PRISMA-S)

QUE SIGNALER DANS VOTRE PAPIER

• Which AI tools were used (name, version, date)
• Which tasks were AI-assisted
• What validation was performed
• What error rates were observed
• What human oversight was maintained
• Any deviations du protocole en raison de l'IA limitations

EMERGING STANDARD

Journals increasingly require AI use statements. PRISMA-S extension for search reporting includes automation.

Le flux de travail complet AI-MA

Integrated Human-AI Process

Protocol (Human + LLM draft)

↓

Search (Human/Specialist)

↓

Screening (AI prioritize + Human decide)

↓

Extraction (LLM draft + Human verify 100%)

↓

RoB (AI flag + Human assess)

↓

Analysis (Human)

↓

Interpretation (Human)

"The machine is neither colleague nor replacement.
C'est un outil puissant, rapide et faillible.
Document what you used. Validate what it produced.
La responsabilité reste la vôtre."

N'avez-vous pas pensé
whose labor trained the model,
whose data it consumed without consent,
whose jobs it may displace?

Le travail caché

KENYAN DATA LABELERS, TIME MAGAZINE 2023

ChatGPT a été rendu "sûr" grâce à un processus appelé RLHF— Reinforcement Learning from Human Commentaires.

Les humains qui ont fourni ces commentaires étaient des travailleurs au Kenya, payés less than $2 per hour pour lire et étiqueter des contenus toxiques, violents et dérangeants.

Ils ont développé un traumatisme psychologique à cause de leur travail.

Tous les outils d'IA que vous utilisez reposent sur le travail humain, souvent invisible, souvent sous-payé, souvent lésés.

Perrigo B. Time Magazine. 2023 Jan 18.

Automating Inequality

UK A-LEVEL ALGORITHM SCANDAL, 2020

Lorsque la COVID-19 a annulé les examens de niveau A au Royaume-Uni, le gouvernement a utilisé un algorithme pour prédire les notes des élèves en fonction des performances scolaires historiques.

The results:

• Students from disadvantaged schools were systematically downgraded
• Students from les écoles privées ont été modernisées
• L'algorithme a annulé les prédictions des enseignants selon lesquelles les élèves réussir

After massive public outcry, 40 % des notes ont été révisées.

L'algorithme avait codé historical inequality as prediction. Les écoles qui envoyaient historiquement moins d'étudiants à l'université étaient pénalisées, quelles que soient les capacités individuelles des étudiants.

UK Office of Qualifications and Examinations Regulation, 2020

THE LESSON

L'IA peut automatiser les biais à grande échelle. les algorithmes formés sur ces données les perpétuent et les amplifient.

Cadre éthique pour l'IA dans la recherche

Questions to Ask

1 Transparency: Can I fully disclose how AI was used?

2 Accountability: Qui est responsable des erreurs d'IA ?

3 Equity: Does AI access create research inequities?

4 Labor: Quel travail a permis cet outil ?

5 Environment: What is the carbon cost of model training?

6 Reproducibility: Can others replicate my AI-assisted work?

Authorship and AI

ICMJE POSITION

AI tools cannot be listed as authors.

Authors must take responsibility for AI-generated content.

AI use must be disclosed in methods or acknowledgments.

YOUR RESPONSIBILITY

Si l'IA hallucine et que vous le publiez, vous en portez la responsabilité— ni OpenAI, ni Anthropic, ni l'outil.

"La machine n'a pas conscience.
Il ne se soucie pas de savoir si les données sont vraies.
Il ne sait pas qui a été blessé pour l'entraîner.
Vous devez être la conscience qui lui manque."

Le chemin à parcourir

Où va l'IA dans la synthèse des preuves

Emerging Capabilities

Multimodal AI

Extract from
figures/tables

2024-2025

Agent Systems

Multi-step
workflows

Emerging

RAG Systems

Retrieval-augmented
generation

Active research

Fine-tuned Models

MA-specific
training

In development

Ce qui ne changera PAS

Enduring Human Requirements

★ Définir la question de recherche (jugement clinique)

★ Interpreting clinical significance (domain expertise)

★ Assessing applicability (contextual knowledge)

★ Making recommendations (value judgments)

★ Taking responsibility (ethical accountability)

THE CONSTANT

L'IA va accélérer la mécanique.
La science reste humaine.

Préparer l'avenir

Skills to Develop

Future-Ready Researcher

↓

Prompt engineeringGetting good AI outputs

Validation methodsKnowing when AI errs

Core methodsAI cannot replace

↓

Les meilleurs utilisateurs de l'IA sont les meilleurs méthodologistesUnderstanding enables oversight

"The machine grows stronger each year.
Mais la question reste la même :
What is true? What helps patients?
L'IA peut aider à la recherche.
Vous seul pouvez fournir la réponse."

Testez vos connaissances

Quelle est la principale limitation de l'utilisation des LLM pour l'extraction de données ?

Ils sont trop lents

They can generate plausible but incorrect data (hallucinations)

They cannot read PDFs

Ils le sont aussi coûteux

When using AI screening (e.g., ASReview), what must you always do?

Trust the AI completely after training

Screen only the top 10% of ranked records

Valider la règle d'arrêt avec un échantillon aléatoire

Utiliser plusieurs outils d'IA simultanément

Pour quelle tâche l'IA ne doit-elle JAMAIS être le décideur final ?

Deduplication

Screening prioritization

Interprétation clinique des résultats

Reference formatting

References

Key Sources

Van de Schoot R et al. Nat Mach Intell. 2021;3:125-133. [ASReview]
Marshall IJ et al. Nat Mach Intell. 2019;1:115-117. [RobotReviewer]
Guo Y et al. J Clin Epidemiol. 2024;165:111203. [GPT-4 extraction]
Mata v. Avianca, 22-cv-1461 (S.D.N.Y. 2023). [Hallucination case]
Perrigo B. Time Magazine. 2023 Jan 18. [AI labor ethics]
Elliott JH et al. J Clin Epidemiol. 2017;91:23-30. [Living reviews]
Cochrane Handbook 2023. Chapter on automation.
ICMJE. Recommendations on AI authorship. 2023.
Rethlefsen ML et al. J Med Libr Assoc. 2021. [PRISMA-S]
Wang S et al. Syst Rev. 2023;12:178. [AI screening validation]

✔

Course Complete

"Vous connaissez maintenant le Silicon Scribe—
its powers and its limits.
Utilisez-la pour accélérer, pas pour remplacer.
Validate what it produces.
Documentez ce que vous avez fait.
Et rappelez-vous toujours :
La machine prédit le mot suivant.
Vous devez juger si ce mot est true."

ASReview: Step-by-Step Tutorial

De l'installation à la décision d'arrêt

Step 1: Installation

# Option A: Python pip (recommended)
pip install asreview

# Option B : Télécharger le bureau app
# https://asreview.nl/download/

# Launch ASReview LAB
asreview lab

REQUIREMENTS

• Python 3.8+ (pour l'installation pip)
• OR: Windows/Mac desktop app (no Python needed)
• Your references in RIS, CSV, or EndNote XML format

Step 2: Create Project & Import

Project Setup Workflow

New Project

↓

Nommez votre projetDescriptive, include date

↓

Import referencesRIS/CSV/XML file

↓

ASReview deduplicatesCheck count matches expected

↓

Prêt pour les connaissances préalables

Step 3: Add Prior Knowledge

CRITICAL STEP

Le modèle apprend de vos décisions initiales.
You need à la fois pertinent ET non pertinent examples.

Prior Knowledge Strategy

1 Add 5-10 known relevant études (à partir d'une recherche de cadrage)

2 Search for clearly irrelevant topics (random sample)

3 Mark 10-20 irrelevant as negative examples

4 Aim for ~1:2 ratio (relevant:irrelevant) to start

WARNING

Poor prior knowledge = poor model performance.
Garbage in, garbage out.

Step 4: Screen with Active Learning

Screening Loop

ASReview presents record

↓

Your decision

RelevantInclure pour le texte intégral

IrrelevantExclude

↓

Model updatesRe-ranks remaining

↓

Next most likely relevantRepeat until stopping rule

Step 5: Stopping Decision

Stopping Rules Compared

Consecutive irrelevant (50-200) Common, but no recall guarantee

% of total screened (e.g., 50%) Predictable effort, variable recall

All records screened 100% recall, no time savings

Statistical stopping (Busfelder) Evidence-based, requires plugin

VALIDATION REQUIREMENT

After stopping: manually screen random sample of unscreened records.
Report estimated recall with confidence interval.

"L'outil est simple. Les décisions ne le sont pas.
Feed it good examples. Check when you stop.
Exportez votre fichier de projet : c'est votre piste d'audit."

Bibliothèque d'ingénierie rapide

Validated prompts for meta-analysis tasks

Prompt Principles

Pour des sorties LLM fiables

1 Be specific: Define exact fields and formats

2 Provide examples: Show expected output format

3 Request uncertainty: Demandez les drapeaux "NR" ou "UNCLEAR"

4 Demand quotes: Require source text for verification

5 Limit scope: One task per prompt, not everything at once

Invite 1 : Extraction de données ECR

Extrayez ce qui suit de cet ECR. Pour chaque champ, indiquez :
- The value
- La citation exacte du journal (entre guillemets)
- "NR" si non signalé, "UNCLEAR" si ambigu

FIELDS:
1. Intervention group sample size (ITT): [n]
2. Control group sample size (ITT): [n]
3. Primary outcome definition: [text]
4. Primary outcome: intervention events/total: [x/n]
5. Primary outcome: control events/total: [x/n]
6. Risk ratio (95% CI): [RR (lower, upper)]
7. Follow-up duration: [weeks/months]

OUTPUT FORMAT: JSON avec "valeur" et "devis" pour chaque champ

Invite 2 : Caractéristiques de l'étude

Extraire les caractéristiques de l’étude. Fournissez des devis exacts pour vérification.

FIELDS:
1. Study design: [RCT / Cluster RCT / Crossover / Other]
2. Country/countries: [list]
3. Setting: [hospital / primary care / community / other]
4. Recruitment period: [start date - end date]
5. Funding source: [text]
6. Trial registration: [ID number or "NR"]
7. Conflicts of interest declared: [Yes/No/NR]

If information is in supplementary materials, note "See Supplement".
If truly not reported anywhere, mark "NR".

Prompt 3: Population Characteristics

Extract baseline population characteristics.
Rapport pour les groupes d'INTERVENTION et de CONTRÔLE séparément.

FIELDS (per group):
1. N randomized: [n]
2. N analyzed: [n]
3. Age: [mean (SD) or median (IQR)]
4. Sex (% female): [%]
5. Key inclusion criteria: [text]
6. Key exclusion criteria: [text]
7. Disease severity at baseline: [measure and value]

NOTE: If groups combined only, report combined with note.

Prompt 4: Risk of Bias Screening

NOTE: Ceci concerne uniquement le signalement PRÉLIMINAIRE.
Human assessment required for final judgment.

For each RoB 2 domain, identify relevant text:

D1 Randomization:
- Méthode de génération de séquence : [citation ou NR]
- Méthode de masquage d'allocation : [devis ou NR]

D2 Deviations:
- Blinding of participants: [quote or NR]
- Blinding of personnel: [quote or NR]

D3 Missing data:
- Attrition rates: [intervention: x%, control: y%]
- Traitement des données manquantes : [devis ou NR]

DO NOT make judgments. Only extract quotes.

"L'invite est votre contrat avec la machine.
Soyez précis dans ce que vous demandez.
Exigez des preuves pour chaque réponse.
Verify every output against the source."

Vous ne rédigerez peut-être jamais une revue systématique.
Mais tu le feras read them.

Comment savoir si l'assistance de l'IA
was done well or poorly?

The IBM Watson Oncology Failure

MD ANDERSON CANCER CENTER, 2017

IBM Watson for Oncology a été formé pour recommander des traitements contre le cancer.

After spending $62 million, MD Anderson a annulé le projet.

Internal documents showed Watson made "dangereuses et incorrectes" recommandations de traitement. Il a été formé sur des cas synthétiques et non sur des données réelles de patients.

L’IA avait l’air confiante. Les recommandations étaient dangereuses.

Lesson: AI confidence ≠ AI correctness

STAT News investigation, 2017; IEEE Spectrum 2019

Questions pour les examens assistés par l'IA

Que rechercher dans les méthodes

1 Did they nommer les outils d'IA used? (version, date)

2 Did they specify which tasks were AI-assisted?

3 Did they validate AI outputs? How?

4 Pour le dépistage de l’IA : quoi stopping rule? What estimated recall?

5 Pour l'extraction de l'IA : Était 100% human verified?

6 Was there human oversight of all AI decisions?

Red Flags in AI-Assisted Reviews

Warning Signs

"AI screened all titles" No human involvement?

"Données extraites par GPT" No verification mentioned?

"Stopped after 500 consecutive irrelevant" No recall estimate?

"AI-generated protocol" Human decisions unclear?

No AI tools mentioned but clearly AI-written Hidden AI use

Pour les patients et les cliniciens

CE QUE VOUS DEVEZ SAVOIR

Good AI use: Speeds up the work, human verifies
Bad AI use: Replaces human judgment, no validation

An AI-assisted review can be trustworthy—if done right.

Simple Questions to Ask

? "L'IA a-t-elle été utilisée dans cet examen ?"

? "Les résultats de l'IA ont-ils été vérifiés par des humains ?"

? "Could AI have missed important studies?"

"AI assistance is not a flaw—it is often an advantage.
But only if validated, only if disclosed.
Demandez : la machine a-t-elle été vérifiée ?
Si la réponse n'est pas claire, la réponse l'est également. "

N'avez-vous pas considéré le chercheur
with unstable internet, limited compute,
no institutional subscription,
who still needs to synthesize evidence?

Gratuit et Outils compatibles hors ligne

ASReview

Desktop app
Works offline

FREE

Abstrackr

Web-based
Free accounts

FREE

Rayyan

Free tier
Limited AI

FREEMIUM

RevMan

Cochrane tool
Full MA software

FREE

Offline Workflow

When Internet is Unreliable

Search Phase

↓

Bibliothèque/café : téléchargez tous les fichiers PDFTéléchargement par lots une fois connecté

↓

Screening Phase

↓

ASReview desktopWorks fully offline

↓

Extraction Phase

↓

Spreadsheet + local PDFsNo AI needed

Low-Cost LLM Alternatives

WHEN API COSTS ARE PROHIBITIVE

• Claude/ChatGPT free tiers: Limited but functional
• Ollama + local models: Free, runs on laptop (requires download)
• Hugging Face inference: Free tier available
• Manual extraction: Still gold standard, just slower

HONEST ASSESSMENT

L'IA est une commodité, pas une nécessité.
All Cochrane reviews were done without AI.
La qualité vient des méthodes, pas de outils.

Resource-Limited Decision Tree

Choisir votre approche

Your Resources

↓

Internet reliability?

Stable

Web tools OKRayyan, Covidence

Unreliable

Desktop toolsASReview offline

None

Manual + spreadsheetsStill valid

"Les preuves appartiennent à tout le monde,
pas seulement à ceux qui disposent d'une connexion Internet rapide et d'abonnements payants.
Les outils peuvent différer. Les méthodes demeurent.
Quality synthesis is possible anywhere."

Validation Calculations

Tailles d'échantillon pour la vérification de l'IA

Estimating Recall After AI Screening

THE PROBLEM

Vous avez arrêté le dépistage à 1 000 sur 5 000 enregistrements.
Dans quelle mesure êtes-vous sûr d'avoir trouvé toutes les études pertinentes ?

Validation Sampling

Unscreened records (n=4000)

↓

Random sample (n=400)10% or at least 200

↓

Manual screening

0 relevant foundRecall ≈ 95-100%

Relevant foundScreen all remaining

Sample Size Formula

POUR 95 % DE CONFIANCE DANS LE RAPPEL

                    n = ln(1 - confidence) / ln(1 - prevalence)

Example:

                    If prevalence of relevant = 1% (0.01)

                    For 95% confidence (0.95):

                    n = ln(1 - 0.95) / ln(1 - 0.01)

                    n = ln(0.05) / ln(0.99)

                    n ≈ 299 records to sample

Quick Reference Table

Tailles des échantillons pour la validation

Prevalence 0.5%, 95% conf 598 records

Prevalence 1%, 95% conf 299 records

Prevalence 2%, 95% conf 149 records

Prevalence 5%, 95% conf 59 records

Practical minimum 200 records (conservative)

Déclarer votre Validation

Exemple de méthode de texte :

"Nous avons utilisé ASReview LAB (v1.2) pour la sélection des titres/résumés avec
active learning. Screening ceased after 150 consecutive
irrelevant records, having screened 1,247 of 4,892 records
(25%). To validate recall, we manually screened a random
sample of 300 unscreened records. No additional relevant
des études ont été identifiées, suggérant un rappel estimé ≥95 %
(binomial 95% CI: 91-100%)."

"La validation n'est pas facultatif : c'est le prix de l'efficacité.
Calculate your sample. Screen it manually.
Rapportez ce que vous avez trouvé. Admettez ce que vous avez peut-être manqué. »