==================== MODULE 1 : LA PROMESSE ET LE PÉRIL ====================
N'avez-vous pas entendu parler de la machine qui lit
ten thousand abstracts in an hour,
qui extrait les données pendant que vous dormez,
that promises to libérez-vous de la corvée?
La révolution de l'IA dans la synthèse des preuves
67%
Workload reduction
with AI screening
95%
Recall achievable
avec l'apprentissage actif
10x
Faster screening
than manual
THE PROMISE
L'IA peut filtrer des résumés, extraire des données, évaluer le risque de biais et surveiller les nouveaux preuves—if used correctly.
When AI Fails in Healthcare
IBM WATSON ONCOLOGY, MD ANDERSON, 2013-2017
En 2013, le MD Anderson Cancer Center s'est associé à IBM Watson pour révolutionner les recommandations de traitement du cancer. Le coût du projet $62 million.

En 2017, le projet a été abandonné. Les recommandations de Watson se sont révélées "dangereuses et incorrectes" in multiple cases.

In one documented case, Watson recommended a treatment that would cause severe bleeding in a patient already on blood thinners.

The core problem: Watson had been trained primarily on hypothetical cases created by physicianset ne correspondent pas à des données réelles sur les patients. L'IA a appris à imiter les opinions d'experts plutôt que d'apprendre des résultats réels.
Stat News, 2017; IEEE Spectrum, 2019
THE LESSON
L'IA formée sur des données synthétiques ou hypothétiques échoue sur de vrais patients. L'écart entre les données d'entraînement et la réalité peut être mortel.
Le problème des hallucinations
LAWYERS SANCTIONED, NEW YORK, 2023
Attorneys used ChatGPT to research case law for a federal court brief.

L'IA a cité six cas avec des citations complètes, des citations et des numéros de page.

Aucun de ces cas n'existait.

Le juge a conclu que les citations étaient "charabia" et sanctionné les avocats.

Ce n'est pas un bug. C'est ainsi que fonctionnent les grands modèles de langage : ils prédisent un texte plausible, et non une vérité vérifiée.
Mata v. Avianca, Inc., 22-cv-1461 (S.D.N.Y. 2023)
La question centrale

When to Trust AI in Meta-Analysis

AI Tool Output
Task Type?
Ranking/Prioritization
Lower riskHuman reviews top-ranked
Binary Decision
Medium riskNeeds validation
Text Generation
High riskHallucination possible
Ce que l'IA peut et ne peut pas faire

Honest Assessment

Screening prioritization ✓ Excellent
Duplicate detection ✓ Excellent
Extraction de données (structurée) ⚠ Needs verification
Risk of bias assessment ⚠ Preliminary only
Écriture protocole/méthodes ⚠ Draft only
Statistical analysis ✗ Human required
Clinical interpretation ✗ Human required
"La machine lit vite mais ne comprend pas.
Elle prédit le mot suivant, pas la vérité.
Utilisez-la pour accélérer, pas pour remplacer.
The judgment must remain yours."
==================== MODULE 2 : DÉPISTAGE ASSISTÉ PAR L'IA ====================
N'avez-vous pas vu le réviseur
who screened ten thousand titles by hand,
whose eyes grew tired, whose attention wandered,
qui a manqué le une étude qui comptait?
Les outils de dépistage
ASReview
Active learning
Open source
Free
Rayyan
AI recommendations
Collaboration
Freemium
Abstrackr
Semi-automated
Web-based
Free
EPPI-Reviewer
Priority screening
Full workflow
Subscription
How Active Learning Works

ASReview Workflow

Import References
Screen seed papers10-20 known relevant
AI learns patternsMises à jour à chaque décision
Prioritizes likely relevantMost promising first
Stopping rule?
Consecutive irrelevante.g., 100-200 in row
% screenedpar exemple, 50 % avec contrôle de rappel
Performance réelle Données
VAN DE SCHOOT ET AL., 2021
Systematic evaluation of ASReview across 4 datasets:

PTSD dataset: 95% recall after screening 40% of records
Software fault prediction: 95% recall after 20%
Virus metagenomics: 95% recall after 10%

Average workload reduction: 67-95% depending on prevalence.

But: Performance varies by topic and prevalence. Low-prevalence topics show greater efficiency gains.
Van de Schoot R et al. Nat Mach Intell. 2021;3:125-133
When AI-Assisted Screening Works
ASREVIEW AND COCHRANE COVID-19 RESPONSE, 2020
During the COVID-19 pandemic, Cochrane needed to screen 50,000+ citations weekly to keep reviews current.

Le système d'apprentissage actif d'ASReview a été déployé sous une surveillance humaine rigoureuse :

• Reduced human screening workload by 75%
• Missed fewer than 1% of relevant studies
• Validated at every stage by human reviewers

La clé du succès : human-in-the-loop validation at every stage.
Cochrane COVID-NMA consortium, 2020-2021
THE LESSON
L'IA augmente le jugement humain ; il ne le remplace pas. Le succès vient du partenariat et non de l’automatisation.
When Internal Validation Fails
EPIC SEPSIS MODEL, JAMA INTERNAL MEDICINE, 2021
Epic Systems deployed a sepsis prediction algorithm to hundreds of hospitals à travers les États-Unis.

Epic's internal validation showed excellent performance. Hospitals trusted it.

Puis est venue l’étude de validation externe dans JAMA Internal Medicine :

• The model missed 67% of sepsis cases
• It triggered thousands of false alarms
• Nurses developed severe "alert fatigue"

Le modèle avait été validé sur des données historiques provenant du même système ; il n’avait jamais été testé dans l’environnement clinique réel où il serait déployé.
Wong A et al. JAMA Intern Med. 2021;181(8):1065-1070
THE LESSON
La validation interne n'est pas une validation externe. Un modèle qui fonctionne en développement peut échouer lors du déploiement. Validez toujours dans le contexte du monde réel.
Le problème de l'arrêt
LE DANGER CACHÉ
Quand arrête-t-on le dépistage avec apprentissage actif ?

Si vous arrêtez trop tôt : Vous manquez des études pertinentes
Si vous arrêtez trop tard : Vous perdez des gains d’efficacité

L'algorithme ne peut pas vous dire quand vous avez tout trouvé. Il ne classe que ce qui reste.

There is no perfect stopping rule. Every rule trades recall for efficiency.
CRITICAL POINT
You must validez votre règle d'arrêt by manually checking a random sample of unscreened records.
AI Screening Decision Tree

Devriez-vous utiliser le dépistage par IA ?

Large Reference Set?
<500 refs
Manual OKLes frais généraux de l'IA n'en valent pas la peine
500-2000 refs
AI helpfulModerate efficiency gain
>2000 refs
AI essentialMajor time savings
Always validate with random sampleReport methodology in paper
"La machine trouve les aiguilles plus rapidement,
but it cannot guarantee none remain in the haystack.
Faites confiance au classement, vérifiez les arrêts,
et signalez toujours ce que vous avez fait.
========================= MODULE 3 : LLM POUR L'EXTRACTION DE DONNEES ====================
N'as-tu pas rêvé de l'assistant
who reads every paper and fills every cell,
who never tires, never errs,
who extracts perfectly?

Cet assistant n'existe pas.
Le problème de la précision de l’extraction
ÉTUDE D'EXTRACTION DE DONNÉES GPT-4, 2024
Les chercheurs ont testé GPT-4 pour extraire les données de 100 articles ECR.

Results:
• Sample sizes: 89% accurate
• Effect estimates: 76% accurate
• Confidence intervals: 71% accurate
• Risk of bias judgments: 62% agreement with humans

A 24% error rate en effet, les estimations signifient qu'environ 1 étude sur 4 aurait des données erronées dans votre méta-analyse.
Guo Y et al. J Clin Epidemiol. 2024;165:111203
Le problème de la fabrication
GPT-4 HALLUCINATIONS IN SYSTEMATIC REVIEWS, 2023
Les chercheurs ont testé GPT-4 pour l’extraction de données à partir d’articles de revue systématique. Le modèle a reçu des fichiers PDF et a été invité à extraire la taille des échantillons, les valeurs p et les estimations des effets.

GPT-4 confidently provided all requested numbers with precise formatting.

But 23% des extractions étaient des « hallucinations »— nombres sans base dans le texte source.

In one case, the model fabricated a statistically significant result (p=0.003) d'une étude qui a effectivement révélé no significant effect (p=0.42).

La confiance du modèle était impossible à distinguer entre les données réelles et fabriquées.
Examen systématique des études de validation de l'IA, 2023
THE LESSON
Les LLM nécessitent une vérification humaine à 100 % pour les données quantitatives. Il n'y a pas de raccourci. Chaque numéro doit être vérifié par rapport à la source.
Flux de travail d'extraction de données LLM

Safe LLM Extraction Protocol

PDF/Full Text
LLM extrait les donnéesStructured prompt
Human verifies 100%NOT sampling
Discrepancy?
Yes
Human value usedDocument error
No
ProceedLog verification
Ingénierie rapide pour l’extraction
# Example extraction prompt

Extract ce qui suit de cet ECR :

1. Sample size (intervention arm): [number]
2. Sample size (control arm): [number]
3. Primary outcome definition: [text]
4. Effect estimate: [number with unit]
5. 95% CI: [lower, upper]
6. p-value: [number]

If not reported, write "NR"
If unclear, write "UNCLEAR: [reason]"

# Provide exact quotes for verification
When LLMs Help vs. Hurt

LLM Extraction Value Assessment

Standardized fields (author, year) ✓ High accuracy
Simple numeric (sample size) ✓ Usually reliable
Complex numeric (adjusted OR) ⚠ Often wrong model
Composite outcomes ⚠ Misses components
Intention-to-treat vs per-protocol ✗ Frequently confused
Subgroup data ✗ High error rate
"The LLM extracts plausible numbers,
pas nécessairement des chiffres corrects.
Il s’agit d’une première ébauche rapide, pas d’une réponse finale.
Every cell must be verified by human eyes."
=================== MODULE 4 : RISQUE AUTOMATISÉ DE BIAIS ====================
N'as-tu pas souhaité un juge
who reads every methods section,
who assesses bias without bias,
qui n'est jamais en désaccord avec themselves?
RobotReviewer
MARSHALL ET AL., NATURE MACHINE INTELLIGENCE, 2019
RobotReviewer uses machine learning to assess risk of bias in RCTs.

Validation against Cochrane assessments:
• Random sequence generation: 71% agreement
• Allocation concealment: 65% agreement
• Blinding of participants: 69% agreement
• Blinding of outcome assessment: 62% agreement

Human inter-rater agreement is typically 70-80%.

RobotReviewer approaches but does not exceed human performance.
Marshall IJ et al. Nat Mach Intell. 2019;1:115-117
RoB Automation Decision Tree

When to Use Automated RoB

Risk of Bias Assessment
Review Type?
Rapid review
Automated OKAcknowledge limitation
Scoping review
Automated OKIf RoB included
Revue systématique complète
Preliminary onlyHuman verification required
Cochrane review
Human requiredDraft support only
Limitations of Automated RoB

What Machines Cannot Assess

Outcome-specific bias (RoB 2 domain 4)
Selective reporting based on protocol comparison
Contextual judgment (Is this design appropriate?)
Cross-paper inconsistencies (multiple reports)
Influence du financement sur l’interprétation des résultats
LA LIMITE FONDAMENTALE
AI reads what is written. Bias assessment often requires judging what is not written.
Workflow hybride pour RoB

Best Practice Protocol

Full Text PDFs
RobotReviewer screeningFlags potential issues
Reviewer 1 assessesUsing AI output as reference
Reviewer 2 independentlyBlinded to AI output
Consensus meeting
Final assessmentHuman decision documented
"Le robot lit la section méthodes
but cannot read between the lines.
Utilisez-le pour signaler, pas pour juger.
Le verdict doit être humain."
==================== MODULE 5 : GPT POUR L'ÉCRITURE DE PROTOCOLE ====================
N'as-tu pas souhaité l'écrivain
who drafts your protocol in minutes,
who knows every PRISMA item,
who writes in perfect academic prose?
LLM pour la rédaction de protocoles
Structure
generation
Boilerplate
text
PICO
formulation
Search
strategy
LA PROPOSITION DE VALEUR
Les LLM peuvent rédiger le structure et langage standard. Vous devez fournir le scientific decisions.
Le danger de la stratégie de recherche
TESTED ACROSS MULTIPLE LLMs, 2023-2024
Researchers asked GPT-4 and Claude to generate MEDLINE search strategies.

Common errors:
• Invented MeSH terms that don't exist
• Wrong field codes (e.g., [tiab] vs [tw])
• Concepts clés manquants dans la question de recherche
• Overly narrow strategies missing relevant studies
• Syntax errors that wouldn't execute

An information specialist must write or validate all search strategies.
Études de validation multiples 2023-2024
Protocol Writing Decision Tree

LLM Use in Protocol Development

Protocol Section
Background/Rationale
LLM helpfulDraft + fact-check
Methods structure
LLM helpfulTemplate generation
PICO criteria
Human decidesLLM refines wording
Search strategy
Human/SpecialistAI too unreliable
Safe LLM Protocol Workflow

Quality Assurance Steps

1 Define PICO yourself (human scientific decision)
2 Ask LLM to draft protocol sections
3 Verify all cited guidelines exist (PRISMA, Cochrane)
4 Write search strategy with information specialist
5 Check all methodological decisions are defensible
6 Disclose AI assistance in protocol
7 Enregistrez la version vérifiée par l'homme
"La machine peut écrire les mots,
but it cannot make the decisions.
Vous définissez la question. Vous choisissez les méthodes.
Le protocole vous appartient : l'IA est la dactylographe. »
==================== MODULE 6 : RÉVISIONS VIVANTES + IA =====================
N'avez-vous pas vu la revue systématique
qui était obsolète avant sa publication,
while new trials accumulated in the literature,
unsynthesized, unknown?
Le problème de la revue vivante
PREUVE DU COVID-19 TSUNAMI, 2020
Au cours de la première année de la pandémie :

100,000+ COVID papers published
• Traditional reviews obsolete within weeks
• Clinicians made decisions on incomplete evidence

Le consortium COVID-NMA a utilisé AI-assisted surveillance to monitor new trials daily and update meta-analyses weekly.

Cela nécessitait : une surveillance automatisée des recherches, une priorisation du filtrage par l'IA, des flux de travail d'extraction de données rapides et des mises à jour statistiques continues.
Defined in Cochrane Living Reviews guidance
Composants d'IA pour les critiques vivantes

Automated Surveillance Stack

Système d'examen vivant
Auto-searchDaily/weekly runs
AI triagePriority screening
Rapid extractionLLM-assisted
Auto-updateCumulative MA
Human oversight at each stageRevue éditoriale avant publication
Outils de surveillance continue
PubMed Alerts
Free email alerts
Saved searches
Basic
Epistemonikos
Systematic review
database
AI-curated
Covidence
Auto-import
Living mode
Subscription
DistillerSR
AI screening
+ monitoring
Enterprise
Cadre décisionnel d’examen vivant

Quand faire une critique « vivante »

Est-ce que cela devrait être vivant ?
Criteria Check
Priority questionClinical importance
Evidence evolvingActive trial pipeline
Resources securedFinancement pour 2 ans et plus
All three required for living status
"La machine surveille la littérature
pendant que vous dormez.
But someone must wake to judge
si les nouvelles preuves changent la vérité."
============== MODULE 7 : CADRE D'ASSURANCE QUALITÉ ==========================
Si vous utilisez la machine sans vérification,
vous ne savez pas quelles erreurs vous avez commises.

Si vous vérifiez tout ce que la machine produit,
what time have you saved?

La réponse se trouve dans strategic verification.
Le paradoxe de la vérification
THE DILEMMA
Full verification = No time savings
No verification = Unknown error rate
Strategic verification = Validated efficiency

Verification Strategy by Risk

High-risk tasks
100% human reviewExtraction de données, RoB
Medium-risk tasks
Sample validationScreening decisions
Low-risk tasks
Spot checksDeduplication
When Oversight Catches Bias
COCHRANE MACHINE LEARNING PILOT, 2022
Cochrane tested ML-assisted risk of bias assessment to accelerate systematic reviews.

L'algorithme a atteint 85 % d'accord avec les évaluateurs humains—seemingly impressive.

Mais l'équipe d'assurance qualité a analysé les 15 % de désaccords et a trouvé un modèle :

The AI was systematically biased toward rating industry-funded trials as low risk.

Les données de formation contenaient davantage d'étiquettes « à faible risque » pour les essais des sociétés pharmaceutiques ; l'algorithme a appris cette corrélation sans comprendre les préoccupations méthodologiques sous-jacentes.

Human oversight caught the pattern before any biased reviews were published.
Étude pilote du Cochrane Methods Groupe, 2022
THE LESSON
L'analyse des désaccords révèle un biais systématique. Une précision globale élevée peut masquer des schémas dangereux. Analysez toujours où et comment l'IA échoue, pas seulement à quelle fréquence.
Cadre d'assurance qualité pour les examens assistés par l'IA

Minimum Quality Standards

1 Pre-specify AI use in protocol (which tools, which tasks)
2 Document AI settings (model version, prompts, parameters)
3 Validate screening with random sample (calculate recall estimate)
4 Vérifiez toutes les données extraites against source documents
5 Human RoB assessment (AI as preliminary only)
6 Track error rates per AI task
7 Report transparently in methods section
Reporting AI Use (PRISMA-S)
QUE SIGNALER DANS VOTRE PAPIER
Which AI tools were used (name, version, date)
Which tasks were AI-assisted
What validation was performed
What error rates were observed
What human oversight was maintained
Any deviations du protocole en raison de l'IA limitations
EMERGING STANDARD
Journals increasingly require AI use statements. PRISMA-S extension for search reporting includes automation.
Le flux de travail complet AI-MA

Integrated Human-AI Process

Protocol (Human + LLM draft)
Search (Human/Specialist)
Screening (AI prioritize + Human decide)
Extraction (LLM draft + Human verify 100%)
RoB (AI flag + Human assess)
Analysis (Human)
Interpretation (Human)
"The machine is neither colleague nor replacement.
C'est un outil puissant, rapide et faillible.
Document what you used. Validate what it produced.
La responsabilité reste la vôtre."
==================== MODULE 8 : CONSIDÉRATIONS ÉTHIQUES ====================
N'avez-vous pas pensé
whose labor trained the model,
whose data it consumed without consent,
whose jobs it may displace?
Le travail caché
KENYAN DATA LABELERS, TIME MAGAZINE 2023
ChatGPT a été rendu "sûr" grâce à un processus appelé RLHF— Reinforcement Learning from Human Commentaires.

Les humains qui ont fourni ces commentaires étaient des travailleurs au Kenya, payés less than $2 per hour pour lire et étiqueter des contenus toxiques, violents et dérangeants.

Ils ont développé un traumatisme psychologique à cause de leur travail.

Tous les outils d'IA que vous utilisez reposent sur le travail humain, souvent invisible, souvent sous-payé, souvent lésés.
Perrigo B. Time Magazine. 2023 Jan 18.
Automating Inequality
UK A-LEVEL ALGORITHM SCANDAL, 2020
Lorsque la COVID-19 a annulé les examens de niveau A au Royaume-Uni, le gouvernement a utilisé un algorithme pour prédire les notes des élèves en fonction des performances scolaires historiques.

The results:

• Students from disadvantaged schools were systematically downgraded
• Students from les écoles privées ont été modernisées
• L'algorithme a annulé les prédictions des enseignants selon lesquelles les élèves réussir

After massive public outcry, 40 % des notes ont été révisées.

L'algorithme avait codé historical inequality as prediction. Les écoles qui envoyaient historiquement moins d'étudiants à l'université étaient pénalisées, quelles que soient les capacités individuelles des étudiants.
UK Office of Qualifications and Examinations Regulation, 2020
THE LESSON
L'IA peut automatiser les biais à grande échelle. les algorithmes formés sur ces données les perpétuent et les amplifient.
Cadre éthique pour l'IA dans la recherche

Questions to Ask

1 Transparency: Can I fully disclose how AI was used?
2 Accountability: Qui est responsable des erreurs d'IA ?
3 Equity: Does AI access create research inequities?
4 Labor: Quel travail a permis cet outil ?
5 Environment: What is the carbon cost of model training?
6 Reproducibility: Can others replicate my AI-assisted work?
Authorship and AI
ICMJE POSITION
AI tools cannot be listed as authors.

Authors must take responsibility for AI-generated content.

AI use must be disclosed in methods or acknowledgments.
YOUR RESPONSIBILITY
Si l'IA hallucine et que vous le publiez, vous en portez la responsabilité— ni OpenAI, ni Anthropic, ni l'outil.
"La machine n'a pas conscience.
Il ne se soucie pas de savoir si les données sont vraies.
Il ne sait pas qui a été blessé pour l'entraîner.
Vous devez être la conscience qui lui manque."
===================== MODULE 9 : ORIENTATIONS FUTURES ====================
Le chemin à parcourir
Où va l'IA dans la synthèse des preuves
Emerging Capabilities
Multimodal AI
Extract from
figures/tables
2024-2025
Agent Systems
Multi-step
workflows
Emerging
RAG Systems
Retrieval-augmented
generation
Active research
Fine-tuned Models
MA-specific
training
In development
Ce qui ne changera PAS

Enduring Human Requirements

Définir la question de recherche (jugement clinique)
Interpreting clinical significance (domain expertise)
Assessing applicability (contextual knowledge)
Making recommendations (value judgments)
Taking responsibility (ethical accountability)
THE CONSTANT
L'IA va accélérer la mécanique.
La science reste humaine.
Préparer l'avenir

Skills to Develop

Future-Ready Researcher
Prompt engineeringGetting good AI outputs
Validation methodsKnowing when AI errs
Core methodsAI cannot replace
Les meilleurs utilisateurs de l'IA sont les meilleurs méthodologistesUnderstanding enables oversight
"The machine grows stronger each year.
Mais la question reste la même :
What is true? What helps patients?
L'IA peut aider à la recherche.
Vous seul pouvez fournir la réponse."
==================== MODULE 10 : QUIZ ET RÉFÉRENCES ====================
Testez vos connaissances
Quelle est la principale limitation de l'utilisation des LLM pour l'extraction de données ?
Ils sont trop lents
They can generate plausible but incorrect data (hallucinations)
They cannot read PDFs
Ils le sont aussi coûteux
When using AI screening (e.g., ASReview), what must you always do?
Trust the AI completely after training
Screen only the top 10% of ranked records
Valider la règle d'arrêt avec un échantillon aléatoire
Utiliser plusieurs outils d'IA simultanément
Pour quelle tâche l'IA ne doit-elle JAMAIS être le décideur final ?
Deduplication
Screening prioritization
Interprétation clinique des résultats
Reference formatting
References

Key Sources

  1. Van de Schoot R et al. Nat Mach Intell. 2021;3:125-133. [ASReview]
  2. Marshall IJ et al. Nat Mach Intell. 2019;1:115-117. [RobotReviewer]
  3. Guo Y et al. J Clin Epidemiol. 2024;165:111203. [GPT-4 extraction]
  4. Mata v. Avianca, 22-cv-1461 (S.D.N.Y. 2023). [Hallucination case]
  5. Perrigo B. Time Magazine. 2023 Jan 18. [AI labor ethics]
  6. Elliott JH et al. J Clin Epidemiol. 2017;91:23-30. [Living reviews]
  7. Cochrane Handbook 2023. Chapter on automation.
  8. ICMJE. Recommendations on AI authorship. 2023.
  9. Rethlefsen ML et al. J Med Libr Assoc. 2021. [PRISMA-S]
  10. Wang S et al. Syst Rev. 2023;12:178. [AI screening validation]
Course Complete
"Vous connaissez maintenant le Silicon Scribe—
its powers and its limits.
Utilisez-la pour accélérer, pas pour remplacer.
Validate what it produces.
Documentez ce que vous avez fait.
Et rappelez-vous toujours :
La machine prédit le mot suivant.
Vous devez juger si ce mot est true."
==================== MODULE 11 : ASREVIEW ÉTAPE PAR ÉTAPE ====================
ASReview: Step-by-Step Tutorial
De l'installation à la décision d'arrêt
Step 1: Installation
# Option A: Python pip (recommended)
pip install asreview

# Option B : Télécharger le bureau app
# https://asreview.nl/download/

# Launch ASReview LAB
asreview lab
REQUIREMENTS
• Python 3.8+ (pour l'installation pip)
• OR: Windows/Mac desktop app (no Python needed)
• Your references in RIS, CSV, or EndNote XML format
Step 2: Create Project & Import

Project Setup Workflow

New Project
Nommez votre projetDescriptive, include date
Import referencesRIS/CSV/XML file
ASReview deduplicatesCheck count matches expected
Prêt pour les connaissances préalables
Step 3: Add Prior Knowledge
CRITICAL STEP
Le modèle apprend de vos décisions initiales.
You need à la fois pertinent ET non pertinent examples.

Prior Knowledge Strategy

1 Add 5-10 known relevant études (à partir d'une recherche de cadrage)
2 Search for clearly irrelevant topics (random sample)
3 Mark 10-20 irrelevant as negative examples
4 Aim for ~1:2 ratio (relevant:irrelevant) to start
WARNING
Poor prior knowledge = poor model performance.
Garbage in, garbage out.
Step 4: Screen with Active Learning

Screening Loop

ASReview presents record
Your decision
RelevantInclure pour le texte intégral
IrrelevantExclude
Model updatesRe-ranks remaining
Next most likely relevantRepeat until stopping rule
Step 5: Stopping Decision

Stopping Rules Compared

Consecutive irrelevant (50-200) Common, but no recall guarantee
% of total screened (e.g., 50%) Predictable effort, variable recall
All records screened 100% recall, no time savings
Statistical stopping (Busfelder) Evidence-based, requires plugin
VALIDATION REQUIREMENT
After stopping: manually screen random sample of unscreened records.
Report estimated recall with confidence interval.
"L'outil est simple. Les décisions ne le sont pas.
Feed it good examples. Check when you stop.
Exportez votre fichier de projet : c'est votre piste d'audit."
==================== MODULE 12 : BIBLIOTHÈQUE D'INGÉNIERIE INVITE ====================
Bibliothèque d'ingénierie rapide
Validated prompts for meta-analysis tasks
Prompt Principles

Pour des sorties LLM fiables

1 Be specific: Define exact fields and formats
2 Provide examples: Show expected output format
3 Request uncertainty: Demandez les drapeaux "NR" ou "UNCLEAR"
4 Demand quotes: Require source text for verification
5 Limit scope: One task per prompt, not everything at once
Invite 1 : Extraction de données ECR
Extrayez ce qui suit de cet ECR. Pour chaque champ, indiquez :
- The value
- La citation exacte du journal (entre guillemets)
- "NR" si non signalé, "UNCLEAR" si ambigu

FIELDS:
1. Intervention group sample size (ITT): [n]
2. Control group sample size (ITT): [n]
3. Primary outcome definition: [text]
4. Primary outcome: intervention events/total: [x/n]
5. Primary outcome: control events/total: [x/n]
6. Risk ratio (95% CI): [RR (lower, upper)]
7. Follow-up duration: [weeks/months]

OUTPUT FORMAT: JSON avec "valeur" et "devis" pour chaque champ
Invite 2 : Caractéristiques de l'étude
Extraire les caractéristiques de l’étude. Fournissez des devis exacts pour vérification.

FIELDS:
1. Study design: [RCT / Cluster RCT / Crossover / Other]
2. Country/countries: [list]
3. Setting: [hospital / primary care / community / other]
4. Recruitment period: [start date - end date]
5. Funding source: [text]
6. Trial registration: [ID number or "NR"]
7. Conflicts of interest declared: [Yes/No/NR]

If information is in supplementary materials, note "See Supplement".
If truly not reported anywhere, mark "NR".
Prompt 3: Population Characteristics
Extract baseline population characteristics.
Rapport pour les groupes d'INTERVENTION et de CONTRÔLE séparément.

FIELDS (per group):
1. N randomized: [n]
2. N analyzed: [n]
3. Age: [mean (SD) or median (IQR)]
4. Sex (% female): [%]
5. Key inclusion criteria: [text]
6. Key exclusion criteria: [text]
7. Disease severity at baseline: [measure and value]

NOTE: If groups combined only, report combined with note.
Prompt 4: Risk of Bias Screening
NOTE: Ceci concerne uniquement le signalement PRÉLIMINAIRE.
Human assessment required for final judgment.

For each RoB 2 domain, identify relevant text:

D1 Randomization:
- Méthode de génération de séquence : [citation ou NR]
- Méthode de masquage d'allocation : [devis ou NR]

D2 Deviations:
- Blinding of participants: [quote or NR]
- Blinding of personnel: [quote or NR]

D3 Missing data:
- Attrition rates: [intervention: x%, control: y%]
- Traitement des données manquantes : [devis ou NR]

DO NOT make judgments. Only extract quotes.
"L'invite est votre contrat avec la machine.
Soyez précis dans ce que vous demandez.
Exigez des preuves pour chaque réponse.
Verify every output against the source."
==================== MODULE 13 : LECTURE DES AVIS ASSISTÉS PAR L'IA ====================
Vous ne rédigerez peut-être jamais une revue systématique.
Mais tu le feras read them.

Comment savoir si l'assistance de l'IA
was done well or poorly?
The IBM Watson Oncology Failure
MD ANDERSON CANCER CENTER, 2017
IBM Watson for Oncology a été formé pour recommander des traitements contre le cancer.

After spending $62 million, MD Anderson a annulé le projet.

Internal documents showed Watson made "dangereuses et incorrectes" recommandations de traitement. Il a été formé sur des cas synthétiques et non sur des données réelles de patients.

L’IA avait l’air confiante. Les recommandations étaient dangereuses.

Lesson: AI confidence ≠ AI correctness
STAT News investigation, 2017; IEEE Spectrum 2019
Questions pour les examens assistés par l'IA

Que rechercher dans les méthodes

1 Did they nommer les outils d'IA used? (version, date)
2 Did they specify which tasks were AI-assisted?
3 Did they validate AI outputs? How?
4 Pour le dépistage de l’IA : quoi stopping rule? What estimated recall?
5 Pour l'extraction de l'IA : Était 100% human verified?
6 Was there human oversight of all AI decisions?
Red Flags in AI-Assisted Reviews

Warning Signs

"AI screened all titles" No human involvement?
"Données extraites par GPT" No verification mentioned?
"Stopped after 500 consecutive irrelevant" No recall estimate?
"AI-generated protocol" Human decisions unclear?
No AI tools mentioned but clearly AI-written Hidden AI use
Pour les patients et les cliniciens
CE QUE VOUS DEVEZ SAVOIR
Good AI use: Speeds up the work, human verifies
Bad AI use: Replaces human judgment, no validation

An AI-assisted review can be trustworthy—if done right.

Simple Questions to Ask

? "L'IA a-t-elle été utilisée dans cet examen ?"
? "Les résultats de l'IA ont-ils été vérifiés par des humains ?"
? "Could AI have missed important studies?"
"AI assistance is not a flaw—it is often an advantage.
But only if validated, only if disclosed.
Demandez : la machine a-t-elle été vérifiée ?
Si la réponse n'est pas claire, la réponse l'est également. "
===================== MODULE 14 : PARAMÈTRES À RESSOURCES LIMITÉES ====================
N'avez-vous pas considéré le chercheur
with unstable internet, limited compute,
no institutional subscription,
who still needs to synthesize evidence?
Gratuit et Outils compatibles hors ligne
ASReview
Desktop app
Works offline
FREE
Abstrackr
Web-based
Free accounts
FREE
Rayyan
Free tier
Limited AI
FREEMIUM
RevMan
Cochrane tool
Full MA software
FREE
Offline Workflow

When Internet is Unreliable

Search Phase
Bibliothèque/café : téléchargez tous les fichiers PDFTéléchargement par lots une fois connecté
Screening Phase
ASReview desktopWorks fully offline
Extraction Phase
Spreadsheet + local PDFsNo AI needed
Low-Cost LLM Alternatives
WHEN API COSTS ARE PROHIBITIVE
Claude/ChatGPT free tiers: Limited but functional
Ollama + local models: Free, runs on laptop (requires download)
Hugging Face inference: Free tier available
Manual extraction: Still gold standard, just slower
HONEST ASSESSMENT
L'IA est une commodité, pas une nécessité.
All Cochrane reviews were done without AI.
La qualité vient des méthodes, pas de outils.
Resource-Limited Decision Tree

Choisir votre approche

Your Resources
Internet reliability?
Stable
Web tools OKRayyan, Covidence
Unreliable
Desktop toolsASReview offline
None
Manual + spreadsheetsStill valid
"Les preuves appartiennent à tout le monde,
pas seulement à ceux qui disposent d'une connexion Internet rapide et d'abonnements payants.
Les outils peuvent différer. Les méthodes demeurent.
Quality synthesis is possible anywhere."
==================== MODULE 15 : CALCULS DE VALIDATION ====================
Validation Calculations
Tailles d'échantillon pour la vérification de l'IA
Estimating Recall After AI Screening
THE PROBLEM
Vous avez arrêté le dépistage à 1 000 sur 5 000 enregistrements.
Dans quelle mesure êtes-vous sûr d'avoir trouvé toutes les études pertinentes ?

Validation Sampling

Unscreened records (n=4000)
Random sample (n=400)10% or at least 200
Manual screening
0 relevant foundRecall ≈ 95-100%
Relevant foundScreen all remaining
Sample Size Formula
POUR 95 % DE CONFIANCE DANS LE RAPPEL
n = ln(1 - confidence) / ln(1 - prevalence)

Example:
If prevalence of relevant = 1% (0.01)
For 95% confidence (0.95):

n = ln(1 - 0.95) / ln(1 - 0.01)
n = ln(0.05) / ln(0.99)
n ≈ 299 records to sample
Quick Reference Table

Tailles des échantillons pour la validation

Prevalence 0.5%, 95% conf 598 records
Prevalence 1%, 95% conf 299 records
Prevalence 2%, 95% conf 149 records
Prevalence 5%, 95% conf 59 records
Practical minimum 200 records (conservative)
Déclarer votre Validation
Exemple de méthode de texte :

"Nous avons utilisé ASReview LAB (v1.2) pour la sélection des titres/résumés avec
active learning. Screening ceased after 150 consecutive
irrelevant records, having screened 1,247 of 4,892 records
(25%). To validate recall, we manually screened a random
sample of 300 unscreened records. No additional relevant
des études ont été identifiées, suggérant un rappel estimé ≥95 %
(binomial 95% CI: 91-100%)."
"La validation n'est pas facultatif : c'est le prix de l'efficacité.
Calculate your sample. Screen it manually.
Rapportez ce que vous avez trouvé. Admettez ce que vous avez peut-être manqué. »