AI > La promesse et le Péril
==================== MODULE 1 : LA PROMESSE ET LE PÉRIL ====================
==================== MODULE 2 : DÉPISTAGE ASSISTÉ PAR L'IA ====================
========================= MODULE 3 : LLM POUR L'EXTRACTION DE DONNEES ====================
=================== MODULE 4 : RISQUE AUTOMATISÉ DE BIAIS ====================
==================== MODULE 5 : GPT POUR L'ÉCRITURE DE PROTOCOLE ====================
==================== MODULE 6 : RÉVISIONS VIVANTES + IA =====================
============== MODULE 7 : CADRE D'ASSURANCE QUALITÉ ==========================
==================== MODULE 8 : CONSIDÉRATIONS ÉTHIQUES ====================
===================== MODULE 9 : ORIENTATIONS FUTURES ====================
==================== MODULE 10 : QUIZ ET RÉFÉRENCES ====================
==================== MODULE 11 : ASREVIEW ÉTAPE PAR ÉTAPE ====================
==================== MODULE 12 : BIBLIOTHÈQUE D'INGÉNIERIE INVITE ====================
==================== MODULE 13 : LECTURE DES AVIS ASSISTÉS PAR L'IA ====================
===================== MODULE 14 : PARAMÈTRES À RESSOURCES LIMITÉES ====================
==================== MODULE 15 : CALCULS DE VALIDATION ====================
N'avez-vous pas entendu parler de la machine qui lit
ten thousand abstracts in an hour,
qui extrait les données pendant que vous dormez,
that promises to libérez-vous de la corvée?
ten thousand abstracts in an hour,
qui extrait les données pendant que vous dormez,
that promises to libérez-vous de la corvée?
La révolution de l'IA dans la synthèse des preuves
67%
Workload reduction
with AI screening
with AI screening
95%
Recall achievable
avec l'apprentissage actif
avec l'apprentissage actif
10x
Faster screening
than manual
than manual
THE PROMISE
L'IA peut filtrer des résumés, extraire des données, évaluer le risque de biais et surveiller les nouveaux preuves—if used correctly.
When AI Fails in Healthcare
IBM WATSON ONCOLOGY, MD ANDERSON, 2013-2017
En 2013, le MD Anderson Cancer Center s'est associé à IBM Watson pour révolutionner les recommandations de traitement du cancer. Le coût du projet $62 million.
En 2017, le projet a été abandonné. Les recommandations de Watson se sont révélées "dangereuses et incorrectes" in multiple cases.
In one documented case, Watson recommended a treatment that would cause severe bleeding in a patient already on blood thinners.
The core problem: Watson had been trained primarily on hypothetical cases created by physicianset ne correspondent pas à des données réelles sur les patients. L'IA a appris à imiter les opinions d'experts plutôt que d'apprendre des résultats réels.
En 2017, le projet a été abandonné. Les recommandations de Watson se sont révélées "dangereuses et incorrectes" in multiple cases.
In one documented case, Watson recommended a treatment that would cause severe bleeding in a patient already on blood thinners.
The core problem: Watson had been trained primarily on hypothetical cases created by physicianset ne correspondent pas à des données réelles sur les patients. L'IA a appris à imiter les opinions d'experts plutôt que d'apprendre des résultats réels.
Stat News, 2017; IEEE Spectrum, 2019
THE LESSON
L'IA formée sur des données synthétiques ou hypothétiques échoue sur de vrais patients. L'écart entre les données d'entraînement et la réalité peut être mortel.
Le problème des hallucinations
LAWYERS SANCTIONED, NEW YORK, 2023
Attorneys used ChatGPT to research case law for a federal court brief.
L'IA a cité six cas avec des citations complètes, des citations et des numéros de page.
Aucun de ces cas n'existait.
Le juge a conclu que les citations étaient "charabia" et sanctionné les avocats.
Ce n'est pas un bug. C'est ainsi que fonctionnent les grands modèles de langage : ils prédisent un texte plausible, et non une vérité vérifiée.
L'IA a cité six cas avec des citations complètes, des citations et des numéros de page.
Aucun de ces cas n'existait.
Le juge a conclu que les citations étaient "charabia" et sanctionné les avocats.
Ce n'est pas un bug. C'est ainsi que fonctionnent les grands modèles de langage : ils prédisent un texte plausible, et non une vérité vérifiée.
Mata v. Avianca, Inc., 22-cv-1461 (S.D.N.Y. 2023)
La question centrale
When to Trust AI in Meta-Analysis
AI Tool Output
↓
Task Type?
Ranking/Prioritization
Lower riskHuman reviews top-ranked
Binary Decision
Medium riskNeeds validation
Text Generation
High riskHallucination possible
Ce que l'IA peut et ne peut pas faire
Honest Assessment
Screening prioritization
✓ Excellent
Duplicate detection
✓ Excellent
Extraction de données (structurée)
⚠ Needs verification
Risk of bias assessment
⚠ Preliminary only
Écriture protocole/méthodes
⚠ Draft only
Statistical analysis
✗ Human required
Clinical interpretation
✗ Human required
"La machine lit vite mais ne comprend pas.
Elle prédit le mot suivant, pas la vérité.
Utilisez-la pour accélérer, pas pour remplacer.
The judgment must remain yours."
Elle prédit le mot suivant, pas la vérité.
Utilisez-la pour accélérer, pas pour remplacer.
The judgment must remain yours."
N'avez-vous pas vu le réviseur
who screened ten thousand titles by hand,
whose eyes grew tired, whose attention wandered,
qui a manqué le une étude qui comptait?
who screened ten thousand titles by hand,
whose eyes grew tired, whose attention wandered,
qui a manqué le une étude qui comptait?
Les outils de dépistage
ASReview
Active learning
Open source
Open source
Free
Rayyan
AI recommendations
Collaboration
Collaboration
Freemium
Abstrackr
Semi-automated
Web-based
Web-based
Free
EPPI-Reviewer
Priority screening
Full workflow
Full workflow
Subscription
How Active Learning Works
ASReview Workflow
Import References
↓
Screen seed papers10-20 known relevant
↓
AI learns patternsMises à jour à chaque décision
↓
Prioritizes likely relevantMost promising first
↓
Stopping rule?
Consecutive irrelevante.g., 100-200 in row
% screenedpar exemple, 50 % avec contrôle de rappel
Performance réelle Données
VAN DE SCHOOT ET AL., 2021
Systematic evaluation of ASReview across 4 datasets:
• PTSD dataset: 95% recall after screening 40% of records
• Software fault prediction: 95% recall after 20%
• Virus metagenomics: 95% recall after 10%
Average workload reduction: 67-95% depending on prevalence.
But: Performance varies by topic and prevalence. Low-prevalence topics show greater efficiency gains.
• PTSD dataset: 95% recall after screening 40% of records
• Software fault prediction: 95% recall after 20%
• Virus metagenomics: 95% recall after 10%
Average workload reduction: 67-95% depending on prevalence.
But: Performance varies by topic and prevalence. Low-prevalence topics show greater efficiency gains.
Van de Schoot R et al. Nat Mach Intell. 2021;3:125-133
When AI-Assisted Screening Works
ASREVIEW AND COCHRANE COVID-19 RESPONSE, 2020
During the COVID-19 pandemic, Cochrane needed to screen 50,000+ citations weekly to keep reviews current.
Le système d'apprentissage actif d'ASReview a été déployé sous une surveillance humaine rigoureuse :
• Reduced human screening workload by 75%
• Missed fewer than 1% of relevant studies
• Validated at every stage by human reviewers
La clé du succès : human-in-the-loop validation at every stage.
Le système d'apprentissage actif d'ASReview a été déployé sous une surveillance humaine rigoureuse :
• Reduced human screening workload by 75%
• Missed fewer than 1% of relevant studies
• Validated at every stage by human reviewers
La clé du succès : human-in-the-loop validation at every stage.
Cochrane COVID-NMA consortium, 2020-2021
THE LESSON
L'IA augmente le jugement humain ; il ne le remplace pas. Le succès vient du partenariat et non de l’automatisation.
When Internal Validation Fails
EPIC SEPSIS MODEL, JAMA INTERNAL MEDICINE, 2021
Epic Systems deployed a sepsis prediction algorithm to hundreds of hospitals à travers les États-Unis.
Epic's internal validation showed excellent performance. Hospitals trusted it.
Puis est venue l’étude de validation externe dans JAMA Internal Medicine :
• The model missed 67% of sepsis cases
• It triggered thousands of false alarms
• Nurses developed severe "alert fatigue"
Le modèle avait été validé sur des données historiques provenant du même système ; il n’avait jamais été testé dans l’environnement clinique réel où il serait déployé.
Epic's internal validation showed excellent performance. Hospitals trusted it.
Puis est venue l’étude de validation externe dans JAMA Internal Medicine :
• The model missed 67% of sepsis cases
• It triggered thousands of false alarms
• Nurses developed severe "alert fatigue"
Le modèle avait été validé sur des données historiques provenant du même système ; il n’avait jamais été testé dans l’environnement clinique réel où il serait déployé.
Wong A et al. JAMA Intern Med. 2021;181(8):1065-1070
THE LESSON
La validation interne n'est pas une validation externe. Un modèle qui fonctionne en développement peut échouer lors du déploiement. Validez toujours dans le contexte du monde réel.
Le problème de l'arrêt
LE DANGER CACHÉ
Quand arrête-t-on le dépistage avec apprentissage actif ?
Si vous arrêtez trop tôt : Vous manquez des études pertinentes
Si vous arrêtez trop tard : Vous perdez des gains d’efficacité
L'algorithme ne peut pas vous dire quand vous avez tout trouvé. Il ne classe que ce qui reste.
There is no perfect stopping rule. Every rule trades recall for efficiency.
Si vous arrêtez trop tôt : Vous manquez des études pertinentes
Si vous arrêtez trop tard : Vous perdez des gains d’efficacité
L'algorithme ne peut pas vous dire quand vous avez tout trouvé. Il ne classe que ce qui reste.
There is no perfect stopping rule. Every rule trades recall for efficiency.
CRITICAL POINT
You must validez votre règle d'arrêt by manually checking
a random sample of unscreened records.
AI Screening Decision Tree
Devriez-vous utiliser le dépistage par IA ?
Large Reference Set?
↓
<500 refs
Manual OKLes frais généraux de l'IA n'en valent pas la peine
500-2000 refs
AI helpfulModerate efficiency gain
>2000 refs
AI essentialMajor time savings
↓
Always validate with random sampleReport methodology in paper
"La machine trouve les aiguilles plus rapidement,
but it cannot guarantee none remain in the haystack.
Faites confiance au classement, vérifiez les arrêts,
et signalez toujours ce que vous avez fait.
but it cannot guarantee none remain in the haystack.
Faites confiance au classement, vérifiez les arrêts,
et signalez toujours ce que vous avez fait.
N'as-tu pas rêvé de l'assistant
who reads every paper and fills every cell,
who never tires, never errs,
who extracts perfectly?
Cet assistant n'existe pas.
who reads every paper and fills every cell,
who never tires, never errs,
who extracts perfectly?
Cet assistant n'existe pas.
Le problème de la précision de l’extraction
ÉTUDE D'EXTRACTION DE DONNÉES GPT-4, 2024
Les chercheurs ont testé GPT-4 pour extraire les données de 100 articles ECR.
Results:
• Sample sizes: 89% accurate
• Effect estimates: 76% accurate
• Confidence intervals: 71% accurate
• Risk of bias judgments: 62% agreement with humans
A 24% error rate en effet, les estimations signifient qu'environ 1 étude sur 4 aurait des données erronées dans votre méta-analyse.
Results:
• Sample sizes: 89% accurate
• Effect estimates: 76% accurate
• Confidence intervals: 71% accurate
• Risk of bias judgments: 62% agreement with humans
A 24% error rate en effet, les estimations signifient qu'environ 1 étude sur 4 aurait des données erronées dans votre méta-analyse.
Guo Y et al. J Clin Epidemiol. 2024;165:111203
Le problème de la fabrication
GPT-4 HALLUCINATIONS IN SYSTEMATIC REVIEWS, 2023
Les chercheurs ont testé GPT-4 pour l’extraction de données à partir d’articles de revue systématique. Le modèle a reçu des fichiers PDF et a été invité à extraire la taille des échantillons, les valeurs p et les estimations des effets.
GPT-4 confidently provided all requested numbers with precise formatting.
But 23% des extractions étaient des « hallucinations »— nombres sans base dans le texte source.
In one case, the model fabricated a statistically significant result (p=0.003) d'une étude qui a effectivement révélé no significant effect (p=0.42).
La confiance du modèle était impossible à distinguer entre les données réelles et fabriquées.
GPT-4 confidently provided all requested numbers with precise formatting.
But 23% des extractions étaient des « hallucinations »— nombres sans base dans le texte source.
In one case, the model fabricated a statistically significant result (p=0.003) d'une étude qui a effectivement révélé no significant effect (p=0.42).
La confiance du modèle était impossible à distinguer entre les données réelles et fabriquées.
Examen systématique des études de validation de l'IA, 2023
THE LESSON
Les LLM nécessitent une vérification humaine à 100 % pour les données quantitatives. Il n'y a pas de raccourci. Chaque numéro doit être vérifié par rapport à la source.
Flux de travail d'extraction de données LLM
Safe LLM Extraction Protocol
PDF/Full Text
↓
LLM extrait les donnéesStructured prompt
↓
Human verifies 100%NOT sampling
↓
Discrepancy?
Yes
Human value usedDocument error
No
ProceedLog verification
Ingénierie rapide pour l’extraction
# Example extraction prompt
Extract ce qui suit de cet ECR :
1. Sample size (intervention arm): [number]
2. Sample size (control arm): [number]
3. Primary outcome definition: [text]
4. Effect estimate: [number with unit]
5. 95% CI: [lower, upper]
6. p-value: [number]
If not reported, write "NR"
If unclear, write "UNCLEAR: [reason]"
# Provide exact quotes for verification
Extract ce qui suit de cet ECR :
1. Sample size (intervention arm): [number]
2. Sample size (control arm): [number]
3. Primary outcome definition: [text]
4. Effect estimate: [number with unit]
5. 95% CI: [lower, upper]
6. p-value: [number]
If not reported, write "NR"
If unclear, write "UNCLEAR: [reason]"
# Provide exact quotes for verification
When LLMs Help vs. Hurt
LLM Extraction Value Assessment
Standardized fields (author, year)
✓ High accuracy
Simple numeric (sample size)
✓ Usually reliable
Complex numeric (adjusted OR)
⚠ Often wrong model
Composite outcomes
⚠ Misses components
Intention-to-treat vs per-protocol
✗ Frequently confused
Subgroup data
✗ High error rate
"The LLM extracts plausible numbers,
pas nécessairement des chiffres corrects.
Il s’agit d’une première ébauche rapide, pas d’une réponse finale.
Every cell must be verified by human eyes."
pas nécessairement des chiffres corrects.
Il s’agit d’une première ébauche rapide, pas d’une réponse finale.
Every cell must be verified by human eyes."
N'as-tu pas souhaité un juge
who reads every methods section,
who assesses bias without bias,
qui n'est jamais en désaccord avec themselves?
who reads every methods section,
who assesses bias without bias,
qui n'est jamais en désaccord avec themselves?
RobotReviewer
MARSHALL ET AL., NATURE MACHINE INTELLIGENCE, 2019
RobotReviewer uses machine learning to assess risk of bias in RCTs.
Validation against Cochrane assessments:
• Random sequence generation: 71% agreement
• Allocation concealment: 65% agreement
• Blinding of participants: 69% agreement
• Blinding of outcome assessment: 62% agreement
Human inter-rater agreement is typically 70-80%.
RobotReviewer approaches but does not exceed human performance.
Validation against Cochrane assessments:
• Random sequence generation: 71% agreement
• Allocation concealment: 65% agreement
• Blinding of participants: 69% agreement
• Blinding of outcome assessment: 62% agreement
Human inter-rater agreement is typically 70-80%.
RobotReviewer approaches but does not exceed human performance.
Marshall IJ et al. Nat Mach Intell. 2019;1:115-117
RoB Automation Decision Tree
When to Use Automated RoB
Risk of Bias Assessment
↓
Review Type?
Rapid review
Automated OKAcknowledge limitation
Scoping review
Automated OKIf RoB included
Revue systématique complète
Preliminary onlyHuman verification required
Cochrane review
Human requiredDraft support only
Limitations of Automated RoB
What Machines Cannot Assess
✗ Outcome-specific bias (RoB 2 domain 4)
✗ Selective reporting based on protocol comparison
✗ Contextual judgment (Is this design appropriate?)
✗ Cross-paper inconsistencies (multiple reports)
✗ Influence du financement sur l’interprétation des résultats
LA LIMITE FONDAMENTALE
AI reads what is written.
Bias assessment often requires judging what is not written.
Workflow hybride pour RoB
Best Practice Protocol
Full Text PDFs
↓
RobotReviewer screeningFlags potential issues
↓
Reviewer 1 assessesUsing AI output as reference
↓
Reviewer 2 independentlyBlinded to AI output
↓
Consensus meeting
↓
Final assessmentHuman decision documented
"Le robot lit la section méthodes
but cannot read between the lines.
Utilisez-le pour signaler, pas pour juger.
Le verdict doit être humain."
but cannot read between the lines.
Utilisez-le pour signaler, pas pour juger.
Le verdict doit être humain."
N'as-tu pas souhaité l'écrivain
who drafts your protocol in minutes,
who knows every PRISMA item,
who writes in perfect academic prose?
who drafts your protocol in minutes,
who knows every PRISMA item,
who writes in perfect academic prose?
LLM pour la rédaction de protocoles
✓
Structure
generation
generation
✓
Boilerplate
text
text
⚠
PICO
formulation
formulation
✗
Search
strategy
strategy
LA PROPOSITION DE VALEUR
Les LLM peuvent rédiger le structure et langage standard. Vous devez fournir le scientific decisions.
Le danger de la stratégie de recherche
TESTED ACROSS MULTIPLE LLMs, 2023-2024
Researchers asked GPT-4 and Claude to generate MEDLINE search strategies.
Common errors:
• Invented MeSH terms that don't exist
• Wrong field codes (e.g., [tiab] vs [tw])
• Concepts clés manquants dans la question de recherche
• Overly narrow strategies missing relevant studies
• Syntax errors that wouldn't execute
An information specialist must write or validate all search strategies.
Common errors:
• Invented MeSH terms that don't exist
• Wrong field codes (e.g., [tiab] vs [tw])
• Concepts clés manquants dans la question de recherche
• Overly narrow strategies missing relevant studies
• Syntax errors that wouldn't execute
An information specialist must write or validate all search strategies.
Études de validation multiples 2023-2024
Protocol Writing Decision Tree
LLM Use in Protocol Development
Protocol Section
↓
Background/Rationale
LLM helpfulDraft + fact-check
Methods structure
LLM helpfulTemplate generation
PICO criteria
Human decidesLLM refines wording
Search strategy
Human/SpecialistAI too unreliable
Safe LLM Protocol Workflow
Quality Assurance Steps
1 Define PICO yourself (human scientific decision)
2 Ask LLM to draft protocol sections
3 Verify all cited guidelines exist (PRISMA, Cochrane)
4 Write search strategy with information specialist
5 Check all methodological decisions are defensible
6 Disclose AI assistance in protocol
7 Enregistrez la version vérifiée par l'homme
"La machine peut écrire les mots,
but it cannot make the decisions.
Vous définissez la question. Vous choisissez les méthodes.
Le protocole vous appartient : l'IA est la dactylographe. »
but it cannot make the decisions.
Vous définissez la question. Vous choisissez les méthodes.
Le protocole vous appartient : l'IA est la dactylographe. »
N'avez-vous pas vu la revue systématique
qui était obsolète avant sa publication,
while new trials accumulated in the literature,
unsynthesized, unknown?
qui était obsolète avant sa publication,
while new trials accumulated in the literature,
unsynthesized, unknown?
Le problème de la revue vivante
PREUVE DU COVID-19 TSUNAMI, 2020
Au cours de la première année de la pandémie :
• 100,000+ COVID papers published
• Traditional reviews obsolete within weeks
• Clinicians made decisions on incomplete evidence
Le consortium COVID-NMA a utilisé AI-assisted surveillance to monitor new trials daily and update meta-analyses weekly.
Cela nécessitait : une surveillance automatisée des recherches, une priorisation du filtrage par l'IA, des flux de travail d'extraction de données rapides et des mises à jour statistiques continues.
• 100,000+ COVID papers published
• Traditional reviews obsolete within weeks
• Clinicians made decisions on incomplete evidence
Le consortium COVID-NMA a utilisé AI-assisted surveillance to monitor new trials daily and update meta-analyses weekly.
Cela nécessitait : une surveillance automatisée des recherches, une priorisation du filtrage par l'IA, des flux de travail d'extraction de données rapides et des mises à jour statistiques continues.
Defined in Cochrane Living Reviews guidance
Composants d'IA pour les critiques vivantes
Automated Surveillance Stack
Système d'examen vivant
↓
Auto-searchDaily/weekly runs
AI triagePriority screening
Rapid extractionLLM-assisted
Auto-updateCumulative MA
↓
Human oversight at each stageRevue éditoriale avant publication
Outils de surveillance continue
PubMed Alerts
Free email alerts
Saved searches
Saved searches
Basic
Epistemonikos
Systematic review
database
database
AI-curated
Covidence
Auto-import
Living mode
Living mode
Subscription
DistillerSR
AI screening
+ monitoring
+ monitoring
Enterprise
Cadre décisionnel d’examen vivant
Quand faire une critique « vivante »
Est-ce que cela devrait être vivant ?
↓
Criteria Check
Priority questionClinical importance
Evidence evolvingActive trial pipeline
Resources securedFinancement pour 2 ans et plus
↓
All three required for living status
"La machine surveille la littérature
pendant que vous dormez.
But someone must wake to judge
si les nouvelles preuves changent la vérité."
pendant que vous dormez.
But someone must wake to judge
si les nouvelles preuves changent la vérité."
Si vous utilisez la machine sans vérification,
vous ne savez pas quelles erreurs vous avez commises.
Si vous vérifiez tout ce que la machine produit,
what time have you saved?
La réponse se trouve dans strategic verification.
vous ne savez pas quelles erreurs vous avez commises.
Si vous vérifiez tout ce que la machine produit,
what time have you saved?
La réponse se trouve dans strategic verification.
Le paradoxe de la vérification
THE DILEMMA
Full verification = No time savings
No verification = Unknown error rate
Strategic verification = Validated efficiency
No verification = Unknown error rate
Strategic verification = Validated efficiency
Verification Strategy by Risk
High-risk tasks
100% human reviewExtraction de données, RoB
Medium-risk tasks
Sample validationScreening decisions
Low-risk tasks
Spot checksDeduplication
When Oversight Catches Bias
COCHRANE MACHINE LEARNING PILOT, 2022
Cochrane tested ML-assisted risk of bias assessment to accelerate systematic reviews.
L'algorithme a atteint 85 % d'accord avec les évaluateurs humains—seemingly impressive.
Mais l'équipe d'assurance qualité a analysé les 15 % de désaccords et a trouvé un modèle :
The AI was systematically biased toward rating industry-funded trials as low risk.
Les données de formation contenaient davantage d'étiquettes « à faible risque » pour les essais des sociétés pharmaceutiques ; l'algorithme a appris cette corrélation sans comprendre les préoccupations méthodologiques sous-jacentes.
Human oversight caught the pattern before any biased reviews were published.
L'algorithme a atteint 85 % d'accord avec les évaluateurs humains—seemingly impressive.
Mais l'équipe d'assurance qualité a analysé les 15 % de désaccords et a trouvé un modèle :
The AI was systematically biased toward rating industry-funded trials as low risk.
Les données de formation contenaient davantage d'étiquettes « à faible risque » pour les essais des sociétés pharmaceutiques ; l'algorithme a appris cette corrélation sans comprendre les préoccupations méthodologiques sous-jacentes.
Human oversight caught the pattern before any biased reviews were published.
Étude pilote du Cochrane Methods Groupe, 2022
THE LESSON
L'analyse des désaccords révèle un biais systématique. Une précision globale élevée peut masquer des schémas dangereux. Analysez toujours où et comment l'IA échoue, pas seulement à quelle fréquence.
Cadre d'assurance qualité pour les examens assistés par l'IA
Minimum Quality Standards
1 Pre-specify AI use in protocol (which tools, which tasks)
2 Document AI settings (model version, prompts, parameters)
3 Validate screening with random sample (calculate recall estimate)
4 Vérifiez toutes les données extraites against source documents
5 Human RoB assessment (AI as preliminary only)
6 Track error rates per AI task
7 Report transparently in methods section
Reporting AI Use (PRISMA-S)
QUE SIGNALER DANS VOTRE PAPIER
• Which AI tools were used (name, version, date)
• Which tasks were AI-assisted
• What validation was performed
• What error rates were observed
• What human oversight was maintained
• Any deviations du protocole en raison de l'IA limitations
• Which tasks were AI-assisted
• What validation was performed
• What error rates were observed
• What human oversight was maintained
• Any deviations du protocole en raison de l'IA limitations
EMERGING STANDARD
Journals increasingly require AI use statements.
PRISMA-S extension for search reporting includes automation.
Le flux de travail complet AI-MA
Integrated Human-AI Process
Protocol (Human + LLM draft)
↓
Search (Human/Specialist)
↓
Screening (AI prioritize + Human decide)
↓
Extraction (LLM draft + Human verify 100%)
↓
RoB (AI flag + Human assess)
↓
Analysis (Human)
↓
Interpretation (Human)
"The machine is neither colleague nor replacement.
C'est un outil puissant, rapide et faillible.
Document what you used. Validate what it produced.
La responsabilité reste la vôtre."
C'est un outil puissant, rapide et faillible.
Document what you used. Validate what it produced.
La responsabilité reste la vôtre."
N'avez-vous pas pensé
whose labor trained the model,
whose data it consumed without consent,
whose jobs it may displace?
whose labor trained the model,
whose data it consumed without consent,
whose jobs it may displace?
Le travail caché
KENYAN DATA LABELERS, TIME MAGAZINE 2023
ChatGPT a été rendu "sûr" grâce à un processus appelé RLHF— Reinforcement Learning from Human Commentaires.
Les humains qui ont fourni ces commentaires étaient des travailleurs au Kenya, payés less than $2 per hour pour lire et étiqueter des contenus toxiques, violents et dérangeants.
Ils ont développé un traumatisme psychologique à cause de leur travail.
Tous les outils d'IA que vous utilisez reposent sur le travail humain, souvent invisible, souvent sous-payé, souvent lésés.
Les humains qui ont fourni ces commentaires étaient des travailleurs au Kenya, payés less than $2 per hour pour lire et étiqueter des contenus toxiques, violents et dérangeants.
Ils ont développé un traumatisme psychologique à cause de leur travail.
Tous les outils d'IA que vous utilisez reposent sur le travail humain, souvent invisible, souvent sous-payé, souvent lésés.
Perrigo B. Time Magazine. 2023 Jan 18.
Automating Inequality
UK A-LEVEL ALGORITHM SCANDAL, 2020
Lorsque la COVID-19 a annulé les examens de niveau A au Royaume-Uni, le gouvernement a utilisé un algorithme pour prédire les notes des élèves en fonction des performances scolaires historiques.
The results:
• Students from disadvantaged schools were systematically downgraded
• Students from les écoles privées ont été modernisées
• L'algorithme a annulé les prédictions des enseignants selon lesquelles les élèves réussir
After massive public outcry, 40 % des notes ont été révisées.
L'algorithme avait codé historical inequality as prediction. Les écoles qui envoyaient historiquement moins d'étudiants à l'université étaient pénalisées, quelles que soient les capacités individuelles des étudiants.
The results:
• Students from disadvantaged schools were systematically downgraded
• Students from les écoles privées ont été modernisées
• L'algorithme a annulé les prédictions des enseignants selon lesquelles les élèves réussir
After massive public outcry, 40 % des notes ont été révisées.
L'algorithme avait codé historical inequality as prediction. Les écoles qui envoyaient historiquement moins d'étudiants à l'université étaient pénalisées, quelles que soient les capacités individuelles des étudiants.
UK Office of Qualifications and Examinations Regulation, 2020
THE LESSON
L'IA peut automatiser les biais à grande échelle. les algorithmes formés sur ces données les perpétuent et les amplifient.
Cadre éthique pour l'IA dans la recherche
Questions to Ask
1 Transparency: Can I fully disclose how AI was used?
2 Accountability: Qui est responsable des erreurs d'IA ?
3 Equity: Does AI access create research inequities?
4 Labor: Quel travail a permis cet outil ?
5 Environment: What is the carbon cost of model training?
6 Reproducibility: Can others replicate my AI-assisted work?
Authorship and AI
ICMJE POSITION
AI tools cannot be listed as authors.
Authors must take responsibility for AI-generated content.
AI use must be disclosed in methods or acknowledgments.
Authors must take responsibility for AI-generated content.
AI use must be disclosed in methods or acknowledgments.
YOUR RESPONSIBILITY
Si l'IA hallucine et que vous le publiez,
vous en portez la responsabilité— ni OpenAI, ni Anthropic, ni l'outil.
"La machine n'a pas conscience.
Il ne se soucie pas de savoir si les données sont vraies.
Il ne sait pas qui a été blessé pour l'entraîner.
Vous devez être la conscience qui lui manque."
Il ne se soucie pas de savoir si les données sont vraies.
Il ne sait pas qui a été blessé pour l'entraîner.
Vous devez être la conscience qui lui manque."
Le chemin à parcourir
Où va l'IA dans la synthèse des preuves
Emerging Capabilities
Multimodal AI
Extract from
figures/tables
figures/tables
2024-2025
Agent Systems
Multi-step
workflows
workflows
Emerging
RAG Systems
Retrieval-augmented
generation
generation
Active research
Fine-tuned Models
MA-specific
training
training
In development
Ce qui ne changera PAS
Enduring Human Requirements
★ Définir la question de recherche (jugement clinique)
★ Interpreting clinical significance (domain expertise)
★ Assessing applicability (contextual knowledge)
★ Making recommendations (value judgments)
★ Taking responsibility (ethical accountability)
THE CONSTANT
L'IA va accélérer la mécanique.
La science reste humaine.
La science reste humaine.
Préparer l'avenir
Skills to Develop
Future-Ready Researcher
↓
Prompt engineeringGetting good AI outputs
Validation methodsKnowing when AI errs
Core methodsAI cannot replace
↓
Les meilleurs utilisateurs de l'IA sont les meilleurs méthodologistesUnderstanding enables oversight
"The machine grows stronger each year.
Mais la question reste la même :
What is true? What helps patients?
L'IA peut aider à la recherche.
Vous seul pouvez fournir la réponse."
Mais la question reste la même :
What is true? What helps patients?
L'IA peut aider à la recherche.
Vous seul pouvez fournir la réponse."
Testez vos connaissances
Quelle est la principale limitation de l'utilisation des LLM pour l'extraction de données ?
Ils sont trop lents
They can generate plausible but incorrect data (hallucinations)
They cannot read PDFs
Ils le sont aussi coûteux
When using AI screening (e.g., ASReview), what must you always do?
Trust the AI completely after training
Screen only the top 10% of ranked records
Valider la règle d'arrêt avec un échantillon aléatoire
Utiliser plusieurs outils d'IA simultanément
Pour quelle tâche l'IA ne doit-elle JAMAIS être le décideur final ?
Deduplication
Screening prioritization
Interprétation clinique des résultats
Reference formatting
References
Key Sources
- Van de Schoot R et al. Nat Mach Intell. 2021;3:125-133. [ASReview]
- Marshall IJ et al. Nat Mach Intell. 2019;1:115-117. [RobotReviewer]
- Guo Y et al. J Clin Epidemiol. 2024;165:111203. [GPT-4 extraction]
- Mata v. Avianca, 22-cv-1461 (S.D.N.Y. 2023). [Hallucination case]
- Perrigo B. Time Magazine. 2023 Jan 18. [AI labor ethics]
- Elliott JH et al. J Clin Epidemiol. 2017;91:23-30. [Living reviews]
- Cochrane Handbook 2023. Chapter on automation.
- ICMJE. Recommendations on AI authorship. 2023.
- Rethlefsen ML et al. J Med Libr Assoc. 2021. [PRISMA-S]
- Wang S et al. Syst Rev. 2023;12:178. [AI screening validation]
✔
Course Complete
"Vous connaissez maintenant le Silicon Scribe—
its powers and its limits.
Utilisez-la pour accélérer, pas pour remplacer.
Validate what it produces.
Documentez ce que vous avez fait.
Et rappelez-vous toujours :
La machine prédit le mot suivant.
Vous devez juger si ce mot est true."
its powers and its limits.
Utilisez-la pour accélérer, pas pour remplacer.
Validate what it produces.
Documentez ce que vous avez fait.
Et rappelez-vous toujours :
La machine prédit le mot suivant.
Vous devez juger si ce mot est true."
ASReview: Step-by-Step Tutorial
De l'installation à la décision d'arrêt
Step 1: Installation
# Option A: Python pip (recommended)
pip install asreview
# Option B : Télécharger le bureau app
# https://asreview.nl/download/
# Launch ASReview LAB
asreview lab
pip install asreview
# Option B : Télécharger le bureau app
# https://asreview.nl/download/
# Launch ASReview LAB
asreview lab
REQUIREMENTS
• Python 3.8+ (pour l'installation pip)
• OR: Windows/Mac desktop app (no Python needed)
• Your references in RIS, CSV, or EndNote XML format
• OR: Windows/Mac desktop app (no Python needed)
• Your references in RIS, CSV, or EndNote XML format
Step 2: Create Project & Import
Project Setup Workflow
New Project
↓
Nommez votre projetDescriptive, include date
↓
Import referencesRIS/CSV/XML file
↓
ASReview deduplicatesCheck count matches expected
↓
Prêt pour les connaissances préalables
Step 3: Add Prior Knowledge
CRITICAL STEP
Le modèle apprend de vos décisions initiales.
You need à la fois pertinent ET non pertinent examples.
You need à la fois pertinent ET non pertinent examples.
Prior Knowledge Strategy
1 Add 5-10 known relevant études (à partir d'une recherche de cadrage)
2 Search for clearly irrelevant topics (random sample)
3 Mark 10-20 irrelevant as negative examples
4 Aim for ~1:2 ratio (relevant:irrelevant) to start
WARNING
Poor prior knowledge = poor model performance.
Garbage in, garbage out.
Garbage in, garbage out.
Step 4: Screen with Active Learning
Screening Loop
ASReview presents record
↓
Your decision
RelevantInclure pour le texte intégral
IrrelevantExclude
↓
Model updatesRe-ranks remaining
↓
Next most likely relevantRepeat until stopping rule
Step 5: Stopping Decision
Stopping Rules Compared
Consecutive irrelevant (50-200)
Common, but no recall guarantee
% of total screened (e.g., 50%)
Predictable effort, variable recall
All records screened
100% recall, no time savings
Statistical stopping (Busfelder)
Evidence-based, requires plugin
VALIDATION REQUIREMENT
After stopping: manually screen random sample of unscreened records.
Report estimated recall with confidence interval.
Report estimated recall with confidence interval.
"L'outil est simple. Les décisions ne le sont pas.
Feed it good examples. Check when you stop.
Exportez votre fichier de projet : c'est votre piste d'audit."
Feed it good examples. Check when you stop.
Exportez votre fichier de projet : c'est votre piste d'audit."
Bibliothèque d'ingénierie rapide
Validated prompts for meta-analysis tasks
Prompt Principles
Pour des sorties LLM fiables
1 Be specific: Define exact fields and formats
2 Provide examples: Show expected output format
3 Request uncertainty: Demandez les drapeaux "NR" ou "UNCLEAR"
4 Demand quotes: Require source text for verification
5 Limit scope: One task per prompt, not everything at once
Invite 1 : Extraction de données ECR
Extrayez ce qui suit de cet ECR. Pour chaque champ, indiquez :
- The value
- La citation exacte du journal (entre guillemets)
- "NR" si non signalé, "UNCLEAR" si ambigu
FIELDS:
1. Intervention group sample size (ITT): [n]
2. Control group sample size (ITT): [n]
3. Primary outcome definition: [text]
4. Primary outcome: intervention events/total: [x/n]
5. Primary outcome: control events/total: [x/n]
6. Risk ratio (95% CI): [RR (lower, upper)]
7. Follow-up duration: [weeks/months]
OUTPUT FORMAT: JSON avec "valeur" et "devis" pour chaque champ
- The value
- La citation exacte du journal (entre guillemets)
- "NR" si non signalé, "UNCLEAR" si ambigu
FIELDS:
1. Intervention group sample size (ITT): [n]
2. Control group sample size (ITT): [n]
3. Primary outcome definition: [text]
4. Primary outcome: intervention events/total: [x/n]
5. Primary outcome: control events/total: [x/n]
6. Risk ratio (95% CI): [RR (lower, upper)]
7. Follow-up duration: [weeks/months]
OUTPUT FORMAT: JSON avec "valeur" et "devis" pour chaque champ
Invite 2 : Caractéristiques de l'étude
Extraire les caractéristiques de l’étude. Fournissez des devis exacts pour vérification.
FIELDS:
1. Study design: [RCT / Cluster RCT / Crossover / Other]
2. Country/countries: [list]
3. Setting: [hospital / primary care / community / other]
4. Recruitment period: [start date - end date]
5. Funding source: [text]
6. Trial registration: [ID number or "NR"]
7. Conflicts of interest declared: [Yes/No/NR]
If information is in supplementary materials, note "See Supplement".
If truly not reported anywhere, mark "NR".
FIELDS:
1. Study design: [RCT / Cluster RCT / Crossover / Other]
2. Country/countries: [list]
3. Setting: [hospital / primary care / community / other]
4. Recruitment period: [start date - end date]
5. Funding source: [text]
6. Trial registration: [ID number or "NR"]
7. Conflicts of interest declared: [Yes/No/NR]
If information is in supplementary materials, note "See Supplement".
If truly not reported anywhere, mark "NR".
Prompt 3: Population Characteristics
Extract baseline population characteristics.
Rapport pour les groupes d'INTERVENTION et de CONTRÔLE séparément.
FIELDS (per group):
1. N randomized: [n]
2. N analyzed: [n]
3. Age: [mean (SD) or median (IQR)]
4. Sex (% female): [%]
5. Key inclusion criteria: [text]
6. Key exclusion criteria: [text]
7. Disease severity at baseline: [measure and value]
NOTE: If groups combined only, report combined with note.
Rapport pour les groupes d'INTERVENTION et de CONTRÔLE séparément.
FIELDS (per group):
1. N randomized: [n]
2. N analyzed: [n]
3. Age: [mean (SD) or median (IQR)]
4. Sex (% female): [%]
5. Key inclusion criteria: [text]
6. Key exclusion criteria: [text]
7. Disease severity at baseline: [measure and value]
NOTE: If groups combined only, report combined with note.
Prompt 4: Risk of Bias Screening
NOTE: Ceci concerne uniquement le signalement PRÉLIMINAIRE.
Human assessment required for final judgment.
For each RoB 2 domain, identify relevant text:
D1 Randomization:
- Méthode de génération de séquence : [citation ou NR]
- Méthode de masquage d'allocation : [devis ou NR]
D2 Deviations:
- Blinding of participants: [quote or NR]
- Blinding of personnel: [quote or NR]
D3 Missing data:
- Attrition rates: [intervention: x%, control: y%]
- Traitement des données manquantes : [devis ou NR]
DO NOT make judgments. Only extract quotes.
Human assessment required for final judgment.
For each RoB 2 domain, identify relevant text:
D1 Randomization:
- Méthode de génération de séquence : [citation ou NR]
- Méthode de masquage d'allocation : [devis ou NR]
D2 Deviations:
- Blinding of participants: [quote or NR]
- Blinding of personnel: [quote or NR]
D3 Missing data:
- Attrition rates: [intervention: x%, control: y%]
- Traitement des données manquantes : [devis ou NR]
DO NOT make judgments. Only extract quotes.
"L'invite est votre contrat avec la machine.
Soyez précis dans ce que vous demandez.
Exigez des preuves pour chaque réponse.
Verify every output against the source."
Soyez précis dans ce que vous demandez.
Exigez des preuves pour chaque réponse.
Verify every output against the source."
Vous ne rédigerez peut-être jamais une revue systématique.
Mais tu le feras read them.
Comment savoir si l'assistance de l'IA
was done well or poorly?
Mais tu le feras read them.
Comment savoir si l'assistance de l'IA
was done well or poorly?
The IBM Watson Oncology Failure
MD ANDERSON CANCER CENTER, 2017
IBM Watson for Oncology a été formé pour recommander des traitements contre le cancer.
After spending $62 million, MD Anderson a annulé le projet.
Internal documents showed Watson made "dangereuses et incorrectes" recommandations de traitement. Il a été formé sur des cas synthétiques et non sur des données réelles de patients.
L’IA avait l’air confiante. Les recommandations étaient dangereuses.
Lesson: AI confidence ≠ AI correctness
After spending $62 million, MD Anderson a annulé le projet.
Internal documents showed Watson made "dangereuses et incorrectes" recommandations de traitement. Il a été formé sur des cas synthétiques et non sur des données réelles de patients.
L’IA avait l’air confiante. Les recommandations étaient dangereuses.
Lesson: AI confidence ≠ AI correctness
STAT News investigation, 2017; IEEE Spectrum 2019
Questions pour les examens assistés par l'IA
Que rechercher dans les méthodes
1 Did they nommer les outils d'IA used? (version, date)
2 Did they specify which tasks were AI-assisted?
3 Did they validate AI outputs? How?
4 Pour le dépistage de l’IA : quoi stopping rule? What estimated recall?
5 Pour l'extraction de l'IA : Était 100% human verified?
6 Was there human oversight of all AI decisions?
Red Flags in AI-Assisted Reviews
Warning Signs
"AI screened all titles"
No human involvement?
"Données extraites par GPT"
No verification mentioned?
"Stopped after 500 consecutive irrelevant"
No recall estimate?
"AI-generated protocol"
Human decisions unclear?
No AI tools mentioned but clearly AI-written
Hidden AI use
Pour les patients et les cliniciens
CE QUE VOUS DEVEZ SAVOIR
Good AI use: Speeds up the work, human verifies
Bad AI use: Replaces human judgment, no validation
An AI-assisted review can be trustworthy—if done right.
Bad AI use: Replaces human judgment, no validation
An AI-assisted review can be trustworthy—if done right.
Simple Questions to Ask
? "L'IA a-t-elle été utilisée dans cet examen ?"
? "Les résultats de l'IA ont-ils été vérifiés par des humains ?"
? "Could AI have missed important studies?"
"AI assistance is not a flaw—it is often an advantage.
But only if validated, only if disclosed.
Demandez : la machine a-t-elle été vérifiée ?
Si la réponse n'est pas claire, la réponse l'est également. "
But only if validated, only if disclosed.
Demandez : la machine a-t-elle été vérifiée ?
Si la réponse n'est pas claire, la réponse l'est également. "
N'avez-vous pas considéré le chercheur
with unstable internet, limited compute,
no institutional subscription,
who still needs to synthesize evidence?
with unstable internet, limited compute,
no institutional subscription,
who still needs to synthesize evidence?
Gratuit et Outils compatibles hors ligne
ASReview
Desktop app
Works offline
Works offline
FREE
Abstrackr
Web-based
Free accounts
Free accounts
FREE
Rayyan
Free tier
Limited AI
Limited AI
FREEMIUM
RevMan
Cochrane tool
Full MA software
Full MA software
FREE
Offline Workflow
When Internet is Unreliable
Search Phase
↓
Bibliothèque/café : téléchargez tous les fichiers PDFTéléchargement par lots une fois connecté
↓
Screening Phase
↓
ASReview desktopWorks fully offline
↓
Extraction Phase
↓
Spreadsheet + local PDFsNo AI needed
Low-Cost LLM Alternatives
WHEN API COSTS ARE PROHIBITIVE
• Claude/ChatGPT free tiers: Limited but functional
• Ollama + local models: Free, runs on laptop (requires download)
• Hugging Face inference: Free tier available
• Manual extraction: Still gold standard, just slower
• Ollama + local models: Free, runs on laptop (requires download)
• Hugging Face inference: Free tier available
• Manual extraction: Still gold standard, just slower
HONEST ASSESSMENT
L'IA est une commodité, pas une nécessité.
All Cochrane reviews were done without AI.
La qualité vient des méthodes, pas de outils.
All Cochrane reviews were done without AI.
La qualité vient des méthodes, pas de outils.
Resource-Limited Decision Tree
Choisir votre approche
Your Resources
↓
Internet reliability?
Stable
Web tools OKRayyan, Covidence
Unreliable
Desktop toolsASReview offline
None
Manual + spreadsheetsStill valid
"Les preuves appartiennent à tout le monde,
pas seulement à ceux qui disposent d'une connexion Internet rapide et d'abonnements payants.
Les outils peuvent différer. Les méthodes demeurent.
Quality synthesis is possible anywhere."
pas seulement à ceux qui disposent d'une connexion Internet rapide et d'abonnements payants.
Les outils peuvent différer. Les méthodes demeurent.
Quality synthesis is possible anywhere."
Validation Calculations
Tailles d'échantillon pour la vérification de l'IA
Estimating Recall After AI Screening
THE PROBLEM
Vous avez arrêté le dépistage à 1 000 sur 5 000 enregistrements.
Dans quelle mesure êtes-vous sûr d'avoir trouvé toutes les études pertinentes ?
Dans quelle mesure êtes-vous sûr d'avoir trouvé toutes les études pertinentes ?
Validation Sampling
Unscreened records (n=4000)
↓
Random sample (n=400)10% or at least 200
↓
Manual screening
0 relevant foundRecall ≈ 95-100%
Relevant foundScreen all remaining
Sample Size Formula
POUR 95 % DE CONFIANCE DANS LE RAPPEL
n = ln(1 - confidence) / ln(1 - prevalence)
Example:
If prevalence of relevant = 1% (0.01)
For 95% confidence (0.95):
n = ln(1 - 0.95) / ln(1 - 0.01)
n = ln(0.05) / ln(0.99)
n ≈ 299 records to sample
Example:
If prevalence of relevant = 1% (0.01)
For 95% confidence (0.95):
n = ln(1 - 0.95) / ln(1 - 0.01)
n = ln(0.05) / ln(0.99)
n ≈ 299 records to sample
Quick Reference Table
Tailles des échantillons pour la validation
Prevalence 0.5%, 95% conf
598 records
Prevalence 1%, 95% conf
299 records
Prevalence 2%, 95% conf
149 records
Prevalence 5%, 95% conf
59 records
Practical minimum
200 records (conservative)
Déclarer votre Validation
Exemple de méthode de texte :
"Nous avons utilisé ASReview LAB (v1.2) pour la sélection des titres/résumés avec
active learning. Screening ceased after 150 consecutive
irrelevant records, having screened 1,247 of 4,892 records
(25%). To validate recall, we manually screened a random
sample of 300 unscreened records. No additional relevant
des études ont été identifiées, suggérant un rappel estimé ≥95 %
(binomial 95% CI: 91-100%)."
"Nous avons utilisé ASReview LAB (v1.2) pour la sélection des titres/résumés avec
active learning. Screening ceased after 150 consecutive
irrelevant records, having screened 1,247 of 4,892 records
(25%). To validate recall, we manually screened a random
sample of 300 unscreened records. No additional relevant
des études ont été identifiées, suggérant un rappel estimé ≥95 %
(binomial 95% CI: 91-100%)."
"La validation n'est pas facultatif : c'est le prix de l'efficacité.
Calculate your sample. Screen it manually.
Rapportez ce que vous avez trouvé. Admettez ce que vous avez peut-être manqué. »
Calculate your sample. Screen it manually.
Rapportez ce que vous avez trouvé. Admettez ce que vous avez peut-être manqué. »
1 / 6