AI > La Promessa e il Peril
==================== MODULO 1: LA PROMESSA E IL PERICOLO ====================
==================== MODULO 2: SCREENING ASSISTITO DA AI ====================
==================== MODULO 3: LLM PER L'ESTRAZIONE DATI ====================
==================== MODULO 4: RISCHIO DI BIAS AUTOMATIZZATO ====================
==================== MODULO 5: GPT PER LA SCRITTURA DEL PROTOCOLLO ====================
==================== MODULO 6: LIVING REVIEWS + AI ====================
==================== MODULO 7: QUADRO DI ASSICURAZIONE DELLA QUALITÀ ====================
==================== MODULO 8: CONSIDERAZIONI ETICHE ====================
==================== MODULO 9: INDIRIZZI FUTURI ====================
==================== MODULO 10: QUIZ E RIFERIMENTI ====================
==================== MODULO 11: ASREVIEW PASSO PER PASSO ====================
==================== MODULO 12: PROMPT ENGINEERING LIBRARY ====================
==================== MODULO 13: LETTURA DI REVISIONI ASSISTITE DA AI ====================
==================== MODULO 14: IMPOSTAZIONI CON RISORSE LIMITATE ====================
==================== MODULO 15: CALCOLI DI VALIDAZIONE ====================
Non hai sentito parlare della macchina che legge
ten thousand abstracts in an hour,
che estrae dati mentre dormi,
that promises to liberarti dalla fatica?
ten thousand abstracts in an hour,
che estrae dati mentre dormi,
that promises to liberarti dalla fatica?
La rivoluzione dell'intelligenza artificiale nella sintesi delle prove
67%
Workload reduction
with AI screening
with AI screening
95%
Recall achievable
con l'apprendimento attivo
con l'apprendimento attivo
10x
Faster screening
than manual
than manual
THE PROMISE
L'intelligenza artificiale può selezionare abstract, estrarre dati, valutare il rischio di bias e monitorare nuovi prove—if used correctly.
When AI Fails in Healthcare
IBM WATSON ONCOLOGY, MD ANDERSON, 2013-2017
Nel 2013, MD Anderson Cancer Center ha collaborato con IBM Watson per rivoluzionare le raccomandazioni sul trattamento del cancro. Il costo del progetto $62 million.
Nel 2017, il progetto è stato abbandonato. Le raccomandazioni di Watson sono risultate "non sicure e errate" in multiple cases.
In one documented case, Watson recommended a treatment that would cause severe bleeding in a patient already on blood thinners.
The core problem: Watson had been trained primarily on hypothetical cases created by physicians, non dati reali del paziente. L'intelligenza artificiale ha imparato a imitare le opinioni degli esperti piuttosto che imparare dai risultati effettivi.
Nel 2017, il progetto è stato abbandonato. Le raccomandazioni di Watson sono risultate "non sicure e errate" in multiple cases.
In one documented case, Watson recommended a treatment that would cause severe bleeding in a patient already on blood thinners.
The core problem: Watson had been trained primarily on hypothetical cases created by physicians, non dati reali del paziente. L'intelligenza artificiale ha imparato a imitare le opinioni degli esperti piuttosto che imparare dai risultati effettivi.
Stat News, 2017; IEEE Spectrum, 2019
THE LESSON
L'intelligenza artificiale addestrata su dati sintetici o ipotetici fallisce sui pazienti reali. Il divario tra i dati di addestramento e la realtà può essere letale.
Il problema delle allucinazioni
LAWYERS SANCTIONED, NEW YORK, 2023
Attorneys used ChatGPT to research case law for a federal court brief.
L'intelligenza artificiale ha citato sei casi con citazioni complete, citazioni e numeri di pagina.
Nessuno dei casi esisteva.
Il giudice ha ritenuto che le citazioni fossero "incomprensibile" e ha sanzionato gli avvocati.
Questo non è un bug. È così che funzionano i modelli linguistici di grandi dimensioni: prevedono testo plausibile, non verità verificata.
L'intelligenza artificiale ha citato sei casi con citazioni complete, citazioni e numeri di pagina.
Nessuno dei casi esisteva.
Il giudice ha ritenuto che le citazioni fossero "incomprensibile" e ha sanzionato gli avvocati.
Questo non è un bug. È così che funzionano i modelli linguistici di grandi dimensioni: prevedono testo plausibile, non verità verificata.
Mata v. Avianca, Inc., 22-cv-1461 (S.D.N.Y. 2023)
La domanda fondamentale
When to Trust AI in Meta-Analysis
AI Tool Output
↓
Task Type?
Ranking/Prioritization
Lower riskHuman reviews top-ranked
Binary Decision
Medium riskNeeds validation
Text Generation
High riskHallucination possible
Cosa può e non può fare l'intelligenza artificiale
Honest Assessment
Screening prioritization
✓ Excellent
Duplicate detection
✓ Excellent
Estrazione dei dati (strutturata)
⚠ Needs verification
Risk of bias assessment
⚠ Preliminary only
Scrittura protocollo/metodi
⚠ Draft only
Statistical analysis
✗ Human required
Clinical interpretation
✗ Human required
"La macchina legge velocemente ma non capisce.
Prevede la parola successiva, non la verità.
Usalo per accelerare, non per sostituire.
The judgment must remain yours."
Prevede la parola successiva, non la verità.
Usalo per accelerare, non per sostituire.
The judgment must remain yours."
Non hai visto il revisore
who screened ten thousand titles by hand,
whose eyes grew tired, whose attention wandered,
che si è perso il uno studio importante?
who screened ten thousand titles by hand,
whose eyes grew tired, whose attention wandered,
che si è perso il uno studio importante?
Gli strumenti di screening
ASReview
Active learning
Open source
Open source
Free
Rayyan
AI recommendations
Collaboration
Collaboration
Freemium
Abstrackr
Semi-automated
Web-based
Web-based
Free
EPPI-Reviewer
Priority screening
Full workflow
Full workflow
Subscription
How Active Learning Works
ASReview Workflow
Import References
↓
Screen seed papers10-20 known relevant
↓
AI learns patternsAggiornamenti con ogni decisione
↓
Prioritizes likely relevantMost promising first
↓
Stopping rule?
Consecutive irrelevante.g., 100-200 in row
% screenedad esempio, 50% con controllo del ricordo
Prestazioni reali Dati
VAN DE SCHOOT ET AL., 2021
Systematic evaluation of ASReview across 4 datasets:
• PTSD dataset: 95% recall after screening 40% of records
• Software fault prediction: 95% recall after 20%
• Virus metagenomics: 95% recall after 10%
Average workload reduction: 67-95% depending on prevalence.
But: Performance varies by topic and prevalence. Low-prevalence topics show greater efficiency gains.
• PTSD dataset: 95% recall after screening 40% of records
• Software fault prediction: 95% recall after 20%
• Virus metagenomics: 95% recall after 10%
Average workload reduction: 67-95% depending on prevalence.
But: Performance varies by topic and prevalence. Low-prevalence topics show greater efficiency gains.
Van de Schoot R et al. Nat Mach Intell. 2021;3:125-133
When AI-Assisted Screening Works
ASREVIEW AND COCHRANE COVID-19 RESPONSE, 2020
During the COVID-19 pandemic, Cochrane needed to screen 50,000+ citations weekly to keep reviews current.
Il sistema di apprendimento attivo di ASReview è stato implementato con una rigorosa supervisione umana:
• Reduced human screening workload by 75%
• Missed fewer than 1% of relevant studies
• Validated at every stage by human reviewers
La chiave del successo: human-in-the-loop validation at every stageL'IA ha dato la priorità, ma gli umani hanno preso le decisioni finali e controllato campioni di record esclusi dall'IA.
Il sistema di apprendimento attivo di ASReview è stato implementato con una rigorosa supervisione umana:
• Reduced human screening workload by 75%
• Missed fewer than 1% of relevant studies
• Validated at every stage by human reviewers
La chiave del successo: human-in-the-loop validation at every stageL'IA ha dato la priorità, ma gli umani hanno preso le decisioni finali e controllato campioni di record esclusi dall'IA.
Cochrane COVID-NMA consortium, 2020-2021
THE LESSON
L’intelligenza artificiale aumenta il giudizio umano; non lo sostituisce. Il successo deriva dalla partnership, non dall'automazione.
When Internal Validation Fails
EPIC SEPSIS MODEL, JAMA INTERNAL MEDICINE, 2021
Epic Systems deployed a sepsis prediction algorithm to hundreds of hospitals in tutti gli Stati Uniti.
Epic's internal validation showed excellent performance. Hospitals trusted it.
Poi è arrivato lo studio di validazione esterna in JAMA Internal Medicine:
• The model missed 67% of sepsis cases
• It triggered thousands of false alarms
• Nurses developed severe "alert fatigue"
Il modello era stato convalidato su dati storici dello stesso sistema: non era mai stato testato nell'ambiente clinico reale in cui sarebbe stato distribuito.
Epic's internal validation showed excellent performance. Hospitals trusted it.
Poi è arrivato lo studio di validazione esterna in JAMA Internal Medicine:
• The model missed 67% of sepsis cases
• It triggered thousands of false alarms
• Nurses developed severe "alert fatigue"
Il modello era stato convalidato su dati storici dello stesso sistema: non era mai stato testato nell'ambiente clinico reale in cui sarebbe stato distribuito.
Wong A et al. JAMA Intern Med. 2021;181(8):1065-1070
THE LESSON
La convalida interna non è una convalida esterna. Un modello che funziona in fase di sviluppo potrebbe non riuscire in fase di distribuzione. Convalida sempre nel contesto del mondo reale.
Il problema dell'arresto
IL PERICOLO NASCOSTO
Quando interrompi lo screening con l'apprendimento attivo?
Se interrompi anche tu presto: Perdi studi rilevanti
Se ti fermi troppo tardi: Perdi i guadagni di efficienza
L'algoritmo non può dirti quando hai trovato tutto. Classifica solo ciò che rimane.
There is no perfect stopping rule. Every rule trades recall for efficiency.
Se interrompi anche tu presto: Perdi studi rilevanti
Se ti fermi troppo tardi: Perdi i guadagni di efficienza
L'algoritmo non può dirti quando hai trovato tutto. Classifica solo ciò che rimane.
There is no perfect stopping rule. Every rule trades recall for efficiency.
CRITICAL POINT
You must convalida la regola di arresto by manually checking
a random sample of unscreened records.
AI Screening Decision Tree
dovresti utilizzare lo screening AI?
Large Reference Set?
↓
<500 refs
Manual OKil sovraccarico dell'AI non vale la pena
500-2000 refs
AI helpfulModerate efficiency gain
>2000 refs
AI essentialMajor time savings
↓
Always validate with random sampleReport methodology in paper
"La macchina trova gli aghi più velocemente,
but it cannot guarantee none remain in the haystack.
fidati la graduatoria, verifica l'interruzione,
e segnala sempre ciò che hai fatto."
but it cannot guarantee none remain in the haystack.
fidati la graduatoria, verifica l'interruzione,
e segnala sempre ciò che hai fatto."
Avere non hai sognato l'assistente
who reads every paper and fills every cell,
who never tires, never errs,
who extracts perfectly?
Quell'assistente non esiste.
who reads every paper and fills every cell,
who never tires, never errs,
who extracts perfectly?
Quell'assistente non esiste.
Il problema dell'accuratezza dell'estrazione
GPT-4 DATA EXTRACTION STUDY, 2024
I ricercatori hanno testato GPT-4 per estrarre dati da 100 Documenti RCT.
Results:
• Sample sizes: 89% accurate
• Effect estimates: 76% accurate
• Confidence intervals: 71% accurate
• Risk of bias judgments: 62% agreement with humans
A 24% error rate in effetti le stime significano che circa 1 studio su 4 avrebbe dati errati nella meta-analisi.
Results:
• Sample sizes: 89% accurate
• Effect estimates: 76% accurate
• Confidence intervals: 71% accurate
• Risk of bias judgments: 62% agreement with humans
A 24% error rate in effetti le stime significano che circa 1 studio su 4 avrebbe dati errati nella meta-analisi.
Guo Y et al. J Clin Epidemiol. 2024;165:111203
Il problema della fabbricazione
GPT-4 HALLUCINATIONS IN SYSTEMATIC REVIEWS, 2023
I ricercatori hanno testato GPT-4 per l'estrazione dei dati da documenti di revisione sistematica. Al modello sono stati forniti PDF e gli è stato chiesto di estrarre dimensioni del campione, valori p e stime degli effetti.
GPT-4 confidently provided all requested numbers with precise formatting.
But Il 23% delle estrazioni erano "allucinazioni"—numeri senza base nel testo originale.
In one case, the model fabricated a statistically significant result (p=0.003) da uno studio che in realtà trovato no significant effect (p=0.42).
La confidenza del modello era indistinguibile tra dati reali e dati fittizi.
GPT-4 confidently provided all requested numbers with precise formatting.
But Il 23% delle estrazioni erano "allucinazioni"—numeri senza base nel testo originale.
In one case, the model fabricated a statistically significant result (p=0.003) da uno studio che in realtà trovato no significant effect (p=0.42).
La confidenza del modello era indistinguibile tra dati reali e dati fittizi.
Studi di convalida dell'intelligenza artificiale con revisione sistematica, 2023
THE LESSON
Gli LLM richiedono la verifica umana al 100% per i dati quantitativi. Non esiste una scorciatoia. Ogni numero deve essere confrontato con la fonte.
Flusso di lavoro di estrazione dati LLM
Safe LLM Extraction Protocol
PDF/Full Text
↓
LLM estrae i datiStructured prompt
↓
Human verifies 100%NOT sampling
↓
Discrepancy?
Yes
Human value usedDocument error
No
ProceedLog verification
Prompt Engineering for Extraction
# Example extraction prompt
Extract quanto segue da questo RCT:
1. Sample size (intervention arm): [number]
2. Sample size (control arm): [number]
3. Primary outcome definition: [text]
4. Effect estimate: [number with unit]
5. 95% CI: [lower, upper]
6. p-value: [number]
If not reported, write "NR"
If unclear, write "UNCLEAR: [reason]"
# Provide exact quotes for verification
Extract quanto segue da questo RCT:
1. Sample size (intervention arm): [number]
2. Sample size (control arm): [number]
3. Primary outcome definition: [text]
4. Effect estimate: [number with unit]
5. 95% CI: [lower, upper]
6. p-value: [number]
If not reported, write "NR"
If unclear, write "UNCLEAR: [reason]"
# Provide exact quotes for verification
When LLMs Help vs. Hurt
LLM Extraction Value Assessment
Standardized fields (author, year)
✓ High accuracy
Simple numeric (sample size)
✓ Usually reliable
Complex numeric (adjusted OR)
⚠ Often wrong model
Composite outcomes
⚠ Misses components
Intention-to-treat vs per-protocol
✗ Frequently confused
Subgroup data
✗ High error rate
"The LLM extracts plausible numbers,
non necessariamente numeri corretti.
È una prima bozza veloce, non una risposta finale.
Every cell must be verified by human eyes."
non necessariamente numeri corretti.
È una prima bozza veloce, non una risposta finale.
Every cell must be verified by human eyes."
Non hai desiderato un giudice
who reads every methods section,
who assesses bias without bias,
che non sia mai in disaccordo con themselves?
who reads every methods section,
who assesses bias without bias,
che non sia mai in disaccordo con themselves?
RobotReviewer
MARSHALL ET AL., NATURE MACHINE INTELLIGENCE, 2019
RobotReviewer uses machine learning to assess risk of bias in RCTs.
Validation against Cochrane assessments:
• Random sequence generation: 71% agreement
• Allocation concealment: 65% agreement
• Blinding of participants: 69% agreement
• Blinding of outcome assessment: 62% agreement
Human inter-rater agreement is typically 70-80%.
RobotReviewer approaches but does not exceed human performance.
Validation against Cochrane assessments:
• Random sequence generation: 71% agreement
• Allocation concealment: 65% agreement
• Blinding of participants: 69% agreement
• Blinding of outcome assessment: 62% agreement
Human inter-rater agreement is typically 70-80%.
RobotReviewer approaches but does not exceed human performance.
Marshall IJ et al. Nat Mach Intell. 2019;1:115-117
RoB Automation Decision Tree
When to Use Automated RoB
Risk of Bias Assessment
↓
Review Type?
Rapid review
Automated OKAcknowledge limitation
Scoping review
Automated OKIf RoB included
Revisione sistematica completa
Preliminary onlyHuman verification required
Cochrane review
Human requiredDraft support only
Limitations of Automated RoB
What Machines Cannot Assess
✗ Outcome-specific bias (RoB 2 domain 4)
✗ Selective reporting based on protocol comparison
✗ Contextual judgment (Is this design appropriate?)
✗ Cross-paper inconsistencies (multiple reports)
✗ Influenza dei finanziamenti sull'interpretazione dei risultati
IL LIMITE FONDAMENTALE
AI reads what is written.
Bias assessment often requires judging what is not written.
Flusso di lavoro ibrido per RoB
Best Practice Protocol
Full Text PDFs
↓
RobotReviewer screeningFlags potential issues
↓
Reviewer 1 assessesUsing AI output as reference
↓
Reviewer 2 independentlyBlinded to AI output
↓
Consensus meeting
↓
Final assessmentHuman decision documented
"Il robot legge i metodi sezione
but cannot read between the lines.
Usalo per segnalare, non per giudicare.
Il verdetto deve essere umano."
but cannot read between the lines.
Usalo per segnalare, non per giudicare.
Il verdetto deve essere umano."
Non hai desiderato per lo scrittore
who drafts your protocol in minutes,
who knows every PRISMA item,
who writes in perfect academic prose?
who drafts your protocol in minutes,
who knows every PRISMA item,
who writes in perfect academic prose?
LLM per la redazione del protocollo
✓
Structure
generation
generation
✓
Boilerplate
text
text
⚠
PICO
formulation
formulation
✗
Search
strategy
strategy
LA PROPOSIZIONE DI VALORE
I LLM possono redigere la struttura e il linguaggio standard. È necessario fornire scientific decisions.
La strategia di ricerca Pericolo
TESTED ACROSS MULTIPLE LLMs, 2023-2024
Researchers asked GPT-4 and Claude to generate MEDLINE search strategies.
Common errors:
• Invented MeSH terms that don't exist
• Wrong field codes (e.g., [tiab] vs [tw])
• Concetti chiave mancanti dalla domanda di ricerca
• Overly narrow strategies missing relevant studies
• Syntax errors that wouldn't execute
An information specialist must write or validate all search strategies.
Common errors:
• Invented MeSH terms that don't exist
• Wrong field codes (e.g., [tiab] vs [tw])
• Concetti chiave mancanti dalla domanda di ricerca
• Overly narrow strategies missing relevant studies
• Syntax errors that wouldn't execute
An information specialist must write or validate all search strategies.
Studi di convalida multipli 2023-2024
Protocol Writing Decision Tree
LLM Use in Protocol Development
Protocol Section
↓
Background/Rationale
LLM helpfulDraft + fact-check
Methods structure
LLM helpfulTemplate generation
PICO criteria
Human decidesLLM refines wording
Search strategy
Human/SpecialistAI too unreliable
Safe LLM Protocol Workflow
Quality Assurance Steps
1 Define PICO yourself (human scientific decision)
2 Ask LLM to draft protocol sections
3 Verify all cited guidelines exist (PRISMA, Cochrane)
4 Write search strategy with information specialist
5 Check all methodological decisions are defensible
6 Disclose AI assistance in protocol
7 Registrare i soggetti verificati da esseri umani versione
"La macchina può scrivere le parole,
but it cannot make the decisions.
Tu definisci la domanda. Tu scegli i metodi.
Il protocollo è tuo: l'AI è il dattilografo."
but it cannot make the decisions.
Tu definisci la domanda. Tu scegli i metodi.
Il protocollo è tuo: l'AI è il dattilografo."
Non hai visto la revisione sistematica
che non era aggiornata prima della pubblicazione,
while new trials accumulated in the literature,
unsynthesized, unknown?
che non era aggiornata prima della pubblicazione,
while new trials accumulated in the literature,
unsynthesized, unknown?
The Living Review Problema
COVID-19 EVIDENCE TSUNAMI, 2020
Nel primo anno della pandemia:
• 100,000+ COVID papers published
• Traditional reviews obsolete within weeks
• Clinicians made decisions on incomplete evidence
Il consorzio COVID-NMA ha utilizzato AI-assisted surveillance to monitor new trials daily and update meta-analyses weekly.
Ciò richiesto: monitoraggio automatizzato della ricerca, definizione delle priorità di screening tramite intelligenza artificiale, estrazione rapida dei dati flussi di lavoro e aggiornamenti statistici continui.
• 100,000+ COVID papers published
• Traditional reviews obsolete within weeks
• Clinicians made decisions on incomplete evidence
Il consorzio COVID-NMA ha utilizzato AI-assisted surveillance to monitor new trials daily and update meta-analyses weekly.
Ciò richiesto: monitoraggio automatizzato della ricerca, definizione delle priorità di screening tramite intelligenza artificiale, estrazione rapida dei dati flussi di lavoro e aggiornamenti statistici continui.
Defined in Cochrane Living Reviews guidance
Componenti AI per Living Reviews
Automated Surveillance Stack
Sistema di revisione vivente
↓
Auto-searchDaily/weekly runs
AI triagePriority screening
Rapid extractionLLM-assisted
Auto-updateCumulative MA
↓
Human oversight at each stageRevisione editoriale prima della pubblicazione
Strumenti per il monitoraggio continuo
PubMed Alerts
Free email alerts
Saved searches
Saved searches
Basic
Epistemonikos
Systematic review
database
database
AI-curated
Covidence
Auto-import
Living mode
Living mode
Subscription
DistillerSR
AI screening
+ monitoring
+ monitoring
Enterprise
Decisione sulla revisione vivente Quadro
Quando rendere una recensione "vivente"
Dovrebbe essere viva?
↓
Criteria Check
Priority questionClinical importance
Evidence evolvingActive trial pipeline
Resources securedFinanziamento per 2+ anni
↓
All three required for living status
"La macchina osserva la letteratura
mentre dormi.
But someone must wake to judge
se le nuove prove cambiano la verità."
mentre dormi.
But someone must wake to judge
se le nuove prove cambiano la verità."
Se usi la macchina senza verifica,
non sai quali errori hai commesso.
Se controlli tutto ciò che la macchina produce,
what time have you saved?
La risposta sta in strategic verification.
non sai quali errori hai commesso.
Se controlli tutto ciò che la macchina produce,
what time have you saved?
La risposta sta in strategic verification.
Il paradosso della verifica
THE DILEMMA
Full verification = No time savings
No verification = Unknown error rate
Strategic verification = Validated efficiency
No verification = Unknown error rate
Strategic verification = Validated efficiency
Verification Strategy by Risk
High-risk tasks
100% human reviewEstrazione dei dati, RoB
Medium-risk tasks
Sample validationScreening decisions
Low-risk tasks
Spot checksDeduplication
When Oversight Catches Bias
COCHRANE MACHINE LEARNING PILOT, 2022
Cochrane tested ML-assisted risk of bias assessment to accelerate systematic reviews.
L'algoritmo ha raggiunto 85% di accordo con i revisori umani—seemingly impressive.
Ma il team di QA ha analizzato il 15% di disaccordi e ha scoperto uno schema:
The AI was systematically biased toward rating industry-funded trials as low risk.
I dati di addestramento contenevano più etichette "a basso rischio" per gli studi delle aziende farmaceutiche: l'algoritmo ha appreso questa correlazione senza comprendere le preoccupazioni metodologiche sottostanti.
Human oversight caught the pattern before any biased reviews were published.
L'algoritmo ha raggiunto 85% di accordo con i revisori umani—seemingly impressive.
Ma il team di QA ha analizzato il 15% di disaccordi e ha scoperto uno schema:
The AI was systematically biased toward rating industry-funded trials as low risk.
I dati di addestramento contenevano più etichette "a basso rischio" per gli studi delle aziende farmaceutiche: l'algoritmo ha appreso questa correlazione senza comprendere le preoccupazioni metodologiche sottostanti.
Human oversight caught the pattern before any biased reviews were published.
Studio pilota del Cochrane Methods Group, 2022
THE LESSON
L'analisi dei disaccordi rivela bias sistematici. Un'elevata precisione complessiva può nascondere modelli pericolosi. Analizza sempre dove e come l'intelligenza artificiale fallisce, non solo quanto spesso.
QA Framework per revisioni assistite dall'intelligenza artificiale
Minimum Quality Standards
1 Pre-specify AI use in protocol (which tools, which tasks)
2 Document AI settings (model version, prompts, parameters)
3 Validate screening with random sample (calculate recall estimate)
4 Verifica tutti i dati estratti against source documents
5 Human RoB assessment (AI as preliminary only)
6 Track error rates per AI task
7 Report transparently in methods section
Reporting AI Use (PRISMA-S)
COSA RIPORTARE NEL TUO DOCUMENTO
• Which AI tools were used (name, version, date)
• Which tasks were AI-assisted
• What validation was performed
• What error rates were observed
• What human oversight was maintained
• Any deviations dal protocollo a causa dell'intelligenza artificiale limitazioni
• Which tasks were AI-assisted
• What validation was performed
• What error rates were observed
• What human oversight was maintained
• Any deviations dal protocollo a causa dell'intelligenza artificiale limitazioni
EMERGING STANDARD
Journals increasingly require AI use statements.
PRISMA-S extension for search reporting includes automation.
Il flusso di lavoro AI-MA completo
Integrated Human-AI Process
Protocol (Human + LLM draft)
↓
Search (Human/Specialist)
↓
Screening (AI prioritize + Human decide)
↓
Extraction (LLM draft + Human verify 100%)
↓
RoB (AI flag + Human assess)
↓
Analysis (Human)
↓
Interpretation (Human)
"The machine is neither colleague nor replacement.
È uno strumento potente, veloce e fallibile.
Document what you used. Validate what it produced.
La responsabilità rimane tua."
È uno strumento potente, veloce e fallibile.
Document what you used. Validate what it produced.
La responsabilità rimane tua."
Non hai considerato
whose labor trained the model,
whose data it consumed without consent,
whose jobs it may displace?
whose labor trained the model,
whose data it consumed without consent,
whose jobs it may displace?
Il lavoro nascosto
KENYAN DATA LABELERS, TIME MAGAZINE 2023
ChatGPT è stato reso "sicuro" attraverso un processo chiamato RLHF— Reinforcement Learning from Human Feedback.
Gli esseri umani che hanno fornito il feedback erano lavoratori in Kenya, pagati less than $2 per hour per leggere ed etichettare contenuti tossici, violenti e inquietanti.
Hanno sviluppato traumi psicologici a causa del lavoro.
Ogni strumento di intelligenza artificiale che usi si basa sul lavoro umano, spesso invisibile, spesso sottopagato, spesso danneggiato.
Gli esseri umani che hanno fornito il feedback erano lavoratori in Kenya, pagati less than $2 per hour per leggere ed etichettare contenuti tossici, violenti e inquietanti.
Hanno sviluppato traumi psicologici a causa del lavoro.
Ogni strumento di intelligenza artificiale che usi si basa sul lavoro umano, spesso invisibile, spesso sottopagato, spesso danneggiato.
Perrigo B. Time Magazine. 2023 Jan 18.
Automating Inequality
UK A-LEVEL ALGORITHM SCANDAL, 2020
Quando il COVID-19 ha annullato gli esami di livello A nel Regno Unito, il governo ha utilizzato un algoritmo per prevedere i voti degli studenti in base al rendimento scolastico storico.
The results:
• Students from disadvantaged schools were systematically downgraded
• Students from le scuole private sono state aggiornate
• L'algoritmo ha annullato le previsioni degli insegnanti secondo cui gli studenti avrebbero successo
After massive public outcry, Il 40% dei voti è stato rivisto.
L'algoritmo aveva codificato historical inequality as predictionLe scuole che storicamente mandavano meno studenti all'università sono state penalizzate, indipendentemente dalle capacità dei singoli studenti.
The results:
• Students from disadvantaged schools were systematically downgraded
• Students from le scuole private sono state aggiornate
• L'algoritmo ha annullato le previsioni degli insegnanti secondo cui gli studenti avrebbero successo
After massive public outcry, Il 40% dei voti è stato rivisto.
L'algoritmo aveva codificato historical inequality as predictionLe scuole che storicamente mandavano meno studenti all'università sono state penalizzate, indipendentemente dalle capacità dei singoli studenti.
UK Office of Qualifications and Examinations Regulation, 2020
THE LESSON
L'intelligenza artificiale può automatizzare i pregiudizi su larga scala. Quando i dati storici riflettono la disuguaglianza sistemica, gli algoritmi addestrati su tali dati li perpetuano e li amplificano.
Quadro etico per l'intelligenza artificiale nella ricerca
Questions to Ask
1 Transparency: Can I fully disclose how AI was used?
2 Accountability: Chi è responsabile degli errori dell'IA?
3 Equity: Does AI access create research inequities?
4 Labor: Chi ha creato questo strumento?
5 Environment: What is the carbon cost of model training?
6 Reproducibility: Can others replicate my AI-assisted work?
Authorship and AI
ICMJE POSITION
AI tools cannot be listed as authors.
Authors must take responsibility for AI-generated content.
AI use must be disclosed in methods or acknowledgments.
Authors must take responsibility for AI-generated content.
AI use must be disclosed in methods or acknowledgments.
YOUR RESPONSIBILITY
Se l'intelligenza artificiale ha allucinazioni e tu la pubblichi,
ti assumi la responsabilità— non OpenAI, non Anthropic, non lo strumento.
"La macchina non ha coscienza.
Non gli importa se i dati sono veri.
Non sa chi è stato maltrattato per addestrarlo.
Devi essere la sua coscienza manca."
Non gli importa se i dati sono veri.
Non sa chi è stato maltrattato per addestrarlo.
Devi essere la sua coscienza manca."
La strada da percorrere
Dove l'AI in Evidence Synthesis sta andando
Emerging Capabilities
Multimodal AI
Extract from
figures/tables
figures/tables
2024-2025
Agent Systems
Multi-step
workflows
workflows
Emerging
RAG Systems
Retrieval-augmented
generation
generation
Active research
Fine-tuned Models
MA-specific
training
training
In development
Cosa NON cambierà
Enduring Human Requirements
★ Definire la domanda di ricerca (giudizio clinico)
★ Interpreting clinical significance (domain expertise)
★ Assessing applicability (contextual knowledge)
★ Making recommendations (value judgments)
★ Taking responsibility (ethical accountability)
THE CONSTANT
L'intelligenza artificiale accelererà i meccanismi.
La scienza rimane umana.
La scienza rimane umana.
Prepararsi per Futuro
Skills to Develop
Future-Ready Researcher
↓
Prompt engineeringGetting good AI outputs
Validation methodsKnowing when AI errs
Core methodsAI cannot replace
↓
I migliori utenti di intelligenza artificiale sono i migliori metodologiUnderstanding enables oversight
"The machine grows stronger each year.
Ma la domanda rimane la stessa:
What is true? What helps patients?
L'intelligenza artificiale può aiutare la ricerca.
Solo tu puoi fornire il risposta."
Ma la domanda rimane la stessa:
What is true? What helps patients?
L'intelligenza artificiale può aiutare la ricerca.
Solo tu puoi fornire il risposta."
Metti alla prova le tue conoscenze
Qual è la limitazione principale nell'utilizzo LLM per l'estrazione dei dati?
Sono troppo lenti
They can generate plausible but incorrect data (hallucinations)
They cannot read PDFs
Sono troppo costosi
When using AI screening (e.g., ASReview), what must you always do?
Trust the AI completely after training
Screen only the top 10% of ranked records
Convalidare la regola di arresto con un campione casuale
Utilizzare più strumenti di intelligenza artificiale contemporaneamente
Per quale attività l'AI non dovrebbe MAI essere il decisore finale?
Deduplication
Screening prioritization
Interpretazione clinica dei risultati
Reference formatting
References
Key Sources
- Van de Schoot R et al. Nat Mach Intell. 2021;3:125-133. [ASReview]
- Marshall IJ et al. Nat Mach Intell. 2019;1:115-117. [RobotReviewer]
- Guo Y et al. J Clin Epidemiol. 2024;165:111203. [GPT-4 extraction]
- Mata v. Avianca, 22-cv-1461 (S.D.N.Y. 2023). [Hallucination case]
- Perrigo B. Time Magazine. 2023 Jan 18. [AI labor ethics]
- Elliott JH et al. J Clin Epidemiol. 2017;91:23-30. [Living reviews]
- Cochrane Handbook 2023. Chapter on automation.
- ICMJE. Recommendations on AI authorship. 2023.
- Rethlefsen ML et al. J Med Libr Assoc. 2021. [PRISMA-S]
- Wang S et al. Syst Rev. 2023;12:178. [AI screening validation]
✔
Course Complete
"Ora conosci il Silicon Scribe:
its powers and its limits.
Usalo per accelerare, non per sostituire.
Validate what it produces.
Documenta ciò che hai fatto.
E ricorda sempre:
La macchina prevede la parola successiva.
Devi giudicare se quella parola è vera."
its powers and its limits.
Usalo per accelerare, non per sostituire.
Validate what it produces.
Documenta ciò che hai fatto.
E ricorda sempre:
La macchina prevede la parola successiva.
Devi giudicare se quella parola è vera."
ASReview: Step-by-Step Tutorial
Da installazione per interrompere la decisione
Step 1: Installation
# Option A: Python pip (recommended)
pip install asreview
# Opzione B: scarica l'app desktop
# https://asreview.nl/download/
# Launch ASReview LAB
asreview lab
pip install asreview
# Opzione B: scarica l'app desktop
# https://asreview.nl/download/
# Launch ASReview LAB
asreview lab
REQUIREMENTS
• Python 3.8+ (per installazione pip)
• OR: Windows/Mac desktop app (no Python needed)
• Your references in RIS, CSV, or EndNote XML format
• OR: Windows/Mac desktop app (no Python needed)
• Your references in RIS, CSV, or EndNote XML format
Step 2: Create Project & Import
Project Setup Workflow
New Project
↓
Assegna un nome al tuo progettoDescriptive, include date
↓
Import referencesRIS/CSV/XML file
↓
ASReview deduplicatesCheck count matches expected
↓
Pronto per le conoscenze preliminari
Step 3: Add Prior Knowledge
CRITICAL STEP
Il modello apprende dalle tue decisioni iniziali.
You need sia rilevanti che irrilevanti examples.
You need sia rilevanti che irrilevanti examples.
Prior Knowledge Strategy
1 Add 5-10 known relevant studi (dalla ricerca di ambito)
2 Search for clearly irrelevant topics (random sample)
3 Mark 10-20 irrelevant as negative examples
4 Aim for ~1:2 ratio (relevant:irrelevant) to start
WARNING
Poor prior knowledge = poor model performance.
Garbage in, garbage out.
Garbage in, garbage out.
Step 4: Screen with Active Learning
Screening Loop
ASReview presents record
↓
Your decision
RelevantIncludi per il testo completo
IrrelevantExclude
↓
Model updatesRe-ranks remaining
↓
Next most likely relevantRepeat until stopping rule
Step 5: Stopping Decision
Stopping Rules Compared
Consecutive irrelevant (50-200)
Common, but no recall guarantee
% of total screened (e.g., 50%)
Predictable effort, variable recall
All records screened
100% recall, no time savings
Statistical stopping (Busfelder)
Evidence-based, requires plugin
VALIDATION REQUIREMENT
After stopping: manually screen random sample of unscreened records.
Report estimated recall with confidence interval.
Report estimated recall with confidence interval.
"Lo strumento è semplice. Le decisioni sono no.
Feed it good examples. Check when you stop.
Esporta il file di progetto: è la tua traccia di controllo."
Feed it good examples. Check when you stop.
Esporta il file di progetto: è la tua traccia di controllo."
Libreria di ingegneria dei prompt
Validated prompts for meta-analysis tasks
Prompt Principles
Per output LLM affidabili
1 Be specific: Define exact fields and formats
2 Provide examples: Show expected output format
3 Request uncertainty: Richiedi flag "NR" o "UNCLEAR"
4 Demand quotes: Require source text for verification
5 Limit scope: One task per prompt, not everything at once
Prompt 1: Estrazione dati RCT
Estrai quanto segue da questo RCT. Per ciascun campo, fornire:
- The value
- La citazione esatta dal documento (tra virgolette)
- "NR" se non riportato, "UNCLEAR" se ambiguo
FIELDS:
1. Intervention group sample size (ITT): [n]
2. Control group sample size (ITT): [n]
3. Primary outcome definition: [text]
4. Primary outcome: intervention events/total: [x/n]
5. Primary outcome: control events/total: [x/n]
6. Risk ratio (95% CI): [RR (lower, upper)]
7. Follow-up duration: [weeks/months]
OUTPUT FORMAT: JSON con "valore" e "quote" per ciascun campo
- The value
- La citazione esatta dal documento (tra virgolette)
- "NR" se non riportato, "UNCLEAR" se ambiguo
FIELDS:
1. Intervention group sample size (ITT): [n]
2. Control group sample size (ITT): [n]
3. Primary outcome definition: [text]
4. Primary outcome: intervention events/total: [x/n]
5. Primary outcome: control events/total: [x/n]
6. Risk ratio (95% CI): [RR (lower, upper)]
7. Follow-up duration: [weeks/months]
OUTPUT FORMAT: JSON con "valore" e "quote" per ciascun campo
Richiesta 2: Caratteristiche dello studio
Estrai le caratteristiche dello studio. Fornire preventivi esatti per la verifica.
FIELDS:
1. Study design: [RCT / Cluster RCT / Crossover / Other]
2. Country/countries: [list]
3. Setting: [hospital / primary care / community / other]
4. Recruitment period: [start date - end date]
5. Funding source: [text]
6. Trial registration: [ID number or "NR"]
7. Conflicts of interest declared: [Yes/No/NR]
If information is in supplementary materials, note "See Supplement".
If truly not reported anywhere, mark "NR".
FIELDS:
1. Study design: [RCT / Cluster RCT / Crossover / Other]
2. Country/countries: [list]
3. Setting: [hospital / primary care / community / other]
4. Recruitment period: [start date - end date]
5. Funding source: [text]
6. Trial registration: [ID number or "NR"]
7. Conflicts of interest declared: [Yes/No/NR]
If information is in supplementary materials, note "See Supplement".
If truly not reported anywhere, mark "NR".
Prompt 3: Population Characteristics
Extract baseline population characteristics.
Rapporto separato per i gruppi INTERVENTO e CONTROLLO.
FIELDS (per group):
1. N randomized: [n]
2. N analyzed: [n]
3. Age: [mean (SD) or median (IQR)]
4. Sex (% female): [%]
5. Key inclusion criteria: [text]
6. Key exclusion criteria: [text]
7. Disease severity at baseline: [measure and value]
NOTE: If groups combined only, report combined with note.
Rapporto separato per i gruppi INTERVENTO e CONTROLLO.
FIELDS (per group):
1. N randomized: [n]
2. N analyzed: [n]
3. Age: [mean (SD) or median (IQR)]
4. Sex (% female): [%]
5. Key inclusion criteria: [text]
6. Key exclusion criteria: [text]
7. Disease severity at baseline: [measure and value]
NOTE: If groups combined only, report combined with note.
Prompt 4: Risk of Bias Screening
NOTE: Questo è solo per la segnalazione PRELIMINARE.
Human assessment required for final judgment.
For each RoB 2 domain, identify relevant text:
D1 Randomization:
- Metodo di generazione della sequenza: [citazione o NR]
- Metodo di occultamento dell'allocazione: [citazione o NR]
D2 Deviations:
- Blinding of participants: [quote or NR]
- Blinding of personnel: [quote or NR]
D3 Missing data:
- Attrition rates: [intervention: x%, control: y%]
- Gestione dei dati mancanti: [quote o NR]
DO NOT make judgments. Only extract quotes.
Human assessment required for final judgment.
For each RoB 2 domain, identify relevant text:
D1 Randomization:
- Metodo di generazione della sequenza: [citazione o NR]
- Metodo di occultamento dell'allocazione: [citazione o NR]
D2 Deviations:
- Blinding of participants: [quote or NR]
- Blinding of personnel: [quote or NR]
D3 Missing data:
- Attrition rates: [intervention: x%, control: y%]
- Gestione dei dati mancanti: [quote o NR]
DO NOT make judgments. Only extract quotes.
"Il prompt è il tuo contratto con la macchina.
Sii preciso in ciò che chiedi.
Richiedi prove per ogni risposta.
Verify every output against the source."
Sii preciso in ciò che chiedi.
Richiedi prove per ogni risposta.
Verify every output against the source."
Potresti non scrivere mai una revisione sistematica.
Ma tu volontà read them.
Come fai a sapere se l'assistenza AI
was done well or poorly?
Ma tu volontà read them.
Come fai a sapere se l'assistenza AI
was done well or poorly?
The IBM Watson Oncology Failure
MD ANDERSON CANCER CENTER, 2017
IBM Watson for Oncology è stata addestrata a consigliare trattamenti contro il cancro.
After spending $62 million, MD Anderson ha annullato il progetto.
Internal documents showed Watson made "non sicure e errate" raccomandazioni per il trattamento È stata addestrata su casi sintetici, non su pazienti reali dati.
L'intelligenza artificiale sembrava fiduciosa. Le raccomandazioni erano pericolose.
Lesson: AI confidence ≠ AI correctness
After spending $62 million, MD Anderson ha annullato il progetto.
Internal documents showed Watson made "non sicure e errate" raccomandazioni per il trattamento È stata addestrata su casi sintetici, non su pazienti reali dati.
L'intelligenza artificiale sembrava fiduciosa. Le raccomandazioni erano pericolose.
Lesson: AI confidence ≠ AI correctness
STAT News investigation, 2017; IEEE Spectrum 2019
Domande per le revisioni assistite dall'intelligenza artificiale
Cosa cercare nei metodi
1 Did they denominare gli strumenti AI used? (version, date)
2 Did they specify which tasks were AI-assisted?
3 Did they validate AI outputs? How?
4 Per lo screening AI: Cosa stopping rule? What estimated recall?
5 Per l'estrazione AI: era 100% human verified?
6 Was there human oversight of all AI decisions?
Red Flags in AI-Assisted Reviews
Warning Signs
"AI screened all titles"
No human involvement?
"Dati estratti GPT"
No verification mentioned?
"Stopped after 500 consecutive irrelevant"
No recall estimate?
"AI-generated protocol"
Human decisions unclear?
No AI tools mentioned but clearly AI-written
Hidden AI use
Per pazienti e medici
COSA DEVI SAPERE
Good AI use: Speeds up the work, human verifies
Bad AI use: Replaces human judgment, no validation
An AI-assisted review can be trustworthy—if done right.
Bad AI use: Replaces human judgment, no validation
An AI-assisted review can be trustworthy—if done right.
Simple Questions to Ask
? "È stata utilizzata l'intelligenza artificiale in questa revisione?"
? "I risultati dell'intelligenza artificiale sono stati controllati da esseri umani?"
? "Could AI have missed important studies?"
"AI assistance is not a flaw—it is often an advantage.
But only if validated, only if disclosed.
Chiedi: la macchina è stata controllata?
Se la risposta non è chiara, lo è anche la review."
But only if validated, only if disclosed.
Chiedi: la macchina è stata controllata?
Se la risposta non è chiara, lo è anche la review."
Non hai considerato il ricercatore
with unstable internet, limited compute,
no institutional subscription,
who still needs to synthesize evidence?
with unstable internet, limited compute,
no institutional subscription,
who still needs to synthesize evidence?
Gratuito & Strumenti con funzionalità offline
ASReview
Desktop app
Works offline
Works offline
FREE
Abstrackr
Web-based
Free accounts
Free accounts
FREE
Rayyan
Free tier
Limited AI
Limited AI
FREEMIUM
RevMan
Cochrane tool
Full MA software
Full MA software
FREE
Offline Workflow
When Internet is Unreliable
Search Phase
↓
Libreria/bar: scarica tutti i PDFScarica batch quando connesso
↓
Screening Phase
↓
ASReview desktopWorks fully offline
↓
Extraction Phase
↓
Spreadsheet + local PDFsNo AI needed
Low-Cost LLM Alternatives
WHEN API COSTS ARE PROHIBITIVE
• Claude/ChatGPT free tiers: Limited but functional
• Ollama + local models: Free, runs on laptop (requires download)
• Hugging Face inference: Free tier available
• Manual extraction: Still gold standard, just slower
• Ollama + local models: Free, runs on laptop (requires download)
• Hugging Face inference: Free tier available
• Manual extraction: Still gold standard, just slower
HONEST ASSESSMENT
L'intelligenza artificiale è una comodità, non una necessità.
All Cochrane reviews were done without AI.
La qualità deriva dai metodi, non dal strumenti.
All Cochrane reviews were done without AI.
La qualità deriva dai metodi, non dal strumenti.
Resource-Limited Decision Tree
Scegli il tuo approccio
Your Resources
↓
Internet reliability?
Stable
Web tools OKRayyan, Covidence
Unreliable
Desktop toolsASReview offline
None
Manual + spreadsheetsStill valid
"Le prove appartengono a tutti,
non solo a coloro che dispongono di Internet veloce e abbonamenti a pagamento.
Gli strumenti potrebbero differire. I metodi rimangono.
Quality synthesis is possible anywhere."
non solo a coloro che dispongono di Internet veloce e abbonamenti a pagamento.
Gli strumenti potrebbero differire. I metodi rimangono.
Quality synthesis is possible anywhere."
Validation Calculations
Dimensioni dei campioni per la verifica AI
Estimating Recall After AI Screening
THE PROBLEM
Hai interrotto lo screening alle 1000 su 5000 record.
Quanto sei sicuro di aver trovato tutti gli studi pertinenti?
Quanto sei sicuro di aver trovato tutti gli studi pertinenti?
Validation Sampling
Unscreened records (n=4000)
↓
Random sample (n=400)10% or at least 200
↓
Manual screening
0 relevant foundRecall ≈ 95-100%
Relevant foundScreen all remaining
Sample Size Formula
PER UNA FIDUCIA DEL 95% NEL RICHIAMO
n = ln(1 - confidence) / ln(1 - prevalence)
Example:
If prevalence of relevant = 1% (0.01)
For 95% confidence (0.95):
n = ln(1 - 0.95) / ln(1 - 0.01)
n = ln(0.05) / ln(0.99)
n ≈ 299 records to sample
Example:
If prevalence of relevant = 1% (0.01)
For 95% confidence (0.95):
n = ln(1 - 0.95) / ln(1 - 0.01)
n = ln(0.05) / ln(0.99)
n ≈ 299 records to sample
Quick Reference Table
Dimensioni dei campioni per la convalida
Prevalence 0.5%, 95% conf
598 records
Prevalence 1%, 95% conf
299 records
Prevalence 2%, 95% conf
149 records
Prevalence 5%, 95% conf
59 records
Practical minimum
200 records (conservative)
Reporting dei tuoi Validazione
Testo metodi di esempio:
"Abbiamo utilizzato ASReview LAB (v1.2) per lo screening di titoli/abstract con
active learning. Screening ceased after 150 consecutive
irrelevant records, having screened 1,247 of 4,892 records
(25%). To validate recall, we manually screened a random
sample of 300 unscreened records. No additional relevant
sono stati identificati studi, suggerendo un ricordo stimato ≥95%
(binomial 95% CI: 91-100%)."
"Abbiamo utilizzato ASReview LAB (v1.2) per lo screening di titoli/abstract con
active learning. Screening ceased after 150 consecutive
irrelevant records, having screened 1,247 of 4,892 records
(25%). To validate recall, we manually screened a random
sample of 300 unscreened records. No additional relevant
sono stati identificati studi, suggerendo un ricordo stimato ≥95%
(binomial 95% CI: 91-100%)."
"La validazione non è facoltativa: è il prezzo dell'efficienza.
Calculate your sample. Screen it manually.
Riporta cosa hai trovato. Ammetti quello che potresti aver perso."
Calculate your sample. Screen it manually.
Riporta cosa hai trovato. Ammetti quello che potresti aver perso."
1 / 6