AI > A Promessa e o Perigo
==================== MÓDULO 1: A PROMESSA E O PERIGO ====================
==================== MÓDULO 2: TRIAGEM ASSISTIDA POR IA =====================
==================== MÓDULO 3: LLMs PARA EXTRAÇÃO DE DADOS ===================
=================== MÓDULO 4: RISCO DE VIÉS AUTOMATIZADO ===================
==================== MÓDULO 5: GPT PARA ESCRITA DE PROTOCOLO ==================
===================== MÓDULO 6: LIVING REVIEWS + AI ====================
==================== MÓDULO 7: ESTRUTURA DE GARANTIA DE QUALIDADE ===================
==================== MÓDULO 8: CONSIDERAÇÕES ÉTICAS ===================
==================== MÓDULO 9: DIREÇÕES FUTURAS ====================
==================== MÓDULO 10: TESTE E REFERÊNCIAS ====================
==================== MÓDULO 11: COMOREVISÃO PASSO A PASSO =====================
=================== MÓDULO 12: BIBLIOTECA DE ENGENHARIA PROMPT ===================
=================== MÓDULO 13: LEITURA DE REVISÕES ASSISTIDAS POR IA ====================
==================== MÓDULO 14: CONFIGURAÇÕES COM RECURSOS LIMITADOS ====================
==================== MÓDULO 15: CÁLCULOS DE VALIDAÇÃO ====================
Você não ouviu falar da máquina que lê
ten thousand abstracts in an hour,
que extrai dados enquanto você dorme,
that promises to libertá-lo do trabalho penoso?
ten thousand abstracts in an hour,
que extrai dados enquanto você dorme,
that promises to libertá-lo do trabalho penoso?
A revolução da IA na síntese de evidências
67%
Workload reduction
with AI screening
with AI screening
95%
Recall achievable
com aprendizado ativo
com aprendizado ativo
10x
Faster screening
than manual
than manual
THE PROMISE
A IA pode selecionar resumos, extrair dados, avaliar o risco de viés e monitorar novos evidências—if used correctly.
When AI Fails in Healthcare
IBM WATSON ONCOLOGY, MD ANDERSON, 2013-2017
Em 2013, o MD Anderson Cancer Center fez parceria com o IBM Watson para revolucionar as recomendações de tratamento do câncer. O custo do projeto $62 million.
Em 2017, o projeto foi abandonado. As recomendações de Watson foram consideradas "inseguras e incorretas" in multiple cases.
In one documented case, Watson recommended a treatment that would cause severe bleeding in a patient already on blood thinners.
The core problem: Watson had been trained primarily on hypothetical cases created by physicians, e não dados reais de pacientes. A IA aprendeu a imitar as opiniões de especialistas em vez de aprender com os resultados reais.
Em 2017, o projeto foi abandonado. As recomendações de Watson foram consideradas "inseguras e incorretas" in multiple cases.
In one documented case, Watson recommended a treatment that would cause severe bleeding in a patient already on blood thinners.
The core problem: Watson had been trained primarily on hypothetical cases created by physicians, e não dados reais de pacientes. A IA aprendeu a imitar as opiniões de especialistas em vez de aprender com os resultados reais.
Stat News, 2017; IEEE Spectrum, 2019
THE LESSON
A IA treinada em dados sintéticos ou hipotéticos falha em pacientes reais. A lacuna entre os dados de treinamento e a realidade pode ser letal.
O problema da alucinação
LAWYERS SANCTIONED, NEW YORK, 2023
Attorneys used ChatGPT to research case law for a federal court brief.
A IA citou seis casos com citações completas, citações e números de página.
Nenhum dos casos existia.
O juiz concluiu que as citações eram "absurdo" e sancionou os advogados.
Isso não é um bug. É assim que grandes modelos de linguagem funcionam - eles prevêem texto plausível, não verdade verificada.
A IA citou seis casos com citações completas, citações e números de página.
Nenhum dos casos existia.
O juiz concluiu que as citações eram "absurdo" e sancionou os advogados.
Isso não é um bug. É assim que grandes modelos de linguagem funcionam - eles prevêem texto plausível, não verdade verificada.
Mata v. Avianca, Inc., 22-cv-1461 (S.D.N.Y. 2023)
A questão central
When to Trust AI in Meta-Analysis
AI Tool Output
↓
Task Type?
Ranking/Prioritization
Lower riskHuman reviews top-ranked
Binary Decision
Medium riskNeeds validation
Text Generation
High riskHallucination possible
O que a IA pode e não pode fazer
Honest Assessment
Screening prioritization
✓ Excellent
Duplicate detection
✓ Excellent
Extração de dados (estruturada)
⚠ Needs verification
Risk of bias assessment
⚠ Preliminary only
Escrita protocolo/métodos
⚠ Draft only
Statistical analysis
✗ Human required
Clinical interpretation
✗ Human required
"A máquina lê rápido, mas não entende.
Ela prevê a próxima palavra, não a verdade.
Use-a para acelerar, não para substituir.
The judgment must remain yours."
Ela prevê a próxima palavra, não a verdade.
Use-a para acelerar, não para substituir.
The judgment must remain yours."
Você não viu o revisor
who screened ten thousand titles by hand,
whose eyes grew tired, whose attention wandered,
que perdeu o um estudo que importava?
who screened ten thousand titles by hand,
whose eyes grew tired, whose attention wandered,
que perdeu o um estudo que importava?
As ferramentas de triagem
ASReview
Active learning
Open source
Open source
Free
Rayyan
AI recommendations
Collaboration
Collaboration
Freemium
Abstrackr
Semi-automated
Web-based
Web-based
Free
EPPI-Reviewer
Priority screening
Full workflow
Full workflow
Subscription
How Active Learning Works
ASReview Workflow
Import References
↓
Screen seed papers10-20 known relevant
↓
AI learns patternsAtualizações com cada decisão
↓
Prioritizes likely relevantMost promising first
↓
Stopping rule?
Consecutive irrelevante.g., 100-200 in row
% screenedpor exemplo, 50% com verificação de recall
Desempenho real Dados
VAN DE SCHOOT ET AL., 2021
Systematic evaluation of ASReview across 4 datasets:
• PTSD dataset: 95% recall after screening 40% of records
• Software fault prediction: 95% recall after 20%
• Virus metagenomics: 95% recall after 10%
Average workload reduction: 67-95% depending on prevalence.
But: Performance varies by topic and prevalence. Low-prevalence topics show greater efficiency gains.
• PTSD dataset: 95% recall after screening 40% of records
• Software fault prediction: 95% recall after 20%
• Virus metagenomics: 95% recall after 10%
Average workload reduction: 67-95% depending on prevalence.
But: Performance varies by topic and prevalence. Low-prevalence topics show greater efficiency gains.
Van de Schoot R et al. Nat Mach Intell. 2021;3:125-133
When AI-Assisted Screening Works
ASREVIEW AND COCHRANE COVID-19 RESPONSE, 2020
During the COVID-19 pandemic, Cochrane needed to screen 50,000+ citations weekly to keep reviews current.
O sistema de aprendizagem ativo do ASReview foi implantado com rigorosa supervisão humana:
• Reduced human screening workload by 75%
• Missed fewer than 1% of relevant studies
• Validated at every stage by human reviewers
A chave para o sucesso: human-in-the-loop validation at every stage.
O sistema de aprendizagem ativo do ASReview foi implantado com rigorosa supervisão humana:
• Reduced human screening workload by 75%
• Missed fewer than 1% of relevant studies
• Validated at every stage by human reviewers
A chave para o sucesso: human-in-the-loop validation at every stage.
Cochrane COVID-NMA consortium, 2020-2021
THE LESSON
A IA aumenta o julgamento humano; não o substitui. O sucesso vem da parceria, não da automação.
When Internal Validation Fails
EPIC SEPSIS MODEL, JAMA INTERNAL MEDICINE, 2021
Epic Systems deployed a sepsis prediction algorithm to hundreds of hospitals em todos os Estados Unidos.
Epic's internal validation showed excellent performance. Hospitals trusted it.
Então veio o estudo de validação externa na JAMA Internal Medicine:
• The model missed 67% of sepsis cases
• It triggered thousands of false alarms
• Nurses developed severe "alert fatigue"
O modelo foi validado em dados históricos do mesmo sistema - ele nunca havia sido testado no ambiente clínico real onde seria implantado.
Epic's internal validation showed excellent performance. Hospitals trusted it.
Então veio o estudo de validação externa na JAMA Internal Medicine:
• The model missed 67% of sepsis cases
• It triggered thousands of false alarms
• Nurses developed severe "alert fatigue"
O modelo foi validado em dados históricos do mesmo sistema - ele nunca havia sido testado no ambiente clínico real onde seria implantado.
Wong A et al. JAMA Intern Med. 2021;181(8):1065-1070
THE LESSON
Validação interna não é validação externa. Um modelo que funciona no desenvolvimento pode falhar na implantação. Sempre valide no contexto do mundo real.
O problema da parada
O PERIGO OCULTO
Quando você interrompe a triagem com aprendizado ativo?
Se você parar muito cedo: Você perca estudos relevantes
Se você parar tarde demais: Você perde ganhos de eficiência
O algoritmo não pode dizer quando você encontrou tudo. Ele apenas classifica o que resta.
There is no perfect stopping rule. Every rule trades recall for efficiency.
Se você parar muito cedo: Você perca estudos relevantes
Se você parar tarde demais: Você perde ganhos de eficiência
O algoritmo não pode dizer quando você encontrou tudo. Ele apenas classifica o que resta.
There is no perfect stopping rule. Every rule trades recall for efficiency.
CRITICAL POINT
You must validar sua regra de parada by manually checking
a random sample of unscreened records.
AI Screening Decision Tree
Você deve usar triagem de IA?
Large Reference Set?
↓
<500 refs
Manual OKA sobrecarga de IA não vale a pena
500-2000 refs
AI helpfulModerate efficiency gain
>2000 refs
AI essentialMajor time savings
↓
Always validate with random sampleReport methodology in paper
"A máquina encontra as agulhas mais rápido,
but it cannot guarantee none remain in the haystack.
Confie na classificação, verifique a parada,
e sempre relate o que você fez."
but it cannot guarantee none remain in the haystack.
Confie na classificação, verifique a parada,
e sempre relate o que você fez."
Você não sonhou com o assistente
who reads every paper and fills every cell,
who never tires, never errs,
who extracts perfectly?
Esse assistente não existe.
who reads every paper and fills every cell,
who never tires, never errs,
who extracts perfectly?
Esse assistente não existe.
O problema de precisão de extração
EXTRAÇÃO DE DADOS GPT-4 ESTUDO, 2024
Os pesquisadores testaram o GPT-4 para extrair dados de 100 artigos RCT.
Results:
• Sample sizes: 89% accurate
• Effect estimates: 76% accurate
• Confidence intervals: 71% accurate
• Risk of bias judgments: 62% agreement with humans
A 24% error rate na verdade, as estimativas significam que cerca de 1 em cada 4 estudos teria dados errados em sua meta-análise.
Results:
• Sample sizes: 89% accurate
• Effect estimates: 76% accurate
• Confidence intervals: 71% accurate
• Risk of bias judgments: 62% agreement with humans
A 24% error rate na verdade, as estimativas significam que cerca de 1 em cada 4 estudos teria dados errados em sua meta-análise.
Guo Y et al. J Clin Epidemiol. 2024;165:111203
A Fabricação Problema
GPT-4 HALLUCINATIONS IN SYSTEMATIC REVIEWS, 2023
Os pesquisadores testaram o GPT-4 para extração de dados de artigos de revisão sistemática. O modelo recebeu PDFs e foi solicitado a extrair tamanhos de amostra, valores de p e estimativas de efeito.<
GPT-4 confidently provided all requested numbers with precise formatting.
But 23% das extrações foram "alucinações"—números sem base no texto de origem.
In one case, the model fabricated a statistically significant result (p=0.003) de um estudo que realmente encontrou no significant effect (p=0.42).
O a confiança do modelo era indistinguível entre dados reais e fabricados.
GPT-4 confidently provided all requested numbers with precise formatting.
But 23% das extrações foram "alucinações"—números sem base no texto de origem.
In one case, the model fabricated a statistically significant result (p=0.003) de um estudo que realmente encontrou no significant effect (p=0.42).
O a confiança do modelo era indistinguível entre dados reais e fabricados.
Estudos de validação de IA de revisão sistemática, 2023
THE LESSON
LLMs exigem verificação 100% humana para dados quantitativos. Não há atalho. Cada número deve ser verificado em relação à fonte.
Fluxo de trabalho de extração de dados LLM
Safe LLM Extraction Protocol
PDF/Full Text
↓
LLM extrai dadosStructured prompt
↓
Human verifies 100%NOT sampling
↓
Discrepancy?
Yes
Human value usedDocument error
No
ProceedLog verification
Engenharia imediata para extração
# Example extraction prompt
Extract o seguinte deste RCT:
1. Sample size (intervention arm): [number]
2. Sample size (control arm): [number]
3. Primary outcome definition: [text]
4. Effect estimate: [number with unit]
5. 95% CI: [lower, upper]
6. p-value: [number]
If not reported, write "NR"
If unclear, write "UNCLEAR: [reason]"
# Provide exact quotes for verification
Extract o seguinte deste RCT:
1. Sample size (intervention arm): [number]
2. Sample size (control arm): [number]
3. Primary outcome definition: [text]
4. Effect estimate: [number with unit]
5. 95% CI: [lower, upper]
6. p-value: [number]
If not reported, write "NR"
If unclear, write "UNCLEAR: [reason]"
# Provide exact quotes for verification
When LLMs Help vs. Hurt
LLM Extraction Value Assessment
Standardized fields (author, year)
✓ High accuracy
Simple numeric (sample size)
✓ Usually reliable
Complex numeric (adjusted OR)
⚠ Often wrong model
Composite outcomes
⚠ Misses components
Intention-to-treat vs per-protocol
✗ Frequently confused
Subgroup data
✗ High error rate
"The LLM extracts plausible numbers,
não necessariamente números corretos.
É um primeiro rascunho rápido, não uma resposta final.
Every cell must be verified by human eyes."
não necessariamente números corretos.
É um primeiro rascunho rápido, não uma resposta final.
Every cell must be verified by human eyes."
Você não desejou um juiz
who reads every methods section,
who assesses bias without bias,
que nunca discorda com themselves?
who reads every methods section,
who assesses bias without bias,
que nunca discorda com themselves?
RobotReviewer
MARSHALL ET AL., NATURE MACHINE INTELLIGENCE, 2019
RobotReviewer uses machine learning to assess risk of bias in RCTs.
Validation against Cochrane assessments:
• Random sequence generation: 71% agreement
• Allocation concealment: 65% agreement
• Blinding of participants: 69% agreement
• Blinding of outcome assessment: 62% agreement
Human inter-rater agreement is typically 70-80%.
RobotReviewer approaches but does not exceed human performance.
Validation against Cochrane assessments:
• Random sequence generation: 71% agreement
• Allocation concealment: 65% agreement
• Blinding of participants: 69% agreement
• Blinding of outcome assessment: 62% agreement
Human inter-rater agreement is typically 70-80%.
RobotReviewer approaches but does not exceed human performance.
Marshall IJ et al. Nat Mach Intell. 2019;1:115-117
RoB Automation Decision Tree
When to Use Automated RoB
Risk of Bias Assessment
↓
Review Type?
Rapid review
Automated OKAcknowledge limitation
Scoping review
Automated OKIf RoB included
Revisão sistemática completa
Preliminary onlyHuman verification required
Cochrane review
Human requiredDraft support only
Limitations of Automated RoB
What Machines Cannot Assess
✗ Outcome-specific bias (RoB 2 domain 4)
✗ Selective reporting based on protocol comparison
✗ Contextual judgment (Is this design appropriate?)
✗ Cross-paper inconsistencies (multiple reports)
✗ Influência do financiamento na interpretação dos resultados
O LIMITE FUNDAMENTAL
AI reads what is written.
Bias assessment often requires judging what is not written.
Fluxo de trabalho híbrido para RoB
Best Practice Protocol
Full Text PDFs
↓
RobotReviewer screeningFlags potential issues
↓
Reviewer 1 assessesUsing AI output as reference
↓
Reviewer 2 independentlyBlinded to AI output
↓
Consensus meeting
↓
Final assessmentHuman decision documented
"O robô lê os métodos seção
but cannot read between the lines.
Use-o para sinalizar, não para julgar.
O veredicto deve ser humano."
but cannot read between the lines.
Use-o para sinalizar, não para julgar.
O veredicto deve ser humano."
Você não desejou o escritor
who drafts your protocol in minutes,
who knows every PRISMA item,
who writes in perfect academic prose?
who drafts your protocol in minutes,
who knows every PRISMA item,
who writes in perfect academic prose?
LLMs para elaboração de protocolo
✓
Structure
generation
generation
✓
Boilerplate
text
text
⚠
PICO
formulation
formulation
✗
Search
strategy
strategy
A PROPOSTA DE VALOR
LLMs podem redigir a estrutura e linguagem padrão. Você deve fornecer o scientific decisions.
O perigo da estratégia de pesquisa
TESTED ACROSS MULTIPLE LLMs, 2023-2024
Researchers asked GPT-4 and Claude to generate MEDLINE search strategies.
Common errors:
• Invented MeSH terms that don't exist
• Wrong field codes (e.g., [tiab] vs [tw])
• Conceitos-chave ausentes na questão de pesquisa
• Overly narrow strategies missing relevant studies
• Syntax errors that wouldn't execute
An information specialist must write or validate all search strategies.
Common errors:
• Invented MeSH terms that don't exist
• Wrong field codes (e.g., [tiab] vs [tw])
• Conceitos-chave ausentes na questão de pesquisa
• Overly narrow strategies missing relevant studies
• Syntax errors that wouldn't execute
An information specialist must write or validate all search strategies.
Múltiplos estudos de validação 2023-2024
Protocol Writing Decision Tree
LLM Use in Protocol Development
Protocol Section
↓
Background/Rationale
LLM helpfulDraft + fact-check
Methods structure
LLM helpfulTemplate generation
PICO criteria
Human decidesLLM refines wording
Search strategy
Human/SpecialistAI too unreliable
Safe LLM Protocol Workflow
Quality Assurance Steps
1 Define PICO yourself (human scientific decision)
2 Ask LLM to draft protocol sections
3 Verify all cited guidelines exist (PRISMA, Cochrane)
4 Write search strategy with information specialist
5 Check all methodological decisions are defensible
6 Disclose AI assistance in protocol
7 Registrar o verificado por humanos versão
"A máquina pode escrever as palavras,
but it cannot make the decisions.
Você define a pergunta. Você escolhe os métodos.
O protocolo é seu - AI é o digitador."
but it cannot make the decisions.
Você define a pergunta. Você escolhe os métodos.
O protocolo é seu - AI é o digitador."
Você não viu a revisão sistemática
que estava desatualizada antes de ser publicada,
while new trials accumulated in the literature,
unsynthesized, unknown?
que estava desatualizada antes de ser publicada,
while new trials accumulated in the literature,
unsynthesized, unknown?
The Living Review Problema
COVID-19 EVIDENCE TSUNAMI, 2020
No primeiro ano da pandemia:
• 100,000+ COVID papers published
• Traditional reviews obsolete within weeks
• Clinicians made decisions on incomplete evidence
O consórcio COVID-NMA usou AI-assisted surveillance to monitor new trials daily and update meta-analyses weekly.
Isso exigiu: monitoramento de pesquisa automatizado, priorização de triagem de IA, extração rápida de dados fluxos de trabalho e atualizações estatísticas contínuas.
• 100,000+ COVID papers published
• Traditional reviews obsolete within weeks
• Clinicians made decisions on incomplete evidence
O consórcio COVID-NMA usou AI-assisted surveillance to monitor new trials daily and update meta-analyses weekly.
Isso exigiu: monitoramento de pesquisa automatizado, priorização de triagem de IA, extração rápida de dados fluxos de trabalho e atualizações estatísticas contínuas.
Defined in Cochrane Living Reviews guidance
Componentes de IA para Living Reviews
Automated Surveillance Stack
Living Review System
↓
Auto-searchDaily/weekly runs
AI triagePriority screening
Rapid extractionLLM-assisted
Auto-updateCumulative MA
↓
Human oversight at each stageRevisão editorial antes da publicação
Ferramentas para monitoramento contínuo
PubMed Alerts
Free email alerts
Saved searches
Saved searches
Basic
Epistemonikos
Systematic review
database
database
AI-curated
Covidence
Auto-import
Living mode
Living mode
Subscription
DistillerSR
AI screening
+ monitoring
+ monitoring
Enterprise
Living Review Decision Estrutura
Quando fazer uma revisão "Viver"
Isso deveria ser viver?
↓
Criteria Check
Priority questionClinical importance
Evidence evolvingActive trial pipeline
Resources securedFinanciamento por mais de 2 anos
↓
All three required for living status
"A máquina observa a literatura
enquanto você dorme.
But someone must wake to judge
se a nova evidência muda a verdade."
enquanto você dorme.
But someone must wake to judge
se a nova evidência muda a verdade."
Se você usar a máquina sem verificação,
você não sabe quais erros cometeu.
Se você verificar tudo o que a máquina produz,
what time have you saved?
A resposta está em strategic verification.
você não sabe quais erros cometeu.
Se você verificar tudo o que a máquina produz,
what time have you saved?
A resposta está em strategic verification.
O paradoxo da verificação
THE DILEMMA
Full verification = No time savings
No verification = Unknown error rate
Strategic verification = Validated efficiency
No verification = Unknown error rate
Strategic verification = Validated efficiency
Verification Strategy by Risk
High-risk tasks
100% human reviewExtração de dados, RoB
Medium-risk tasks
Sample validationScreening decisions
Low-risk tasks
Spot checksDeduplication
When Oversight Catches Bias
COCHRANE MACHINE LEARNING PILOT, 2022
Cochrane tested ML-assisted risk of bias assessment to accelerate systematic reviews.
O algoritmo alcançou 85% de concordância com revisores humanos—seemingly impressive.
Mas a equipe de controle de qualidade analisou os 15% de divergências e descobriu um padrão:
The AI was systematically biased toward rating industry-funded trials as low risk.
Os dados de treinamento continham mais rótulos de "baixo risco" para testes de empresas farmacêuticas — o algoritmo aprendeu essa correlação sem entender as preocupações metodológicas subjacentes.
Human oversight caught the pattern before any biased reviews were published.
O algoritmo alcançou 85% de concordância com revisores humanos—seemingly impressive.
Mas a equipe de controle de qualidade analisou os 15% de divergências e descobriu um padrão:
The AI was systematically biased toward rating industry-funded trials as low risk.
Os dados de treinamento continham mais rótulos de "baixo risco" para testes de empresas farmacêuticas — o algoritmo aprendeu essa correlação sem entender as preocupações metodológicas subjacentes.
Human oversight caught the pattern before any biased reviews were published.
Estudo piloto do Cochrane Methods Group, 2022
THE LESSON
A análise de discordância revela viés sistemático. A alta precisão geral pode ocultar padrões perigosos. Sempre analise onde e como a IA falha, não apenas com que frequência.
Estrutura de controle de qualidade para revisões assistidas por IA
Minimum Quality Standards
1 Pre-specify AI use in protocol (which tools, which tasks)
2 Document AI settings (model version, prompts, parameters)
3 Validate screening with random sample (calculate recall estimate)
4 Verifique todos os dados extraídos against source documents
5 Human RoB assessment (AI as preliminary only)
6 Track error rates per AI task
7 Report transparently in methods section
Reporting AI Use (PRISMA-S)
O QUE RELATAR NO SEU PAPEL
• Which AI tools were used (name, version, date)
• Which tasks were AI-assisted
• What validation was performed
• What error rates were observed
• What human oversight was maintained
• Any deviations do protocolo devido à IA limitações
• Which tasks were AI-assisted
• What validation was performed
• What error rates were observed
• What human oversight was maintained
• Any deviations do protocolo devido à IA limitações
EMERGING STANDARD
Journals increasingly require AI use statements.
PRISMA-S extension for search reporting includes automation.
O fluxo de trabalho completo do AI-MA
Integrated Human-AI Process
Protocol (Human + LLM draft)
↓
Search (Human/Specialist)
↓
Screening (AI prioritize + Human decide)
↓
Extraction (LLM draft + Human verify 100%)
↓
RoB (AI flag + Human assess)
↓
Analysis (Human)
↓
Interpretation (Human)
"The machine is neither colleague nor replacement.
É uma ferramenta - poderosa, rápida e falível.
Document what you used. Validate what it produced.
A responsabilidade permanece sua."
É uma ferramenta - poderosa, rápida e falível.
Document what you used. Validate what it produced.
A responsabilidade permanece sua."
Você não considerou
whose labor trained the model,
whose data it consumed without consent,
whose jobs it may displace?
whose labor trained the model,
whose data it consumed without consent,
whose jobs it may displace?
O Trabalho Oculto
KENYAN DATA LABELERS, TIME MAGAZINE 2023
O ChatGPT foi tornado "seguro" por meio de um processo chamado RLHF - Aprendizado por Reforço Humano Feedback.
Os humanos que forneceram esse feedback eram trabalhadores no Quênia, pagos less than $2 per hour para ler e rotular conteúdo tóxico, violento e perturbador.
Eles desenvolveram traumas psicológicos devido ao trabalho.
Cada ferramenta de IA que você usa depende do trabalho humano - muitas vezes invisível, muitas vezes mal pago, muitas vezes prejudicado.
Os humanos que forneceram esse feedback eram trabalhadores no Quênia, pagos less than $2 per hour para ler e rotular conteúdo tóxico, violento e perturbador.
Eles desenvolveram traumas psicológicos devido ao trabalho.
Cada ferramenta de IA que você usa depende do trabalho humano - muitas vezes invisível, muitas vezes mal pago, muitas vezes prejudicado.
Perrigo B. Time Magazine. 2023 Jan 18.
Automating Inequality
UK A-LEVEL ALGORITHM SCANDAL, 2020
Quando a COVID-19 cancelou os exames A-Level no Reino Unido, o governo usou um algoritmo para prever as notas dos alunos com base no histórico de desempenho escolar.
The results:
• Students from disadvantaged schools were systematically downgraded
• Students from as escolas particulares foram atualizadas
• O algoritmo anulou as previsões dos professores de que os alunos iriam sucesso
After massive public outcry, 40% das notas foram revisadas.
O algoritmo havia codificado historical inequality as predictionAs escolas que historicamente enviavam menos alunos para a universidade foram penalizadas, independentemente da habilidade individual do aluno.
The results:
• Students from disadvantaged schools were systematically downgraded
• Students from as escolas particulares foram atualizadas
• O algoritmo anulou as previsões dos professores de que os alunos iriam sucesso
After massive public outcry, 40% das notas foram revisadas.
O algoritmo havia codificado historical inequality as predictionAs escolas que historicamente enviavam menos alunos para a universidade foram penalizadas, independentemente da habilidade individual do aluno.
UK Office of Qualifications and Examinations Regulation, 2020
THE LESSON
A IA pode automatizar o viés em escala Quando os dados históricos refletem a desigualdade sistêmica, os algoritmos são treinados. nesses dados os perpetuam e amplificam.
Quadro Ético para IA em Pesquisa
Questions to Ask
1 Transparency: Can I fully disclose how AI was used?
2 Accountability: Quem é responsável pelos erros de IA?
3 Equity: Does AI access create research inequities?
4 Labor: De quem é o trabalho que permitiu esta ferramenta?
5 Environment: What is the carbon cost of model training?
6 Reproducibility: Can others replicate my AI-assisted work?
Authorship and AI
ICMJE POSITION
AI tools cannot be listed as authors.
Authors must take responsibility for AI-generated content.
AI use must be disclosed in methods or acknowledgments.
Authors must take responsibility for AI-generated content.
AI use must be disclosed in methods or acknowledgments.
YOUR RESPONSIBILITY
Se a IA tiver alucinações e você publicar,
você assume a responsabilidade- nem OpenAI, nem Anthropic, nem a ferramenta.
“A máquina não tem consciência.
Não importa se os dados são verdadeiros.
Não se sabe quem foi prejudicado para treiná-lo.
Você deve ser a consciência que falta."
Não importa se os dados são verdadeiros.
Não se sabe quem foi prejudicado para treiná-lo.
Você deve ser a consciência que falta."
A estrada à frente
Para onde vai a IA na síntese de evidências
Emerging Capabilities
Multimodal AI
Extract from
figures/tables
figures/tables
2024-2025
Agent Systems
Multi-step
workflows
workflows
Emerging
RAG Systems
Retrieval-augmented
generation
generation
Active research
Fine-tuned Models
MA-specific
training
training
In development
O que NÃO vai mudar
Enduring Human Requirements
★ Definição da questão de pesquisa (julgamento clínico)
★ Interpreting clinical significance (domain expertise)
★ Assessing applicability (contextual knowledge)
★ Making recommendations (value judgments)
★ Taking responsibility (ethical accountability)
THE CONSTANT
A IA acelerará a mecânica.
A ciência permanece humana.
A ciência permanece humana.
Preparando-se para o futuro
Skills to Develop
Future-Ready Researcher
↓
Prompt engineeringGetting good AI outputs
Validation methodsKnowing when AI errs
Core methodsAI cannot replace
↓
Os melhores usuários de IA são os melhores metodologistasUnderstanding enables oversight
"The machine grows stronger each year.
Mas a questão permanece a mesma:
What is true? What helps patients?
A IA pode auxiliar na pesquisa.
Só você pode fornecer a resposta."
Mas a questão permanece a mesma:
What is true? What helps patients?
A IA pode auxiliar na pesquisa.
Só você pode fornecer a resposta."
Teste seu conhecimento
Qual é a principal limitação do uso de LLMs para extração de dados?
Eles são muito lentos
They can generate plausible but incorrect data (hallucinations)
They cannot read PDFs
Eles são muito caros
When using AI screening (e.g., ASReview), what must you always do?
Trust the AI completely after training
Screen only the top 10% of ranked records
Valide a regra de parada com uma amostra aleatória
Use várias ferramentas de IA simultaneamente
Para qual tarefa a IA NUNCA deveria ser o tomador de decisão final?
Deduplication
Screening prioritization
Interpretação clínica dos resultados
Reference formatting
References
Key Sources
- Van de Schoot R et al. Nat Mach Intell. 2021;3:125-133. [ASReview]
- Marshall IJ et al. Nat Mach Intell. 2019;1:115-117. [RobotReviewer]
- Guo Y et al. J Clin Epidemiol. 2024;165:111203. [GPT-4 extraction]
- Mata v. Avianca, 22-cv-1461 (S.D.N.Y. 2023). [Hallucination case]
- Perrigo B. Time Magazine. 2023 Jan 18. [AI labor ethics]
- Elliott JH et al. J Clin Epidemiol. 2017;91:23-30. [Living reviews]
- Cochrane Handbook 2023. Chapter on automation.
- ICMJE. Recommendations on AI authorship. 2023.
- Rethlefsen ML et al. J Med Libr Assoc. 2021. [PRISMA-S]
- Wang S et al. Syst Rev. 2023;12:178. [AI screening validation]
✔
Course Complete
"Agora você conhece o Escriba do Silício—
its powers and its limits.
Use-a para acelerar, não para substituir.
Validate what it produces.
Documente o que você fez.
E lembre-se sempre:
A máquina prevê a próxima palavra.
Você deve julgar se essa palavra é verdadeira."
its powers and its limits.
Use-a para acelerar, não para substituir.
Validate what it produces.
Documente o que você fez.
E lembre-se sempre:
A máquina prevê a próxima palavra.
Você deve julgar se essa palavra é verdadeira."
ASReview: Step-by-Step Tutorial
Da instalação à decisão de parada
Step 1: Installation
# Option A: Python pip (recommended)
pip install asreview
# Opção B: Baixe o aplicativo de desktop
# https://asreview.nl/download/
# Launch ASReview LAB
asreview lab
pip install asreview
# Opção B: Baixe o aplicativo de desktop
# https://asreview.nl/download/
# Launch ASReview LAB
asreview lab
REQUIREMENTS
• Python 3.8+ (para instalação pip)
• OR: Windows/Mac desktop app (no Python needed)
• Your references in RIS, CSV, or EndNote XML format
• OR: Windows/Mac desktop app (no Python needed)
• Your references in RIS, CSV, or EndNote XML format
Step 2: Create Project & Import
Project Setup Workflow
New Project
↓
Dê um nome ao seu projetoDescriptive, include date
↓
Import referencesRIS/CSV/XML file
↓
ASReview deduplicatesCheck count matches expected
↓
Pronto para conhecimento prévio
Step 3: Add Prior Knowledge
CRITICAL STEP
O modelo aprende com suas decisões iniciais.
You need tanto relevantes quanto irrelevantes examples.
You need tanto relevantes quanto irrelevantes examples.
Prior Knowledge Strategy
1 Add 5-10 known relevant estudos (da pesquisa de escopo)
2 Search for clearly irrelevant topics (random sample)
3 Mark 10-20 irrelevant as negative examples
4 Aim for ~1:2 ratio (relevant:irrelevant) to start
WARNING
Poor prior knowledge = poor model performance.
Garbage in, garbage out.
Garbage in, garbage out.
Step 4: Screen with Active Learning
Screening Loop
ASReview presents record
↓
Your decision
RelevantIncluir para texto completo
IrrelevantExclude
↓
Model updatesRe-ranks remaining
↓
Next most likely relevantRepeat until stopping rule
Step 5: Stopping Decision
Stopping Rules Compared
Consecutive irrelevant (50-200)
Common, but no recall guarantee
% of total screened (e.g., 50%)
Predictable effort, variable recall
All records screened
100% recall, no time savings
Statistical stopping (Busfelder)
Evidence-based, requires plugin
VALIDATION REQUIREMENT
After stopping: manually screen random sample of unscreened records.
Report estimated recall with confidence interval.
Report estimated recall with confidence interval.
"A ferramenta é simples. As decisões são não.
Feed it good examples. Check when you stop.
Exporte seu arquivo de projeto - é sua trilha de auditoria."
Feed it good examples. Check when you stop.
Exporte seu arquivo de projeto - é sua trilha de auditoria."
Prompt Engineering Biblioteca
Validated prompts for meta-analysis tasks
Prompt Principles
Para saídas LLM confiáveis
1 Be specific: Define exact fields and formats
2 Provide examples: Show expected output format
3 Request uncertainty: Peça sinalizadores "NR" ou "UNCLEAR"
4 Demand quotes: Require source text for verification
5 Limit scope: One task per prompt, not everything at once
Prompt 1: Extração de dados RCT
Extraia o seguinte deste RCT. Para cada campo, forneça:
- The value
- A citação exata do artigo (entre aspas)
- "NR" se não for relatado, "UNCLEAR" se for ambíguo
FIELDS:
1. Intervention group sample size (ITT): [n]
2. Control group sample size (ITT): [n]
3. Primary outcome definition: [text]
4. Primary outcome: intervention events/total: [x/n]
5. Primary outcome: control events/total: [x/n]
6. Risk ratio (95% CI): [RR (lower, upper)]
7. Follow-up duration: [weeks/months]
OUTPUT FORMAT: JSON com "valor" e "cotação" para cada campo
- The value
- A citação exata do artigo (entre aspas)
- "NR" se não for relatado, "UNCLEAR" se for ambíguo
FIELDS:
1. Intervention group sample size (ITT): [n]
2. Control group sample size (ITT): [n]
3. Primary outcome definition: [text]
4. Primary outcome: intervention events/total: [x/n]
5. Primary outcome: control events/total: [x/n]
6. Risk ratio (95% CI): [RR (lower, upper)]
7. Follow-up duration: [weeks/months]
OUTPUT FORMAT: JSON com "valor" e "cotação" para cada campo
Prompt 2: Características do estudo
Extraia as características do estudo. Forneça cotações exatas para verificação.
FIELDS:
1. Study design: [RCT / Cluster RCT / Crossover / Other]
2. Country/countries: [list]
3. Setting: [hospital / primary care / community / other]
4. Recruitment period: [start date - end date]
5. Funding source: [text]
6. Trial registration: [ID number or "NR"]
7. Conflicts of interest declared: [Yes/No/NR]
If information is in supplementary materials, note "See Supplement".
If truly not reported anywhere, mark "NR".
FIELDS:
1. Study design: [RCT / Cluster RCT / Crossover / Other]
2. Country/countries: [list]
3. Setting: [hospital / primary care / community / other]
4. Recruitment period: [start date - end date]
5. Funding source: [text]
6. Trial registration: [ID number or "NR"]
7. Conflicts of interest declared: [Yes/No/NR]
If information is in supplementary materials, note "See Supplement".
If truly not reported anywhere, mark "NR".
Prompt 3: Population Characteristics
Extract baseline population characteristics.
Relatório para grupos INTERVENÇÃO e CONTROLE separadamente.
FIELDS (per group):
1. N randomized: [n]
2. N analyzed: [n]
3. Age: [mean (SD) or median (IQR)]
4. Sex (% female): [%]
5. Key inclusion criteria: [text]
6. Key exclusion criteria: [text]
7. Disease severity at baseline: [measure and value]
NOTE: If groups combined only, report combined with note.
Relatório para grupos INTERVENÇÃO e CONTROLE separadamente.
FIELDS (per group):
1. N randomized: [n]
2. N analyzed: [n]
3. Age: [mean (SD) or median (IQR)]
4. Sex (% female): [%]
5. Key inclusion criteria: [text]
6. Key exclusion criteria: [text]
7. Disease severity at baseline: [measure and value]
NOTE: If groups combined only, report combined with note.
Prompt 4: Risk of Bias Screening
NOTE: Isso é apenas para sinalização PRELIMINAR.
Human assessment required for final judgment.
For each RoB 2 domain, identify relevant text:
D1 Randomization:
- Método de geração de sequência: [quote ou NR]
- Método de ocultação de alocação: [quote ou NR]
D2 Deviations:
- Blinding of participants: [quote or NR]
- Blinding of personnel: [quote or NR]
D3 Missing data:
- Attrition rates: [intervention: x%, control: y%]
- Tratamento de dados ausentes: [citação ou NR]
DO NOT make judgments. Only extract quotes.
Human assessment required for final judgment.
For each RoB 2 domain, identify relevant text:
D1 Randomization:
- Método de geração de sequência: [quote ou NR]
- Método de ocultação de alocação: [quote ou NR]
D2 Deviations:
- Blinding of participants: [quote or NR]
- Blinding of personnel: [quote or NR]
D3 Missing data:
- Attrition rates: [intervention: x%, control: y%]
- Tratamento de dados ausentes: [citação ou NR]
DO NOT make judgments. Only extract quotes.
"O prompt é o seu contrato com a máquina.
Seja preciso no que você pergunta.
Exija evidências para cada responda.
Verify every output against the source."
Seja preciso no que você pergunta.
Exija evidências para cada responda.
Verify every output against the source."
Você nunca pode escrever uma revisão sistemática.
Mas você will read them.
Como você sabe se a assistência de IA
was done well or poorly?
Mas você will read them.
Como você sabe se a assistência de IA
was done well or poorly?
The IBM Watson Oncology Failure
MD ANDERSON CANCER CENTER, 2017
IBM Watson for Oncology foi treinado para recomendar tratamentos de câncer.
After spending $62 million, MD Anderson cancelou o projeto.
Internal documents showed Watson made "inseguras e incorretas" recomendações de tratamento. dados.
A IA parecia confiante As recomendações eram perigosas.
Lesson: AI confidence ≠ AI correctness
After spending $62 million, MD Anderson cancelou o projeto.
Internal documents showed Watson made "inseguras e incorretas" recomendações de tratamento. dados.
A IA parecia confiante As recomendações eram perigosas.
Lesson: AI confidence ≠ AI correctness
STAT News investigation, 2017; IEEE Spectrum 2019
Perguntas para revisões assistidas por IA
O que procurar nos métodos
1 Did they nomeie as ferramentas de IA used? (version, date)
2 Did they specify which tasks were AI-assisted?
3 Did they validate AI outputs? How?
4 Para triagem de IA: O que stopping rule? What estimated recall?
5 Para extração de IA: Foi 100% human verified?
6 Was there human oversight of all AI decisions?
Red Flags in AI-Assisted Reviews
Warning Signs
"AI screened all titles"
No human involvement?
"Dados extraídos de GPT"
No verification mentioned?
"Stopped after 500 consecutive irrelevant"
No recall estimate?
"AI-generated protocol"
Human decisions unclear?
No AI tools mentioned but clearly AI-written
Hidden AI use
Para pacientes e médicos
O QUE VOCÊ PRECISA SABER
Good AI use: Speeds up the work, human verifies
Bad AI use: Replaces human judgment, no validation
An AI-assisted review can be trustworthy—if done right.
Bad AI use: Replaces human judgment, no validation
An AI-assisted review can be trustworthy—if done right.
Simple Questions to Ask
? "A IA foi usada nesta revisão?"
? “Os resultados da IA foram verificados por humanos?”
? "Could AI have missed important studies?"
"AI assistance is not a flaw—it is often an advantage.
But only if validated, only if disclosed.
Pergunte: A máquina foi verificada?
Se a resposta não for clara, a revisão também será."
But only if validated, only if disclosed.
Pergunte: A máquina foi verificada?
Se a resposta não for clara, a revisão também será."
Você não considerou o pesquisador
with unstable internet, limited compute,
no institutional subscription,
who still needs to synthesize evidence?
with unstable internet, limited compute,
no institutional subscription,
who still needs to synthesize evidence?
Ferramentas gratuitas e compatíveis com off-line
ASReview
Desktop app
Works offline
Works offline
FREE
Abstrackr
Web-based
Free accounts
Free accounts
FREE
Rayyan
Free tier
Limited AI
Limited AI
FREEMIUM
RevMan
Cochrane tool
Full MA software
Full MA software
FREE
Offline Workflow
When Internet is Unreliable
Search Phase
↓
Biblioteca/café: baixe todos os PDFsDownload em lote quando conectado
↓
Screening Phase
↓
ASReview desktopWorks fully offline
↓
Extraction Phase
↓
Spreadsheet + local PDFsNo AI needed
Low-Cost LLM Alternatives
WHEN API COSTS ARE PROHIBITIVE
• Claude/ChatGPT free tiers: Limited but functional
• Ollama + local models: Free, runs on laptop (requires download)
• Hugging Face inference: Free tier available
• Manual extraction: Still gold standard, just slower
• Ollama + local models: Free, runs on laptop (requires download)
• Hugging Face inference: Free tier available
• Manual extraction: Still gold standard, just slower
HONEST ASSESSMENT
A IA é uma conveniência, não uma necessidade.
All Cochrane reviews were done without AI.
A qualidade vem de métodos, não de ferramentas.
All Cochrane reviews were done without AI.
A qualidade vem de métodos, não de ferramentas.
Resource-Limited Decision Tree
Escolhendo sua abordagem
Your Resources
↓
Internet reliability?
Stable
Web tools OKRayyan, Covidence
Unreliable
Desktop toolsASReview offline
None
Manual + spreadsheetsStill valid
“A evidência pertence a todos,
não apenas aqueles com internet rápida e assinaturas pagas.
As ferramentas podem ser diferentes. Os métodos permanecem.
Quality synthesis is possible anywhere."
não apenas aqueles com internet rápida e assinaturas pagas.
As ferramentas podem ser diferentes. Os métodos permanecem.
Quality synthesis is possible anywhere."
Validation Calculations
Tamanhos de amostra para verificação de IA
Estimating Recall After AI Screening
THE PROBLEM
Você interrompeu a triagem em 1.000 de 5.000 registros.
Quão confiante você está de que encontrou todos os estudos relevantes?
Quão confiante você está de que encontrou todos os estudos relevantes?
Validation Sampling
Unscreened records (n=4000)
↓
Random sample (n=400)10% or at least 200
↓
Manual screening
0 relevant foundRecall ≈ 95-100%
Relevant foundScreen all remaining
Sample Size Formula
PARA 95% DE CONFIANÇA NO RECALL
n = ln(1 - confidence) / ln(1 - prevalence)
Example:
If prevalence of relevant = 1% (0.01)
For 95% confidence (0.95):
n = ln(1 - 0.95) / ln(1 - 0.01)
n = ln(0.05) / ln(0.99)
n ≈ 299 records to sample
Example:
If prevalence of relevant = 1% (0.01)
For 95% confidence (0.95):
n = ln(1 - 0.95) / ln(1 - 0.01)
n = ln(0.05) / ln(0.99)
n ≈ 299 records to sample
Quick Reference Table
Tamanhos de amostra para validação
Prevalence 0.5%, 95% conf
598 records
Prevalence 1%, 95% conf
299 records
Prevalence 2%, 95% conf
149 records
Prevalence 5%, 95% conf
59 records
Practical minimum
200 records (conservative)
Relatando sua validação
Exemplo de texto de métodos:
"Usamos ASReview LAB (v1.2) para triagem de título/resumo com
active learning. Screening ceased after 150 consecutive
irrelevant records, having screened 1,247 of 4,892 records
(25%). To validate recall, we manually screened a random
sample of 300 unscreened records. No additional relevant
estudos foram identificados, sugerindo recordação estimada ≥95%
(binomial 95% CI: 91-100%)."
"Usamos ASReview LAB (v1.2) para triagem de título/resumo com
active learning. Screening ceased after 150 consecutive
irrelevant records, having screened 1,247 of 4,892 records
(25%). To validate recall, we manually screened a random
sample of 300 unscreened records. No additional relevant
estudos foram identificados, sugerindo recordação estimada ≥95%
(binomial 95% CI: 91-100%)."
“A validação não é opcional – é o preço da eficiência.
Calculate your sample. Screen it manually.
Relate o que você encontrou. Admita o que você pode ter perdido."
Calculate your sample. Screen it manually.
Relate o que você encontrou. Admita o que você pode ter perdido."
1 / 6