AI > Das Versprechen und das Gefahr
==================== MODUL 1: DAS VERSPRECHEN UND DIE GEFAHR ===================
=================== MODUL 2: KI-UNTERSTÜTZTES SCREENING ===================
==================== MODUL 3: LLMs ZUR DATENEXTRAKTION ====================
==================== MODUL 4: AUTOMATISIERTES BIAS-RISIKO ====================
==================== MODUL 5: GPT ZUM PROTOKOLLSCHREIBEN ====================
==================== MODUL 6: LEBENDE BEWERTUNGEN + KI ====================
=================================================== ===================
==================== ETHISCHE ÜBERLEGUNGEN ===================
==================== MODUL 9: ZUKÜNFTIGE RICHTUNGEN ====================
==================== MODUL 10: QUIZ & REFERENZEN ====================
==================== MODUL 11: ASREVIEW SCHRITT FÜR SCHRITT ====================
==================== MODUL 12: PROMPT ENGINEERING-BIBLIOTHEK ====================
==================== MODUL 13: KI-UNTERSTÜTZTE BEWERTUNGEN LESEN ====================
=================== MODUL 14: RESSOURCENGEGRENZTE EINSTELLUNGEN ===================
==================== MODUL 15: VALIDIERUNGSBERECHNUNGEN ===================
Haben Sie noch nicht von der Maschine gehört, die
ten thousand abstracts in an hour,
das extrahiert? Daten, während Sie schlafen,
that promises to befreien Sie von der Plackerei?
ten thousand abstracts in an hour,
das extrahiert? Daten, während Sie schlafen,
that promises to befreien Sie von der Plackerei?
Die KI-Revolution in der Beweissynthese
67%
Workload reduction
with AI screening
with AI screening
95%
Recall achievable
mit aktivem Lernen
mit aktivem Lernen
10x
Faster screening
than manual
than manual
THE PROMISE
KI kann Zusammenfassungen überprüfen, Daten extrahieren, das Risiko von Verzerrungen bewerten und auf Neues überwachen Beweise –if used correctly.
When AI Fails in Healthcare
IBM WATSON ONCOLOGY, MD ANDERSON, 2013-2017
Im Jahr 2013 ging das MD Anderson Cancer Center eine Partnerschaft mit IBM Watson ein, um Empfehlungen zur Krebsbehandlung zu revolutionieren. Die Projektkosten $62 million.
Bis 2017 wurde das Projekt aufgegeben. Es wurde festgestellt, dass Watsons Empfehlungen „unsicher und falsch“ in multiple cases.
In one documented case, Watson recommended a treatment that would cause severe bleeding in a patient already on blood thinners.
The core problem: Watson had been trained primarily on hypothetical cases created by physiciansund keine echten Patientendaten waren. Die KI hat gelernt, Expertenmeinungen nachzuahmen, anstatt aus tatsächlichen Ergebnissen zu lernen.
Bis 2017 wurde das Projekt aufgegeben. Es wurde festgestellt, dass Watsons Empfehlungen „unsicher und falsch“ in multiple cases.
In one documented case, Watson recommended a treatment that would cause severe bleeding in a patient already on blood thinners.
The core problem: Watson had been trained primarily on hypothetical cases created by physiciansund keine echten Patientendaten waren. Die KI hat gelernt, Expertenmeinungen nachzuahmen, anstatt aus tatsächlichen Ergebnissen zu lernen.
Stat News, 2017; IEEE Spectrum, 2019
THE LESSON
KI, die auf synthetischen oder hypothetischen Daten trainiert wird, schlägt bei echten Patienten fehl. Die Lücke zwischen Trainingsdaten und Realität kann tödlich sein.
Das Halluzinationsproblem
LAWYERS SANCTIONED, NEW YORK, 2023
Attorneys used ChatGPT to research case law for a federal court brief.
Die KI zitierte sechs Fälle mit vollständigen Zitaten, Zitaten und Seitenzahlen.
Keiner der Fälle existierte.
Der Richter stellte fest, dass die Zitate vorhanden waren „Kauderwelsch“ und sanktionierte die Anwälte.
Dies ist kein Fehler. So funktionieren große Sprachmodelle – sie sagen plausiblen Text voraus, nicht verifizierte Wahrheit.
Die KI zitierte sechs Fälle mit vollständigen Zitaten, Zitaten und Seitenzahlen.
Keiner der Fälle existierte.
Der Richter stellte fest, dass die Zitate vorhanden waren „Kauderwelsch“ und sanktionierte die Anwälte.
Dies ist kein Fehler. So funktionieren große Sprachmodelle – sie sagen plausiblen Text voraus, nicht verifizierte Wahrheit.
Mata v. Avianca, Inc., 22-cv-1461 (S.D.N.Y. 2023)
Die Kernfrage
When to Trust AI in Meta-Analysis
AI Tool Output
↓
Task Type?
Ranking/Prioritization
Lower riskHuman reviews top-ranked
Binary Decision
Medium riskNeeds validation
Text Generation
High riskHallucination possible
Was KI kann und was nicht
Honest Assessment
Screening prioritization
✓ Excellent
Duplicate detection
✓ Excellent
Datenextraktion (strukturiert)
⚠ Needs verification
Risk of bias assessment
⚠ Preliminary only
Schreiben Protokoll/Methoden
⚠ Draft only
Statistical analysis
✗ Human required
Clinical interpretation
✗ Human required
"Die Maschine liest schnell, versteht aber nicht.
Sie sagt das nächste Wort voraus, nicht die Wahrheit.
Verwenden Sie es, um zu beschleunigen, nicht um ersetzen.
The judgment must remain yours."
Sie sagt das nächste Wort voraus, nicht die Wahrheit.
Verwenden Sie es, um zu beschleunigen, nicht um ersetzen.
The judgment must remain yours."
Haben Sie den Rezensenten nicht gesehen
who screened ten thousand titles by hand,
whose eyes grew tired, whose attention wandered,
der es verpasst hat? die eine Studie, die wichtig war?
who screened ten thousand titles by hand,
whose eyes grew tired, whose attention wandered,
der es verpasst hat? die eine Studie, die wichtig war?
Die Screening-Tools
ASReview
Active learning
Open source
Open source
Free
Rayyan
AI recommendations
Collaboration
Collaboration
Freemium
Abstrackr
Semi-automated
Web-based
Web-based
Free
EPPI-Reviewer
Priority screening
Full workflow
Full workflow
Subscription
How Active Learning Works
ASReview Workflow
Import References
↓
Screen seed papers10-20 known relevant
↓
AI learns patternsAktualisierungen bei jeder Entscheidung
↓
Prioritizes likely relevantMost promising first
↓
Stopping rule?
Consecutive irrelevante.g., 100-200 in row
% screenedz. B. 50 % mit Rückrufprüfung
Echte Leistung Daten
VAN DE SCHOOT ET AL., 2021
Systematic evaluation of ASReview across 4 datasets:
• PTSD dataset: 95% recall after screening 40% of records
• Software fault prediction: 95% recall after 20%
• Virus metagenomics: 95% recall after 10%
Average workload reduction: 67-95% depending on prevalence.
But: Performance varies by topic and prevalence. Low-prevalence topics show greater efficiency gains.
• PTSD dataset: 95% recall after screening 40% of records
• Software fault prediction: 95% recall after 20%
• Virus metagenomics: 95% recall after 10%
Average workload reduction: 67-95% depending on prevalence.
But: Performance varies by topic and prevalence. Low-prevalence topics show greater efficiency gains.
Van de Schoot R et al. Nat Mach Intell. 2021;3:125-133
When AI-Assisted Screening Works
ASREVIEW AND COCHRANE COVID-19 RESPONSE, 2020
During the COVID-19 pandemic, Cochrane needed to screen 50,000+ citations weekly to keep reviews current.
Das aktive Lernsystem von ASReview wurde unter strenger menschlicher Aufsicht eingesetzt:
• Reduced human screening workload by 75%
• Missed fewer than 1% of relevant studies
• Validated at every stage by human reviewers
Der Schlüssel zum Erfolg: human-in-the-loop validation at every stageDie KI hat Prioritäten gesetzt, aber die Menschen haben die endgültigen Entscheidungen getroffen und Stichproben der von der KI ausgeschlossenen Datensätze überprüft.
Das aktive Lernsystem von ASReview wurde unter strenger menschlicher Aufsicht eingesetzt:
• Reduced human screening workload by 75%
• Missed fewer than 1% of relevant studies
• Validated at every stage by human reviewers
Der Schlüssel zum Erfolg: human-in-the-loop validation at every stageDie KI hat Prioritäten gesetzt, aber die Menschen haben die endgültigen Entscheidungen getroffen und Stichproben der von der KI ausgeschlossenen Datensätze überprüft.
Cochrane COVID-NMA consortium, 2020-2021
THE LESSON
KI verbessert das menschliche Urteilsvermögen; es ersetzt es nicht. Erfolg entsteht durch Partnerschaft, nicht durch Automatisierung.
When Internal Validation Fails
EPIC SEPSIS MODEL, JAMA INTERNAL MEDICINE, 2021
Epic Systems deployed a sepsis prediction algorithm to hundreds of hospitals in den Vereinigten Staaten.
Epic's internal validation showed excellent performance. Hospitals trusted it.
Dann kam die externe Validierungsstudie in JAMA Internal Medicine:
• The model missed 67% of sepsis cases
• It triggered thousands of false alarms
• Nurses developed severe "alert fatigue"
Das Modell wurde anhand historischer Daten desselben Systems validiert – es wurde noch nie in der realen klinischen Umgebung getestet, in der es eingesetzt werden sollte.
Epic's internal validation showed excellent performance. Hospitals trusted it.
Dann kam die externe Validierungsstudie in JAMA Internal Medicine:
• The model missed 67% of sepsis cases
• It triggered thousands of false alarms
• Nurses developed severe "alert fatigue"
Das Modell wurde anhand historischer Daten desselben Systems validiert – es wurde noch nie in der realen klinischen Umgebung getestet, in der es eingesetzt werden sollte.
Wong A et al. JAMA Intern Med. 2021;181(8):1065-1070
THE LESSON
Interne Validierung ist keine externe Validierung. Ein Modell, das in der Entwicklung funktioniert, schlägt möglicherweise bei der Bereitstellung fehl. Validieren Sie immer im realen Kontext.
Das Stoppproblem
DIE VERSTECKTE GEFAHR
Wann beenden Sie das Screening mit aktivem Lernen?
Wenn Sie zu früh aufhören: Sie vermissen relevante Studien
Wenn Sie zu spät aufhören: Sie verlieren Effizienzgewinne
Der Algorithmus kann Ihnen nicht sagen, wann Sie alles gefunden haben. Es wird nur bewertet, was übrig bleibt.
There is no perfect stopping rule. Every rule trades recall for efficiency.
Wenn Sie zu früh aufhören: Sie vermissen relevante Studien
Wenn Sie zu spät aufhören: Sie verlieren Effizienzgewinne
Der Algorithmus kann Ihnen nicht sagen, wann Sie alles gefunden haben. Es wird nur bewertet, was übrig bleibt.
There is no perfect stopping rule. Every rule trades recall for efficiency.
CRITICAL POINT
You must Validieren Sie Ihre Stoppregel by manually checking
a random sample of unscreened records.
AI Screening Decision Tree
Sollten Sie KI-Screening verwenden?
Large Reference Set?
↓
<500 refs
Manual OKDer KI-Overhead lohnt sich nicht
500-2000 refs
AI helpfulModerate efficiency gain
>2000 refs
AI essentialMajor time savings
↓
Always validate with random sampleReport methodology in paper
„Die Maschine findet die Nadeln schneller,
but it cannot guarantee none remain in the haystack.
Vertraue dem Ranking, verifiziere das Stoppen,
und berichte immer, was du getan hast.
but it cannot guarantee none remain in the haystack.
Vertraue dem Ranking, verifiziere das Stoppen,
und berichte immer, was du getan hast.
Haben Sie nicht vom Assistenten geträumt?
who reads every paper and fills every cell,
who never tires, never errs,
who extracts perfectly?
Dieser Assistent existiert nicht.
who reads every paper and fills every cell,
who never tires, never errs,
who extracts perfectly?
Dieser Assistent existiert nicht.
Das Problem der Extraktionsgenauigkeit
GPT-4-Datenextraktionsstudie, 2024
Forscher testeten GPT-4 zum Extrahieren von Daten aus 100 RCT-Artikeln.
Results:
• Sample sizes: 89% accurate
• Effect estimates: 76% accurate
• Confidence intervals: 71% accurate
• Risk of bias judgments: 62% agreement with humans
A 24% error rate Tatsächlich bedeuten Schätzungen, dass etwa jede vierte Studie falsche Daten in Ihrer Metaanalyse enthalten würde.
Results:
• Sample sizes: 89% accurate
• Effect estimates: 76% accurate
• Confidence intervals: 71% accurate
• Risk of bias judgments: 62% agreement with humans
A 24% error rate Tatsächlich bedeuten Schätzungen, dass etwa jede vierte Studie falsche Daten in Ihrer Metaanalyse enthalten würde.
Guo Y et al. J Clin Epidemiol. 2024;165:111203
Das Herstellungsproblem
GPT-4 HALLUCINATIONS IN SYSTEMATIC REVIEWS, 2023
Forscher testeten GPT-4 zur Datenextraktion aus systematischen Übersichtsarbeiten. Das Modell erhielt PDFs und wurde gebeten, Stichprobengrößen, p-Werte und Effektschätzungen zu extrahieren.
GPT-4 confidently provided all requested numbers with precise formatting.
But 23 % der Extraktionen waren „Halluzinationen“– Zahlen ohne Grundlage im Quelltext.
In one case, the model fabricated a statistically significant result (p=0.003) aus einer Studie, die tatsächlich herausgefunden hat no significant effect (p=0.42).
Die Zuverlässigkeit des Modells war zwischen realen und erfundenen Daten nicht zu unterscheiden.
GPT-4 confidently provided all requested numbers with precise formatting.
But 23 % der Extraktionen waren „Halluzinationen“– Zahlen ohne Grundlage im Quelltext.
In one case, the model fabricated a statistically significant result (p=0.003) aus einer Studie, die tatsächlich herausgefunden hat no significant effect (p=0.42).
Die Zuverlässigkeit des Modells war zwischen realen und erfundenen Daten nicht zu unterscheiden.
Systematische Überprüfung von KI-Validierungsstudien, 2023
THE LESSON
LLMs erfordern eine 100-prozentige menschliche Überprüfung quantitativer Daten. Es gibt keine Abkürzung. Jede Zahl muss anhand der Quelle überprüft werden.
LLM-Datenextraktions-Workflow
Safe LLM Extraction Protocol
PDF/Full Text
↓
LLM extrahiert DatenStructured prompt
↓
Human verifies 100%NOT sampling
↓
Discrepancy?
Yes
Human value usedDocument error
No
ProceedLog verification
Schnelles Engineering für die Extraktion
# Example extraction prompt
Extract Folgendes aus diesem RCT:
1. Sample size (intervention arm): [number]
2. Sample size (control arm): [number]
3. Primary outcome definition: [text]
4. Effect estimate: [number with unit]
5. 95% CI: [lower, upper]
6. p-value: [number]
If not reported, write "NR"
If unclear, write "UNCLEAR: [reason]"
# Provide exact quotes for verification
Extract Folgendes aus diesem RCT:
1. Sample size (intervention arm): [number]
2. Sample size (control arm): [number]
3. Primary outcome definition: [text]
4. Effect estimate: [number with unit]
5. 95% CI: [lower, upper]
6. p-value: [number]
If not reported, write "NR"
If unclear, write "UNCLEAR: [reason]"
# Provide exact quotes for verification
When LLMs Help vs. Hurt
LLM Extraction Value Assessment
Standardized fields (author, year)
✓ High accuracy
Simple numeric (sample size)
✓ Usually reliable
Complex numeric (adjusted OR)
⚠ Often wrong model
Composite outcomes
⚠ Misses components
Intention-to-treat vs per-protocol
✗ Frequently confused
Subgroup data
✗ High error rate
"The LLM extracts plausible numbers,
nicht unbedingt korrekte Zahlen.
Es handelt sich um einen schnellen ersten Entwurf, nicht um eine endgültige Antwort.
Every cell must be verified by human eyes."
nicht unbedingt korrekte Zahlen.
Es handelt sich um einen schnellen ersten Entwurf, nicht um eine endgültige Antwort.
Every cell must be verified by human eyes."
Haben Sie sich nicht einen Richter gewünscht?
who reads every methods section,
who assesses bias without bias,
der niemals anderer Meinung ist themselves?
who reads every methods section,
who assesses bias without bias,
der niemals anderer Meinung ist themselves?
RobotReviewer
MARSHALL ET AL., NATURE MACHINE INTELLIGENCE, 2019
RobotReviewer uses machine learning to assess risk of bias in RCTs.
Validation against Cochrane assessments:
• Random sequence generation: 71% agreement
• Allocation concealment: 65% agreement
• Blinding of participants: 69% agreement
• Blinding of outcome assessment: 62% agreement
Human inter-rater agreement is typically 70-80%.
RobotReviewer approaches but does not exceed human performance.
Validation against Cochrane assessments:
• Random sequence generation: 71% agreement
• Allocation concealment: 65% agreement
• Blinding of participants: 69% agreement
• Blinding of outcome assessment: 62% agreement
Human inter-rater agreement is typically 70-80%.
RobotReviewer approaches but does not exceed human performance.
Marshall IJ et al. Nat Mach Intell. 2019;1:115-117
RoB Automation Decision Tree
When to Use Automated RoB
Risk of Bias Assessment
↓
Review Type?
Rapid review
Automated OKAcknowledge limitation
Scoping review
Automated OKIf RoB included
Vollständige systematische Überprüfung
Preliminary onlyHuman verification required
Cochrane review
Human requiredDraft support only
Limitations of Automated RoB
What Machines Cannot Assess
✗ Outcome-specific bias (RoB 2 domain 4)
✗ Selective reporting based on protocol comparison
✗ Contextual judgment (Is this design appropriate?)
✗ Cross-paper inconsistencies (multiple reports)
✗ Einfluss der Finanzierung auf die Ergebnisinterpretation
DIE GRUNDLEGENDE GRENZE
AI reads what is written.
Bias assessment often requires judging what is not written.
Hybrider Workflow für RoB
Best Practice Protocol
Full Text PDFs
↓
RobotReviewer screeningFlags potential issues
↓
Reviewer 1 assessesUsing AI output as reference
↓
Reviewer 2 independentlyBlinded to AI output
↓
Consensus meeting
↓
Final assessmentHuman decision documented
„Der Roboter liest den Methodenabschnitt
but cannot read between the lines.
Benutzen Sie es zum Markieren, nicht zum Urteilen.
Das Urteil muss menschlich sein.“
but cannot read between the lines.
Benutzen Sie es zum Markieren, nicht zum Urteilen.
Das Urteil muss menschlich sein.“
Haben Sie sich den Schriftsteller nicht gewünscht?
who drafts your protocol in minutes,
who knows every PRISMA item,
who writes in perfect academic prose?
who drafts your protocol in minutes,
who knows every PRISMA item,
who writes in perfect academic prose?
LLMs für Protokollerstellung
✓
Structure
generation
generation
✓
Boilerplate
text
text
⚠
PICO
formulation
formulation
✗
Search
strategy
strategy
DAS WERTVORSCHLAG
LLMs können das entwerfen Struktur und Standardsprache. Sie müssen die angeben scientific decisions.
Die Gefahr der Suchstrategie
TESTED ACROSS MULTIPLE LLMs, 2023-2024
Researchers asked GPT-4 and Claude to generate MEDLINE search strategies.
Common errors:
• Invented MeSH terms that don't exist
• Wrong field codes (e.g., [tiab] vs [tw])
• Fehlende Schlüsselkonzepte der Forschungsfrage
• Overly narrow strategies missing relevant studies
• Syntax errors that wouldn't execute
An information specialist must write or validate all search strategies.
Common errors:
• Invented MeSH terms that don't exist
• Wrong field codes (e.g., [tiab] vs [tw])
• Fehlende Schlüsselkonzepte der Forschungsfrage
• Overly narrow strategies missing relevant studies
• Syntax errors that wouldn't execute
An information specialist must write or validate all search strategies.
Mehrere Validierungsstudien 2023–2024
Protocol Writing Decision Tree
LLM Use in Protocol Development
Protocol Section
↓
Background/Rationale
LLM helpfulDraft + fact-check
Methods structure
LLM helpfulTemplate generation
PICO criteria
Human decidesLLM refines wording
Search strategy
Human/SpecialistAI too unreliable
Safe LLM Protocol Workflow
Quality Assurance Steps
1 Define PICO yourself (human scientific decision)
2 Ask LLM to draft protocol sections
3 Verify all cited guidelines exist (PRISMA, Cochrane)
4 Write search strategy with information specialist
5 Check all methodological decisions are defensible
6 Disclose AI assistance in protocol
7 Registrieren Sie die vom Menschen verifizierte Version
„Die Maschine kann die Wörter schreiben,
but it cannot make the decisions.
Sie definieren die Frage. Sie wählen die Methoden.
Das Protokoll gehört Ihnen – die KI ist die Schreibkraft.“
but it cannot make the decisions.
Sie definieren die Frage. Sie wählen die Methoden.
Das Protokoll gehört Ihnen – die KI ist die Schreibkraft.“
Haben Sie die systematische Übersicht nicht gesehen?
das vor seiner Veröffentlichung veraltet war,
while new trials accumulated in the literature,
unsynthesized, unknown?
das vor seiner Veröffentlichung veraltet war,
while new trials accumulated in the literature,
unsynthesized, unknown?
Das Living-Review-Problem
COVID-19-BEWEIS TSUNAMI, 2020
Im ersten Jahr der Pandemie:
• 100,000+ COVID papers published
• Traditional reviews obsolete within weeks
• Clinicians made decisions on incomplete evidence
Das verwendete COVID-NMA-Konsortium AI-assisted surveillance to monitor new trials daily and update meta-analyses weekly.
Dies erforderte: automatisierte Suchüberwachung, KI-Screening-Priorisierung, schnelle Datenextraktions-Workflows und kontinuierliche statistische Aktualisierungen.
• 100,000+ COVID papers published
• Traditional reviews obsolete within weeks
• Clinicians made decisions on incomplete evidence
Das verwendete COVID-NMA-Konsortium AI-assisted surveillance to monitor new trials daily and update meta-analyses weekly.
Dies erforderte: automatisierte Suchüberwachung, KI-Screening-Priorisierung, schnelle Datenextraktions-Workflows und kontinuierliche statistische Aktualisierungen.
Defined in Cochrane Living Reviews guidance
KI-Komponenten für Living Reviews
Automated Surveillance Stack
Lebendes Bewertungssystem
↓
Auto-searchDaily/weekly runs
AI triagePriority screening
Rapid extractionLLM-assisted
Auto-updateCumulative MA
↓
Human oversight at each stageRedaktionelle Überprüfung vor Veröffentlichung
Tools für die kontinuierliche Überwachung
PubMed Alerts
Free email alerts
Saved searches
Saved searches
Basic
Epistemonikos
Systematic review
database
database
AI-curated
Covidence
Auto-import
Living mode
Living mode
Subscription
DistillerSR
AI screening
+ monitoring
+ monitoring
Enterprise
Living Review Entscheidungsrahmen
Wann sollte man eine Bewertung zum Thema „Leben“ abgeben?
Sollte das Leben sein?
↓
Criteria Check
Priority questionClinical importance
Evidence evolvingActive trial pipeline
Resources securedFinanzierung für 2+ Jahre
↓
All three required for living status
„Die Maschine beobachtet die Literatur
während Sie schlafen.
But someone must wake to judge
ob die neuen Beweise die Wahrheit verändern.“
während Sie schlafen.
But someone must wake to judge
ob die neuen Beweise die Wahrheit verändern.“
Wenn Sie die Maschine ohne Verifizierung verwenden,
Sie wissen nicht, welche Fehler Sie gemacht haben.
Wenn Sie alles überprüfen, was die Maschine produziert,
what time have you saved?
Die Antwort liegt in strategic verification.
Sie wissen nicht, welche Fehler Sie gemacht haben.
Wenn Sie alles überprüfen, was die Maschine produziert,
what time have you saved?
Die Antwort liegt in strategic verification.
Das Verifizierungsparadoxon
THE DILEMMA
Full verification = No time savings
No verification = Unknown error rate
Strategic verification = Validated efficiency
No verification = Unknown error rate
Strategic verification = Validated efficiency
Verification Strategy by Risk
High-risk tasks
100% human reviewDatenextraktion, RoB
Medium-risk tasks
Sample validationScreening decisions
Low-risk tasks
Spot checksDeduplication
When Oversight Catches Bias
COCHRANE MACHINE LEARNING PILOT, 2022
Cochrane tested ML-assisted risk of bias assessment to accelerate systematic reviews.
Der Algorithmus erreichte 85 % Übereinstimmung mit menschlichen Prüfern—seemingly impressive.
Aber das QA-Team analysierte die 15 % Unstimmigkeiten und stellte fest ein Muster:
The AI was systematically biased toward rating industry-funded trials as low risk.
Die Trainingsdaten enthielten mehr Labels mit „geringem Risiko“ für Studien von Pharmaunternehmen – der Algorithmus lernte diese Korrelation, ohne die zugrunde liegenden methodischen Bedenken zu verstehen.
Human oversight caught the pattern before any biased reviews were published.
Der Algorithmus erreichte 85 % Übereinstimmung mit menschlichen Prüfern—seemingly impressive.
Aber das QA-Team analysierte die 15 % Unstimmigkeiten und stellte fest ein Muster:
The AI was systematically biased toward rating industry-funded trials as low risk.
Die Trainingsdaten enthielten mehr Labels mit „geringem Risiko“ für Studien von Pharmaunternehmen – der Algorithmus lernte diese Korrelation, ohne die zugrunde liegenden methodischen Bedenken zu verstehen.
Human oversight caught the pattern before any biased reviews were published.
Pilotstudie der Cochrane Methods Group, 2022
THE LESSON
Die Meinungsverschiedenheitsanalyse zeigt systematische Verzerrungen. Eine hohe Gesamtgenauigkeit kann gefährliche Muster verbergen. Analysieren Sie immer, wo und wie die KI ausfällt, nicht nur wie oft.
QA-Framework für KI-gestützte Überprüfungen
Minimum Quality Standards
1 Pre-specify AI use in protocol (which tools, which tasks)
2 Document AI settings (model version, prompts, parameters)
3 Validate screening with random sample (calculate recall estimate)
4 Überprüfen Sie alle extrahierten Daten against source documents
5 Human RoB assessment (AI as preliminary only)
6 Track error rates per AI task
7 Report transparently in methods section
Reporting AI Use (PRISMA-S)
WAS SIE IN IHREM AUFSATZ BERICHTEN sollten
• Which AI tools were used (name, version, date)
• Which tasks were AI-assisted
• What validation was performed
• What error rates were observed
• What human oversight was maintained
• Any deviations aus dem Protokoll aufgrund von KI Einschränkungen
• Which tasks were AI-assisted
• What validation was performed
• What error rates were observed
• What human oversight was maintained
• Any deviations aus dem Protokoll aufgrund von KI Einschränkungen
EMERGING STANDARD
Journals increasingly require AI use statements.
PRISMA-S extension for search reporting includes automation.
Der vollständige AI-MA-Workflow
Integrated Human-AI Process
Protocol (Human + LLM draft)
↓
Search (Human/Specialist)
↓
Screening (AI prioritize + Human decide)
↓
Extraction (LLM draft + Human verify 100%)
↓
RoB (AI flag + Human assess)
↓
Analysis (Human)
↓
Interpretation (Human)
"The machine is neither colleague nor replacement.
Es ist ein Werkzeug – leistungsstark, schnell und fehlbar.
Document what you used. Validate what it produced.
Die Verantwortung liegt bei Ihnen.
Es ist ein Werkzeug – leistungsstark, schnell und fehlbar.
Document what you used. Validate what it produced.
Die Verantwortung liegt bei Ihnen.
Haben Sie nicht darüber nachgedacht?
whose labor trained the model,
whose data it consumed without consent,
whose jobs it may displace?
whose labor trained the model,
whose data it consumed without consent,
whose jobs it may displace?
Die verborgene Arbeit
KENYAN DATA LABELERS, TIME MAGAZINE 2023
ChatGPT wurde durch einen Prozess namens RLHF – Reinforcement Learning from Human – „sicher“ gemacht Feedback.
Die Menschen, die dieses Feedback gaben, waren Arbeiter in Kenia, die less than $2 per hour dafür bezahlt wurden, giftige, gewalttätige und verstörende Inhalte zu lesen und zu kennzeichnen.
Sie haben durch die Arbeit ein psychologisches Trauma entwickelt.
Jedes KI-Tool, das Sie verwenden, basiert auf menschlicher Arbeit – oft unsichtbar, oft unterbezahlt, oft geschädigt.
Die Menschen, die dieses Feedback gaben, waren Arbeiter in Kenia, die less than $2 per hour dafür bezahlt wurden, giftige, gewalttätige und verstörende Inhalte zu lesen und zu kennzeichnen.
Sie haben durch die Arbeit ein psychologisches Trauma entwickelt.
Jedes KI-Tool, das Sie verwenden, basiert auf menschlicher Arbeit – oft unsichtbar, oft unterbezahlt, oft geschädigt.
Perrigo B. Time Magazine. 2023 Jan 18.
Automating Inequality
UK A-LEVEL ALGORITHM SCANDAL, 2020
Als COVID-19 A-Level-Prüfungen im Vereinigten Königreich absagte, verwendete die Regierung einen Algorithmus, um Schülernoten basierend auf historischen Schulleistungen vorherzusagen.
The results:
• Students from disadvantaged schools were systematically downgraded
• Students from Privatschulen wurden modernisiert
• Der Algorithmus überschrieb die Vorhersagen der Lehrer, die die Schüler treffen würden erfolgreich
After massive public outcry, 40 % der Noten wurden überarbeitet.
Der Algorithmus hatte codiert historical inequality as prediction. Schulen, die in der Vergangenheit weniger Studenten zur Universität geschickt haben, wurden unabhängig von den individuellen Fähigkeiten der Studenten bestraft.
The results:
• Students from disadvantaged schools were systematically downgraded
• Students from Privatschulen wurden modernisiert
• Der Algorithmus überschrieb die Vorhersagen der Lehrer, die die Schüler treffen würden erfolgreich
After massive public outcry, 40 % der Noten wurden überarbeitet.
Der Algorithmus hatte codiert historical inequality as prediction. Schulen, die in der Vergangenheit weniger Studenten zur Universität geschickt haben, wurden unabhängig von den individuellen Fähigkeiten der Studenten bestraft.
UK Office of Qualifications and Examinations Regulation, 2020
THE LESSON
KI kann Voreingenommenheit in großem Maßstab automatisieren. Wenn historische Daten systemische Auswirkungen widerspiegeln Ungleichheit, auf diesen Daten trainierte Algorithmen halten sie aufrecht und verstärken sie.
Ethischer Rahmen für KI in der Forschung
Questions to Ask
1 Transparency: Can I fully disclose how AI was used?
2 Accountability: Wer ist für KI-Fehler verantwortlich?
3 Equity: Does AI access create research inequities?
4 Labor: Wessen Arbeit hat dieses Tool ermöglicht?
5 Environment: What is the carbon cost of model training?
6 Reproducibility: Can others replicate my AI-assisted work?
Authorship and AI
ICMJE POSITION
AI tools cannot be listed as authors.
Authors must take responsibility for AI-generated content.
AI use must be disclosed in methods or acknowledgments.
Authors must take responsibility for AI-generated content.
AI use must be disclosed in methods or acknowledgments.
YOUR RESPONSIBILITY
Wenn die KI halluziniert und Sie es veröffentlichen,
Du trägst die Verantwortung– nicht OpenAI, nicht Anthropic, nicht das Tool.
„Die Maschine hat kein Gewissen.
Es ist egal, ob die Daten wahr sind.
Es ist nicht bekannt, wer bei der Ausbildung geschädigt wurde.
Sie müssen das Gewissen haben, das ihm fehlt.
Es ist egal, ob die Daten wahr sind.
Es ist nicht bekannt, wer bei der Ausbildung geschädigt wurde.
Sie müssen das Gewissen haben, das ihm fehlt.
Der Weg voraus
Wohin die KI in der Beweissynthese geht
Emerging Capabilities
Multimodal AI
Extract from
figures/tables
figures/tables
2024-2025
Agent Systems
Multi-step
workflows
workflows
Emerging
RAG Systems
Retrieval-augmented
generation
generation
Active research
Fine-tuned Models
MA-specific
training
training
In development
Was sich NICHT ändern wird
Enduring Human Requirements
★ Definition der Forschungsfrage (klinische Beurteilung)
★ Interpreting clinical significance (domain expertise)
★ Assessing applicability (contextual knowledge)
★ Making recommendations (value judgments)
★ Taking responsibility (ethical accountability)
THE CONSTANT
KI wird die Mechanik beschleunigen.
Die Wissenschaft bleibt menschlich.
Die Wissenschaft bleibt menschlich.
Vorbereitung auf die Zukunft
Skills to Develop
Future-Ready Researcher
↓
Prompt engineeringGetting good AI outputs
Validation methodsKnowing when AI errs
Core methodsAI cannot replace
↓
Die besten KI-Benutzer sind die besten MethodologenUnderstanding enables oversight
"The machine grows stronger each year.
Aber die Frage bleibt dieselbe:
What is true? What helps patients?
KI kann die Suche unterstützen.
Nur Sie können die Antwort geben.
Aber die Frage bleibt dieselbe:
What is true? What helps patients?
KI kann die Suche unterstützen.
Nur Sie können die Antwort geben.
Testen Sie Ihr Wissen
Was ist die größte Einschränkung bei der Verwendung von LLMs zur Datenextraktion?
Sie sind zu langsam
They can generate plausible but incorrect data (hallucinations)
They cannot read PDFs
Sie sind zu teuer
When using AI screening (e.g., ASReview), what must you always do?
Trust the AI completely after training
Screen only the top 10% of ranked records
Validieren Sie die Stoppregel anhand einer Zufallsstichprobe
Nutzen Sie mehrere KI-Tools gleichzeitig
Für welche Aufgabe sollte KI NIEMALS der letzte Entscheidungsträger sein?
Deduplication
Screening prioritization
Klinische Interpretation der Ergebnisse
Reference formatting
References
Key Sources
- Van de Schoot R et al. Nat Mach Intell. 2021;3:125-133. [ASReview]
- Marshall IJ et al. Nat Mach Intell. 2019;1:115-117. [RobotReviewer]
- Guo Y et al. J Clin Epidemiol. 2024;165:111203. [GPT-4 extraction]
- Mata v. Avianca, 22-cv-1461 (S.D.N.Y. 2023). [Hallucination case]
- Perrigo B. Time Magazine. 2023 Jan 18. [AI labor ethics]
- Elliott JH et al. J Clin Epidemiol. 2017;91:23-30. [Living reviews]
- Cochrane Handbook 2023. Chapter on automation.
- ICMJE. Recommendations on AI authorship. 2023.
- Rethlefsen ML et al. J Med Libr Assoc. 2021. [PRISMA-S]
- Wang S et al. Syst Rev. 2023;12:178. [AI screening validation]
✔
Course Complete
„Sie kennen jetzt den Silicon Scribe –
its powers and its limits.
Verwenden Sie es, um zu beschleunigen, nicht um ersetzen.
Validate what it produces.
Dokumentieren Sie, was Sie getan haben.
Und denken Sie immer daran:
Die Maschine sagt das nächste Wort voraus.
Sie müssen beurteilen, ob dieses Wort wahr ist.
its powers and its limits.
Verwenden Sie es, um zu beschleunigen, nicht um ersetzen.
Validate what it produces.
Dokumentieren Sie, was Sie getan haben.
Und denken Sie immer daran:
Die Maschine sagt das nächste Wort voraus.
Sie müssen beurteilen, ob dieses Wort wahr ist.
ASReview: Step-by-Step Tutorial
Von der Installation bis zur Stopp-Entscheidung
Step 1: Installation
# Option A: Python pip (recommended)
pip install asreview
# Option B: Desktop-App herunterladen
# https://asreview.nl/download/
# Launch ASReview LAB
asreview lab
pip install asreview
# Option B: Desktop-App herunterladen
# https://asreview.nl/download/
# Launch ASReview LAB
asreview lab
REQUIREMENTS
• Python 3.8+ (für Pip-Installation)
• OR: Windows/Mac desktop app (no Python needed)
• Your references in RIS, CSV, or EndNote XML format
• OR: Windows/Mac desktop app (no Python needed)
• Your references in RIS, CSV, or EndNote XML format
Step 2: Create Project & Import
Project Setup Workflow
New Project
↓
Benennen Sie Ihr ProjektDescriptive, include date
↓
Import referencesRIS/CSV/XML file
↓
ASReview deduplicatesCheck count matches expected
↓
Bereit für Vorkenntnisse
Step 3: Add Prior Knowledge
CRITICAL STEP
Das Modell lernt aus Ihren ersten Entscheidungen.
You need sowohl relevant als auch irrelevant examples.
You need sowohl relevant als auch irrelevant examples.
Prior Knowledge Strategy
1 Add 5-10 known relevant Studien (aus der Scoping-Suche)
2 Search for clearly irrelevant topics (random sample)
3 Mark 10-20 irrelevant as negative examples
4 Aim for ~1:2 ratio (relevant:irrelevant) to start
WARNING
Poor prior knowledge = poor model performance.
Garbage in, garbage out.
Garbage in, garbage out.
Step 4: Screen with Active Learning
Screening Loop
ASReview presents record
↓
Your decision
RelevantFür Volltext einschließen
IrrelevantExclude
↓
Model updatesRe-ranks remaining
↓
Next most likely relevantRepeat until stopping rule
Step 5: Stopping Decision
Stopping Rules Compared
Consecutive irrelevant (50-200)
Common, but no recall guarantee
% of total screened (e.g., 50%)
Predictable effort, variable recall
All records screened
100% recall, no time savings
Statistical stopping (Busfelder)
Evidence-based, requires plugin
VALIDATION REQUIREMENT
After stopping: manually screen random sample of unscreened records.
Report estimated recall with confidence interval.
Report estimated recall with confidence interval.
„Das Werkzeug ist einfach. Die Entscheidungen sind es nicht.“
Feed it good examples. Check when you stop.
Exportieren Sie Ihre Projektdatei – sie ist Ihr Prüfpfad.“
Feed it good examples. Check when you stop.
Exportieren Sie Ihre Projektdatei – sie ist Ihr Prüfpfad.“
Prompt Engineering-Bibliothek
Validated prompts for meta-analysis tasks
Prompt Principles
Für zuverlässige LLM-Ausgaben
1 Be specific: Define exact fields and formats
2 Provide examples: Show expected output format
3 Request uncertainty: Fragen Sie nach den Flags „NR“ oder „UNCLEAR“.
4 Demand quotes: Require source text for verification
5 Limit scope: One task per prompt, not everything at once
Eingabeaufforderung 1: RCT-Datenextraktion
Extrahieren Sie Folgendes aus diesem RCT. Geben Sie für jedes Feld Folgendes an:
- The value
- Das genaue Zitat aus der Arbeit (in Anführungszeichen)
- „NR“, wenn nicht gemeldet, „UNCLEAR“, wenn mehrdeutig
FIELDS:
1. Intervention group sample size (ITT): [n]
2. Control group sample size (ITT): [n]
3. Primary outcome definition: [text]
4. Primary outcome: intervention events/total: [x/n]
5. Primary outcome: control events/total: [x/n]
6. Risk ratio (95% CI): [RR (lower, upper)]
7. Follow-up duration: [weeks/months]
OUTPUT FORMAT: JSON mit „Wert“ und „Anführungszeichen“ für jedes Feld
- The value
- Das genaue Zitat aus der Arbeit (in Anführungszeichen)
- „NR“, wenn nicht gemeldet, „UNCLEAR“, wenn mehrdeutig
FIELDS:
1. Intervention group sample size (ITT): [n]
2. Control group sample size (ITT): [n]
3. Primary outcome definition: [text]
4. Primary outcome: intervention events/total: [x/n]
5. Primary outcome: control events/total: [x/n]
6. Risk ratio (95% CI): [RR (lower, upper)]
7. Follow-up duration: [weeks/months]
OUTPUT FORMAT: JSON mit „Wert“ und „Anführungszeichen“ für jedes Feld
Eingabeaufforderung 2: Studienmerkmale
Studienmerkmale extrahieren. Geben Sie zur Überprüfung genaue Angebote an.
FIELDS:
1. Study design: [RCT / Cluster RCT / Crossover / Other]
2. Country/countries: [list]
3. Setting: [hospital / primary care / community / other]
4. Recruitment period: [start date - end date]
5. Funding source: [text]
6. Trial registration: [ID number or "NR"]
7. Conflicts of interest declared: [Yes/No/NR]
If information is in supplementary materials, note "See Supplement".
If truly not reported anywhere, mark "NR".
FIELDS:
1. Study design: [RCT / Cluster RCT / Crossover / Other]
2. Country/countries: [list]
3. Setting: [hospital / primary care / community / other]
4. Recruitment period: [start date - end date]
5. Funding source: [text]
6. Trial registration: [ID number or "NR"]
7. Conflicts of interest declared: [Yes/No/NR]
If information is in supplementary materials, note "See Supplement".
If truly not reported anywhere, mark "NR".
Prompt 3: Population Characteristics
Extract baseline population characteristics.
Melden Sie die Gruppen INTERVENTION und KONTROLLE getrennt an.
FIELDS (per group):
1. N randomized: [n]
2. N analyzed: [n]
3. Age: [mean (SD) or median (IQR)]
4. Sex (% female): [%]
5. Key inclusion criteria: [text]
6. Key exclusion criteria: [text]
7. Disease severity at baseline: [measure and value]
NOTE: If groups combined only, report combined with note.
Melden Sie die Gruppen INTERVENTION und KONTROLLE getrennt an.
FIELDS (per group):
1. N randomized: [n]
2. N analyzed: [n]
3. Age: [mean (SD) or median (IQR)]
4. Sex (% female): [%]
5. Key inclusion criteria: [text]
6. Key exclusion criteria: [text]
7. Disease severity at baseline: [measure and value]
NOTE: If groups combined only, report combined with note.
Prompt 4: Risk of Bias Screening
NOTE: Dies dient nur der VORLÄUFIGEN Markierung.
Human assessment required for final judgment.
For each RoB 2 domain, identify relevant text:
D1 Randomization:
- Methode zur Sequenzgenerierung: [Zitat oder NR]
- Methode zur Verschleierung der Zuordnung: [Zitat oder NR]
D2 Deviations:
- Blinding of participants: [quote or NR]
- Blinding of personnel: [quote or NR]
D3 Missing data:
- Attrition rates: [intervention: x%, control: y%]
- Umgang mit fehlenden Daten: [Zitat oder NR]
DO NOT make judgments. Only extract quotes.
Human assessment required for final judgment.
For each RoB 2 domain, identify relevant text:
D1 Randomization:
- Methode zur Sequenzgenerierung: [Zitat oder NR]
- Methode zur Verschleierung der Zuordnung: [Zitat oder NR]
D2 Deviations:
- Blinding of participants: [quote or NR]
- Blinding of personnel: [quote or NR]
D3 Missing data:
- Attrition rates: [intervention: x%, control: y%]
- Umgang mit fehlenden Daten: [Zitat oder NR]
DO NOT make judgments. Only extract quotes.
„Die Eingabeaufforderung ist Ihr Vertrag mit der Maschine.
Seien Sie präzise in Ihren Fragen.
Fordern Sie Beweise für jede Antwort.
Verify every output against the source."
Seien Sie präzise in Ihren Fragen.
Fordern Sie Beweise für jede Antwort.
Verify every output against the source."
Sie dürfen niemals eine systematische Rezension schreiben.
Aber das wirst du read them.
Woher wissen Sie, ob die KI Hilfe leistet?
was done well or poorly?
Aber das wirst du read them.
Woher wissen Sie, ob die KI Hilfe leistet?
was done well or poorly?
The IBM Watson Oncology Failure
MD ANDERSON CANCER CENTER, 2017
IBM Watson für Onkologie wurde darin geschult, Krebsbehandlungen zu empfehlen.
After spending $62 million, MD Anderson hat das Projekt abgebrochen.
Internal documents showed Watson made „unsicher und falsch“ Behandlungsempfehlungen. Es wurde an synthetischen Fällen trainiert, nicht an echten Patientendaten.
Die KI wirkte zuversichtlich. Die Empfehlungen waren gefährlich.
Lesson: AI confidence ≠ AI correctness
After spending $62 million, MD Anderson hat das Projekt abgebrochen.
Internal documents showed Watson made „unsicher und falsch“ Behandlungsempfehlungen. Es wurde an synthetischen Fällen trainiert, nicht an echten Patientendaten.
Die KI wirkte zuversichtlich. Die Empfehlungen waren gefährlich.
Lesson: AI confidence ≠ AI correctness
STAT News investigation, 2017; IEEE Spectrum 2019
Fragen für KI-gestützte Bewertungen
Worauf Sie bei Methoden achten sollten
1 Did they Nennen Sie die KI-Tools used? (version, date)
2 Did they specify which tasks were AI-assisted?
3 Did they validate AI outputs? How?
4 Für KI-Screening: Was stopping rule? What estimated recall?
5 Für die KI-Extraktion: War 100% human verified?
6 Was there human oversight of all AI decisions?
Red Flags in AI-Assisted Reviews
Warning Signs
"AI screened all titles"
No human involvement?
„GPT-extrahierte Daten“
No verification mentioned?
"Stopped after 500 consecutive irrelevant"
No recall estimate?
"AI-generated protocol"
Human decisions unclear?
No AI tools mentioned but clearly AI-written
Hidden AI use
Für Patienten und Ärzte
WAS SIE WISSEN MÜSSEN
Good AI use: Speeds up the work, human verifies
Bad AI use: Replaces human judgment, no validation
An AI-assisted review can be trustworthy—if done right.
Bad AI use: Replaces human judgment, no validation
An AI-assisted review can be trustworthy—if done right.
Simple Questions to Ask
? "Wurde in dieser Überprüfung KI verwendet?"
? "Wurden die KI-Ergebnisse von Menschen überprüft?"
? "Could AI have missed important studies?"
"AI assistance is not a flaw—it is often an advantage.
But only if validated, only if disclosed.
Fragen Sie: Wurde die Maschine überprüft?
Wenn die Antwort unklar ist, ist dies auch der Fall Bewertung."
But only if validated, only if disclosed.
Fragen Sie: Wurde die Maschine überprüft?
Wenn die Antwort unklar ist, ist dies auch der Fall Bewertung."
>Haben Sie den Forscher nicht berücksichtigt?
with unstable internet, limited compute,
no institutional subscription,
who still needs to synthesize evidence?
with unstable internet, limited compute,
no institutional subscription,
who still needs to synthesize evidence?
Kostenlos & Offlinefähige Tools
ASReview
Desktop app
Works offline
Works offline
FREE
Abstrackr
Web-based
Free accounts
Free accounts
FREE
Rayyan
Free tier
Limited AI
Limited AI
FREEMIUM
RevMan
Cochrane tool
Full MA software
Full MA software
FREE
Offline Workflow
When Internet is Unreliable
Search Phase
↓
Bibliothek/Café: Alle PDFs herunterladenBatch-Download bei Verbindung
↓
Screening Phase
↓
ASReview desktopWorks fully offline
↓
Extraction Phase
↓
Spreadsheet + local PDFsNo AI needed
Low-Cost LLM Alternatives
WHEN API COSTS ARE PROHIBITIVE
• Claude/ChatGPT free tiers: Limited but functional
• Ollama + local models: Free, runs on laptop (requires download)
• Hugging Face inference: Free tier available
• Manual extraction: Still gold standard, just slower
• Ollama + local models: Free, runs on laptop (requires download)
• Hugging Face inference: Free tier available
• Manual extraction: Still gold standard, just slower
HONEST ASSESSMENT
KI ist eine Annehmlichkeit, keine Notwendigkeit.
All Cochrane reviews were done without AI.
Qualität kommt von Methoden, nicht von Tools.
All Cochrane reviews were done without AI.
Qualität kommt von Methoden, nicht von Tools.
Resource-Limited Decision Tree
Wählen Sie Ihren Ansatz
Your Resources
↓
Internet reliability?
Stable
Web tools OKRayyan, Covidence
Unreliable
Desktop toolsASReview offline
None
Manual + spreadsheetsStill valid
"Der Beweis gehört allen,
nicht nur denen mit schnellem Internet und kostenpflichtigen Abonnements.
Die Tools können unterschiedlich sein. Die Methoden bleiben erhalten.
Quality synthesis is possible anywhere."
nicht nur denen mit schnellem Internet und kostenpflichtigen Abonnements.
Die Tools können unterschiedlich sein. Die Methoden bleiben erhalten.
Quality synthesis is possible anywhere."
Validation Calculations
Stichprobengrößen für die KI-Verifizierung
Estimating Recall After AI Screening
THE PROBLEM
Sie haben aufgehört Screening bei 1000 von 5000 Datensätzen.
Wie sicher sind Sie, dass Sie alle relevanten Studien gefunden haben?
Wie sicher sind Sie, dass Sie alle relevanten Studien gefunden haben?
Validation Sampling
Unscreened records (n=4000)
↓
Random sample (n=400)10% or at least 200
↓
Manual screening
0 relevant foundRecall ≈ 95-100%
Relevant foundScreen all remaining
Sample Size Formula
FÜR 95 % VERTRAUEN BEIM ERKENNEN
n = ln(1 - confidence) / ln(1 - prevalence)
Example:
If prevalence of relevant = 1% (0.01)
For 95% confidence (0.95):
n = ln(1 - 0.95) / ln(1 - 0.01)
n = ln(0.05) / ln(0.99)
n ≈ 299 records to sample
Example:
If prevalence of relevant = 1% (0.01)
For 95% confidence (0.95):
n = ln(1 - 0.95) / ln(1 - 0.01)
n = ln(0.05) / ln(0.99)
n ≈ 299 records to sample
Quick Reference Table
Stichprobengrößen für die Validierung
Prevalence 0.5%, 95% conf
598 records
Prevalence 1%, 95% conf
299 records
Prevalence 2%, 95% conf
149 records
Prevalence 5%, 95% conf
59 records
Practical minimum
200 records (conservative)
Berichten über Ihre Validierung
Beispielmethoden Text:
„Wir haben ASReview LAB (v1.2) für das Titel-/Abstract-Screening verwendet, wobei
active learning. Screening ceased after 150 consecutive
irrelevant records, having screened 1,247 of 4,892 records
(25%). To validate recall, we manually screened a random
sample of 300 unscreened records. No additional relevant
Studien identifiziert wurden, was einen geschätzten Recall von ≥95 % nahelegt
(binomial 95% CI: 91-100%)."
„Wir haben ASReview LAB (v1.2) für das Titel-/Abstract-Screening verwendet, wobei
active learning. Screening ceased after 150 consecutive
irrelevant records, having screened 1,247 of 4,892 records
(25%). To validate recall, we manually screened a random
sample of 300 unscreened records. No additional relevant
Studien identifiziert wurden, was einen geschätzten Recall von ≥95 % nahelegt
(binomial 95% CI: 91-100%)."
„Eine Validierung ist nicht möglich optional – es ist der Preis der Effizienz.
Calculate your sample. Screen it manually.
Melden Sie, was Sie gefunden haben. Geben Sie zu, was Sie möglicherweise verpasst haben.
Calculate your sample. Screen it manually.
Melden Sie, was Sie gefunden haben. Geben Sie zu, was Sie möglicherweise verpasst haben.
1 / 6