AI > वादा और ख़तरा
==================== मॉड्यूल 1: वादा और ख़तरा ===================
==================== मॉड्यूल 2: एआई-सहायक स्क्रीनिंग ===================
=================== मॉड्यूल 3: डेटा निष्कर्षण के लिए एलएलएम ===================
==================== मॉड्यूल 4: पूर्वाग्रह का स्वचालित जोखिम ===================
=================== मॉड्यूल 5: प्रोटोकॉल लेखन के लिए जीपीटी ===================
=================== मॉड्यूल 6: लिविंग रिव्यू + एआई ===================
==================== मॉड्यूल 7: गुणवत्ता आश्वासन ढांचा ====================
==================== मॉड्यूल 8: नैतिक विचार ====================
================== मॉड्यूल 9: भविष्य की दिशाएं ===================
=================== मॉड्यूल 10: प्रश्नोत्तरी और संदर्भ ==================
==================== मॉड्यूल 11: ASREVIEW चरण-दर-चरण ===================
==================== मॉड्यूल 12: प्रॉम्प्ट इंजीनियरिंग लाइब्रेरी ====================
==================== मॉड्यूल 13: एआई-सहायक समीक्षाएँ पढ़ना ====================
==================== मॉड्यूल 14: संसाधन-सीमित सेटिंग्स ====================
==================== मॉड्यूल 15: सत्यापन गणना ====================
क्या आपने उस मशीन के बारे में नहीं सुना है जो
ten thousand abstracts in an hour,
पढ़ती है सोते समय डेटा निकालता है,
that promises to आपको कठिन परिश्रम से मुक्त करता है?
ten thousand abstracts in an hour,
पढ़ती है सोते समय डेटा निकालता है,
that promises to आपको कठिन परिश्रम से मुक्त करता है?
साक्ष्य संश्लेषण में AI क्रांति
67%
Workload reduction
with AI screening
with AI screening
95%
Recall achievable
सक्रिय सीखने के साथ
सक्रिय सीखने के साथ
10x
Faster screening
than manual
than manual
THE PROMISE
AI सार तत्वों की स्क्रीनिंग कर सकता है, डेटा निकाल सकता है, पूर्वाग्रह के जोखिम का आकलन कर सकता है और नए की निगरानी कर सकता है साक्ष्य-if used correctly.
When AI Fails in Healthcare
IBM WATSON ONCOLOGY, MD ANDERSON, 2013-2017
2013 में, एमडी एंडरसन कैंसर सेंटर ने कैंसर उपचार की सिफारिशों में क्रांति लाने के लिए आईबीएम वॉटसन के साथ साझेदारी की। परियोजना लागत $62 million.
2017 तक, परियोजना को छोड़ दिया गया था। वॉटसन की सिफ़ारिशें "असुरक्षित और ग़लत" in multiple cases.
In one documented case, Watson recommended a treatment that would cause severe bleeding in a patient already on blood thinners.
The core problem: Watson had been trained primarily on hypothetical cases created by physiciansपाई गईं, वास्तविक रोगी डेटा नहीं। एआई ने वास्तविक परिणामों से सीखने के बजाय विशेषज्ञों की राय की नकल करना सीखा।
2017 तक, परियोजना को छोड़ दिया गया था। वॉटसन की सिफ़ारिशें "असुरक्षित और ग़लत" in multiple cases.
In one documented case, Watson recommended a treatment that would cause severe bleeding in a patient already on blood thinners.
The core problem: Watson had been trained primarily on hypothetical cases created by physiciansपाई गईं, वास्तविक रोगी डेटा नहीं। एआई ने वास्तविक परिणामों से सीखने के बजाय विशेषज्ञों की राय की नकल करना सीखा।
Stat News, 2017; IEEE Spectrum, 2019
THE LESSON
सिंथेटिक या काल्पनिक डेटा पर प्रशिक्षित एआई वास्तविक रोगियों पर विफल रहता है। प्रशिक्षण डेटा और वास्तविकता के बीच का अंतर घातक हो सकता है।
मतिभ्रम समस्या
LAWYERS SANCTIONED, NEW YORK, 2023
Attorneys used ChatGPT to research case law for a federal court brief.
एआई ने पूर्ण उद्धरणों, उद्धरणों और पृष्ठ संख्याओं के साथ छह मामलों का हवाला दिया।
कोई भी मामला मौजूद नहीं था।
न्यायाधीश ने पाया कि उद्धरण गलत थे "अस्पष्ट" और वकीलों को मंजूरी दे दी।
यह कोई बग नहीं है। बड़े भाषा मॉडल इसी तरह काम करते हैं - वे विश्वसनीय पाठ की भविष्यवाणी करते हैं, सत्यापित सत्य की नहीं।
एआई ने पूर्ण उद्धरणों, उद्धरणों और पृष्ठ संख्याओं के साथ छह मामलों का हवाला दिया।
कोई भी मामला मौजूद नहीं था।
न्यायाधीश ने पाया कि उद्धरण गलत थे "अस्पष्ट" और वकीलों को मंजूरी दे दी।
यह कोई बग नहीं है। बड़े भाषा मॉडल इसी तरह काम करते हैं - वे विश्वसनीय पाठ की भविष्यवाणी करते हैं, सत्यापित सत्य की नहीं।
Mata v. Avianca, Inc., 22-cv-1461 (S.D.N.Y. 2023)
मुख्य प्रश्न
When to Trust AI in Meta-Analysis
AI Tool Output
↓
Task Type?
Ranking/Prioritization
Lower riskHuman reviews top-ranked
Binary Decision
Medium riskNeeds validation
Text Generation
High riskHallucination possible
AI क्या कर सकता है और क्या नहीं
Honest Assessment
Screening prioritization
✓ Excellent
Duplicate detection
✓ Excellent
डेटा निष्कर्षण (संरचित)
⚠ Needs verification
Risk of bias assessment
⚠ Preliminary only
लेखन प्रोटोकॉल/तरीके
⚠ Draft only
Statistical analysis
✗ Human required
Clinical interpretation
✗ Human required
"मशीन तेजी से पढ़ती है लेकिन समझ नहीं पाती है।
यह अगले शब्द की भविष्यवाणी करती है, सत्य की नहीं।
इसे तेज करने के लिए उपयोग करें, न कि तेज करने के लिए प्रतिस्थापित करें।
The judgment must remain yours."
यह अगले शब्द की भविष्यवाणी करती है, सत्य की नहीं।
इसे तेज करने के लिए उपयोग करें, न कि तेज करने के लिए प्रतिस्थापित करें।
The judgment must remain yours."
क्या आपने समीक्षक को नहीं देखा
who screened ten thousand titles by hand,
whose eyes grew tired, whose attention wandered,
जो चूक गया एक अध्ययन जो मायने रखता है?
who screened ten thousand titles by hand,
whose eyes grew tired, whose attention wandered,
जो चूक गया एक अध्ययन जो मायने रखता है?
स्क्रीनिंग उपकरण
ASReview
Active learning
Open source
Open source
Free
Rayyan
AI recommendations
Collaboration
Collaboration
Freemium
Abstrackr
Semi-automated
Web-based
Web-based
Free
EPPI-Reviewer
Priority screening
Full workflow
Full workflow
Subscription
How Active Learning Works
ASReview Workflow
Import References
↓
Screen seed papers10-20 known relevant
↓
AI learns patternsप्रत्येक निर्णय के साथ अपडेट
↓
Prioritizes likely relevantMost promising first
↓
Stopping rule?
Consecutive irrelevante.g., 100-200 in row
% screenedउदाहरण के लिए, रिकॉल चेक के साथ 50%
वास्तविक प्रदर्शन डेटा
VAN DE SCHOOT ET AL., 2021
Systematic evaluation of ASReview across 4 datasets:
• PTSD dataset: 95% recall after screening 40% of records
• Software fault prediction: 95% recall after 20%
• Virus metagenomics: 95% recall after 10%
Average workload reduction: 67-95% depending on prevalence.
But: Performance varies by topic and prevalence. Low-prevalence topics show greater efficiency gains.
• PTSD dataset: 95% recall after screening 40% of records
• Software fault prediction: 95% recall after 20%
• Virus metagenomics: 95% recall after 10%
Average workload reduction: 67-95% depending on prevalence.
But: Performance varies by topic and prevalence. Low-prevalence topics show greater efficiency gains.
Van de Schoot R et al. Nat Mach Intell. 2021;3:125-133
When AI-Assisted Screening Works
ASREVIEW AND COCHRANE COVID-19 RESPONSE, 2020
During the COVID-19 pandemic, Cochrane needed to screen 50,000+ citations weekly to keep reviews current.
ASReview की सक्रिय शिक्षण प्रणाली को कठोर मानवीय निरीक्षण के साथ तैनात किया गया था:
• Reduced human screening workload by 75%
• Missed fewer than 1% of relevant studies
• Validated at every stage by human reviewers
सफलता की कुंजी: human-in-the-loop validation at every stage। AI ने प्राथमिकता दी, लेकिन मनुष्यों ने अंतिम निर्णय लिया और AI-बहिष्कृत रिकॉर्ड के नमूनों की जाँच की।
ASReview की सक्रिय शिक्षण प्रणाली को कठोर मानवीय निरीक्षण के साथ तैनात किया गया था:
• Reduced human screening workload by 75%
• Missed fewer than 1% of relevant studies
• Validated at every stage by human reviewers
सफलता की कुंजी: human-in-the-loop validation at every stage। AI ने प्राथमिकता दी, लेकिन मनुष्यों ने अंतिम निर्णय लिया और AI-बहिष्कृत रिकॉर्ड के नमूनों की जाँच की।
Cochrane COVID-NMA consortium, 2020-2021
THE LESSON
एआई मानवीय निर्णय को बढ़ाता है; यह इसे प्रतिस्थापित नहीं करता है. सफलता साझेदारी से आती है, स्वचालन से नहीं।
When Internal Validation Fails
EPIC SEPSIS MODEL, JAMA INTERNAL MEDICINE, 2021
Epic Systems deployed a sepsis prediction algorithm to hundreds of hospitals संयुक्त राज्य भर में।
Epic's internal validation showed excellent performance. Hospitals trusted it.
फिर JAMA आंतरिक चिकित्सा में बाहरी सत्यापन अध्ययन आया:
• The model missed 67% of sepsis cases
• It triggered thousands of false alarms
• Nurses developed severe "alert fatigue"
मॉडल को उसी प्रणाली से ऐतिहासिक डेटा पर मान्य किया गया था - इसका वास्तविक नैदानिक वातावरण में कभी परीक्षण नहीं किया गया था जहां यह होगा तैनात।
Epic's internal validation showed excellent performance. Hospitals trusted it.
फिर JAMA आंतरिक चिकित्सा में बाहरी सत्यापन अध्ययन आया:
• The model missed 67% of sepsis cases
• It triggered thousands of false alarms
• Nurses developed severe "alert fatigue"
मॉडल को उसी प्रणाली से ऐतिहासिक डेटा पर मान्य किया गया था - इसका वास्तविक नैदानिक वातावरण में कभी परीक्षण नहीं किया गया था जहां यह होगा तैनात।
Wong A et al. JAMA Intern Med. 2021;181(8):1065-1070
THE LESSON
आंतरिक सत्यापन बाहरी सत्यापन नहीं है। एक मॉडल जो विकास में काम करता है वह तैनाती में विफल हो सकता है। हमेशा वास्तविक दुनिया के संदर्भ में सत्यापन करें।
रोकने की समस्या
छिपा हुआ खतरा
आप सक्रिय शिक्षण के साथ स्क्रीनिंग कब बंद करते हैं?
यदि आप भी रुकते हैं जल्दी: आप प्रासंगिक अध्ययन से चूक जाते हैं
यदि आप बहुत देर से रुकते हैं: आप दक्षता लाभ खो देते हैं
एल्गोरिदम आपको यह नहीं बता सकता कि आपने कब सब कुछ पा लिया है। यह केवल वही रैंक करता है जो शेष रहता है।
There is no perfect stopping rule. Every rule trades recall for efficiency.
यदि आप भी रुकते हैं जल्दी: आप प्रासंगिक अध्ययन से चूक जाते हैं
यदि आप बहुत देर से रुकते हैं: आप दक्षता लाभ खो देते हैं
एल्गोरिदम आपको यह नहीं बता सकता कि आपने कब सब कुछ पा लिया है। यह केवल वही रैंक करता है जो शेष रहता है।
There is no perfect stopping rule. Every rule trades recall for efficiency.
CRITICAL POINT
You must अपने स्टॉपिंग नियम को मान्य करें by manually checking
a random sample of unscreened records.
AI Screening Decision Tree
क्या आपको AI स्क्रीनिंग का उपयोग करना चाहिए?
Large Reference Set?
↓
<500 refs
Manual OKAI ओवरहेड इसके लायक नहीं है
500-2000 refs
AI helpfulModerate efficiency gain
>2000 refs
AI essentialMajor time savings
↓
Always validate with random sampleReport methodology in paper
"मशीन सुइयों को ढूंढती है तेज़,
but it cannot guarantee none remain in the haystack.
रैंकिंग पर भरोसा करें, रुकने की पुष्टि करें,
और हमेशा रिपोर्ट करें कि आपने क्या किया।"
but it cannot guarantee none remain in the haystack.
रैंकिंग पर भरोसा करें, रुकने की पुष्टि करें,
और हमेशा रिपोर्ट करें कि आपने क्या किया।"
क्या आपने सहायक का सपना नहीं देखा है
who reads every paper and fills every cell,
who never tires, never errs,
who extracts perfectly?
वह सहायक मौजूद नहीं है।
who reads every paper and fills every cell,
who never tires, never errs,
who extracts perfectly?
वह सहायक मौजूद नहीं है।
निष्कर्षण सटीकता समस्या
GPT-4 डेटा निष्कर्षण अध्ययन, 2024
शोधकर्ताओं ने 100 RCT पेपर से डेटा निकालने के लिए GPT-4 का परीक्षण किया।
Results:
• Sample sizes: 89% accurate
• Effect estimates: 76% accurate
• Confidence intervals: 71% accurate
• Risk of bias judgments: 62% agreement with humans
A 24% error rate वास्तव में अनुमान का मतलब है कि लगभग 4 में से 1 अध्ययन में आपके मेटा-विश्लेषण में गलत डेटा होगा।
Results:
• Sample sizes: 89% accurate
• Effect estimates: 76% accurate
• Confidence intervals: 71% accurate
• Risk of bias judgments: 62% agreement with humans
A 24% error rate वास्तव में अनुमान का मतलब है कि लगभग 4 में से 1 अध्ययन में आपके मेटा-विश्लेषण में गलत डेटा होगा।
Guo Y et al. J Clin Epidemiol. 2024;165:111203
द फैब्रिकेशन समस्या
GPT-4 HALLUCINATIONS IN SYSTEMATIC REVIEWS, 2023
शोधकर्ताओं ने व्यवस्थित समीक्षा पत्रों से डेटा निष्कर्षण के लिए GPT-4 का परीक्षण किया। मॉडल को पीडीएफ दिए गए और नमूना आकार, पी-मूल्य और प्रभाव अनुमान निकालने के लिए कहा गया।
GPT-4 confidently provided all requested numbers with precise formatting.
But 23% निष्कर्षण "मतिभ्रम" थे- स्रोत पाठ में बिना किसी आधार वाली संख्याएं।
In one case, the model fabricated a statistically significant result (p=0.003) एक अध्ययन से जो वास्तव में पाया गया no significant effect (p=0.42).
मॉडल का आत्मविश्वास वास्तविक और मनगढ़ंत डेटा के बीच अप्रभेद्य था।
GPT-4 confidently provided all requested numbers with precise formatting.
But 23% निष्कर्षण "मतिभ्रम" थे- स्रोत पाठ में बिना किसी आधार वाली संख्याएं।
In one case, the model fabricated a statistically significant result (p=0.003) एक अध्ययन से जो वास्तव में पाया गया no significant effect (p=0.42).
मॉडल का आत्मविश्वास वास्तविक और मनगढ़ंत डेटा के बीच अप्रभेद्य था।
व्यवस्थित समीक्षा AI सत्यापन अध्ययन, 2023
THE LESSON
एलएलएम को मात्रात्मक डेटा के लिए 100% मानव सत्यापन की आवश्यकता होती है। कोई शॉर्टकट नहीं है. प्रत्येक संख्या को स्रोत के विरुद्ध जाँचना चाहिए।
LLM डेटा निष्कर्षण वर्कफ़्लो
Safe LLM Extraction Protocol
PDF/Full Text
↓
LLM डेटा निकालता हैStructured prompt
↓
Human verifies 100%NOT sampling
↓
Discrepancy?
Yes
Human value usedDocument error
No
ProceedLog verification
निष्कर्षण के लिए शीघ्र इंजीनियरिंग
# Example extraction prompt
Extract इस RCT से निम्नलिखित:
1. Sample size (intervention arm): [number]
2. Sample size (control arm): [number]
3. Primary outcome definition: [text]
4. Effect estimate: [number with unit]
5. 95% CI: [lower, upper]
6. p-value: [number]
If not reported, write "NR"
If unclear, write "UNCLEAR: [reason]"
# Provide exact quotes for verification
Extract इस RCT से निम्नलिखित:
1. Sample size (intervention arm): [number]
2. Sample size (control arm): [number]
3. Primary outcome definition: [text]
4. Effect estimate: [number with unit]
5. 95% CI: [lower, upper]
6. p-value: [number]
If not reported, write "NR"
If unclear, write "UNCLEAR: [reason]"
# Provide exact quotes for verification
When LLMs Help vs. Hurt
LLM Extraction Value Assessment
Standardized fields (author, year)
✓ High accuracy
Simple numeric (sample size)
✓ Usually reliable
Complex numeric (adjusted OR)
⚠ Often wrong model
Composite outcomes
⚠ Misses components
Intention-to-treat vs per-protocol
✗ Frequently confused
Subgroup data
✗ High error rate
"The LLM extracts plausible numbers,
जरूरी नहीं सही संख्याएँ।
यह एक तेज़ पहला ड्राफ्ट है, अंतिम उत्तर नहीं।
Every cell must be verified by human eyes."
जरूरी नहीं सही संख्याएँ।
यह एक तेज़ पहला ड्राफ्ट है, अंतिम उत्तर नहीं।
Every cell must be verified by human eyes."
क्या आपने एक ऐसे न्यायाधीश की कामना नहीं की है
who reads every methods section,
who assesses bias without bias,
जो कभी असहमत न हो themselves?
who reads every methods section,
who assesses bias without bias,
जो कभी असहमत न हो themselves?
RobotReviewer
MARSHALL ET AL., NATURE MACHINE INTELLIGENCE, 2019
RobotReviewer uses machine learning to assess risk of bias in RCTs.
Validation against Cochrane assessments:
• Random sequence generation: 71% agreement
• Allocation concealment: 65% agreement
• Blinding of participants: 69% agreement
• Blinding of outcome assessment: 62% agreement
Human inter-rater agreement is typically 70-80%.
RobotReviewer approaches but does not exceed human performance.
Validation against Cochrane assessments:
• Random sequence generation: 71% agreement
• Allocation concealment: 65% agreement
• Blinding of participants: 69% agreement
• Blinding of outcome assessment: 62% agreement
Human inter-rater agreement is typically 70-80%.
RobotReviewer approaches but does not exceed human performance.
Marshall IJ et al. Nat Mach Intell. 2019;1:115-117
RoB Automation Decision Tree
When to Use Automated RoB
Risk of Bias Assessment
↓
Review Type?
Rapid review
Automated OKAcknowledge limitation
Scoping review
Automated OKIf RoB included
पूर्ण व्यवस्थित समीक्षा के साथ
Preliminary onlyHuman verification required
Cochrane review
Human requiredDraft support only
Limitations of Automated RoB
What Machines Cannot Assess
✗ Outcome-specific bias (RoB 2 domain 4)
✗ Selective reporting based on protocol comparison
✗ Contextual judgment (Is this design appropriate?)
✗ Cross-paper inconsistencies (multiple reports)
✗ परिणाम व्याख्या पर फंडिंग प्रभाव
मौलिक सीमा
AI reads what is written.
Bias assessment often requires judging what is not written.
RoB के लिए हाइब्रिड वर्कफ़्लो
Best Practice Protocol
Full Text PDFs
↓
RobotReviewer screeningFlags potential issues
↓
Reviewer 1 assessesUsing AI output as reference
↓
Reviewer 2 independentlyBlinded to AI output
↓
Consensus meeting
↓
Final assessmentHuman decision documented
"रोबोट पढ़ता है विधि अनुभाग
but cannot read between the lines.
इसका उपयोग ध्वजांकित करने के लिए करें, निर्णय करने के लिए नहीं।
निर्णय मानवीय होना चाहिए।"
but cannot read between the lines.
इसका उपयोग ध्वजांकित करने के लिए करें, निर्णय करने के लिए नहीं।
निर्णय मानवीय होना चाहिए।"
क्या आपने लेखक की इच्छा नहीं की है
who drafts your protocol in minutes,
who knows every PRISMA item,
who writes in perfect academic prose?
who drafts your protocol in minutes,
who knows every PRISMA item,
who writes in perfect academic prose?
प्रोटोकॉल ड्राफ्टिंग के लिए एलएलएम
✓
Structure
generation
generation
✓
Boilerplate
text
text
⚠
PICO
formulation
formulation
✗
Search
strategy
strategy
मूल्य प्रस्ताव
एलएलएम ड्राफ्ट कर सकते हैं संरचना और मानक भाषा। आपको scientific decisions.
खोज रणनीति खतरा
TESTED ACROSS MULTIPLE LLMs, 2023-2024
Researchers asked GPT-4 and Claude to generate MEDLINE search strategies.
Common errors:
• Invented MeSH terms that don't exist
• Wrong field codes (e.g., [tiab] vs [tw])
• अनुसंधान प्रश्न से गायब प्रमुख अवधारणाएं प्रदान करनी होंगी
• Overly narrow strategies missing relevant studies
• Syntax errors that wouldn't execute
An information specialist must write or validate all search strategies.
Common errors:
• Invented MeSH terms that don't exist
• Wrong field codes (e.g., [tiab] vs [tw])
• अनुसंधान प्रश्न से गायब प्रमुख अवधारणाएं प्रदान करनी होंगी
• Overly narrow strategies missing relevant studies
• Syntax errors that wouldn't execute
An information specialist must write or validate all search strategies.
एकाधिक सत्यापन अध्ययन 2023-2024
Protocol Writing Decision Tree
LLM Use in Protocol Development
Protocol Section
↓
Background/Rationale
LLM helpfulDraft + fact-check
Methods structure
LLM helpfulTemplate generation
PICO criteria
Human decidesLLM refines wording
Search strategy
Human/SpecialistAI too unreliable
Safe LLM Protocol Workflow
Quality Assurance Steps
1 Define PICO yourself (human scientific decision)
2 Ask LLM to draft protocol sections
3 Verify all cited guidelines exist (PRISMA, Cochrane)
4 Write search strategy with information specialist
5 Check all methodological decisions are defensible
6 Disclose AI assistance in protocol
7 मानव-सत्यापित पंजीकृत करें संस्करण
"मशीन शब्द लिख सकती है,
but it cannot make the decisions.
आप प्रश्न को परिभाषित करते हैं। आप तरीके चुनते हैं।
प्रोटोकॉल आपका है - AI टाइपिस्ट है।"
but it cannot make the decisions.
आप प्रश्न को परिभाषित करते हैं। आप तरीके चुनते हैं।
प्रोटोकॉल आपका है - AI टाइपिस्ट है।"
क्या आपने व्यवस्थित समीक्षा नहीं देखी है
जो प्रकाशित होने से पहले ही पुरानी हो चुकी थी,
while new trials accumulated in the literature,
unsynthesized, unknown?
जो प्रकाशित होने से पहले ही पुरानी हो चुकी थी,
while new trials accumulated in the literature,
unsynthesized, unknown?
द लिविंग रिव्यू समस्या
कोविड-19 साक्ष्य सुनामी, 2020
महामारी के पहले वर्ष में:
• 100,000+ COVID papers published
• Traditional reviews obsolete within weeks
• Clinicians made decisions on incomplete evidence
कोविड-एनएमए कंसोर्टियम ने उपयोग किया AI-assisted surveillance to monitor new trials daily and update meta-analyses weekly.
इसके लिए आवश्यक था: स्वचालित खोज निगरानी, AI स्क्रीनिंग प्राथमिकता, तेजी से डेटा निष्कर्षण वर्कफ़्लो, और निरंतर सांख्यिकीय अद्यतन।
• 100,000+ COVID papers published
• Traditional reviews obsolete within weeks
• Clinicians made decisions on incomplete evidence
कोविड-एनएमए कंसोर्टियम ने उपयोग किया AI-assisted surveillance to monitor new trials daily and update meta-analyses weekly.
इसके लिए आवश्यक था: स्वचालित खोज निगरानी, AI स्क्रीनिंग प्राथमिकता, तेजी से डेटा निष्कर्षण वर्कफ़्लो, और निरंतर सांख्यिकीय अद्यतन।
Defined in Cochrane Living Reviews guidance
जीवित समीक्षा के लिए AI घटक
Automated Surveillance Stack
जीवित समीक्षा प्रणाली
↓
Auto-searchDaily/weekly runs
AI triagePriority screening
Rapid extractionLLM-assisted
Auto-updateCumulative MA
↓
Human oversight at each stageप्रकाशन से पहले संपादकीय समीक्षा
निरंतर निगरानी के लिए उपकरण
PubMed Alerts
Free email alerts
Saved searches
Saved searches
Basic
Epistemonikos
Systematic review
database
database
AI-curated
Covidence
Auto-import
Living mode
Living mode
Subscription
DistillerSR
AI screening
+ monitoring
+ monitoring
Enterprise
जीवित समीक्षा निर्णय रूपरेखा
"लिविंग" की समीक्षा कब करें
क्या यह लिविंग होना चाहिए?
↓
Criteria Check
Priority questionClinical importance
Evidence evolvingActive trial pipeline
Resources secured2+ वर्षों के लिए फंडिंग
↓
All three required for living status
"मशीन साहित्य देखती है
जब आप सो रहे थे।
But someone must wake to judge
क्या नए सबूत सच्चाई बदल देते हैं।"
जब आप सो रहे थे।
But someone must wake to judge
क्या नए सबूत सच्चाई बदल देते हैं।"
यदि आप बिना सत्यापन के मशीन का उपयोग करते हैं,
आप नहीं जानते कि आपने क्या गलतियाँ की हैं।
यदि आप मशीन द्वारा उत्पादित हर चीज़ को सत्यापित करते हैं,
what time have you saved?
उत्तर निहित है strategic verification.
आप नहीं जानते कि आपने क्या गलतियाँ की हैं।
यदि आप मशीन द्वारा उत्पादित हर चीज़ को सत्यापित करते हैं,
what time have you saved?
उत्तर निहित है strategic verification.
सत्यापन विरोधाभास
THE DILEMMA
Full verification = No time savings
No verification = Unknown error rate
Strategic verification = Validated efficiency
No verification = Unknown error rate
Strategic verification = Validated efficiency
Verification Strategy by Risk
High-risk tasks
100% human reviewडेटा निष्कर्षण, आरओबी
Medium-risk tasks
Sample validationScreening decisions
Low-risk tasks
Spot checksDeduplication
When Oversight Catches Bias
COCHRANE MACHINE LEARNING PILOT, 2022
Cochrane tested ML-assisted risk of bias assessment to accelerate systematic reviews.
एल्गोरिदम हासिल किया गया मानव समीक्षकों के साथ 85% सहमति—seemingly impressive.
लेकिन क्यूए टीम ने 15% असहमतियों का विश्लेषण किया और एक पैटर्न पाया:
The AI was systematically biased toward rating industry-funded trials as low risk.
प्रशिक्षण डेटा में फार्मास्युटिकल कंपनी परीक्षणों के लिए अधिक "कम जोखिम" लेबल शामिल थे - एल्गोरिदम ने अंतर्निहित कार्यप्रणाली संबंधी चिंताओं को समझे बिना इस सहसंबंध को सीखा।
Human oversight caught the pattern before any biased reviews were published.
एल्गोरिदम हासिल किया गया मानव समीक्षकों के साथ 85% सहमति—seemingly impressive.
लेकिन क्यूए टीम ने 15% असहमतियों का विश्लेषण किया और एक पैटर्न पाया:
The AI was systematically biased toward rating industry-funded trials as low risk.
प्रशिक्षण डेटा में फार्मास्युटिकल कंपनी परीक्षणों के लिए अधिक "कम जोखिम" लेबल शामिल थे - एल्गोरिदम ने अंतर्निहित कार्यप्रणाली संबंधी चिंताओं को समझे बिना इस सहसंबंध को सीखा।
Human oversight caught the pattern before any biased reviews were published.
कोक्रेन मेथड्स ग्रुप पायलट अध्ययन, 2022
THE LESSON
असहमति विश्लेषण से व्यवस्थित पूर्वाग्रह का पता चलता है। उच्च समग्र सटीकता खतरनाक पैटर्न को छिपा सकती है। हमेशा विश्लेषण करें कि एआई कहाँ और कैसे विफल होता है, न कि कितनी बार।
एआई-सहायता प्राप्त समीक्षाओं के लिए क्यूए फ्रेमवर्क
Minimum Quality Standards
1 Pre-specify AI use in protocol (which tools, which tasks)
2 Document AI settings (model version, prompts, parameters)
3 Validate screening with random sample (calculate recall estimate)
4 सभी निकाले गए डेटा को सत्यापित करें against source documents
5 Human RoB assessment (AI as preliminary only)
6 Track error rates per AI task
7 Report transparently in methods section
Reporting AI Use (PRISMA-S)
अपने पेपर में क्या रिपोर्ट करें?
• Which AI tools were used (name, version, date)
• Which tasks were AI-assisted
• What validation was performed
• What error rates were observed
• What human oversight was maintained
• Any deviations AI सीमाओं के कारण प्रोटोकॉल से
• Which tasks were AI-assisted
• What validation was performed
• What error rates were observed
• What human oversight was maintained
• Any deviations AI सीमाओं के कारण प्रोटोकॉल से
EMERGING STANDARD
Journals increasingly require AI use statements.
PRISMA-S extension for search reporting includes automation.
संपूर्ण एआई-एमए वर्कफ़्लो
Integrated Human-AI Process
Protocol (Human + LLM draft)
↓
Search (Human/Specialist)
↓
Screening (AI prioritize + Human decide)
↓
Extraction (LLM draft + Human verify 100%)
↓
RoB (AI flag + Human assess)
↓
Analysis (Human)
↓
Interpretation (Human)
"The machine is neither colleague nor replacement.
यह एक उपकरण है - शक्तिशाली, तेज़ और गिरने योग्य।
Document what you used. Validate what it produced.
जिम्मेदारी आपकी रहेगी।"
यह एक उपकरण है - शक्तिशाली, तेज़ और गिरने योग्य।
Document what you used. Validate what it produced.
जिम्मेदारी आपकी रहेगी।"
क्या आपने विचार नहीं किया
whose labor trained the model,
whose data it consumed without consent,
whose jobs it may displace?
whose labor trained the model,
whose data it consumed without consent,
whose jobs it may displace?
छिपा हुआ श्रम
KENYAN DATA LABELERS, TIME MAGAZINE 2023
चैटजीपीटी को आरएलएचएफ- ह्यूमन फीडबैक से सुदृढीकरण सीखना नामक प्रक्रिया के माध्यम से "सुरक्षित" बनाया गया था।
वह फीडबैक प्रदान करने वाले मनुष्य केन्या में वेतनभोगी कर्मचारी थे less than $2 per hour विषाक्त, हिंसक और परेशान करने वाली सामग्री को पढ़ने और लेबल करने के लिए।
काम से उन्हें मनोवैज्ञानिक आघात पहुंचा।
आपके द्वारा उपयोग किया जाने वाला प्रत्येक एआई उपकरण मानव श्रम पर निर्भर करता है - अक्सर अदृश्य, अक्सर कम भुगतान, अक्सर नुकसान पहुँचाया जाता है।
वह फीडबैक प्रदान करने वाले मनुष्य केन्या में वेतनभोगी कर्मचारी थे less than $2 per hour विषाक्त, हिंसक और परेशान करने वाली सामग्री को पढ़ने और लेबल करने के लिए।
काम से उन्हें मनोवैज्ञानिक आघात पहुंचा।
आपके द्वारा उपयोग किया जाने वाला प्रत्येक एआई उपकरण मानव श्रम पर निर्भर करता है - अक्सर अदृश्य, अक्सर कम भुगतान, अक्सर नुकसान पहुँचाया जाता है।
Perrigo B. Time Magazine. 2023 Jan 18.
Automating Inequality
UK A-LEVEL ALGORITHM SCANDAL, 2020
जब यूके में COVID-19 ने ए-लेवल परीक्षाएं रद्द कर दीं, तो सरकार ने ऐतिहासिक स्कूल प्रदर्शन के आधार पर छात्र ग्रेड की भविष्यवाणी करने के लिए एक एल्गोरिदम का उपयोग किया।
The results:
• Students from disadvantaged schools were systematically downgraded
• Students from निजी स्कूलों को अपग्रेड किया गया
• एल्गोरिदम ने शिक्षक की भविष्यवाणियों को खत्म कर दिया कि छात्र सफल होंगे
After massive public outcry, 40% ग्रेड संशोधित किए गए.
एल्गोरिथम एन्कोड किया गया था historical inequality as prediction. जिन स्कूलों ने ऐतिहासिक रूप से कम छात्रों को विश्वविद्यालय भेजा, उन्हें व्यक्तिगत छात्र क्षमता की परवाह किए बिना दंडित किया गया।
The results:
• Students from disadvantaged schools were systematically downgraded
• Students from निजी स्कूलों को अपग्रेड किया गया
• एल्गोरिदम ने शिक्षक की भविष्यवाणियों को खत्म कर दिया कि छात्र सफल होंगे
After massive public outcry, 40% ग्रेड संशोधित किए गए.
एल्गोरिथम एन्कोड किया गया था historical inequality as prediction. जिन स्कूलों ने ऐतिहासिक रूप से कम छात्रों को विश्वविद्यालय भेजा, उन्हें व्यक्तिगत छात्र क्षमता की परवाह किए बिना दंडित किया गया।
UK Office of Qualifications and Examinations Regulation, 2020
THE LESSON
एआई बड़े पैमाने पर पूर्वाग्रह को स्वचालित कर सकता है। जब ऐतिहासिक डेटा प्रणालीगत असमानता को दर्शाता है, तो उस डेटा पर प्रशिक्षित एल्गोरिदम इसे कायम रखते हैं और बढ़ाते हैं।
अनुसंधान में एआई के लिए नैतिक ढांचा
Questions to Ask
1 Transparency: Can I fully disclose how AI was used?
2 Accountability: AI त्रुटियों के लिए कौन जिम्मेदार है?
3 Equity: Does AI access create research inequities?
4 Labor: किसके काम ने इस टूल को सक्षम किया?
5 Environment: What is the carbon cost of model training?
6 Reproducibility: Can others replicate my AI-assisted work?
Authorship and AI
ICMJE POSITION
AI tools cannot be listed as authors.
Authors must take responsibility for AI-generated content.
AI use must be disclosed in methods or acknowledgments.
Authors must take responsibility for AI-generated content.
AI use must be disclosed in methods or acknowledgments.
YOUR RESPONSIBILITY
यदि AI मतिभ्रम करता है और आप इसे प्रकाशित करते हैं,
आप जिम्मेदारी लेते हैं- OpenAI नहीं, एंथ्रोपिक नहीं, टूल नहीं।
"मशीन में कोई नहीं है विवेक।
इससे कोई फर्क नहीं पड़ता कि डेटा सच है।
यह नहीं जानता कि इसे प्रशिक्षित करने के लिए किसे नुकसान पहुंचाया गया।
आपको वह विवेक होना चाहिए जिसकी इसमें कमी है।"
इससे कोई फर्क नहीं पड़ता कि डेटा सच है।
यह नहीं जानता कि इसे प्रशिक्षित करने के लिए किसे नुकसान पहुंचाया गया।
आपको वह विवेक होना चाहिए जिसकी इसमें कमी है।"
आगे की राह
साक्ष्य संश्लेषण में AI कहां जा रहा है
Emerging Capabilities
Multimodal AI
Extract from
figures/tables
figures/tables
2024-2025
Agent Systems
Multi-step
workflows
workflows
Emerging
RAG Systems
Retrieval-augmented
generation
generation
Active research
Fine-tuned Models
MA-specific
training
training
In development
क्या नहीं होगा परिवर्तन
Enduring Human Requirements
★ अनुसंधान प्रश्न को परिभाषित करना (नैदानिक निर्णय)
★ Interpreting clinical significance (domain expertise)
★ Assessing applicability (contextual knowledge)
★ Making recommendations (value judgments)
★ Taking responsibility (ethical accountability)
THE CONSTANT
AI यांत्रिकी को गति देगा।
विज्ञान मानव बना हुआ है।
विज्ञान मानव बना हुआ है।
भविष्य के लिए तैयारी
Skills to Develop
Future-Ready Researcher
↓
Prompt engineeringGetting good AI outputs
Validation methodsKnowing when AI errs
Core methodsAI cannot replace
↓
सर्वश्रेष्ठ AI उपयोगकर्ता सर्वश्रेष्ठ हैं पद्धतिविज्ञानीUnderstanding enables oversight
"The machine grows stronger each year.
लेकिन प्रश्न वही रहता है:
What is true? What helps patients?
AI खोज में सहायता कर सकता है।
केवल आप ही उत्तर दे सकते हैं।"
लेकिन प्रश्न वही रहता है:
What is true? What helps patients?
AI खोज में सहायता कर सकता है।
केवल आप ही उत्तर दे सकते हैं।"
अपने ज्ञान का परीक्षण करें
डेटा निष्कर्षण के लिए एलएलएम का उपयोग करने की मुख्य सीमा क्या है?
वे बहुत धीमे हैं
They can generate plausible but incorrect data (hallucinations)
They cannot read PDFs
वे बहुत धीमे हैं महँगा
When using AI screening (e.g., ASReview), what must you always do?
Trust the AI completely after training
Screen only the top 10% of ranked records
रोकने के नियम को यादृच्छिक नमूने से मान्य करें
एक साथ कई AI टूल का उपयोग करें
किस कार्य के लिए AI को कभी भी अंतिम निर्णय लेने वाला नहीं होना चाहिए?
Deduplication
Screening prioritization
की नैदानिक व्याख्या परिणाम
Reference formatting
References
Key Sources
- Van de Schoot R et al. Nat Mach Intell. 2021;3:125-133. [ASReview]
- Marshall IJ et al. Nat Mach Intell. 2019;1:115-117. [RobotReviewer]
- Guo Y et al. J Clin Epidemiol. 2024;165:111203. [GPT-4 extraction]
- Mata v. Avianca, 22-cv-1461 (S.D.N.Y. 2023). [Hallucination case]
- Perrigo B. Time Magazine. 2023 Jan 18. [AI labor ethics]
- Elliott JH et al. J Clin Epidemiol. 2017;91:23-30. [Living reviews]
- Cochrane Handbook 2023. Chapter on automation.
- ICMJE. Recommendations on AI authorship. 2023.
- Rethlefsen ML et al. J Med Libr Assoc. 2021. [PRISMA-S]
- Wang S et al. Syst Rev. 2023;12:178. [AI screening validation]
✔
Course Complete
"अब आप सिलिकॉन स्क्राइब को जानते हैं -
its powers and its limits.
इसे तेज करने के लिए उपयोग करें, न कि तेज करने के लिए प्रतिस्थापित करें।
Validate what it produces.
आपने जो किया उसका दस्तावेजीकरण करें।
और हमेशा याद रखें:
मशीन अगले शब्द की भविष्यवाणी करती है।
आपको निर्णय लेना होगा कि क्या वह शब्द है सत्य।"
its powers and its limits.
इसे तेज करने के लिए उपयोग करें, न कि तेज करने के लिए प्रतिस्थापित करें।
Validate what it produces.
आपने जो किया उसका दस्तावेजीकरण करें।
और हमेशा याद रखें:
मशीन अगले शब्द की भविष्यवाणी करती है।
आपको निर्णय लेना होगा कि क्या वह शब्द है सत्य।"
ASReview: Step-by-Step Tutorial
इंस्टॉलेशन से रोकने के निर्णय तक
Step 1: Installation
# Option A: Python pip (recommended)
pip install asreview
# विकल्प बी: डेस्कटॉप ऐप डाउनलोड करें
# https://asreview.nl/download/
# Launch ASReview LAB
asreview lab
pip install asreview
# विकल्प बी: डेस्कटॉप ऐप डाउनलोड करें
# https://asreview.nl/download/
# Launch ASReview LAB
asreview lab
REQUIREMENTS
• पायथन 3.8+ (पाइप इंस्टॉल के लिए)
• OR: Windows/Mac desktop app (no Python needed)
• Your references in RIS, CSV, or EndNote XML format
• OR: Windows/Mac desktop app (no Python needed)
• Your references in RIS, CSV, or EndNote XML format
Step 2: Create Project & Import
Project Setup Workflow
New Project
↓
अपने प्रोजेक्ट को नाम देंDescriptive, include date
↓
Import referencesRIS/CSV/XML file
↓
ASReview deduplicatesCheck count matches expected
↓
पूर्व ज्ञान के लिए तैयार
Step 3: Add Prior Knowledge
CRITICAL STEP
मॉडल आपके शुरुआती निर्णयों से सीखता है।
You need प्रासंगिक और अप्रासंगिक दोनों examples.
You need प्रासंगिक और अप्रासंगिक दोनों examples.
Prior Knowledge Strategy
1 Add 5-10 known relevant अध्ययन (स्कोपिंग खोज से)
2 Search for clearly irrelevant topics (random sample)
3 Mark 10-20 irrelevant as negative examples
4 Aim for ~1:2 ratio (relevant:irrelevant) to start
WARNING
Poor prior knowledge = poor model performance.
Garbage in, garbage out.
Garbage in, garbage out.
Step 4: Screen with Active Learning
Screening Loop
ASReview presents record
↓
Your decision
Relevantपूर्ण-पाठ के लिए शामिल करें
IrrelevantExclude
↓
Model updatesRe-ranks remaining
↓
Next most likely relevantRepeat until stopping rule
Step 5: Stopping Decision
Stopping Rules Compared
Consecutive irrelevant (50-200)
Common, but no recall guarantee
% of total screened (e.g., 50%)
Predictable effort, variable recall
All records screened
100% recall, no time savings
Statistical stopping (Busfelder)
Evidence-based, requires plugin
VALIDATION REQUIREMENT
After stopping: manually screen random sample of unscreened records.
Report estimated recall with confidence interval.
Report estimated recall with confidence interval.
"उपकरण सरल है। निर्णय नहीं हैं।
Feed it good examples. Check when you stop.
अपनी प्रोजेक्ट फ़ाइल निर्यात करें—यह आपका ऑडिट ट्रेल है।"
Feed it good examples. Check when you stop.
अपनी प्रोजेक्ट फ़ाइल निर्यात करें—यह आपका ऑडिट ट्रेल है।"
शीघ्र इंजीनियरिंग लाइब्रेरी
Validated prompts for meta-analysis tasks
Prompt Principles
विश्वसनीय एलएलएम आउटपुट के लिए
1 Be specific: Define exact fields and formats
2 Provide examples: Show expected output format
3 Request uncertainty: "एनआर" या "अस्पष्ट" झंडे मांगें
4 Demand quotes: Require source text for verification
5 Limit scope: One task per prompt, not everything at once
संकेत 1: आरसीटी डेटा निष्कर्षण
इस आरसीटी से निम्नलिखित निकालें। प्रत्येक फ़ील्ड के लिए, प्रदान करें:
- The value
- पेपर से सटीक उद्धरण (उद्धरण में)
- यदि रिपोर्ट नहीं किया गया है तो "एनआर", यदि अस्पष्ट है तो "अस्पष्ट"।
FIELDS:
1. Intervention group sample size (ITT): [n]
2. Control group sample size (ITT): [n]
3. Primary outcome definition: [text]
4. Primary outcome: intervention events/total: [x/n]
5. Primary outcome: control events/total: [x/n]
6. Risk ratio (95% CI): [RR (lower, upper)]
7. Follow-up duration: [weeks/months]
OUTPUT FORMAT: प्रत्येक फ़ील्ड के लिए "मूल्य" और "उद्धरण" के साथ JSON
- The value
- पेपर से सटीक उद्धरण (उद्धरण में)
- यदि रिपोर्ट नहीं किया गया है तो "एनआर", यदि अस्पष्ट है तो "अस्पष्ट"।
FIELDS:
1. Intervention group sample size (ITT): [n]
2. Control group sample size (ITT): [n]
3. Primary outcome definition: [text]
4. Primary outcome: intervention events/total: [x/n]
5. Primary outcome: control events/total: [x/n]
6. Risk ratio (95% CI): [RR (lower, upper)]
7. Follow-up duration: [weeks/months]
OUTPUT FORMAT: प्रत्येक फ़ील्ड के लिए "मूल्य" और "उद्धरण" के साथ JSON
संकेत 2: अध्ययन विशेषताएँ
अध्ययन विशेषताएँ निकालें. सत्यापन के लिए सटीक उद्धरण प्रदान करें.
FIELDS:
1. Study design: [RCT / Cluster RCT / Crossover / Other]
2. Country/countries: [list]
3. Setting: [hospital / primary care / community / other]
4. Recruitment period: [start date - end date]
5. Funding source: [text]
6. Trial registration: [ID number or "NR"]
7. Conflicts of interest declared: [Yes/No/NR]
If information is in supplementary materials, note "See Supplement".
If truly not reported anywhere, mark "NR".
FIELDS:
1. Study design: [RCT / Cluster RCT / Crossover / Other]
2. Country/countries: [list]
3. Setting: [hospital / primary care / community / other]
4. Recruitment period: [start date - end date]
5. Funding source: [text]
6. Trial registration: [ID number or "NR"]
7. Conflicts of interest declared: [Yes/No/NR]
If information is in supplementary materials, note "See Supplement".
If truly not reported anywhere, mark "NR".
Prompt 3: Population Characteristics
Extract baseline population characteristics.
हस्तक्षेप और नियंत्रण समूहों के लिए अलग से रिपोर्ट करें।
FIELDS (per group):
1. N randomized: [n]
2. N analyzed: [n]
3. Age: [mean (SD) or median (IQR)]
4. Sex (% female): [%]
5. Key inclusion criteria: [text]
6. Key exclusion criteria: [text]
7. Disease severity at baseline: [measure and value]
NOTE: If groups combined only, report combined with note.
हस्तक्षेप और नियंत्रण समूहों के लिए अलग से रिपोर्ट करें।
FIELDS (per group):
1. N randomized: [n]
2. N analyzed: [n]
3. Age: [mean (SD) or median (IQR)]
4. Sex (% female): [%]
5. Key inclusion criteria: [text]
6. Key exclusion criteria: [text]
7. Disease severity at baseline: [measure and value]
NOTE: If groups combined only, report combined with note.
Prompt 4: Risk of Bias Screening
NOTE: यह केवल प्रारंभिक फ़्लैगिंग के लिए है।
Human assessment required for final judgment.
For each RoB 2 domain, identify relevant text:
D1 Randomization:
- अनुक्रम निर्माण विधि: [उद्धरण या एनआर]
- आवंटन छुपाने की विधि: [उद्धरण या एनआर]
D2 Deviations:
- Blinding of participants: [quote or NR]
- Blinding of personnel: [quote or NR]
D3 Missing data:
- Attrition rates: [intervention: x%, control: y%]
- गुम डेटा का प्रबंधन: [उद्धरण या एनआर]
DO NOT make judgments. Only extract quotes.
Human assessment required for final judgment.
For each RoB 2 domain, identify relevant text:
D1 Randomization:
- अनुक्रम निर्माण विधि: [उद्धरण या एनआर]
- आवंटन छुपाने की विधि: [उद्धरण या एनआर]
D2 Deviations:
- Blinding of participants: [quote or NR]
- Blinding of personnel: [quote or NR]
D3 Missing data:
- Attrition rates: [intervention: x%, control: y%]
- गुम डेटा का प्रबंधन: [उद्धरण या एनआर]
DO NOT make judgments. Only extract quotes.
"संकेत मशीन के साथ आपका अनुबंध है।
आप जो पूछते हैं उसमें सटीक रहें।
हर उत्तर के लिए सबूत मांगें.
Verify every output against the source."
आप जो पूछते हैं उसमें सटीक रहें।
हर उत्तर के लिए सबूत मांगें.
Verify every output against the source."
आप कभी भी व्यवस्थित समीक्षा नहीं लिख सकते।
लेकिन आप करेंगे read them.
आपको कैसे पता चलेगा कि एआई सहायता करता है
was done well or poorly?
लेकिन आप करेंगे read them.
आपको कैसे पता चलेगा कि एआई सहायता करता है
was done well or poorly?
The IBM Watson Oncology Failure
MD ANDERSON CANCER CENTER, 2017
ऑन्कोलॉजी के लिए आईबीएम वॉटसन को कैंसर के उपचार की सिफारिश करने के लिए प्रशिक्षित किया गया था।
After spending $62 million, एमडी एंडरसन ने परियोजना रद्द कर दी।
Internal documents showed Watson made "असुरक्षित और ग़लत" उपचार की सिफ़ारिशें. इसे सिंथेटिक मामलों पर प्रशिक्षित किया गया था, वास्तविक रोगी डेटा पर नहीं।
एआई आश्वस्त दिख रहा था। सिफ़ारिशें ख़तरनाक थीं.
Lesson: AI confidence ≠ AI correctness
After spending $62 million, एमडी एंडरसन ने परियोजना रद्द कर दी।
Internal documents showed Watson made "असुरक्षित और ग़लत" उपचार की सिफ़ारिशें. इसे सिंथेटिक मामलों पर प्रशिक्षित किया गया था, वास्तविक रोगी डेटा पर नहीं।
एआई आश्वस्त दिख रहा था। सिफ़ारिशें ख़तरनाक थीं.
Lesson: AI confidence ≠ AI correctness
STAT News investigation, 2017; IEEE Spectrum 2019
एआई-सहायता प्राप्त समीक्षाओं के लिए प्रश्न
तरीकों में क्या देखना है
1 Did they AI टूल का नाम बताएं? used? (version, date)
2 Did they specify which tasks were AI-assisted?
3 Did they validate AI outputs? How?
4 एआई स्क्रीनिंग के लिए: क्या stopping rule? What estimated recall?
5 एआई निष्कर्षण के लिए: था 100% human verified?
6 Was there human oversight of all AI decisions?
Red Flags in AI-Assisted Reviews
Warning Signs
"AI screened all titles"
No human involvement?
"जीपीटी निकाला गया डेटा"
No verification mentioned?
"Stopped after 500 consecutive irrelevant"
No recall estimate?
"AI-generated protocol"
Human decisions unclear?
No AI tools mentioned but clearly AI-written
Hidden AI use
मरीजों और चिकित्सकों के लिए
आपको क्या जानने की आवश्यकता है
Good AI use: Speeds up the work, human verifies
Bad AI use: Replaces human judgment, no validation
An AI-assisted review can be trustworthy—if done right.
Bad AI use: Replaces human judgment, no validation
An AI-assisted review can be trustworthy—if done right.
Simple Questions to Ask
? "क्या इस समीक्षा में AI का उपयोग किया गया था?"
? "क्या AI परिणामों की जाँच मनुष्यों द्वारा की गई थी?"
? "Could AI have missed important studies?"
"AI assistance is not a flaw—it is often an advantage.
But only if validated, only if disclosed.
पूछें: क्या मशीन की जाँच की गई?
यदि उत्तर अस्पष्ट है, तो समीक्षा भी अस्पष्ट है।"
But only if validated, only if disclosed.
पूछें: क्या मशीन की जाँच की गई?
यदि उत्तर अस्पष्ट है, तो समीक्षा भी अस्पष्ट है।"
क्या आपने शोधकर्ता पर विचार नहीं किया है?
with unstable internet, limited compute,
no institutional subscription,
who still needs to synthesize evidence?
with unstable internet, limited compute,
no institutional subscription,
who still needs to synthesize evidence?
मुफ़्त और ऑफ़लाइन-सक्षम उपकरण
ASReview
Desktop app
Works offline
Works offline
FREE
Abstrackr
Web-based
Free accounts
Free accounts
FREE
Rayyan
Free tier
Limited AI
Limited AI
FREEMIUM
RevMan
Cochrane tool
Full MA software
Full MA software
FREE
Offline Workflow
When Internet is Unreliable
Search Phase
↓
लाइब्रेरी/कैफ़े: सभी पीडीएफ़ डाउनलोड करेंकनेक्ट होने पर बैच डाउनलोड करें
↓
Screening Phase
↓
ASReview desktopWorks fully offline
↓
Extraction Phase
↓
Spreadsheet + local PDFsNo AI needed
Low-Cost LLM Alternatives
WHEN API COSTS ARE PROHIBITIVE
• Claude/ChatGPT free tiers: Limited but functional
• Ollama + local models: Free, runs on laptop (requires download)
• Hugging Face inference: Free tier available
• Manual extraction: Still gold standard, just slower
• Ollama + local models: Free, runs on laptop (requires download)
• Hugging Face inference: Free tier available
• Manual extraction: Still gold standard, just slower
HONEST ASSESSMENT
एआई एक सुविधा है, आवश्यकता नहीं।
All Cochrane reviews were done without AI.
गुणवत्ता तरीकों से आती है, उपकरणों से नहीं।
All Cochrane reviews were done without AI.
गुणवत्ता तरीकों से आती है, उपकरणों से नहीं।
Resource-Limited Decision Tree
अपना दृष्टिकोण चुनना
Your Resources
↓
Internet reliability?
Stable
Web tools OKRayyan, Covidence
Unreliable
Desktop toolsASReview offline
None
Manual + spreadsheetsStill valid
"सबूत सबके हैं,
केवल तेज़ इंटरनेट और सशुल्क सब्सक्रिप्शन वाले ही नहीं।
उपकरण भिन्न हो सकते हैं. विधियां बनी हुई हैं.
Quality synthesis is possible anywhere."
केवल तेज़ इंटरनेट और सशुल्क सब्सक्रिप्शन वाले ही नहीं।
उपकरण भिन्न हो सकते हैं. विधियां बनी हुई हैं.
Quality synthesis is possible anywhere."
Validation Calculations
एआई सत्यापन के लिए नमूना आकार
Estimating Recall After AI Screening
THE PROBLEM
आपने 5000 में से 1000 रिकॉर्ड पर स्क्रीनिंग बंद कर दी।
आप कितने आश्वस्त हैं कि आपको सभी प्रासंगिक अध्ययन मिल गए?
आप कितने आश्वस्त हैं कि आपको सभी प्रासंगिक अध्ययन मिल गए?
Validation Sampling
Unscreened records (n=4000)
↓
Random sample (n=400)10% or at least 200
↓
Manual screening
0 relevant foundRecall ≈ 95-100%
Relevant foundScreen all remaining
Sample Size Formula
स्मरण में 95% आत्मविश्वास के लिए
n = ln(1 - confidence) / ln(1 - prevalence)
Example:
If prevalence of relevant = 1% (0.01)
For 95% confidence (0.95):
n = ln(1 - 0.95) / ln(1 - 0.01)
n = ln(0.05) / ln(0.99)
n ≈ 299 records to sample
Example:
If prevalence of relevant = 1% (0.01)
For 95% confidence (0.95):
n = ln(1 - 0.95) / ln(1 - 0.01)
n = ln(0.05) / ln(0.99)
n ≈ 299 records to sample
Quick Reference Table
सत्यापन के लिए नमूना आकार
Prevalence 0.5%, 95% conf
598 records
Prevalence 1%, 95% conf
299 records
Prevalence 2%, 95% conf
149 records
Prevalence 5%, 95% conf
59 records
Practical minimum
200 records (conservative)
आपके सत्यापन की रिपोर्ट करना
उदाहरण विधियाँ पाठ:
"हमने शीर्षक/सार स्क्रीनिंग के लिए ASReview LAB (v1.2) का उपयोग किया
active learning. Screening ceased after 150 consecutive
irrelevant records, having screened 1,247 of 4,892 records
(25%). To validate recall, we manually screened a random
sample of 300 unscreened records. No additional relevant
अनुमानित स्मरण ≥95% का सुझाव देते हुए अध्ययनों की पहचान की गई
(binomial 95% CI: 91-100%)."
"हमने शीर्षक/सार स्क्रीनिंग के लिए ASReview LAB (v1.2) का उपयोग किया
active learning. Screening ceased after 150 consecutive
irrelevant records, having screened 1,247 of 4,892 records
(25%). To validate recall, we manually screened a random
sample of 300 unscreened records. No additional relevant
अनुमानित स्मरण ≥95% का सुझाव देते हुए अध्ययनों की पहचान की गई
(binomial 95% CI: 91-100%)."
"सत्यापन वैकल्पिक नहीं है - यह दक्षता की कीमत है।
Calculate your sample. Screen it manually.
आपको जो मिला उसकी रिपोर्ट करें. स्वीकार करें कि आपसे क्या छूट गया होगा।"
Calculate your sample. Screen it manually.
आपको जो मिला उसकी रिपोर्ट करें. स्वीकार करें कि आपसे क्या छूट गया होगा।"
1 / 6