الكاتب السيليكون: الذكاء الاصطناعي في التحليل التلوي

ألم تسمع عن الآلة التي تقرأ
عشرة آلاف ملخص في ساعة واحدة،
الذي يستخرج البيانات أثناء نومك،
يعد يحررك من الكدح?

ثورة الذكاء الاصطناعي في تركيب الأدلة

67%

بتقليل عبء العمل
من خلال فحص الذكاء الاصطناعي

95%

استرجاع ما يمكن تحقيقه
مع التعلم النشط

10x

فحص أسرع
من الفحص اليدوي

الوعد

يمكن للذكاء الاصطناعي فحص الملخصات واستخراج البيانات وتقييم مخاطر التحيز ومراقبة الأدلة الجديدة—إذا تم استخدامه بشكل صحيح.

عند فشل الذكاء الاصطناعي في الرعاية الصحية

آي بي إم واتسون للأورام، إم دي أندرسون، 2013-2017

في عام 2013، عقد مركز إم دي أندرسون للسرطان شراكة مع IBM Watson لإحداث ثورة في توصيات علاج السرطان. تكلفة المشروع 62 مليون دولار.

وبحلول عام 2017، تم التخلي عن المشروع. تم العثور على توصيات واتسون "غير آمنة وغير صحيحة" في حالات متعددة.

في إحدى الحالات الموثقة، أوصى واتسون بعلاج من شأنه أن يسبب نزيفًا حادًا لدى مريض يستخدم مخففات الدم بالفعل.

المشكلة الأساسية: تم تدريب واتسون بشكل أساسي على الحالات الافتراضية التي أنشأها الأطباء، وليست بيانات مريض حقيقية. لقد تعلم الذكاء الاصطناعي تقليد آراء الخبراء بدلاً من التعلم من النتائج الفعلية.

Stat News, 2017؛ IEEE Spectrum، 2019

الدرس

الذكاء الاصطناعي المدرب على البيانات الاصطناعية أو الافتراضية يفشل في التعامل مع المرضى الحقيقيين. يمكن أن تكون الفجوة بين بيانات التدريب والواقع قاتلة.

مشكلة الهلوسة

المحامون المعاقبون، نيويورك، 2023

استخدم المحامون ChatGPT للبحث في السوابق القضائية لملخص المحكمة الفيدرالية.

استشهد الذكاء الاصطناعي بست حالات مع الاستشهادات الكاملة والاقتباسات وأرقام الصفحات.

ولم تكن أي من الحالات موجودة.

ووجد القاضي أن الاستشهادات كانت "هراء" وعاقب المحامين.

هذه ليست علة. هذه هي الطريقة التي تعمل بها نماذج اللغة الكبيرة، فهي تتنبأ بالنص المعقول، وليس بالحقيقة المؤكدة.

ماتا ضد شركة Avianca, Inc.، 22-cv-1461 (S.D.N.Y. 2023)

السؤال الأساسي

متى يجب الوثوق بالذكاء الاصطناعي في التحليل التلوي

مخرجات أداة الذكاء الاصطناعي

↓

نوع المهمة؟

التصنيف/تحديد الأولويات

خطر أقلالمراجعات البشرية أعلى مرتبة

قرار ثنائي

خطر متوسطيحتاج إلى التحقق

إنشاء نص

خطر مرتفعاحتمالية الهلوسة

ما يمكن للذكاء الاصطناعي فعله وما لا يمكنه فعله

تقييم صادق

تحديد أولويات الفحص ✓ ممتاز

اكتشاف التكرارات ✓ ممتاز

استخراج البيانات (منظم) ⚠ يحتاج إلى التحقق

خطر تقييم التحيز ⚠ أولي فقط

بروتوكول/طرق الكتابة ⚠ مسودة فقط

تحليل إحصائي ✗ مطلوب بشري

التفسير السريري ✗ مطلوب بشري

"الآلة تقرأ بسرعة ولكنها لا تفهم.
إنه يتنبأ بالكلمة التالية، وليس الحقيقة.
استخدمه للتسريع وليس الاستبدال.
يجب أن يظل الحكم لك."

هل لم تشاهد المراجع
الذي فحص عشرة آلاف عنوان يدويًا،
الذي تعبت عيناه، وتشتت انتباهه،
الذي غاب عن دراسة واحدة مهمة?

أدوات الفرز

ASReview

التعلم النشط
مفتوح المصدر

Free

الريان

توصيات الذكاء الاصطناعي
تعاون

فريميوم

الملخص

شبه آلي
على شبكة الإنترنت

Free

EPPI-المراجع

فحص الأولوية
سير العمل الكامل

الاشتراك

كيف يعمل التعلم النشط

مراجعة سير العمل

استيراد المراجع

↓

فحص الأوراق الأولية10-20 ذات صلة معروفة

↓

يتعلم الذكاء الاصطناعي الأنماطتحديثات مع كل قرار

↓

يعطي الأولوية للمحتملة ذات الصلةالأكثر واعدة أولاً

↓

التوقف القاعدة؟

متتالية غير ذات صلةعلى سبيل المثال، 100-200 على التوالي

% تم فحصهاعلى سبيل المثال، 50% مع فحص الاستدعاء

بيانات الأداء الحقيقي

فان دي شوت وآخرون، 2021

التقييم المنهجي لـ ASReview عبر 4 مجموعات بيانات:

• مجموعة بيانات اضطراب ما بعد الصدمة: استدعاء 95% بعد فحص 40% من السجلات
• التنبؤ بأخطاء البرنامج: 95% يتذكرون بعد 20%
• ميتاجينوميات الفيروس: 95% يتذكرون بعد 10%

متوسط تقليل عبء العمل: 67-95% اعتمادًا على الانتشار.

لكن: يختلف الأداء حسب الموضوع والانتشار. تظهر المواضيع ذات الانتشار المنخفض مكاسب أكبر في الكفاءة.

فان دي شوت آر وآخرون. نات ماخ إنتل. 2021;3:125-133

عندما يعمل الفحص بمساعدة الذكاء الاصطناعي

مراجعة واستجابة كوكرين لكوفيد-19، 2020

خلال جائحة كوفيد-19، احتاجت شركة Cochrane إلى فحص أكثر من 50000 استشهاد أسبوعيًا للإبقاء على المراجعات محدثة.

تم نشر نظام التعلم النشط الخاص بـ ASReview بإشراف بشري صارم:

• تقليل عبء عمل الفحص البشري بنسبة 75%
• تفويت أقل من من الدراسات ذات الصلة
• يتم التحقق من صحتها في كل مرحلة من قبل المراجعين البشريين

مفتاح النجاح: التحقق من صحة الإنسان في الحلقة في كل مرحلة. أعطى الذكاء الاصطناعي الأولوية، لكن البشر اتخذوا قرارات نهائية وفحصوا عينات من السجلات المستبعدة من الذكاء الاصطناعي.

اتحاد كوكرين لكوفيد-NMA، 2020-2021

الدرس

الذكاء الاصطناعي يعزز الحكم البشري؛ لا يحل محله. النجاح يأتي من الشراكة، وليس الأتمتة.

عند فشل التحقق الداخلي

نموذج EPIC SEPSIS، JAMA INTERNAL MEDICINE، 2021

نشرت Epic Systems خوارزمية للتنبؤ بالإنتان في مئات المستشفيات في جميع أنحاء الولايات المتحدة.

أظهر التحقق الداخلي من Epic أداءً ممتازًا. المستشفيات وثقت به.

ثم جاءت دراسة التحقق الخارجي في JAMA Internal Medicine:

• النموذج أخطأ 67% من حالات الإنتان
• أثار آلاف الإنذارات الكاذبة
• أصيب الممرضون بحالة شديدة من "إرهاق التنبيه"

وقد تم التحقق من صحة النموذج بناءً على بيانات تاريخية من نفس النظام، ولم يتم اختباره مطلقًا في البيئة السريرية الحقيقية حيث سيتم نشره.

Wong A et al. جاما المتدرب ميد. 2021;181(8):1065-1070

الدرس

التحقق الداخلي ليس التحقق الخارجي. النموذج الذي يعمل في التطوير قد يفشل في النشر. التحقق دائمًا من الصحة في سياق العالم الحقيقي.

مشكلة التوقف

الخطر الخفي

متى تتوقف عن الفحص بالتعلم النشط؟

إذا توقفت مبكرًا جدًا: تفتقد الدراسات ذات الصلة
إذا توقفت بعد فوات الأوان: تفقد مكاسب الكفاءة

لا تستطيع الخوارزمية إخبارك عندما تجد كل شيء. ولا يصنف إلا ما بقي.

لا توجد قاعدة توقف مثالية. كل قاعدة تستبدل الاستدعاء بالكفاءة.

نقطة حرجة

يجب عليك التحقق من صحة قاعدة التوقف الخاصة بك عن طريق التحقق يدويًا من عينة عشوائية من السجلات التي لم يتم فحصها.

شجرة قرارات فحص الذكاء الاصطناعي

هل يجب عليك استخدام فحص الذكاء الاصطناعي؟

مجموعة مرجعية كبيرة؟

↓

<500 مرجع

دليل موافقمنظمة العفو الدولية النفقات العامة لا يستحق كل هذا العناء

500-2000 المرجع

منظمة العفو الدولية مفيدةزيادة متوسطة في الكفاءة

> 2000 مرجع

الذكاء الاصطناعي ضروريتوفير كبير للوقت

↓

التحقق دائمًا من خلال عينة عشوائيةمنهجية التقرير ورقيًا

"الآلة تجد الإبر بشكل أسرع،
ولكن لا يمكن ضمان بقاء أي منها في كومة القش.
ثق في الترتيب، تحقق من التوقف،
وأبلغ دائمًا عما فعلته."

هل لم تحلم بالمساعد
الذي يقرأ كل ورقة ويملأ كل خلية،
الذي لا يتعب ولا يخطئ أبدًا،
الذي يستخرج تماما?

هذا المساعد غير موجود.

مشكلة دقة الاستخراج

دراسة استخراج البيانات GPT-4، 2024

اختبر الباحثون GPT-4 لاستخراج البيانات من 100 ورقة بحثية معشاة ذات شواهد.

نتائج:
• أحجام العينات: دقيقة بنسبة 89%
• تقديرات التأثير: دقيقة بنسبة 76%
• فترات الثقة: دقيقة بنسبة 71%
• خطر الأحكام المتحيزة: اتفاق مع البشر بنسبة 62%

A معدل خطأ 24% في الواقع، تعني التقديرات أن دراسة واحدة تقريبًا من كل 4 دراسات ستحتوي على بيانات خاطئة في تحليلك التلوي.

Guo Y et al. J كلين Epidemiol. 2024;165:111203

مشكلة التصنيع

هلوسات GPT-4 في المراجعات المنهجية، 2023

اختبر الباحثون GPT-4 لاستخراج البيانات من أوراق المراجعة المنهجية. تم إعطاء النموذج ملفات PDF وطُلب منه استخراج أحجام العينات والقيم الاحتمالية وتقديرات التأثير.

قدم GPT-4 بثقة جميع الأرقام المطلوبة بتنسيق دقيق.

But 23% من عمليات الاستخراج كانت "هلوسة"- أرقام ليس لها أساس في النص المصدر.

في إحدى الحالات، قام النموذج بتلفيق نتيجة ذات دلالة إحصائية (p=0.003) من دراسة وجدت فعلا لا يوجد تأثير كبير (p=0.42).

وكان لا يمكن تمييز ثقة النموذج بين البيانات الحقيقية والملفقة.

دراسات التحقق من صحة الذكاء الاصطناعي للمراجعة المنهجية، 2023

الدرس

تتطلب LLMs التحقق البشري بنسبة 100% من البيانات الكمية. لا يوجد اختصار. يجب التحقق من كل رقم مقابل المصدر.

سير عمل استخراج البيانات LLM

بروتوكول استخراج LLM الآمن

PDF/نص كامل

↓

LLM يستخرج البياناتموجه منظم

↓

يتحقق الإنسان من 100%لم يتم أخذ العينات

↓

تناقض؟

Yes

القيمة البشرية المستخدمةخطأ في الوثيقة

No

يتابعسجل التحقق

الهندسة السريعة للاستخراج

# مثال على استخراج عينة

يستخرج ما يلي من هذا RCT:

1. حجم العينة (ذراع التدخل): [الرقم]
2. حجم العينة (ذراع التحكم): [الرقم]
3. تعريف النتيجة الأولية: [نص]
4. تقدير التأثير: [الرقم مع الوحدة]
5. 95% CI: [سفلي، علوي]
6. القيمة p: [الرقم]

إذا لم يتم الإبلاغ عنه، يكتب "NR"
إذا كان غير واضح، يكتب "غير واضح: [السبب]"

# قدم اقتباسات دقيقة للتحقق

عندما تساعد LLMs مقابل الأذى

تقييم قيمة استخراج LLM

الحقول القياسية (المؤلف، السنة) ✓ دقة عالية

عدد بسيط (حجم العينة) ✓ موثوق عادة

رقم مركب (معدل OR) ⚠ نموذج خاطئ غالبًا

النتائج المركبة ⚠ المكونات المفقودة

نية العلاج مقابل كل بروتوكول ✗ يتم الخلط بشكل متكرر

بيانات المجموعة الفرعية ✗ معدل خطأ مرتفع

"يستخرج LLM أرقامًا معقولة،
ليس بالضرورة الأرقام الصحيحة.
إنها مسودة أولى سريعة، وليست إجابة نهائية.
يجب التحقق من كل خلية بالعين البشرية."

ألم تتمنوا قاضيا
من يقرأ كل قسم من الأساليب،
من يقيم التحيز دون تحيز،
الذي لا يختلف معه أبدا أنفسهم?

RobotReviewer

مارشال وآخرون، ذكاء الآلة في الطبيعة، 2019

يستخدم RobotReviewer التعلم الآلي لتقييم خطر التحيز في التجارب المعشاة ذات الشواهد.

التحقق من الصحة مقابل تقييمات كوكرين:
• إنشاء تسلسل عشوائي: اتفاق بنسبة 71%
• إخفاء التخصيص: اتفاق بنسبة 65%
• تعمية المشاركين: اتفاق بنسبة 69%
• تعمية تقييم النتائج: اتفاق بنسبة 62%

عادةً ما يكون الاتفاق البشري بين المُقيّمين 70-80%.

يقترب RobotReviewer من الأداء البشري ولكنه لا يتجاوزه.

مارشال آي جيه وآخرون. نات ماخ إنتل. 2019;1:115-117

شجرة قرارات أتمتة RoB

متى يتم استخدام RoB الآلي

خطر تقييم التحيز

↓

نوع المراجعة؟

مراجعة سريعة

موافق الآليإقرار القيود

مراجعة النطاق

موافق الآليإذا تم تضمين RoB

مراجعة منهجية كاملة

أولي فقطمطلوب التحقق البشري

مراجعة كوكرين

مطلوب بشريمسودة دعم فقط

قيود RoB الآلي

ما لا يمكن للآلات تقييمه

✗ التحيز الخاص بالنتائج (نطاق RoB 2 4)

✗ يعتمد على التقارير الانتقائية في مقارنة البروتوكول

✗ الحكم السياقي (هل هذا التصميم مناسب؟)

✗ التناقضات بين الأوراق (تقارير متعددة)

✗ تأثير التمويل على تفسير النتائج

الحد الأساسي

يقرأ الذكاء الاصطناعي ما هو مكتوب. يتطلب تقييم التحيز في كثير من الأحيان الحكم على ما هو غير مكتوب.

سير العمل المختلط لـ RoB

بروتوكول أفضل الممارسات

ملفات نصية كاملة بصيغة PDF

↓

فحص RobotReviewerيضع علامات على المشكلات المحتملة

↓

يقيم المراجع 1استخدام مخرجات الذكاء الاصطناعي كمرجع

↓

المراجع 2 بشكل مستقلأعمى عن مخرجات الذكاء الاصطناعي

↓

اجتماع الإجماع

↓

التقييم النهائيتم توثيق القرار البشري

"يقرأ الروبوت قسم الأساليب
ولكن لا يستطيع القراءة بين السطور
استخدمها للإشارة، وليس للحكم.
الحكم يجب أن يكون إنسانيا".

هل لم يتمنيت للكاتب
من يصوغ البروتوكول الخاص بك في دقائق،
من يعرف كل عنصر من عناصر PRISMA،
من يكتب نثرًا أكاديميًا مثاليًا?

ماجستير في صياغة البروتوكول

✓

بناء
جيل

✓

نموذجي
text

⚠

PICO
صياغة

✗

يبحث
استراتيجية

عرض القيمة

يمكن لـ LLMs صياغة البنية واللغة القياسية. يجب عليك تقديم قرارات علمية.

خطر استراتيجية البحث

تم اختباره عبر ماجستيرات متعددة، 2023-2024

طلب الباحثون من GPT-4 وكلود توليد استراتيجيات البحث MEDLINE.

الأخطاء الشائعة:
• مصطلحات MeSH غير موجودة
• رموز الحقول الخاطئة (على سبيل المثال، [tiab] مقابل [tw])
• فقدان المفاهيم الأساسية من سؤال البحث
• استراتيجيات ضيقة للغاية تفتقد الدراسات ذات الصلة
• أخطاء في بناء الجملة لا يمكن تنفيذها

يجب على متخصص المعلومات كتابة جميع استراتيجيات البحث أو التحقق من صحتها.

دراسات التحقق المتعددة 2023-2024

شجرة قرار كتابة البروتوكول

استخدام LLM في تطوير البروتوكول

قسم البروتوكول

↓

الخلفية/الأساس المنطقي

LLM مفيدةمسودة + التحقق من الحقائق

بنية الأساليب

LLM مفيدةإنشاء القالب

معايير PICO

بشري يقررLLM يقوم بتحسين الصياغة

استراتيجية البحث

إنسان/متخصصالذكاء الاصطناعي غير موثوق به للغاية

سير عمل بروتوكول LLM الآمن

خطوات ضمان الجودة

1 حدد PICO بنفسك (قرار علمي بشري)

2 اطلب من LLM صياغة أقسام البروتوكول

3 تحقق من وجود جميع الإرشادات المذكورة (PRISMA، Cochrane)

4 اكتب استراتيجية البحث مع متخصص المعلومات

5 تحقق من إمكانية الدفاع عن جميع القرارات المنهجية

6 اكشف عن مساعدة الذكاء الاصطناعي في البروتوكول

7 قم بتسجيل النسخة التي تم التحقق منها بواسطة الإنسان

"الآلة يمكنها كتابة الكلمات،
لكنه لا يستطيع اتخاذ القرارات.
أنت تحدد السؤال. اخترت الأساليب.
البروتوكول ملكك، والذكاء الاصطناعي هو الكاتب."

هل لم تشاهد المراجعة المنهجية
والتي كانت قديمة قبل نشرها،
بينما تراكمت التجارب الجديدة في الأدبيات،
غير مركبة وغير معروفة?

مشكلة مراجعة المعيشة

أدلة تسونامي كوفيد-19، 2020

في السنة الأولى للوباء:

• تم نشر أكثر من 100,000 بحث عن فيروس كورونا
• أصبحت المراجعات التقليدية قديمة في غضون أسابيع
• اتخذ الأطباء قرارات بناءً على أدلة غير كاملة

تم استخدام اتحاد COVID-NMA المراقبة بمساعدة الذكاء الاصطناعي لمراقبة التجارب الجديدة يوميًا وتحديثها التحليلات التلوية أسبوعيا.

ويتطلب ذلك: مراقبة البحث الآلي، وتحديد أولويات فحص الذكاء الاصطناعي، وسير عمل استخراج البيانات السريع، والتحديثات الإحصائية المستمرة.

محدد في إرشادات مراجعات Cochrane Living

مكونات الذكاء الاصطناعي للمراجعات الحية

حزمة المراقبة الآلية

نظام المراجعة الحية

↓

البحث التلقائيالتشغيل اليومي/الأسبوعي

فرز الذكاء الاصطناعيفحص الأولوية

الاستخراج السريعبمساعدة LLM

التحديث التلقائيالماجستير التراكمي

↓

الإشراف البشري في كل مرحلةالمراجعة التحريرية قبل النشر

أدوات للمراقبة المستمرة

تنبيهات PubMed

تنبيهات مجانية عبر البريد الإلكتروني
عمليات البحث المحفوظة

أساسي

إبستيمونيكوس

مراجعة منهجية
قاعدة البيانات

برعاية الذكاء الاصطناعي

كوفيدينس

الاستيراد التلقائي
وضع المعيشة

الاشتراك

المقطرSR

فحص الذكاء الاصطناعي
+ المراقبة

مَشرُوع

إطار قرار المراجعة الحية

متى يجب إجراء مراجعة "المعيشة"

هل يجب أن يكون هذا حيًا؟

↓

التحقق من المعايير

سؤال الأولويةالأهمية السريرية

الأدلة المتطورةمسار التجارب النشطة

تأمين المواردالتمويل لمدة 2+ سنوات

↓

الثلاثة مطلوبة للحالة المعيشية

"الآلة تراقب الأدب
أثناء نومك.
ولكن يجب أن يستيقظ شخص ما ليحكم على
ما إذا كانت الأدلة الجديدة تغير الحقيقة."

إذا كنت تستخدم الجهاز دون التحقق،
أنت لا تعرف ما هي الأخطاء التي قمت بها.

إذا قمت بالتحقق من كل ما تنتجه الآلة،
ما هو الوقت الذي قمت بحفظه؟

الجواب يكمن في التحقق الاستراتيجي.

مفارقة التحقق

المعضلة

التحقق الكامل = لا يوجد توفير للوقت
لا التحقق = معدل خطأ غير معروف
التحقق الاستراتيجي = كفاءة تم التحقق منها

استراتيجية التحقق حسب المخاطر

المهام عالية المخاطر

مراجعة بشرية بنسبة 100%استخراج البيانات، روب

المهام متوسطة الخطورة

التحقق من صحة العينةقرارات الفحص

المهام منخفضة المخاطر

عمليات التفتيش المفاجئةإلغاء البيانات المكررة

عندما تكتشف الرقابة التحيز

COCHRANE MACHINE LEARNING PILOT، 2022

اختبرت كوكرين خطر تقييم التحيز بمساعدة التعلم الآلي لتسريع المراجعات المنهجية.

تم تحقيق الخوارزمية اتفاق بنسبة 85% مع المراجعين البشريين- يبدو مثيرًا للإعجاب.

لكن فريق ضمان الجودة قام بتحليل الخلافات بنسبة 15% ووجد نمطًا:

كان الذكاء الاصطناعي متحيزًا بشكل منهجي نحو تصنيف التجارب التي تمولها الصناعة على أنها منخفضة المخاطر.

تحتوي بيانات التدريب على المزيد من التصنيفات "منخفضة المخاطر" لتجارب شركات الأدوية، وقد تعلمت الخوارزمية هذا الارتباط دون فهم المخاوف المنهجية الأساسية.

وقد التقطت الرقابة البشرية هذا النمط قبل نشر أي مراجعات متحيزة.

دراسة تجريبية لمجموعة طرق كوكرين، 2022

الدرس

يكشف تحليل الخلاف عن التحيز المنهجي. الدقة الشاملة العالية يمكن أن تخفي الأنماط الخطيرة. قم دائمًا بتحليل أين وكيف يفشل الذكاء الاصطناعي، وليس فقط عدد المرات.

إطار ضمان الجودة للمراجعات المدعومة بالذكاء الاصطناعي

الحد الأدنى من معايير الجودة

1 حدد مسبقًا استخدام الذكاء الاصطناعي في البروتوكول (أي الأدوات، أي المهام)

2 توثيق إعدادات الذكاء الاصطناعي (إصدار النموذج، والمطالبات، والمعلمات)

3 التحقق من صحة الفحص مع عينة عشوائية (حساب تقدير الاستدعاء)

4 التحقق من كافة البيانات المستخرجة مقابل المستندات المصدر

5 تقييم RoB البشري (الذكاء الاصطناعي كمبدئي فقط)

6 تتبع معدلات الخطأ لكل مهمة ذكاء اصطناعي

7 الإبلاغ بشفافية في قسم الأساليب

الإبلاغ عن استخدام الذكاء الاصطناعي (PRISMA-S)

ما الذي يجب الإبلاغ عنه في ورقتك؟

• ما هي أدوات الذكاء الاصطناعي التي تم استخدامها (الاسم والإصدار والتاريخ)
• ما هي المهام التي تمت بمساعدة الذكاء الاصطناعي
• ما هي عمليات التحقق التي تم إجراؤها
• ما هي معدلات الخطأ التي تمت ملاحظتها
• ما هي الرقابة البشرية تمت المحافظة على تم الحفاظ عليه
• أي انحرافات من البروتوكول بسبب قيود الذكاء الاصطناعي

المعايير الناشئة

تتطلب المجلات بشكل متزايد عبارات استخدام الذكاء الاصطناعي. يشتمل ملحق PRISMA-S لإعداد تقارير البحث على الأتمتة.

سير العمل الكامل لـ AI-MA

عملية متكاملة للذكاء الاصطناعي البشري

البروتوكول (بشري + مسودة ماجستير في القانون)

↓

بحث (بشري/متخصص)

↓

الفحص (أولوية الذكاء الاصطناعي + قرار بشري)

↓

الاستخراج (مسودة ماجستير في القانون + التحقق البشري 100%)

↓

RoB (علم الذكاء الاصطناعي + تقييم الإنسان)

↓

التحليل (إنسان)

↓

تفسير (إنسان)

"الآلة ليست زميلًا ولا بديلاً.
إنها أداة قوية وسريعة وغير معصومة من الخطأ.
قم بتوثيق ما استخدمته. التحقق من صحة ما أنتجته.
المسؤولية تبقى على عاتقك".

هل لم تعتبر
الذي قام عماله بتدريب النموذج،
الذي استهلكت بياناته دون موافقة،
الذين قد إزاحة?

العمل الخفي

صانعو البيانات الكينية، مجلة TIME 2023

لقد أصبح ChatGPT "آمنًا" من خلال عملية تسمى RLHF — التعلم المعزز من ردود الفعل البشرية.

البشر الذين قدموا تلك التعليقات كانوا عمالًا في كينيا، وكانوا يتقاضون رواتبهم أقل من 2 دولار في الساعة لقراءة وتصنيف المحتوى السام والعنيف والمزعج.

لقد أصيبوا بصدمة نفسية من العمل.

تعتمد كل أداة من أدوات الذكاء الاصطناعي التي تستخدمها على العمالة البشرية، والتي غالبًا ما تكون غير مرئية، وغالبًا ما تكون مدفوعة الأجر، وغالبًا ما تكون متضررة.

مجلة Perrigo B. Time. 18 يناير 2023.

أتمتة عدم المساواة

فضيحة خوارزمية المستوى الأول في المملكة المتحدة، 2020

عندما ألغى فيروس كوفيد-19 اختبارات المستوى A في المملكة المتحدة، استخدمت الحكومة خوارزمية للتنبؤ بدرجات الطلاب بناءً على الأداء المدرسي التاريخي.

النتائج:

• تم تخفيض مستوى الطلاب من المدارس المحرومة بشكل منهجي
• تم تخفيض مستوى الطلاب من المدارس المحرومة وتم تحديث المدارس الخاصة
• تجاوزت الخوارزمية توقعات المعلم بأن الطلاب سينجحون

بعد احتجاج شعبي هائل، تمت مراجعة 40% من الدرجات.

تم تشفير الخوارزمية تاريخي عدم المساواة كتنبؤ. تمت معاقبة المدارس التي أرسلت تاريخيًا عددًا أقل من الطلاب إلى الجامعة، بغض النظر عن قدرة الطالب الفردية.

لائحة مكتب المؤهلات والامتحانات في المملكة المتحدة، 2020

الدرس

يستطيع الذكاء الاصطناعي أتمتة التحيز على نطاق واسع. عندما تعكس البيانات التاريخية التفاوت النظامي، فإن الخوارزميات المدربة على تلك البيانات تعمل على إدامة هذه التفاوت وتضخيمه.

الإطار الأخلاقي للذكاء الاصطناعي في الأبحاث

أسئلة يجب طرحها

1 الشفافية: هل يمكنني الكشف بشكل كامل عن كيفية استخدام الذكاء الاصطناعي؟

2 المساءلة: من المسؤول عن أخطاء الذكاء الاصطناعي؟

3 عدالة: هل يؤدي الوصول إلى الذكاء الاصطناعي إلى عدم المساواة في مجال البحث؟

4 تَعَب: من عمل الذي مكن هذه الأداة؟

5 بيئة: ما هي تكلفة الكربون للتدريب النموذجي؟

6 إمكانية تكرار نتائج: هل يمكن للآخرين تكرار عملي بمساعدة الذكاء الاصطناعي؟

التأليف والذكاء الاصطناعي

لا يمكن إدراج موقف ICMJE

أدوات الذكاء الاصطناعي كمؤلفين.

يجب أن يتحمل المؤلفون المسؤولية عن المحتوى الناتج عن الذكاء الاصطناعي.

يجب الكشف عن استخدام الذكاء الاصطناعي في الأساليب أو الإقرارات.

مسؤوليتك

إذا كان الذكاء الاصطناعي يهلوس وقمت بنشره، أنت تتحمل المسؤولية- ليس OpenAI، وليس إنسانيًا، وليس الأداة.

"الآلة ليس لها ضمير.
لا يهم إذا كانت البيانات صحيحة.
ولا يعرف من تضرر لتدريبه.
يجب أن تكون الضمير الذي يفتقر إليه."

الطريق إلى الأمام

إلى أين يتجه الذكاء الاصطناعي في تركيب الأدلة؟

القدرات الناشئة

الذكاء الاصطناعي متعدد الوسائط

استخراج من
الأرقام / الجداول

2024-2025

أنظمة الوكيل

متعدد الخطوات
سير العمل

الناشئة

أنظمة RAG

زيادة الاسترجاع
جيل

بحث نشط

نماذج مضبوطة

خاص بـ MA
تمرين

في التنمية

ما لن يتغير

متطلبات الإنسان الدائمة

★ تحديد سؤال البحث (الحكم السريري)

★ تفسير الأهمية السريرية (خبرة المجال)

★ تقييم قابلية التطبيق (المعرفة السياقية)

★ تقديم التوصيات (أحكام القيمة)

★ تحمل المسؤولية (المساءلة الأخلاقية)

الثابت

سوف يقوم الذكاء الاصطناعي بتسريع الآليات.
فالعلم يبقى إنسانيا.

الاستعداد للمستقبل

مهارات للتطوير

باحث جاهز للمستقبل

↓

هندسة عاجلةالحصول على مخرجات جيدة للذكاء الاصطناعي

طرق التحقق من الصحةمعرفة متى يخطئ الذكاء الاصطناعي

الأساليب الأساسيةلا يمكن للذكاء الاصطناعي أن يحل محله

↓

أفضل مستخدمي الذكاء الاصطناعي هم أفضل المنهجيينالفهم يتيح المراقبة

"الآلة تزداد قوة كل عام.
لكن يبقى السؤال هو نفسه:
ما هو الصحيح؟ ما الذي يساعد المرضى؟
الذكاء الاصطناعي يمكنه المساعدة في البحث.
أنت فقط من يستطيع تقديم الجواب."

اختبر معلوماتك

ما هو القيد الرئيسي لاستخدام LLMs لاستخراج البيانات؟

إنهم بطيئون جدًا

يمكنهم توليد بيانات معقولة ولكنها غير صحيحة (الهلوسة)

لا يمكنهم قراءة ملفات PDF

أنها مكلفة للغاية

عند استخدام فحص الذكاء الاصطناعي (على سبيل المثال، ASReview)، ما الذي يجب عليك فعله دائمًا؟

ثق بالذكاء الاصطناعي تمامًا بعد التدريب

قم بفحص أعلى 10% فقط من السجلات المصنفة

التحقق من صحة قاعدة التوقف مع عينة عشوائية

استخدم أدوات الذكاء الاصطناعي المتعددة في وقت واحد

ما هي المهمة التي لا يجب أن يكون الذكاء الاصطناعي هو صانع القرار النهائي فيها؟

إلغاء البيانات المكررة

تحديد أولويات الفحص

التفسير السريري للنتائج

تنسيق المرجع

مراجع

المصادر الرئيسية

فان دي شوت آر وآخرون. نات ماخ إنتل. 2021;3:125-133. [مراجعة]
مارشال IJ وآخرون. نات ماخ إنتل. 2019;1:115-117. [مراجع الروبوت]
قوه واي وآخرون. J كلين Epidemiol. 2024;165:111203. [استخراج جي بي تي-4]
ماتا ضد أفيانكا، 22-cv-1461 (S.D.N.Y. 2023). [حالة الهلوسة]
بيريجو بي. مجلة تايم. 18 يناير 2023. [أخلاقيات العمل بالذكاء الاصطناعي]
إليوت جه وآخرون. J كلين Epidemiol. 2017;91:23-30. [مراجعات المعيشة]
دليل كوكرين 2023. فصل عن الأتمتة.
ICMJE. توصيات بشأن تأليف الذكاء الاصطناعي. 2023.
ريثلفسين مل وآخرون. مساعد J ميد ليبر. 2021. [بريسما-S]
وانغ س وآخرون. القس النظام. 2023؛12:178. [التحقق من صحة فحص الذكاء الاصطناعي]

✔

اكتملت الدورة

"أنت تعرف الآن كاتب السيليكون -
صلاحياتها وحدودها.
استخدمه للتسريع وليس الاستبدال.
التحقق من صحة ما تنتجه.
توثيق ما فعلته.
وتذكر دائما:
الآلة تتنبأ بالكلمة التالية
يجب أن تحكم إذا كانت هذه الكلمة صحيحة."

ASReview: برنامج تعليمي خطوة بخطوة

من التثبيت إلى قرار الإيقاف

الخطوة 1: التثبيت

# الخيار أ: نقطة بايثون (مستحسن)
تثبيت النقطة كمراجعة

# الخيار ب: تنزيل تطبيق سطح المكتب
# https://asreview.nl/download/

# إطلاق ASReview LAB
كمختبر مراجعة

متطلبات

• بايثون 3.8+ (لتثبيت النقطة)
• أو: تطبيق Windows/Mac لسطح المكتب (لا حاجة إلى Python)
• مراجعك بتنسيق RIS أو CSV أو EndNote XML

الخطوة 2: إنشاء المشروع والاستيراد

سير عمل إعداد المشروع

مشروع جديد

↓

قم بتسمية مشروعكوصفي، يتضمن التاريخ

↓

مراجع الاستيرادملف RIS/CSV/XML

↓

يقوم ASReview بإلغاء التكراراتعدد مرات التحقق من التطابقات المتوقعة

↓

جاهز للمعرفة المسبقة

الخطوة 3: إضافة معرفة سابقة

خطوة حاسمة

يتعلم النموذج من قراراتك الأولية.
أنت بحاجة إلى ذات الصلة وغير ذات صلة أمثلة.

استراتيجية المعرفة المسبقة

1 أضف 5-10 معروف ذو صلة الدراسات (من نطاق البحث)

2 ابحث عن موضوعات غير ذات صلة بشكل واضح (عينة عشوائية)

3 مرقس 10-20 عَرَضِيّ كأمثلة سلبية

4 استهدف نسبة 1:2 تقريبًا (ذات صلة: غير ذات صلة) للبدء

تحذير

معرفة سابقة ضعيفة = أداء ضعيف للنموذج.
القمامة داخل، القمامة خارج.

الخطوة 4: الشاشة مع التعلم النشط

حلقة الفحص

يقدم ASReview السجل

↓

قرارك

مناسبتضمين للنص الكامل

عَرَضِيّاستبعاد

↓

تحديثات النموذجإعادة الترتيب المتبقي

↓

التالي الأكثر صلة على الأرجحكرر حتى إيقاف القاعدة

الخطوة 5: قرار الإيقاف

مقارنة قواعد الإيقاف

متتالية غير ذات صلة (50-200) شائعة، ولكن لا يوجد ضمان للاستدعاء

% من الإجمالي الذي تم فحصه (على سبيل المثال، 50%) جهد يمكن التنبؤ به، استدعاء متغير

تم فحص جميع السجلات تذكر بنسبة 100%، بدون توفير الوقت

إيقاف إحصائي (Busfelder) قائم على الأدلة، يتطلب مكونًا إضافيًا

التحقق المتطلبات

بعد التوقف: فحص العينة العشوائية يدويًا من السجلات التي لم يتم فحصها.
قم بالإبلاغ عن الاستدعاء المقدر بفاصل الثقة.

"الأداة بسيطة. والقرارات ليست كذلك.
أعطه أمثلة جيدة. تحقق عند التوقف.
قم بتصدير ملف المشروع الخاص بك - إنه مسار التدقيق الخاص بك."

المكتبة الهندسية السريعة

المطالبات التي تم التحقق منها لمهام التحليل التلوي

المبادئ السريعة

للحصول على مخرجات LLM موثوقة

1 كن محددًا: تحديد الحقول والتنسيقات الدقيقة

2 قدم أمثلة: عرض تنسيق الإخراج المتوقع

3 عدم اليقين في الطلب: اطلب إشارات "NR" أو "UNCLEAR".

4 عروض أسعار الطلب: يتطلب النص المصدر للتحقق

5 نطاق الحد: مهمة واحدة لكل موجه، وليس كل شيء مرة واحدة

موجه 1: استخراج البيانات المعشاة ذات الشواهد

استخراج ما يلي من هذه المضبوطة. لكل حقل توفير:
- القيمة
- الاقتباس الدقيق من الورقة (في علامتي الاقتباس)
- "NR" إذا لم يتم الإبلاغ عنه، "غير واضح" إذا كان غامضًا

الحقول:
1. حجم عينة مجموعة التدخل (ITT): [n]
2. مجموعة التحكم حجم العينة (ITT): [n]
3. تعريف النتيجة الأولية: [نص]
4. النتيجة الأولية: أحداث التدخل/الإجمالي: [x/n]
5. النتيجة الأولية: أحداث التحكم/الإجمالي: [x/n]
6. نسبة المخاطر (95% CI): [RR (أقل، أعلى)]
7. مدة المتابعة: [أسابيع/أشهر]

تنسيق الإخراج: JSON مع "قيمة" و"اقتباس" لكل حقل

موجه 2: خصائص الدراسة

استخراج خصائص الدراسة. تقديم اقتباسات دقيقة للتحقق.

الحقول:
1. تصميم الدراسة: [RCT / Cluster RCT / Crossover / Other]
2. البلد/البلدان: [قائمة]
3. الإعداد: [المستشفى / الرعاية الأولية / المجتمع / أخرى]
4. فترة التوظيف: [تاريخ البدء - تاريخ الانتهاء]
5. مصدر التمويل: [text]
6. تسجيل التجربة: [رقم الهوية أو "NR"]
7. إعلان تضارب المصالح: [نعم/لا/NR]

إذا كانت المعلومات موجودة في مواد تكميلية، لاحظ "انظر الملحق".
إذا لم يتم الإبلاغ عنه في أي مكان، ضع علامة "NR".

الموجه 3: الخصائص السكانية

استخرج الخصائص السكانية الأساسية.
قم بالإبلاغ عن مجموعات التدخل والتحكم بشكل منفصل.

الحقول (لكل مجموعة):
1. ن عشوائية: [ن]
2. تم تحليل N: [n]
3. العمر: [متوسط (SD) أو متوسط (IQR)]
4. الجنس (% إناث): [%]
5. معايير الاشتمال الرئيسية: [النص]
6. معايير الاستبعاد الرئيسية: [النص]
7. شدة المرض عند خط الأساس: [القياس والقيمة]

ملحوظة: إذا تم دمج المجموعات فقط، يتم دمج التقرير مع الملاحظة.

موجه 4: خطر فحص التحيز

ملحوظة: هذا مخصص لوضع العلامات الأولية فقط.
التقييم البشري مطلوب للحكم النهائي.

لكل مجال RoB 2، حدد النص ذي الصلة:

التوزيع العشوائي D1:
- طريقة توليد التسلسل: [اقتباس أو NR]
- طريقة إخفاء التخصيص: [اقتباس أو NR]

انحرافات D2:
- تعمية المشاركين: [اقتباس أو NR]
- تعمية الموظفين: [اقتباس أو NR]

D3 البيانات المفقودة:
- معدلات الاستنزاف: [التدخل: x%، التحكم: y%]
- التعامل مع البيانات المفقودة: [اقتباس أو NR]

لا إصدار الأحكام. استخراج الاقتباسات فقط.

"الموجه هو عقدك مع الآلة.
كن دقيقًا فيما تطلبه.
اطلب الدليل على كل إجابة.
تحقق من كل مخرجات مقابل المصدر."

لا يجوز لك أبدًا كتابة مراجعة منهجية.
ولكنك سوف read هم.

كيف يمكنك معرفة ما إذا كانت مساعدة الذكاء الاصطناعي
تم جيدا أو سيئا?

فشل آي بي إم واتسون للأورام

مركز إم دي أندرسون للسرطان، 2017

تم تدريب IBM Watson for Oncology على التوصية بعلاجات السرطان.

بعد الإنفاق 62 مليون دولارألغى إم دي أندرسون المشروع.

أظهرت الوثائق الداخلية أن واتسون صنع "غير آمنة وغير صحيحة" توصيات العلاج. تم تدريبه على الحالات الاصطناعية، وليس على بيانات المرضى الحقيقية.

بدا الذكاء الاصطناعي واثقًا. وكانت التوصيات خطيرة.

الدرس المستفاد: الثقة في الذكاء الاصطناعي ≠ صحة الذكاء الاصطناعي

تحقيق STAT News، 2017؛ IEEE الطيف 2019

أسئلة للمراجعات بمساعدة الذكاء الاصطناعي

ما الذي تبحث عنه في الأساليب

1 هل فعلوا ذلك تسمية أدوات الذكاء الاصطناعي مستخدم؟ (الإصدار والتاريخ)

2 هل فعلوا ذلك تحديد المهام هل تمت مساعدتهم بالذكاء الاصطناعي؟

3 هل فعلوا ذلك التحقق من صحة مخرجات الذكاء الاصطناعي؟ كيف؟

4 لفحص الذكاء الاصطناعي: ماذا قاعدة التوقف؟ ماذا الاستدعاء المقدر?

5 لاستخراج الذكاء الاصطناعي: كان تم التحقق منه بشريًا بنسبة 100%?

6 كان هناك الرقابة البشرية من بين جميع قرارات الذكاء الاصطناعي؟

العلامات الحمراء في المراجعات المدعومة بالذكاء الاصطناعي

علامات التحذير

"قامت منظمة العفو الدولية بفحص جميع العناوين" لا يوجد تدخل بشري؟

"بيانات GPT المستخرجة" لم يذكر التحقق؟

"توقف بعد 500 متتالية غير ذات صلة" لا يوجد تقدير الاستدعاء؟

"بروتوكول تم إنشاؤه بواسطة الذكاء الاصطناعي" قرارات الإنسان غير واضحة؟

لم يتم ذكر أدوات الذكاء الاصطناعي ولكن من الواضح أنها مكتوبة بالذكاء الاصطناعي استخدام الذكاء الاصطناعي المخفي

للمرضى والأطباء

ما تحتاج إلى معرفته

الاستخدام الجيد للذكاء الاصطناعي: يسرع العمل، ويتحقق الإنسان
الاستخدام السيئ للذكاء الاصطناعي: يحل محل الحكم البشري، لا التحقق من صحة

يمكن أن تكون المراجعة المدعومة بالذكاء الاصطناعي جديرة بالثقة، إذا تم إجراؤها بشكل صحيح.

أسئلة بسيطة يجب طرحها

? "هل تم استخدام الذكاء الاصطناعي في هذه المراجعة؟"

? "هل تم فحص نتائج الذكاء الاصطناعي من قبل البشر؟"

? "هل من الممكن أن يكون الذكاء الاصطناعي قد فاتته دراسات مهمة؟"

"مساعدة الذكاء الاصطناعي ليست عيبًا - إنها في كثير من الأحيان ميزة.
ولكن فقط إذا تم التحقق من صحتها، فقط إذا تم الكشف عنها.
سؤال: هل تم فحص الجهاز؟
إذا كانت الإجابة غير واضحة، فالمراجعة كذلك."

ألم تعتبر الباحث
مع إنترنت غير مستقر، وحوسبة محدودة،
لا يوجد اشتراك مؤسسي،
الذي لا يزال بحاجة إلى تجميع دليل?

أدوات مجانية وغير متصلة بالإنترنت

ASReview

تطبيق سطح المكتب
يعمل دون اتصال بالإنترنت

FREE

الملخص

على شبكة الإنترنت
حسابات مجانية

FREE

الريان

الطبقة المجانية
ذكاء اصطناعي محدود

FREEMIUM

RevMan

أداة كوكرين
برنامج MA الكامل

FREE

سير العمل دون اتصال

عندما لا يمكن الاعتماد على الإنترنت

مرحلة البحث

↓

المكتبة/المقهى: قم بتنزيل جميع ملفات PDFتحميل دفعة عند الاتصال

↓

مرحلة الفحص

↓

ASReview سطح المكتبيعمل دون اتصال بالكامل

↓

مرحلة الاستخراج

↓

جدول البيانات + ملفات PDF المحليةلا حاجة إلى ذكاء اصطناعي

بدائل LLM منخفضة التكلفة

عندما تكون تكاليف API باهظة

• المستويات المجانية لـ Claude/ChatGPT: محدودة ولكنها عملية
• نماذج Ollama + المحلية: مجانية، تعمل على الكمبيوتر المحمول (يتطلب التنزيل)
• استدلال وجه العناق: الطبقة المجانية متاحة
• الاستخراج اليدوي: لا يزال المعيار الذهبي، أبطأ

تقييم صادق

الذكاء الاصطناعي هو وسيلة راحة وليس ضرورة.
الكل تم إجراء مراجعات كوكرين بدون الذكاء الاصطناعي.
الجودة تأتي من الأساليب، وليس من الأدوات.

شجرة قرارات محدودة الموارد

اختيار النهج الخاص بك

مواردك

↓

موثوقية الإنترنت؟

مستقر

أدوات الويب موافقالريان، كوفيدنس

غير موثوق به

أدوات سطح المكتبASReview دون اتصال

None

دليل + جداول البياناتلا تزال صالحة

"الأدلة ملك للجميع،
ليس فقط أولئك الذين لديهم إنترنت سريع واشتراكات مدفوعة.
قد تختلف الأدوات. تبقى الأساليب.
تركيب الجودة ممكن في أي مكان."

حسابات التحقق

أحجام العينات للتحقق من الذكاء الاصطناعي

تقدير الاستدعاء بعد فحص الذكاء الاصطناعي

المشكلة

لقد توقفت عن الفحص عند 1000 من 5000 سجل.
ما مدى ثقتك في أنك وجدت جميع الدراسات ذات الصلة؟

أخذ عينات التحقق

السجلات التي لم يتم فحصها (n=4000)

↓

عينة عشوائية (n=400)10% أو على الأقل 200

↓

الفحص اليدوي

تم العثور على 0 ذات صلةأذكر ≈ 95-100%

تم العثور على ذات صلةفحص كل ما تبقى

معادلة حجم العينة

للحصول على ثقة بنسبة 95% عند الاسترجاع

                    n = ln(1 - الثقة) / ln(1 - الانتشار)

مثال:

                    إذا كان معدل الانتشار ذو الصلة = 1% (0.01)

                    للحصول على ثقة 95% (0.95):

                    n = ln(1 - 0.95) / ln(1 - 0.01)

                    n = ln(0.05) / ln(0.99)

                    n ≈ 299 سجلات لعينة

جدول مرجعي سريع

أحجام العينات للتحقق من صحتها

الانتشار 0.5%، 95% تأكيد 598 سجلًا

الانتشار 1%، 95% تأكيد 299 سجلًا

الانتشار 2%، 95% تأكيد 149 سجلًا

الانتشار 5%، 95% تأكيد 59 سجلًا

الحد الأدنى العملي 200 سجل (محافظ)

الإبلاغ عن التحقق الخاص بك

نص طرق المثال:

"لقد استخدمنا ASReview LAB (الإصدار 1.2) لفحص العنوان/الملخص باستخدام
التعلم النشط. توقف الفحص بعد 150 سجلًا متتاليًا
غير ذي صلة، بعد فحص 1247 سجلًا من أصل 4892
(25%). للتحقق من صحة الاستدعاء، قمنا يدويًا بفحص عينة عشوائية
مكونة من 300 سجل لم يتم فحصها. لا توجد
تم تحديد الدراسات، مما يشير إلى أن الاستدعاء المقدر ≥95%
(ذات الحدين 95% CI: 91-100%)."

"التحقق ليس اختياريًا، بل هو ثمن الكفاءة.
إضافية ذات صلة بحساب العينة الخاصة بك. قم بفحصها يدويًا.
أبلغ عما وجدته. اعترف بما قد فاتك."