عندما يكمن الاختبار: دورة DTA النهائية (الإصدار 4)

================================== الوحدة 1: الاحتيال (ثيرانوس)

ألم تسمع حكاية المرأة
الذي وعد به غير العالم بقطرة دم,
الذي جمع المليارات في اختبار ذلك لم تعمل قط?

بالو ألتو، 2003

جامعة ستانفورد

ترك شاب في التاسعة عشرة من عمره رؤيا: مئات اختبارات الدم من قطرة واحدة.

يعتقد المستثمرون. يعتقد والجرينز. يعتقد البنتاغون.

أعطوها 9 مليارات دولار.

لكن الاختبارات أعطت نتائج خاطئة. قيل للمرضى أنهم مصابون بفيروس نقص المناعة البشرية بينما لم يكونوا كذلك. قيل للمرضى أن دمائهم كانت طبيعية عندما كانوا كذلك الموت.

كاريرو جي. الدم الفاسد. 2018

شجرة القرار في الخداع

ما فعله ثيرانوس مقابل ما يجب أن يحدث

اختبار تشخيصي جديد

↓

ينبغي أن تفعل

التحقق من صحة ضد معيار الذهب

↓

نشر TP/FP/FN/TN

↓

موافقة ادارة الاغذية والعقاقير

فعل ثيرانوس

تخطي التحقق من الصحة

↓

إخفاء حالات الفشل

↓

ضرر المرضى

"وكذب الاختبار،
ولبس الكذب يقينًا،
ولم يطلب أحد طاولة 2 × 2."

هذا هو السبب في أننا ندرس دقة الاختبار التشخيصي.

=================== الوحدة 2: النتائج الأربعة ====================

عندما يتكلم الاختبار
هناك فقط أربع حقائق محتملة.

اثنتين بركات. اثنان لعنات.

ماذا يحدث عندما تثق المراجعة المنهجية في كل دراسة بالتساوي؟

البيانات الحقيقية

تثبت تحليلات الحساسية في المراجعات المنهجية لـ DTA باستمرار أن استبعاد دراسات المخاطر العالية للتحيز يغير التقديرات المجمعة. في فحص التصوير الشعاعي للثدي، تميل تصميمات الحالات والشواهد مع التفسير غير المعمى إلى تضخيم الحساسية. المبدأ العام موثق جيدًا: يمكن لتقييم جودة QUADAS-2 أن يغير الحساسية المجمعة 10-15 نقطة مئوية عندما تتم إزالة الدراسات المتحيزة.

تدقيق التصوير الشعاعي للثدي QUADAS-2

يجمع فريق المراجعة 15 دراسة DTA لتصوير الثدي بالأشعة السينية. خمسة لديهم مخاطر عالية للتحيز بسبب تصميم الحالات والشواهد والتفسير غير المعمى.

المسار أ: تجميع كافة الدراسات

تشمل جميع الدراسات الـ 15 بغض النظر عن الجودة

↓

تضخم الجداول 2x2 المتحيزة أعداد TP، مما ينتج حساسية مجمعة تبلغ 87%

النتيجة: الثقة المفرطة في دقة الفحص

المسار ب: تطبيق تقييم الجودة

استبعد دراسات التحيز عالية الخطورة باستخدام QUADAS-2

↓

أسفرت الدراسات العشرة المتبقية منخفضة الروب عن حساسية تبلغ حوالي 75%

النتيجة: الأرقام الصادقة توجه القرارات الصادقة

الرؤيا

النتائج الأربع (TP، FP، FN، TN) تكون جديرة بالثقة فقط إذا كانت الدراسة التي أنتجتها جديرة بالثقة. دراسة متحيزة تلوث الجدول 2x2 بأكمله.

شجرة النتائج

كل نتيجة اختبار لها حقيقة وراءها

تم اختبار المريض

↓

ما هي الحقيقة؟

لديه مرض

D+

↓

TPاختبار +

FNامتحان -

لا يوجد مرض

D-

↓

FPاختبار +

TNامتحان -

المائدة المقدسة 2×2

مثال على الاختبار السريع لفيروس نقص المناعة البشرية (بيانات حقيقية)

	HIV+	HIV-	المجموع
اختبار +	98	3	101
امتحان -	2	895	897
المجموع	100	898	998

من هذا الجدول تأتي كل الحقيقة

الحساسية = 98/100 = 98%
الخصوصية = 895/898 = 99.7%

"نتيجتان تنقذان، ونتيجتان تضران.
TP, TN: الاختبار تحدث صحيح.
FP، FN: كذب الاختبار.
اعرفهم بالاسم، فإنهم يحددون المصير".

==================== الوحدة 3: فترة نافذة فيروس نقص المناعة البشرية ====================

أما سمعتم بالدم الذي اختبر،
وجد ينظف,
وأعطيت للآلاف
بينما سبح الموت بداخلها?

أزمة إمدادات الدم، 1985

الولايات المتحدة

وعندما بدأ اختبار فيروس نقص المناعة البشرية، احتفل الأطباء: فقد أصبح بإمكانهم الآن فحص إمدادات الدم.

لكن الاختبار كان له فترة النافذة- بعد أسابيع من الإصابة عندما كان الفيروس موجودًا ولكن غير قابل للكشف.

تم اختبار الدم. كان الدم "سلبيا". تم نقل الدم.

8000-12000 أمريكي أصيبوا بالعدوى من خلال عمليات نقل الدم قبل أن تغلق الاختبارات الأفضل النافذة.

مركز السيطرة على الأمراض. معدل وفيات الأمهات. 198;36(49):833-840

شجرة قرارات فترة النافذة

لماذا السلبيات الكاذبة مميتة

الشخص المصاب مؤخرًا

↓

الوقت منذ الإصابة؟

< 2 أسابيع

اختبار سلبيفيروس موجود!

↓

تم التبرع بالدممصابون آخرون

> 4 أسابيع

اختبار إيجابيتم اكتشافه بشكل صحيح

↓

تم التخلص من الدمإمدادات آمنة

تتغير الحساسية مع مرور الوقت

اليوم 1-7
فترة الكسوف

~50%

اليوم 14
التحويل المصلي

~95%

اليوم 21
تم اكتشاف أكثر

99.9%

اليوم 45+
نافذة مغلقة

الدرس

الحساسية ليست ثابتة. ذلك يعتمد على when قمت بالاختبار. قد يكون الاختبار "حساس بنسبة 99%" حساسًا بنسبة 0% في الإصابة المبكرة.

"وقال الاختبار "نظيف"
لأن الفيروس لم يظهر وجهه بعد.
والدماء كانت مشتركة
وانتشرت العدوى إلى الأبرياء".

======================================= الوحدة 4:

ألم تسمع عن حبوب منع الحمل التي تعطى للأمهات؟
to يحمون حملهم,
الذين زرعوا السرطان في بناتهم
قبل عشرين عاما من إزهاره؟

مأساة DES، 1938-1971

الولايات المتحدة وأوروبا

تم إعطاء ثنائي إيثيلستيلبيسترول (DES) لملايين النساء الحوامل لمنع الإجهاض.

لم يتم إجراء أي تجربة سريرية مناسبة على الإطلاق. الأطباء يفترض نجح الأمر لأنه بدا معقولاً.

بعد عقود، أصيبت بناتهما بسرطان نادر: سرطان غدي الخلايا الصافية في المهبل. كان السرطان نادرًا جدًا وكان بمثابة إشارة تشخيصية في حد ذاته.

5-10 مليون امرأة تعرضوا. الضرر عبر الأجيال.

هيربست آل وآخرون. ن إنجل ي ميد. 1971;284:878-881

شجرة قرار التحقق من الصحة

ما الذي كان يجب أن يحدث

تدخل طبي جديد

↓

هل تم اختباره بشكل صحيح؟

YES

تجربة عشوائية

↓

متابعة طويلة الأمد

↓

معرفة التأثيرات الحقيقيةالفوائد والأضرار

NO (DES)

الافتراض فقط

↓

الاستخدام واسع النطاق

↓

ضرر خفياكتشف بعد فوات الأوان

الإشارة التشخيصية

عندما تصبح الندرة دليلاً

كان سرطان الخلايا الغدية الشفاف في المهبل نادرًا جدًا عند النساء الشابات 7 حالات في مستشفى واحد أثار التحقيق.

كانت المجموعة نفسها هي الاختبار التشخيصي:
الحساسية للتعرض لـ DES: ما يقرب من 100%
إذا كنت مصابًا بهذا السرطان في هذا العمر، فمن المؤكد تقريبًا أنك تعرضت له.

1:1000

خطر الخلية الواضحة
السرطان في بنات DES

5-10M

النساء مكشوفات
في جميع أنحاء العالم

"وأخذت الأمهات الحبة على أمل،
ونبتت البنات في الظل،
وبعد عشرين عاما تفشى السرطان..
التشخيص الذي اتهم جيلا من الطب."

==================== الوحدة 5: الحساسية والنوعية ==========================================

الاختبار له فضيلتان ورذيلتان.

الحساسية: هل يمكن العثور على المرضى؟

الخصوصية: هل يمكن الاستغناء عن الأصحاء؟

هل يمكنك الوثوق برقم الحساسية الصادر من المختبر عند استخدام الاختبار في العالم الحقيقي؟

البيانات الحقيقية

أبلغ اختبار المستضد السريع BinaxNOW لـ COVID-19 عن حساسية حوالي 84-97% في الأفراد الذين يعانون من الأعراض في دراسات الشركة المصنعة. ومع ذلك، وجدت التقييمات الواقعية أن الحساسية منخفضة تصل إلى 35-64% في الأفراد الذين لا تظهر عليهم الأعراض، اعتمادًا على الحمل الفيروسي والتوقيت. أكدت مراجعة كوكرين لاختبارات المستضدات السريعة (Dinnes 2022) متوسط حساسية 73% في الأعراض وفقط 55% في المجموعات السكانية بدون أعراض عبر أكثر من 100 تقييم للدراسة.

مفارقة اختبار كوفيد السريع: 2020-2021

تخطط إحدى الجامعات لفحص الطلاب الذين لا تظهر عليهم أعراض أسبوعيًا قبل السماح بالوصول إلى الحرم الجامعي. لقد قرأوا ادعاء الشركة المصنعة بالحساسية العالية.

المسار أ: حساسية مختبر الثقة

اعتمد على رقم الحساسية العالية للشركة المصنعة

↓

حاملو الفيروس الذين لا تظهر عليهم أعراض والذين لديهم أحمال فيروسية منخفضة يكون اختبارهم سلبيًا ويحضرون الفصول الدراسية وينشرون الفيروس

النتيجة: إحساس زائف بالأمان؛ تفشي المرض في الحرم الجامعي

المسار ب: الطلب على بيانات العالم الحقيقي

البحث عن دراسات في السكان المستهدفين الفعليين (الطلاب بدون أعراض)

↓

تصل حساسية الاكتشاف إلى 55% تقريبًا لدى الأشخاص الذين لا تظهر عليهم أعراض؛ إضافة اختبار تسلسلي وضمانات أخرى

النتيجة: السلامة الطبقية تكتشف المزيد من الحالات

الرؤيا

الحساسية ليست خاصية ثابتة للاختبار. يتغير مع عدد السكان، ومرحلة المرض، والإعداد. اسأل دائمًا: الحساسية في whom?

الحساسية: الصياد

الصيغة

الحساسية = TP / (TP + FN)

"من بين جميع المرضى، كم عدد الذين قبضنا عليهم؟"

مثال عملي: اختبار COVID PCR

منح: تم اختبار 200 مريض مصاب

TP = 196 (إيجابي بشكل صحيح)، FN = 4 (ضائع)

الحساسية = 196 / (196 + 4) = 196/200 = 98%

التفسير: الاختبار يلتقط 98 من كل 100 مصاب

الخصوصية: الجارديان

الصيغة

الخصوصية = TN / (TN + FP)

"من بين جميع الأصحاء، كم عدد الأشخاص الذين أنقذناهم؟"

مثال عملي: نفس اختبار COVID PCR

منح: تم اختبار 1000 شخص غير مصاب

TN = 999 (سلبي بشكل صحيح)، FP = 1 (إنذار كاذب)

النوعية = 999 / (999 + 1) = 999/1000 = 99.9%

التفسير: الاختبار بشكل صحيح يزيل 999 من كل 1000 شخص سليم

قواعد الذاكرة

متى يتم استخدام أي اختبار

ماذا تحتاج؟

استبعد المرض

استخدم حساسية عالية

↓

سنوتسلبي حساس = OUT

القاعدة في المرض

استخدم خصوصية عالية

↓

سبينإيجابية محددة = في

"الحساسية تصيب المرضى.
التخصيص ينقذ البئر.
ولكن لا يوجد اختبار يتقن كلاهما بشكل مثالي —
هذا هو العبء الذي نتحمله".

==================== الوحدة 6: مغالطة المعدل الأساسي ================

ألم تشاهد الطبيب
الذي رأى دقة 99%
واعتقد أن النتيجة الإيجابية تعني يقين 99%?

هذا هو الخطأ الأكثر دموية في الطب.

مغالطة المعدل الأساسي

اللغز

يصيب المرض شخصًا واحدًا من كل 1000 شخص.
الاختبار حساس بنسبة 99% ومحدد بنسبة 99%.
نتيجة اختبار المريض إيجابية.

ما هو احتمال إصابتهم بالمرض؟

يقول معظم الأطباء حوالي 99%. الجواب الحقيقي هو حوالي 9٪.

كشفت الرياضيات

اختبار 100000 شخص (الانتشار 1/1000)

الخطوة 1: 100 مصابون بالمرض، 99900 سليم

الخطوة 2: من 100 مريض: 99 اختبار إيجابي (TP)، 1 سلبي (FN)

الخطوة 3: من 99900 سليم: 999 اختبار إيجابي (FP)، 98,901 سلبي (TN)

الخطوة 4: إجمالي الإيجابيات = 99 + 999 = 1,098

PPV = TP / جميع الإيجابيات = 99 / 1,098 = 9%

91% من النتائج الإيجابية هي نتائج إيجابية كاذبة!

حاسبة المعدل الأساسي التفاعلية

انظر كيف يغير الانتشار PPV

الانتشار:

الحساسية:

99%

الخصوصية:

99%

القيمة التنبؤية الإيجابية (PPV)

91% من النتائج الإيجابية هي إنذارات كاذبة

شجرة القرار للانتشار

نفس الاختبار، إعدادات مختلفة

الاختبار: 99% Sens، 99% Spec

↓

أين يتم الاختبار؟

جنرال بوب
0.1%

PPV = 9%91% خطأ +

عالي المخاطر
10%

PPV = 92%8% خطأ +

تأكيدي
50%

PPV = 99%1% كاذبة +

"وقال الطبيب دقيق بنسبة 99%"
وسمع المريض "مؤكد بنسبة 99%"،
وكلاهما خدع -
لأنهم نسوا أن يسألوا: ما مدى ندرة هذا المرض؟

==================== الوحدة 7: السل جينكسبرت ==================

هل لم تسمع عن الآلة
يمكنها العثور على مرض السل خلال ساعتين،
كان ذلك يسمى سلالات—
ولكن غاب عن مقاومة للأدوية ؟

قصة GeneXpert، جنوب أفريقيا

كيب تاون، 2010

وعلى مدى قرن من الزمان، تطلب تشخيص مرض السل زراعة البكتيريا لأسابيع. ثم جاء GeneXpert: النتائج ساعتان.

ونشرتها جنوب أفريقيا على الصعيد الوطني. وقد أيدته منظمة الصحة العالمية.

ولكن في المرضى الذين يعانون من الأحمال البكتيرية منخفضة- غالبًا ما تكون الإصابة بفيروس نقص المناعة البشرية - انخفضت الحساسية إلى 67%. غابت واحدة من كل ثلاث حالات.

أما بالنسبة للكشف عن مقاومة الريفامبيسين، فقد فشل 5% من الحالات المقاومة هؤلاء المرضى تلقوا العلاج الخاطئ. انتشار مرض السل المقاوم.

ستينجارت KR وآخرون. Cochrane Database Syst Rev. 2014;1:CD009593

شجرة قرارات تشخيص مرض السل

عندما لا يكون GeneXpert كافيًا

مريض السل المشتبه به

↓

اختبار جين اكسبرت

↓

إيجابي

↓

ريفامبيسين؟

حساسقياسي Tx

مقاومMDR-TB Tx

سلبي

↓

فيروس نقص المناعة البشرية + أو اشتباه كبير؟

Yesالثقافة مطلوبة

Noمن المحتمل أن تكون سلبية

الحساسية حسب نوع المريض

98%

مسحة إيجابية
(حمولة بكتيرية عالية)

67%

مسحة سلبية
(حمولة بكتيرية منخفضة)

61%

الإصابة بفيروس نقص المناعة البشرية
(تثبيط المناعة)

الدرس

قد لا تتطابق حساسية الاختبار في التجارب السريرية مع حساسيته لدى مرضاك. تعرف على عدد سكانك.

"وقالت الآلة" سلبي "،
وصدق الطبيب الآلة،
وعاد المريض إلى منزله مصابًا بالسل في رئتيه،
مقاومة السعال في العالم."

================================== الوحدة 8: الجدل حول دعم البرامج والإدارة

هل سمعت عن الاختبار للرجال
التي وجدت السرطانات التي من شأنها لا تقتل أبدًا,
وأدى إلى العلاجات التي تدمر حياة الناس?

مأساة فحص PSA

الولايات المتحدة، 1990-2010

يمكن لـ PSA (مستضد البروستاتا النوعي) اكتشاف سرطان البروستاتا مبكرًا.

قام الأطباء بفحص ملايين الرجال. تم العثور على السرطان. تمت إزالة البروستاتا.

لكن العديد من هذه "السرطانات" لم تكن لتتسبب في ظهور أعراض على الإطلاق. تسببت الجراحة العجز الجنسي وسلس البول في الرجال الذين كان سيموت بسبب الشيخوخة، وليس السرطان.

موير فا. آن المتدرب ميد. 2012;157:120-134

معضلة فحص PSA: 2012

رجل يبلغ من العمر 60 عامًا يسأل طبيبه عن فحص PSA. يتمتع PSA عند الحد 4.0 نانوجرام/مل بحساسية تبلغ حوالي 21% للسرطان عالي الدرجة ولكنه يكتشف العديد من أنواع السرطان البطيئة.

المسار أ: فحص جميع الرجال

الفحص الروتيني لـ PSA لجميع الرجال الذين تزيد أعمارهم عن 50 عامًا

↓

لكل 1000 شخص تم فحصهم على مدار 13 عامًا: تم منع حالة وفاة واحدة أو حالتين، ولكن أكثر من 100 إنذار كاذب و30-40 رجلًا تركوا عاجزين أو مصابين بسلس البول بسبب علاج السرطان الخامل

النتيجة: صافي الضرر يتجاوز الفائدة على مستوى السكان

المسار ب: اتخاذ القرار المشترك

ناقش الأضرار مقابل الفوائد؛ التفرد مع عوامل الخطر، ومتوسط العمر المتوقع، وقيم المريض

↓

يمكن للرجال المعرضين للخطر الشديد اختيار الفحص؛ يمكن للرجال ذوي المخاطر المنخفضة أن يتراجعوا؛ المراقبة النشطة تحل محل الجراحة الفورية للحصول على نتائج منخفضة الدرجة

النتيجة: علاجات أقل غير ضرورية؛ الحفاظ على استقلالية المريض

الرؤيا

يمكن أن يسبب الاختبار الذي يتمتع بمعدلات اكتشاف عالية ضررًا أكثر من نفعه عندما يجد حالات لا تحتاج إلى اكتشافها. الإفراط في التشخيص هو التكلفة الخفية للحساسية العالية في المرض الخامل.

أرقام الضرر

الحياة أنقذت من
سرطان البروستاتا
لكل 1000 فحص

30-40

جعل الرجال عاجزين
أو منفلت
لكل 1000 فحص

100+

إيجابيات كاذبة
(الخزعات والقلق)
لكل 1000 فحص

الانعكاس

وفي عام 2012، أوصت فرقة العمل المعنية بالخدمات الوقائية بالولايات المتحدة ضد فحص PSA الروتيني. كان الاختبار هو العثور على الكثير مما لا يحتاج إلى العثور عليه.

مساعدة المريض على اتخاذ القرار: فحص PSA

إذا تم فحص 1000 رجل تتراوح أعمارهم بين 55 و69 عامًا لمدة 13 عامًا

تم منع الوفيات الناجمة عن سرطان البروستاتا

1-2 رجال

الرجال الذين سيكون لديهم نتائج إيجابية كاذبة يحتاجون إلى خزعة

100-120 رجل

الرجال الذين تم تشخيص إصابتهم بالسرطان لن يؤذيهم أبدًا

20-50 رجل

ترك الرجال عاجزين أو سلس البول من العلاج

30-40 رجل

هل هذه المقايضة مقبولة بالنسبة لك؟

"ووجد الاختبار الظل،
و قطع الجراح
وعاش الرجل — عاجزًا، وسلسًا —
من السرطان الذي لم يكن ليستيقظ أبداً."

==================== الوحدة 9: التروبونين والنوبات القلبية =====================

ألم تسمع عن الرجل الذي يعاني من ألم في الصدر
الذي كان أول تروبونين عادي,
الذي تم إرساله إلى المنزل -
ومات قبل الصباح؟

مشكلة توقيت التروبونين

أقسام الطوارئ في جميع أنحاء العالم

التروبونين هو المعيار الذهبي لتشخيص النوبات القلبية. ولكن الأمر يتطلب 3-6 ساعات للارتفاع بعد إصابة عضلة القلب.

يصل المريض بعد ساعة من بدء ألم الصدر. يتم اختبار التروبونين: عادي. "أنت بخير. اذهب إلى المنزل."

كان القلب يموت. البروتين لم يتسرب بعد

تظهر الدراسات 2-5% من مرضى احتشاء عضلة القلب الذين يتم إرسالهم إلى المنزل من قسم الطوارئ يموتون في غضون 30 يومًا.

البابا ج.ه. وآخرون. ن إنجل ي ميد. 2000;342:1163-1170

شجرة قرار الاختبار التسلسلي

بروتوكول ثنائي التروبونين

مريض آلام الصدر

↓

التروبونين الأول

↓

مرتفع

↓

تعامل على أنها MI

عادي

↓

متى بدأ الألم؟

<6 ساعات

انتظر 3 ساعاتكرر التروبونين

>6 hrs

مخاطر منخفضةفكر في d/c

تروبونين عالي الحساسية

~70%

التروبونين التقليدي
حساسية عند 0 ساعة

~95%

hs-Troponin
حساسية عند 0 ساعة

99%

hs-Troponin
في 3 ساعات مسلسل

المقايضة

يلتقط التروبونين عالي الحساسية المزيد من النوبات القلبية مبكرًا. ولكن لديها أيضًا نتائج إيجابية كاذبة أكثر، حيث ترتفع في أمراض الكلى، وفشل القلب، والإنتان، والعدائين في الماراثون.

"والإختبار قال عادي"
لأن القلب قد بدأ للتو في الموت.
واطمأن المريض
وذهب إلى المنزل لينتهي من الموت."

==================== الوحدة 10: نسب الاحتمال ================

الحساسية تصف الاختبار.
تصف الخصوصية الاختبار.

لكن المريض يسأل:
"لقد كانت نتيجة اختباري إيجابية. ما هي فرصي؟"

ماذا لو كانت حساسية الاختبار المنشورة أعلى من الحقيقة، وبالتالي فإن نسب الاحتمالية التي تحسبها خاطئة؟

البيانات الحقيقية

أظهرت اختبارات البكتيريا العقدية السريعة (RADT) حساسية مجمعة تبلغ تقريبًا 86% في الدراسات المنشورة المدرجة في مراجعات كوكرين. ومع ذلك، كشفت التقديمات التنظيمية لـ FDA 510 (k)، والتي تتضمن بيانات الشركة المصنعة غير المنشورة، عن تقديرات حساسية تبلغ فقط 70-75%. كان من المرجح أن يتم تقديم الدراسات المنشورة ذات الحساسية العالية للنشر، وهي حالة كلاسيكية من تحيز النشر الذي يؤدي إلى تضخيم الدقة الظاهرة.

فجوة منشورات اختبار البكتيريا العقدية السريعة

يقوم الطبيب بحساب LR+ من البيانات المنشورة (الحساسية 86%، النوعية 95%) ليقرر ما إذا كان سيتم علاج التهاب الحلق لدى الطفل أم لا. لكن الحساسية الحقيقية قد تكون 70% فقط.

المسار أ: التحليل التلوي المنشور من قبل الثقة

استخدم LR+ من البيانات المنشورة (86/5 = 17.2)

↓

المبالغة في تقدير LR+ تؤدي إلى الثقة المفرطة بنتيجة سلبية؛ يتم إرسال الأطفال المصابين بالبكتيريا العقدية إلى المنزل دون استخدام المضادات الحيوية

النتيجة: البكتيريا العقدية المفقودة تؤدي إلى خطر الحمى الروماتيزمية

المسار ب: البحث عن البيانات التنظيمية

استخدم LR+ من تقارير إدارة الغذاء والدواء (70/5 = 14)، ولاحظ أن LR- أسوأ (0.32 مقابل 0.15)

↓

التعرف على RADT السلبي لا يمكن أن يستبعد البكتيريا العقدية بثقة؛ قم بعمل نسخة احتياطية من ثقافة الحلق عندما تكون الشكوك السريرية مرتفعة

النتيجة: الحذر المناسب يحمي الأطفال

الرؤيا

إن نسب الاحتمالية لا تكون صادقة إلا بقدر درجة الحساسية والنوعية التي تنتجها. يؤدي تحيز النشر إلى تضخيم الدقة، مما يجعل LR+ متفائلاً للغاية وLR- مطمئنًا للغاية. اسأل دائمًا: هل الدراسات غير المنشورة مفقودة؟

نسب الاحتمالية

نسبة الاحتمالية الإيجابية

LR+ = الحساسية / (1 - النوعية)

ما مدى احتمالية أن تكون النتيجة + مريضة مقابل صحية؟

نسبة الاحتمالية السلبية

LR- = (1 - الحساسية) / الخصوصية

ما مدى احتمالية حدوث نتيجة مريضة مقابل صحية؟

مخطط فاجان

من ما قبل الاختبار إلى احتمال ما بعد الاختبار

اختبار مسبق
الاحتمالية

99%

50%

20%

الاحتمالية
النسبة

100

0.1

0.01

بعد الاختبار
الاحتمالية

99%

80%

50%

20%

ارسم خطًا من الاختبار القبلي إلى LR لإيجاد احتمالية ما بعد الاختبار

تفسير نسب الاحتمال

ما مدى قوة هذا الاختبار؟

قيمة LR+؟

LR+ > 10قاعدة قوية

5-10معتدل

2-5Weak

1-2عديمة الفائدة

LR- القيمة؟

< 0.1استبعاد قوي

0.1-0.2معتدل

0.2-0.5Weak

0.5-1عديمة الفائدة

"الحساسية تحكي عن المرضى.
الخصوصية تحكي عن البئر.
لكن نسبة الاحتمال تجيب:
ماذا تعني هذه النتيجة بالنسبة لهذا المريض؟"

====================================================================================================================== الوحدة 11

ألم ترَ الطفل المصاب بالحمى في القرية،
الاختبار السريع الذي قال سلبية,
و المتصورة التي ظلت تتضاعف؟

مشكلة الملاريا RDT

أفريقيا جنوب الصحراء الكبرى

وتقتل الملاريا 600 ألف شخص سنويا، معظمهم من الأطفال دون سن الخامسة.

كان الهدف من اختبارات التشخيص السريع هو توجيه العلاج في المناطق النائية دون مجاهر أو مختبرات.

ولكن عندما يكون طفيل الدم منخفضًايفتقد RDT الحالات. ومتى P. falciparum يحذف الجين HRP2 لا يرى RDT شيئًا على الإطلاق.

من. أداء اختبار الملاريا RDT. 2022

شجرة القرار السريري

طفل يعاني من الحمى في منطقة تتوطن فيها الملاريا

طفل محموم

↓

أداء RDT

↓

RDT إيجابي

↓

علاج الملاريا

RDT سلبي

↓

الشك السريري؟

High

علاج على أي حالأو الفحص المجهري

Low

بحثسبب آخر

تختلف الحساسية حسب طفيل الدم

95%

ارتفاع طفيل الدم
(>200/μL)

75%

انخفاض طفيل الدم
(100-200/μL)

50%

منخفض جدًا
(<100/μL)

الدرس السريري

لا يستبعد اختبار RDT السلبي وجود الملاريا في المناطق الموبوءة. يجب أن يتجاوز الحكم السريري الاختبار عندما يكون الشك عاليا

"وقال الاختبار "سلبي"،
وأرسل الطفل إلى المنزل،
وتكاثرت الطفيليات في الظلام،
وبحلول الصباح لم يستطع الطفل أن يستيقظ."

============================================================================================================ الوحدة 12

في عام الوباء،
كان العالم بحاجة إلى اختبار كان fast.

ولكن سريع ليس هو نفسه دقيق.

عندما يصل جيل جديد من الاختبارات بحساسية أعلى، هل يجعله ذلك أفضل تلقائيًا؟

البيانات الحقيقية

فحوصات التروبونين عالي الحساسية (hs-cTn) تزيد من الحساسية لاحتشاء عضلة القلب الحاد من حوالي 70% (التروبونين التقليدي في العرض) إلى أكثر 95%. لكن النوعية انخفضت من حوالي 95% إلى حوالي 80% لأن hs-cTn يكتشف إصابة عضلة القلب نتيجة لأسباب عديدة غير احتشاء عضلة القلب (قصور القلب، الإنتان، أمراض الكلى، الانسداد الرئوي). يتطلب التأثير السريري الصافي نمذجة HSROC عبر دراسات متعددة لفهم المفاضلة.

تحول جيل التروبونين: 2010

قسم الطوارئ يستخدم hs-troponin. أصبح المزيد من المرضى الآن إيجابيين، لكن العديد منهم لا يعانون من احتشاء عضلة القلب الحاد.

المسار أ: الاعتماد على أساس الحساسية وحدها

احتفل بقفز نسبة اكتشاف MI من 70% إلى أكثر من 95%

↓

المزيد من النتائج الإيجابية الكاذبة تؤدي إلى عمليات قسطرة غير ضرورية، ودخول المستشفى، وقلق المريض من ارتفاعات التروبونين غير القلبية

النتيجة: الإفراط في التشخيص والموارد المهدرة

المسار ب: نموذج المقايضة

استخدم القياسات التسلسلية (بروتوكولات 0h/1h أو 0h/3h) والسياق السريري للحفاظ على الخصوصية

↓

تقوم خوارزميات الاستبعاد السريع بتفريغ المرضى ذوي المخاطر المنخفضة بأمان؛ تظل الحساسية عالية مع إدارة المعدل الإيجابي الكاذب

النتيجة: فرز أسرع وأكثر أمانًا لألم الصدر

الرؤيا

الحساسية والنوعية تتنافسان ضد بعضهما البعض. غالبًا ما يؤدي جيل الاختبار الجديد الذي يرفع الحساسية إلى تقليل الخصوصية. منحنى HSROC هو الأداة التي تكشف ما إذا كانت المقايضة الصافية تساعد المرضى أم تضرهم.

حكم كوكرين

اختبارات مستضدات فيروس كورونا السريعة (Dinnes 2022 Cochrane Review)

سكان	الحساسية	غاب
بدون أعراض	73%	27%
بدون أعراض	55%	45%
أول 7 أيام	80%	20%

Dinnes J et al. Cochrane Database Syst Rev. 2022;7:CD013705

شجرة القرارات الأمنية الزائفة

عيد الشكر 2020: ما حدث

اختبارات أفراد العائلة سلبية

↓

سلبي حقا؟

55% إذا لم تظهر عليك أعراض

صحيح سلبيآمن للتجمع

45% إذا لم تظهر عليك أعراض

خطأ سلبيمعدي!

↓

يجتمع مع العائلةالأجداد مصابون

"وقال الاختبار "سلبي"،
و احتضنت العائلة
و بنهاية الشتاء
لقد دفن الجد".

==================== الوحدة 13: تصوير الثدي بالأشعة السينية =================

هل لم تسمع عن الفحص
التي وجدت السرطانات التي لن يقتل أبدًا,
وأدى إلى العلاجات التي يسبب ضررًا أكبر من المرض?

هل يمكنك الوثوق في التحليل التلوي لـ DTA الذي تم إجراؤه في جدول بيانات؟

البيانات الحقيقية

يتطلب التحليل التلوي لـ DTA النموذج ثنائي المتغير أو HSROC، وكلاهما يحتاج إلى أقصى تقدير لاحتمالية الحساسية والنوعية المرتبطة على المقياس اللوغاريتمي. لقد وثقت الأبحاث أن حسابات Excel اليدوية تؤدي في كثير من الأحيان إلى حدوث أخطاء: أظهرت دراسة تاريخية أجراها راينهارت وروجوف (2010، الاقتصاد) كيف أدى خطأ بسيط في جدول البيانات إلى تغييرات في السياسة العالمية. في DTA، يتجاهل تطبيق تحويلات اللوغاريتم يدويًا وتجميع الحساسية/النوعية بشكل منفصل في Excel الارتباط بينهما، ويمكن أن ينتج تقديرات مجمعة تختلف بشكل كبير عن النماذج ثنائية المتغير التي تم التحقق من صحتها في البرامج (R mada/reitsma، Stata metandi، SAS NLMIXED).

خطأ QUADAS Excel

يحتاج فريق البحث إلى حساسية وخصوصية مجمعة لإجراء مراجعة منهجية لـ DTA. لديهم 12 دراسة. يقوم أحد أعضاء الفريق ببناء نموذج Excel؛ يستخدم آخر حزمة R's mada.

المسار أ: استخدم جدول البيانات

تجميع الحساسية والنوعية بشكل منفصل في Excel باستخدام المتوسطات البسيطة أو الصيغ ذات التأثير الثابت

↓

يتجاهل العلاقة بين الحساسية والنوعية؛ مجمع أخطاء تحويل اللوغاريتم؛ تم تقليل الحساسية المجمعة بحوالي 12 نقطة مئوية

النتيجة: نشر أرقام خاطئة؛ المبادئ التوجيهية السريرية مضللة

المسار ب: استخدم برامج تم التحقق منها

استخدم R (mada/reitsma) أو Stata (metandi) أو SAS (NLMIXED) مع النموذج ثنائي المتغير

↓

حسابات GLMM ثنائية المتغير المناسبة لمقايضة خصوصية الحساسية، وتنتج مناطق ثقة صالحة، وتتعامل مع عدم التجانس بين الدراسة

النتيجة: نتائج صحيحة وقابلة للتكرار وقابلة للتدقيق

الرؤيا

التحليل التلوي لـ DTA ليس تجميعًا بسيطًا. تتطلب الطبيعة الثنائية المتغير للبيانات (الحساسية والخصوصية المقترنة) برامج إحصائية متخصصة. لا يعد الخطأ في جدول البيانات مجرد إزعاج، بل يمكن أن يغير الممارسة السريرية.

مشكلة الإفراط في التشخيص

3-4

إنقاذ حياة
لكل 10000 تم فحصها

50-130

تم تشخيصه بشكل مفرط
(معالجة دون داعٍ)

~500

إنذارات كاذبة
(قلق، خزعات)

السؤال

ومن أجل إنقاذ حياة 3-4 أشخاص، تتلقى ما يقدر بنحو 50-130 امرأة الجراحة أو الإشعاع أو العلاج الكيميائي لسرطانات لم تكن لتؤذيهن أبدًا.

فهل تستحق هذه المقايضة كل هذا العناء؟

مساعدة المريض على اتخاذ القرار: التصوير الشعاعي للثدي

إذا تم فحص 10000 امرأة تتراوح أعمارهن بين 50 و69 عامًا لمدة 10 سنوات

منع الوفيات الناجمة عن سرطان الثدي

3-4 نساء

اتصلت النساء مرة أخرى للحصول على إنذارات كاذبة

~ 500 امرأة

خزعات غير ضرورية

~200 امرأة

نساء يعالجن من سرطان لا يضرهن أبدا

~ 15 امرأة

هل الفحص مناسب لك؟

شجرة القرار المتتالية للفحص

تم فحص 10000 امرأة على مدى 10 سنوات

10,000 امرأة

↓

تم استدعاء 1000 تقريبًاغير طبيعي

↓

~500 خطأ
إنذار

~500 خزعة
~50 السرطان

تم مسح 9000 تقريبًا

من بين 50 حالة سرطان تقريبًا

~ 35 سيقتل3-4 تم حفظه

~ 15 لن يقتل أبدًاتم تشخيصه بشكل مفرط

"ووجد الاختبار الظل،
وأطلقوا عليه اسم السرطان،
والمرأة قطعت وأحرقت
لظل لن يظلمها أبدًا أيام."

==================== الوحدة 14: أميلويد الزهايمر =====================

هل لم تسمع عن المسح
الذي يجد اللويحات في الدماغ،
ولكن لا أستطيع أن أقول لك
إذا كان العقل سوف fade?

مفارقة الأميلويد

أبحاث مرض الزهايمر، 2010-2020

يمكن الآن لفحوصات التصوير المقطعي بالإصدار البوزيتروني اكتشاف لويحات الأميلويد، وهي السمة المميزة لمرض الزهايمر.

But 30% من كبار السن ذوي القدرات المعرفية الطبيعية لديك لويحات اميلويد. وقد لا يصابون بالخرف أبدًا.

And 10-20% من المصابين بالخرف ليس لديهم أميلويد.

الاختبار يجد اللوحات. لكن اللويحات ليست المرض. نحن نختبر البديل، وليس النتيجة.

جاك كر وآخرون. لانسيت نيورول. 2018;17:760-773

البديل مقابل شجرة القرار النتيجة

ما الذي نختبره حقًا؟

اختبار تشخيصي

↓

ماذا يكشف؟

النتيجة نفسها

التشخيص المباشرعلى سبيل المثال، خزعة للسرطان

↓

قيمة سريرية عالية

علامة بديلة

إشارة غير مباشرةعلى سبيل المثال، اميلويد للخرف

↓

الرابط مصدق؟

Yesاستخدم بحذر

Noقيمة محدودة

"ووجد المسح اللوحات،
وأطلق عليه الطبيب اسم الزهايمر،
والمريض يعيش في رعب
من النسيان الذي قد لا يأتي أبدًا."

============================================================================= الوحدة 15:

لا يتم إنشاء جميع الدراسات على قدم المساواة.

البعض كذلك متحيز.
البعض كذلك تصميم سيء.
البعض لا ينبغي أن يكون موثوق.

كيف نفصل القمح عن القشر؟

ماذا لو لم تقدم معظم دراسات DTA معلومات كافية للحكم على جودتها؟

البيانات الحقيقية

قبل نشر مبادرة STARD في عام 2003، وجد تقييم منهجي أن أقل من half من دراسات DTA ذكرت ما إذا كان تفسير اختبار المؤشر أعمى، وكانت الأوصاف المعيارية المرجعية غير كافية في كثير من الأحيان. بعد STARD، تحسنت عملية الإبلاغ: وجدت العديد من التقييمات الوبائية التلوية أن الالتزام بعناصر STARD ارتفع بشكل كبير، على الرغم من أن العديد من الدراسات لا تزال قاصرة عن العناصر الرئيسية مثل مخططات التدفق والتعامل مع النتائج غير المحددة.

ثورة STARD: 2003

يكمل الفريق دراسة DTA لاختبار نقطة رعاية جديدة. إنهم حريصون على النشر بسرعة. لديهم بيانات 2 × 2 ولكن لم يوثقوا التعمية أو تدفق المريض أو النتائج غير المحددة.

المسار أ: النشر بسرعة

أرسل بدون مخطط تدفق STARD أو تقرير كامل عن الطرق

↓

لا يمكن للقراء تقييم التعمية أو طيف المريض أو التحقق. يصنف تقييم QUADAS-2 كل مجال على أنه "غير واضح". قد يتم استبعاد الدراسة من المراجعات المنهجية المستقبلية، أو ما هو أسوأ من ذلك، قد يتم تضمينها مع الوزن المتضخم.

النتيجة: هدر الأبحاث؛ نتائج غير قابلة للتفسير

المسار B: اتبع إرشادات STARD

أكمل قائمة مراجعة STARD، وأنشئ مخطط تدفق المريض، وأبلغ عن نتائج غير محددة، ووصف التعمية

↓

يمكن للمراجعين تقييم الجودة بشكل كامل. مجالات QUADAS-2 مسؤولة. تساهم الدراسة بشكل مفيد في المراجعات المنهجية والمبادئ التوجيهية السريرية.

النتيجة: دليل جدير بالثقة يعمل على تحسين الرعاية

الرؤيا

لا يمكنك تقييم الجودة إذا لم تعلن الدراسة عن أساليبها. يضمن STARD أن دراسات DTA كاملة بما يكفي ليتم الحكم عليها بواسطة QUADAS-2. التقارير غير المكتملة ليست محايدة - فهي تخفي التحيز.

QUADAS-2: قائمة فحص الجودة

أربعة مجالات لخطر التحيز

اختيار المريض

هل تم تسجيل عينة متتالية أم عشوائية؟ هل تم تجنب تصميم الحالات والشواهد؟

اختبار الفهرس

هل تم تفسير الاختبار دون معرفة المعيار المرجعي؟ هل تم تحديد العتبة مسبقًا؟

المعيار المرجعي

هل من المحتمل أن يصنف المعيار المرجعي الحالة بشكل صحيح؟ هل تم تفسيره بشكل أعمى؟

التدفق والتوقيت

هل كانت هناك فترة زمنية مناسبة بين الاختبارات؟ هل حصل جميع المرضى على نفس المعيار المرجعي؟

QUADAS-2 شجرة القرار

هل يجب أن تثق بهذه الدراسة؟

دراسة DTA

↓

تحقق من جميع المجالات الأربعة

جميع المخاطر منخفضة

جودة عاليةنتائج الثقة

بعض غير واضح

معتدلاستخدم بحذر

أي مخاطر عالية

جودة منخفضةقد تكون النتائج متحيزة

التحيزات الشائعة في دراسات DTA

تحيز التحقق

الاختبارات الإيجابية فقط هي التي تحصل على المعيار المرجعي → تضخم الحساسية

التحيز الطيفي

يختلف مجتمع الدراسة عن الواقع السريري ← النتائج لا تعمم

التحيز التأسيسي

يعد اختبار الفهرس جزءًا من المعيار المرجعي → دقة عالية بشكل مصطنع

مراجعة التحيز

يتم تفسير اختبار الفهرس لمعرفة النتيجة المرجعية → يضخم كلا المقياسين

"قبل أن تثق بالأرقام،
اسأل: كيف تم جمعهم؟
دراسة متحيزة تتحدث بثقة -
لكن ثقتها كذبة."

==================== الوحدة 16: التحليل التلوي وSROC ================

دراسة واحدة قد تخدع.
دراسة واحدة قد تملق.

ولكن عندما تجمع كل الأدلة—
يصبح إخفاء الحقيقة أكثر صعوبة.

ماذا يحدث عندما تستخدم دراسات مختلفة حدودًا مختلفة لنفس الاختبار، وتحاول تجميعها؟

البيانات الحقيقية

يستخدم اختبار D-dimer للانسداد الرئوي (PE) تقليديًا قطعًا ثابتًا قدره 500 µg/L. أظهرت تجربة ADJUST-PE (Righini et al., JAMA 2014) أن القطع المعدل حسب العمر (العمر × 10 ميكروجرام/لتر للمرضى الذين تزيد أعمارهم عن 50 عامًا) زاد من نسبة المرضى المسنين الذين لديهم نتائج D-dimer سلبية من ~6% to ~30%، مع خطر الإصابة بالجلطات الدموية الوريدية لمدة 3 أشهر بنسبة 0.3% فقط في المجموعة السلبية المعدلة حسب العمر. يجب أن يستخدم التحليل التلوي DTA لدراسات D-dimer النموذج ثنائي المتغير لأن العتبات المختلفة تخلق مقايضة خصوصية الحساسية مرئية على منحنى SROC.

معضلة عتبة D-dimer: ADJUST-PE 2014

يقدم مريض مسن (75 عامًا) إلى قسم الطوارئ مع احتمال وجود انصباب رئوي. D-dimer هو 620 ميكروغرام / لتر. باستخدام القطع الثابت، وهذا أمر إيجابي. باستخدام الحد المعدل حسب العمر (750 ميكروجرام/لتر)، يعد هذا أمرًا سلبيًا.

المسار A: استخدام القطع الثابت (500 ميكروجرام/لتر)

تطبيق عتبة واحدة على جميع المرضى بغض النظر عن العمر

↓

يتجاوز المرضى المسنون دائمًا 500 ميكروجرام/لتر. تنخفض النوعية إلى أقل من 10% لدى الأشخاص الذين تزيد أعمارهم عن 80 عامًا. يحصل كل مريض مسن تقريبًا على تصوير الأوعية الدموية الرئوية بالأشعة المقطعية - مع صبغة التباين والإشعاع والنتائج العرضية.

النتيجة: يصبح D-dimer عديم الفائدة عند كبار السن

المسار ب: استخدام النموذج ثنائي المتغير مع عتبة المتغير المشترك

يطبق القطع المعدل حسب العمر؛ تباين عتبة النموذج في التحليل التلوي

↓

يُظهر منحنى SROC أن العتبات المعدلة حسب العمر تتحرك على طول المنحنى، مع تداول قدر صغير من الحساسية لتحقيق مكاسب كبيرة في الخصوصية. 30% من المرضى المسنين يتجنبون التصوير المقطعي بأمان.

النتيجة: عدد أقل من عمليات الفحص غير الضرورية؛ لم يتم تفويت أي اختبارات تشخيصية سريعة للملاريا

الرؤيا

تباين العتبة هو السبب وراء احتياج التحليل التلوي لـ DTA إلى النموذج ثنائي المتغير. تستخدم الدراسات المختلفة حدودًا مختلفة، مما يخلق مفاضلة بين الحساسية والنوعية. منحنى SROC هو خريطة تلك المقايضة.

لماذا يختلف التحليل التلوي DTA

المشكلة

الحساسية والنوعية هي مرتبطة. وعندما يرتفع أحدهما، يميل الآخر إلى النزول.

لا يمكنك تجميعها بشكل منفصل مثل تأثيرات العلاج. أنت بحاجة إلى نموذج ثنائي المتغير.

منحنى SROC

ملخص خصائص تشغيل جهاز الاستقبال

الحساسية

1 - النوعية (المعدل الإيجابي الكاذب)

نقاط الدراسة

الدراسات الفردية

تقدير موجز

قراءة SROC

ماذا يخبرك المنحنى؟

موقف منحنى SROC

↓

الزاوية العلوية اليسرى

اختبار ممتازحواس عالية + المواصفات

بالقرب من قطري

اختبار عديمة الفائدةليس أفضل من الصدفة

نقاط متناثرة

عدم التجانس العاليالتحقيق في المصادر

"قد تخدع إحدى الدراسات.
العديد من الدراسات، وزنها معا،
تتبع طريق الحقيقة -
منحنى SROC الذي يكشف عما يمكن أن يفعله الاختبار حقًا."

==================== الوحدة 17: عدم التجانس ==============================================================================

ولكن ماذا لو كانت الدراسات لا توافق?

يقول أحدهم أن الحساسية هي 95%.
آخر يقول 60%.

ما هي الحقيقة التي تصدقها؟

ماذا لو نجح الاختبار بشكل جيد في عموم السكان ولكنه فشل في المرضى الذين هم في أمس الحاجة إليه؟

البيانات الحقيقية

تحقق اختبارات التشخيص السريع للملاريا المستندة إلى HRP2 حساسية تبلغ تقريبًا 95% في عموم السكان في المناطق الموبوءة. ومع ذلك، في النساء الحوامل، يمكن أن تنخفض الحساسية إلى 56-76% بسبب عزل الطفيليات المشيمي - تختبئ الطفيليات في المشيمة، مما يبقي طفيل الدم المحيطي منخفضًا وتحت عتبة اكتشاف RDT. وجدت مراجعة كوكرين للاختبارات التشخيصية السريعة الخاصة بالملاريا عدم تجانس كبير (I² غالبًا ما يتجاوز 80٪) مدفوعًا بالمجموعات السكانية الفرعية بما في ذلك الحمل والأطفال دون سن الخامسة والعدوى المشتركة بفيروس نقص المناعة البشرية.

الفحص السريع للملاريا في الحمل

يجمع التحليل التلوي 25 دراسة وتقارير RDT للملاريا مجمعة حساسية 93%. يستخدم الطبيب في عيادة ما قبل الولادة هذا لطمأنة المرأة الحامل التي تعاني من نتيجة اختبار RDT سلبية.

المسار أ: ثق في التقدير المجمع الإجمالي

طبق حساسية 93% من التحليل التلوي لعامة السكان

↓

في النساء الحوامل، قد تكون الحساسية الحقيقية منخفضة حتى 56-76%. نسبة كبيرة من النساء الحوامل المصابات يتم طمأنتهن بشكل كاذب. تسبب الملاريا غير المعالجة أثناء الحمل فقر الدم الوخيم لدى الأمهات، وانخفاض الوزن عند الولادة، وولادة جنين ميت.

النتيجة: وفيات الأمهات والأطفال حديثي الولادة التي يمكن الوقاية منها

المسار ب: التحقيق في عدم التجانس حسب المجموعة الفرعية

قم بإجراء التحليل التلوي للمجموعة الفرعية للنساء الحوامل؛ استكشاف I² ومصادر الاختلاف

↓

اكتشفي أن الحمل هو مصدر رئيسي لعدم التجانس. يوصى بتأكيد الفحص المجهري لجميع النساء الحوامل ذوات الاختبارات التشخيصية السريعة السلبية في المناطق الموبوءة.

النتيجة: البروتوكولات المستهدفة تنقذ الأمهات والأطفال

الرؤيا

إن عدم التجانس ليس مجرد ضجيج إحصائي. غالبًا ما يشير ذلك إلى أن الاختبار يؤدي بشكل مختلف في مجموعات سكانية مختلفة. يمكن أن يكون تجاهل I² وتجميع كل شيء معًا أمرًا قاتلاً للمجموعات الفرعية الضعيفة.

مصادر عدم التجانس

لماذا تختلف الدراسات

نفس الاختبار ونتائج مختلفة؟

العتبةقطع مختلفة

سكانالشدة، العمر

الإعدادالابتدائي مقابل المتخصص

الجودةالتحيز، التعمية

قياس عدم الاتفاق: I²

I² < 25%

Low
توافق الدراسات

I² 25-75%

معتدل
بعض الاختلاف

I² > 75%

High
خلاف كبير

التحذير

عندما يكون I² > 75%، قد يكون التقدير المجمع لا معنى له. اشرح الخلاف قبل المتوسط.

"عندما تختلف الدراسات،
لا تسكت المعارضة.
اسأل: لماذا يرون بشكل مختلف؟
الخلاف بحد ذاته يعلم."

==================== الوحدة 18: مجموعة الأدوات ====================

مجموعة أدوات DTA الخاصة بك

التدابير الأساسية ومتى استخدامها

عندما يدعي الذكاء الاصطناعي أنه يشخص بشكل أفضل من الأطباء، هل يجب أن تثق في المساحة تحت المنحنى بشكل عام؟

البيانات الحقيقية

تم الإبلاغ عن نماذج التعلم العميق للكشف عن سرطان الجلد تصل قيم AUC إلى 0.91-0.94 في مجموعات بيانات التطوير. ومع ذلك، كشف التحقق الخارجي عن تباينات مثيرة للقلق: Daneshjou et al. (2022، وجدت مجلة Nature Medicine) أن أدوات طب الأمراض الجلدية التجارية ذات الذكاء الاصطناعي يتم إجراؤها بمستويات قريبة من الصدفة على البشرة الداكنة (أنواع فيتزباتريك من V إلى VI)، مع انخفاض المساحة تحت المنحنى. ك 0.50-0.57 — عشوائي بشكل أساسي. كانت مجموعات بيانات التدريب متحيزة بشكل كبير نحو ألوان البشرة الفاتحة، مما يعني أنه لم يتم ملء الجدول 2x2 بشكل صحيح لجميع السكان.

وعد الذكاء الاصطناعي للأمراض الجلدية: عشرينيات القرن الحادي والعشرين

يفكر أحد المستشفيات في نشر أداة الذكاء الاصطناعي لفحص سرطان الجلد في عيادة جلدية تخدم مجموعة متنوعة من سكان المناطق الحضرية. أبلغت الشركة المصنعة عن أن المساحة تحت المنحنى تبلغ 0.94.

المسار أ: النشر بناءً على تفويض الجامعة الشامل

ثق بالعنوان AUC البالغ 0.94 وانشره لجميع المرضى

↓

يتم تجاهل الأورام الميلانينية على البشرة الداكنة بمعدلات أعلى. يخفي رقم الحساسية الإجمالي فجوة خطيرة. المرضى الذين يعانون من أعلى معدل وفيات بسبب التشخيص المتأخر هم الذين يفشل الذكاء الاصطناعي أكثر من غيرهم.

النتيجة: تضخم التفاوت الصحي بواسطة التكنولوجيا

المسار ب: التقييم الطبقي المنصف للطلب

يتطلبون حساسية ونوعية مقسمة حسب لون البشرة (مقياس فيتزباتريك)، والعمر، وموقع الإصابة

↓

اكتشف فجوة الأداء. تتطلب إعادة التدريب على مجموعات البيانات المتنوعة أو تقييد استخدامها على المجموعات السكانية التي تم التحقق من صحتها. قم بإقران الذكاء الاصطناعي مع إشراف طبيب الأمراض الجلدية للمجموعات الممثلة تمثيلاً ناقصًا.

النتيجة: النشر العادل؛ لم يتخلف أحد عن الركب

الرؤيا

يمكن لرقم AUC واحد إخفاء تباينات خطيرة. يجب تقييم أدوات التشخيص الناشئة المستندة إلى الذكاء الاصطناعي بنفس الدقة مثل أي اختبار تشخيصي: مقسمة حسب السكان، ويتم التحقق من صحتها خارجيًا، ويتم الاحتفاظ بها وفقًا لمعايير STARD وQUADAS-2.

القائمة المرجعية

✓

هل كان هناك معيار مرجعي صالح؟

هل يتم تطبيق المعيار الذهبي على جميع المرضى؟

✓

هل كان المترجمون أعمى؟

قراء الاختبار غير مدركين للتشخيص؟

✓

هل كان الطيف مناسبًا؟

المرضى مماثلة لسكانك؟

✓

هل تم تحديد العتبة مسبقًا؟

أو تم اختياره لتعظيم النتائج؟

عندما لا تتطابق النتائج مع الشك

شجرة قرارات التجاوز السريرية

اختبار سلبي، شك كبير

↓

ما هو LR-؟

LR- < 0.1

استبعاد قويتقبل السلبية

LR- 0.1-0.5

كرر الاختبارأو اختبار مختلف

LR- > 0.5

الثقة في الحكمالاختبار ضعيف

شجرة قرار الاختبار المتسلسل

عندما لا يكفي اختبار واحد

اختبار الفحص الأولي

↓

إيجابي

↓

اختبار تأكيديخصوصية عالية

↓

إيجابيتشخيص

سلبيإنذار كاذب

سلبي

↓

من المحتمل أن تكون سلبيةإذا فحص الاستشعار العالي

"مسلحين بالحساسية، والنوعية، والاحتمالية،
مسلح بـ SROC وقياس الاتفاق،
يمكنك أن ترى من خلال كذبة الاختبار -
واحكم على حقيقتها بنفسك."

==================== الوحدة 19: أخطاء نقل الدم ================

ألم تسمع عن المريض
الذي حصل على دم خاطئ,
ليس لأن الاختبار كان خاطئا،
ولكن لأن لم يقم به أحد?

الاختبار الذي لم يتم

المستشفيات في جميع أنحاء العالم

تكون فصيلة الدم ABO دقيقة بنسبة 100% تقريبًا عند إجرائها.

Yet لا تزال تفاعلات نقل الدم تقتل- ليس من الفشل في الاختبار، ولكن من الفشل البشري:

• سحب دم خاطئ من مريض خاطئ
• تم تبديل التسميات في المختبر
• تخطي فحص السرير في حالات الطوارئ

في المملكة المتحدة، 1 في 13000 عملية نقل دم يذهب إلى المريض الخطأ. نجح الاختبار. فشل النظام.

Bolton-Maggs PHB. ترانسفوس ميد. 2016;26:303-311

الاختبار مقابل شجرة قرار النظام

أين يمكن أن تسوء الأمور؟

عملية التشخيص

↓

مصدر الخطأ؟

اختبار نفسه

خطأ تحليليمشكلة Sens/Spec

↓

مطلوب اختبار أفضل

خطأ في معرف ما قبل التحليل

عينة خاطئةID error

↓

يلزم إصلاح النظام

انحياز ما بعد التحليل

عمل خاطئالإبلاغ عن خطأ

↓

إصلاح العملية اللازمة

"الاختبار المثالي لا يعني شيئًا
إذا تم سحب الدم الخطأ،
تم تطبيق التسمية الخاطئة،
الحقيبة الخاطئة معلقة."

تقيس دراسات DTA دقة الاختبار. أنها لا تقيس دقة النظام.

=========== الوحدة 20: الاختبار والمراجع ======================================================================

مراجع

المصادر الرئيسية

كاريرو جي. الدم الفاسد. كنوبف، 2018. [ثيرانوس]
مركز السيطرة على الأمراض. معدل وفيات الأمهات. 198;36(49):833-840. [إمدادات الدم لفيروس نقص المناعة البشرية]
هيربست آل وآخرون. ن إنجل ي ميد. 1971;284:878-881. [ديس]
موير فا. آن المتدرب ميد. 2012;157:120-134. [دعم البرامج والإدارة]
البابا ج.ه. وآخرون. ن إنجل ي ميد. 2000;342:1163-1170. [تروبونين]
ستينجارت KR وآخرون. كوكرين 201;1:CD009593. [جينيكسبيرت]
دينيس J وآخرون. كوكرين 202؛7:CD013705. [فأر كوفيد]
لوحة المملكة المتحدة. لانسيت. 2012;380:1778-1786. [تصوير الثدي الشعاعي]
جاك كر وآخرون. لانسيت نيورول. 2018;17:760-773. [الأميلويد]
من. أداء اختبار الملاريا RDT. 2022.
رييتسما جي بي وآخرون. J كلين Epidemiol. 2005;58:982-990. [ثنائي المتغير]
البياض PF وآخرون. آن المتدرب ميد. 2011;155:529-536. [كواداس-2]
بولتون ماجز PHB. ترانسفوس ميد. 2016;26:303-311.

الاختبار حساس بنسبة 99% ومحدد بنسبة 99%. معدل انتشار المرض هو 1/1000. اختبار المريض إيجابي. ما هو احتمال إصابتهم بالمرض؟

99%

90%

حوالي 9%

50%

ماذا يعني "SnNout"؟

اختبار شديد الحساسية، عندما يكون سلبيًا، يستبعد المرض

اختبار محدد للغاية، عندما يكون سلبيًا، يستبعد المرض

وينبغي استخدام الحساسية للفحص

يجب أن تكون الخصوصية أعلى من 90٪

لماذا أصبح إمداد الدم ملوثًا بفيروس نقص المناعة البشرية على الرغم من إجراء الاختبارات؟

وكانت الاختبارات خصوصية منخفضة

كانت للاختبارات فترة نافذة مع حساسية صفرية للعدوى المبكرة

لم يتم إجراء الاختبارات بشكل صحيح

كانت الاختبارات باهظة الثمن

وهو المجال QUADAS-2 الذي يقيم ما إذا كان قد تم تفسير الاختبار دون معرفة التشخيص؟

اختيار المريض

اختبار الفهرس

المعيار المرجعي

التدفق والتوقيت

✔

اكتملت الدورة

"الآن أنت تعرف النتائج الأربع،
فضيلتان للاختبار،
مغالطة القاعدة معدل،
فن تجميع الأدلة،
والتحيزات التي تخفي الحقيقة.

عندما يكذب عليك الاختبار التالي —
سوف تعرف."

1 / 4