Tous les signaux ne sont pas vrais.
Module 0 : L'ouverture
🎯 Learning Objectives
- Définir la méta-analyse et expliquer son rôle dans la synthèse des preuves
- Identifier quand les études ne doivent PAS être regroupées
- Décrire la hiérarchie des preuves et où se situent les revues systématiques
- Reconnaître que la méta-analyse peut induire en erreur lorsqu'elle est mal effectuée
- Rappeler les sept principes qui ancrent ce cours
Ce le cours existe parce que
la médecine était mauvaise.
Pas une seule fois. Pas rarement. À plusieurs reprises. D'une manière qui a tué les patients qui croyaient que les preuves étaient solides.
Qu'est-ce que la méta-analyse ?
Une méthode statistique permettant de combiner les résultats de plusieurs études indépendantes abordant la même question.
Pourquoi le pool Études ?
Augmentation de la puissance statistique
Les études individuelles peuvent être trop petites pour détecter des effets.
Improve Precision
Intervalles de confiance plus étroits autour des estimations d'effet.
Resolve Disagreement
Lorsque les études sont en conflit, la mise en commun peut clarifier le signal.
Explore Heterogeneity
Identifiez pourquoi les effets diffèrent selon les populations ou les contextes.
Mais la méta-analyse peut aussi
TROMPER
Lorsqu'elles sont mal réalisées, elles amplifient les préjugés plutôt que la vérité.
Quand NE PAS regrouper
Les études mesurent des choses fondamentalement différentes (des pommes et oranges)
Hétérogénéité extrême qui ne peut être expliquée
Une étude domine toutes les autres (problème de méga-étude)
Les études présentent un risque élevé de biais qui ne peut pas être ajusté en fonction
La mise en commun est un privilège, pas un droit.
La décision d'association doit être défendue.
La hiérarchie des preuves
Revues systématiques et méta-analyses des ECR
Essais contrôlés randomisés
Études de cohorte
Études cas-témoins
Série de cas/avis d'experts
La position dans la hiérarchie dépend de la qualité de la méthodologie, et non du seul type d'étude.
Ce cours enseigne via
renversements de preuves.
Chaque module s'ouvre sur une histoire expliquant comment la médecine s'est trompée. Ensuite, nous apprenons la méthode qui aurait évité le préjudice.
Les sept principes
Ces phrases reviendront tout au long de votre voyage :
1. "Tous les signaux ne sont pas vrais."
2. "Les méthodes protègent les patients de notre confiance."
3. "Qu'est-ce qui était caché à la vue de tous ?"
4. "Le numéro sans provenance n'est pas un numéro."
5. "L'hétérogénéité est un message, pas un bruit."
6. "L'absence de preuve n'est pas une preuve d'absence."
7. "La certitude doit être gagnée et non assumée."
Quiz du module 0
1. Pourquoi ne devriez-vous parfois PAS regrouper les études dans une méta-analyse ?
2. Où se situent les revues systématiques des ECR dans la hiérarchie des preuves ?
Commencez le voyage.
Module 1 : La question
Tous les signaux ne sont pas vrais.
Ceci n'est pas une histoire d'erreur.
C'est une histoire de certitude.
Module 1 : La question
🎯 Learning Objectives
- Formuler une approche ciblée Question PICO pour une revue systématique
- Distinguer les résultats de substitution des résultats importants pour le patient
- Expliquez pourquoi la plausibilité biologique à elle seule ne constitue pas une preuve suffisante
- Décrire l'essai CAST et ses implications pour la médecine factuelle
- Appliquer le principe : "Tous les signes lumineux ne sont pas des conseils"
~9,000
Décès excédentaires par an
D'un traitement que tout le monde croyait efficace.
C'est l'histoire de ce que nous croyions - et comment nous étions tort.
L'observation
Les patients présentant des ESV fréquemment après un IM présentaient une 2 à 5 fois plus élevée.
Un besoin clinique massif. Un objectif clair.
La Réponse
Des médicaments antiarythmiques ont été développés, approuvés par la FDA,
et prescrite à environ 200 000 patients par an.
Aucun méchant n'apparaît dans cette histoire.
Tout le monde a agi sur la base des meilleures preuves disponibles.
La logique qui a convaincu tout le monde
Les PVC après un IM prédisent une mort cardiaque subite
Les médicaments antiarythmiques suppriment les ESV
La suppression des ESV devrait prévenir la mort subite
Les antiarythmiques sauvent des vies chez les patients post-IM
La chaîne était logique. La conclusion semblait inévitable.
CAST : Essai sur la suppression de l'arythmie cardiaque
Enfin, quelqu'un a demandé : "La suppression des PVC sauve-t-elle réellement des vies ?"
Les résultats : avril 1989
Le Data Safety Monitoring Board arrête l'essai prématurément.
| Résultat | Médicament (n=755) | Placebo (n = 743) |
|---|---|---|
| Arrhythmic deaths | 33 | 9 |
| Tous les décès cardiaques | 43 | 16 |
| Total deaths | 56 | 22 |
| Death rate | 7.4% | 3.0% |
Les médicaments qui supprimaient parfaitement les arythmies ont augmenté la mortalité de 150 %
Le coût humain
Avant CAST, environ 200 000 Américains recevaient chaque année ces médicaments.
~9,000
excès de décès par an - peut-être plus
Guerre du Vietnam : ~6 000 décès aux États-Unis/an • Ces médicaments : ~9 000+ décès/an
Pour chaque numéro, un nom que nous ne connaîtrons jamais.
Regardez ? nouveau.
La logique - revisitée
Les PVC après un IM prédisent une mort cardiaque subite
Les médicaments antiarythmiques suppriment les ESV
La suppression des ESV devrait prévenir la mort subite
Les antiarythmiques sauvent des vies chez les patients post-IM
L'hypothèse que la suppression du marqueur corrigerait le résultat n'a jamais été testé.
Ce qui n'a pas fonctionné : le piège des substituts
Les PVC étaient un marqueur de tissus endommagés, pas une cause de décès
Les médicaments ont eu des effets proarythmiques - déclenchant des rythmes plus mortels
La mère porteuse s'est améliorée tandis que le résultat s'est aggravé - une mère porteuse dissociée
La mère porteuse n'a pas menti. Nous lui avons posé la mauvaise question.
Le framework PICO
Chaque question clinique pouvant répondre comporte quatre éléments :
Exercice d'enquête : les preuves avant CAST
Vous êtes cardiologue en 1988. Un patient a survécu à un IM mais présente des ESV fréquentes. La littérature observationnelle est claire...
| Étude | Patients atteints d'ESV | Mortality Risk |
|---|---|---|
| Lown (1977) | High-grade PVCs | 2,4x plus élevée |
| Plus grand (1984) | >10 PVCs/hour | 3,1x plus élevé |
| Mukharji (1984) | Complex PVCs | 4,8x supérieur |
Le signal est clair. Le mécanisme est plausible. Prescririez-vous des antiarythmiques ?
Avant : logique d'observation
PVC → Mortalité plus élevée
Les médicaments suppriment les PVC
∴ Les médicaments devraient réduire la mortalité
Après : CAST ECR (1989)
Taux de mortalité dû à la drogue : 7.4%
Taux de mortalité sous placebo : 3.0%
RR = 2,5 (augmentation de 150 % des décès)
La mère porteuse s'est améliorée. Les patients sont morts. C'est pourquoi nous demandons : « Quel est le résultat qui compte ? »
Les leçons pour la synthèse des preuves
La plausibilité biologique n'est pas une preuve
Un mécanisme logique ne garantit pas l'effet attendu.
Les paramètres de substitution peuvent induire en erreur
L'amélioration d'un biomarqueur ne prouve pas une amélioration des résultats.
Only randomized trials establish causation
Les données observationnelles ne peuvent prouver les effets de l'intervention.
Le consensus n'est pas une preuve
200 000 prescriptions, l'approbation de la FDA et les lignes directrices ont toutes été faux.
C'est pourquoi nous effectuons une méta-analyse : pour voir le passé apparent vérités.
Ce qui semble certain peut être faux.
Ce que tout le monde croit pourrait être faux.
Il existe des méthodes pour que les patients ne paient pas pour notre confiance.
C'est pourquoi vous êtes ici.
Quiz du module 1
1. Quelle était l'erreur fondamentale dans la logique antiarythmique ?
2. Dans PICO, que signifie le « O » et pourquoi est-ce important ?
Tous les signaux ne sont pas vrais.
Les méthodes protègent les patients de notre confiance.
Qu'est-ce qui était caché à la vue de tous ?
Ceci est une histoire sur
preuves observationnelles.
Module 2 : Le Protocole
🎯 Learning Objectives
- Expliquez pourquoi le protocole de pré-enregistrement prévient les biais
- Identifier les éléments clés d'un enregistrement PROSPERO
- Distinguer les biais des utilisateurs sains des véritables effets du traitement
- Décrire pourquoi les études observationnelles ont surestimé les bénéfices du THS
- Appliquer le principe : "Les méthodes protègent les patients de notre confiance"
30+
études observationnelles
Tous ceux qui ont suivi un traitement hormonal substitutif ont protégé les femmes ménopausées des maladies cardiaques.
Les preuves semblaient accablantes. La conclusion semblait certaine.
L'étude sur la santé des infirmières
122 000 infirmières suivies pendant des décennies. Les utilisateurs de THS présentaient une mortalité cardiovasculaire inférieure de 40 à 50 %.
Étude historique. Méthodologie impeccable. Mauvaise conclusion.
Le biais caché
Biais d'utilisateur sain : Les femmes qui ont choisi le THS étaient en meilleure santé, plus riches et mieux instruites
Compliance Bias: Les femmes qui prenaient régulièrement un THS prenaient également mieux soin d'elles-mêmes
Prescriber Bias: Les médecins ont administré un THS à des femmes en meilleure santé présentant moins de risques facteurs
Le traitement ne les protégeait pas. Ils étaient déjà protégés.
WHI : La santé des femmes Initiative
Le plus grand essai randomisé de THS jamais mené.
Les résultats : juillet 2002
L'essai s'est arrêté prématurément après 5,2 ans. Les dommages ont dépassé les avantages.
| Résultat | Hazard Ratio | Direction |
|---|---|---|
| Maladie coronarienne | 1.29 | NUIRE |
| Accident vasculaire cérébral | 1.41 | NUIRE |
| Breast cancer | 1.26 | NUIRE |
| Pulmonary embolism | 2.13 | NUIRE |
La Leçon
PRÉ-SPÉCIFIER
Un protocole rédigé avant le début de la recherche empêche la pêche, prévient les biais, empêche la distorsion rétrospective.
Et si le traitement fonctionnait, mais seulement pour certains ?
DONNÉES RÉELLES
WHI a montré un HRT augmentation globale des événements cardiovasculaires. Mais des analyses ultérieures ont révélé une tendance critique : les femmes qui ont commencé un THS dans les 10 ans suivant la ménopause had Risque cardiovasculaire RÉDUIT. Women starting 20 ans et plus après la ménopause had INCREASED risk. Le résultat global nul/préjudiciable masquait un effet de timing.
PROSPERO Registration
Inscrivez-vous avant de rechercher
PROSPERO : Registre prospectif international des revues systématiques
Verrouillez vos décisions
PICO, stratégie de recherche, résultats, plan d'analyse - tous prédéfinis
Document Amendments
Les modifications sont autorisées mais doivent être transparentes et justifiées
Prevent Duplication
Vérifiez si votre avis existe déjà avant de commencer
Quiz du module 2
1. Pourquoi l'étude sur la santé des infirmières a-t-elle montré un bénéfice du THS que WHI n'a pas démontré ?
2. Quel est l'objectif principal de l'enregistrement PROSPERO ?
La pré-spécification n'est pas une bureaucratie.
C'est une protection.
Contre notre propre tendance à trouver ce à quoi nous nous attendons.
Les méthodes protègent les patients de notre confiance.
Qu'est-ce qui était caché à la vue de tous ?
Module 3 : La recherche
Qu'est-ce qui était caché à la vue de tous ?
Ceci est une histoire sur
ce qu'ils n'ont pas fait publier.
Module 3 : La recherche
🎯 Learning Objectives
- Développer une stratégie de recherche complète en utilisant les directives de la PRESS
- Rechercher dans plusieurs bases de données, y compris des sources de littérature grise
- Identifier les registres d'essais et les bases de données réglementaires (ClinicalTrials.gov, FDA)
- Expliquez comment le cas de la rosiglitazone a révélé des dommages cardiovasculaires cachés
- Appliquez le principe : « Qu'est-ce qui était caché à la vue de tous ?
$3.2B
Ventes annuelles au sommet
Avandia (rosiglitazone) était l'un des médicaments contre le diabète les plus vendus au monde.
Les essais publiés semblaient rassurants. Les inédits racontaient une histoire différente.
Les preuves publiées (avant 2007)
Les essais publiés ont montré que la rosiglitazone réduisait efficacement l'HbA1c. Les résultats cardiovasculaires ont été rarement signalés.
La mère porteuse avait l'air bien. Mais qu'en est-il des événements cardiovasculaires réels ?
Découverte de Nissan : mai 2007
Le Dr Steven Nissen a obtenu des données d'essais non publiées sur le site Web de GSK.
GSK avait été tenu par un accord juridique de publier en ligne les résultats des essais cliniques. Nissen et Wolski ont analysé 42 essais, dont beaucoup n'ont jamais été publiés dans des revues.
Les données étaient techniquement publiques.
Personne ne l'avait systématiquement recherché.
Les résultats de la méta-analyse
| Résultat | Rapport de cotes | 95% CI |
|---|---|---|
| Infarctus du myocarde | 1.43 | 1.03 - 1.98 |
| CV Death | 1.64 | 0.98 - 2.74 |
Publié dans NEJM. La FDA a convoqué une réunion du comité consultatif d'urgence.
Le comité consultatif de la FDA : juillet 2007
Le comité était divisé. Certains voulaient le retirer. Certains ont qualifié la méta-analyse de défectueuse.
Mais le signal ne pouvait pas passer inaperçu.
Le Conséquences
Avertissement boîte noire ajouté pour le risque d'insuffisance cardiaque (2007)
Severe restrictions sur prescription aux États-Unis (2010)
Retiré à partir du marché européen entièrement (2010)
La FDA nécessite désormais essais sur les résultats cardiovasculaires pour tous les médicaments contre le diabète
Ce qu'exige une recherche complète
La check-list PRESSE
Examen par les pairs des stratégies de recherche électronique
Traduction de la recherche Question
La recherche reflète-t-elle les éléments PICO ?
Booléen et proximité Opérateurs
AND, OR, NOT sont-ils correctement utilisés ?
Subject Headings
Les termes MeSH/Emtree sont-ils appropriés et éclatés ?
Text Words
Synonymes, variantes orthographiques, troncature ?
Liste de contrôle de PRESSE (suite)
Orthographe, syntaxe, numéros de ligne
Y a-t-il des erreurs qui pourraient entraîner des échecs de récupération ?
Limites et filtres
Les limites de date, de langue et de conception de l’étude sont-elles appropriées ?
Une recherche évaluée par les pairs a 30 % plus de chances de trouver la clé études.
McGowan et al., 2016
Database Translation
La même recherche doit être adaptée pour chaque base de données :
"diabète sucré de type 2"[MeSH] OU "type 2 diabète"[tiab]
'diabète sucré non insulino-dépendant'/exp OU 'diabète de type 2' :ti,ab
Les en-têtes de sujet, les balises de champ et les opérateurs diffèrent selon les bases de données.
Si Nissen avait seulement cherché PubMed,
le signal serait resté caché.
La recherche complète est la survie.
Qu'est-ce qui était caché à la vue de tous ?
Quiz du module 3
1. Quel type de source de preuves a révélé le signal cardiovasculaire de la rosiglitazone ?
2. Que vaut PRESS pour ?
Qu'est-ce qui était caché à la vue de tous ?
Module 4 : La projection
Le numéro sans provenance n'est pas un numéro.
Ceci est une histoire sur
ce qu'ils a choisi de signaler.
Module 4 : La projection
🎯 Learning Objectives
- Appliquer le diagramme de flux PRISMA à documenter la sélection des études
- Mettre en œuvre une sélection à double évaluateur en cas de conflit. résolution
- Identifier les rapports sélectifs sur les résultats et la manipulation des données
- Calculer la fiabilité inter-évaluateurs (kappa de Cohen)
- Appliquer le principe : « Le numéro sans provenance n'est pas un numéro »
88,000
crise cardiaque attribuée au Vioxx
Un médicament à succès. Un signal caché. Une catastrophe évitable.
Entre 1999 et 2004, des millions de personnes ont pris cet analgésique. Certains ne sont jamais rentrés à la maison.
La montée du Vioxx
Le rofécoxib (Vioxx) était un AINS sélectif de la COX-2. Commercialisé comme étant plus sûr pour l’estomac que les analgésiques traditionnels.
L'essai VIGOR (2000)
Recherche sur les résultats gastro-intestinaux du Vioxx
Ce que VIGOR a publié
| GI Outcome | Vioxx | Naproxène |
|---|---|---|
| Événements gastro-intestinaux confirmés | 2.1 per 100 pt-yrs | 4.5 per 100 pt-yrs |
| Réduction | 54 % d'événements gastro-intestinaux en moins | |
Le titre : Le Vioxx est plus sûr pour votre estomac !
C'est ce qu'on a dit aux médecins. C’est ce que croyaient les patients.
Qu'est-ce que VIGOR a enterré
| CV Outcome | Vioxx | Naproxène |
|---|---|---|
| Infarctus du myocarde | 20 événements | 4 événements |
| Risque relatif | 5 fois plus élevées dans le groupe Vioxx | |
Les rapports sélectifs
Manipulation du seuil de données : 3 crises cardiaques supplémentaires se sont produites après le seuil utilisé dans la publication
Rotation: Le signal CV a été expliqué par le fait que le naproxène était cardioprotecteur (aucune preuve)
Outcome switching: Les événements CV étaient prédéfinis mais non soulignés
Internal knowledge: Les e-mails de Merck montrent qu'ils connaissaient le signal
L'essai APPROVe (2004)
Un essai pour la prévention des polypes colorectaux – arrêté tôt pour des raisons de sécurité.
Quatre ans après que VIGOR ait montré un risque 5x. Quatre ans trop tard.
Avez-vous réfléchi à ce qui se passe lorsqu’un signal se cache dans le bruit ?
DONNÉES RÉELLES
Le Vioxx (rofécoxib) a été approuvé dans 1999. By 2004, estimates suggest 88 000 à 140 000 crises cardiaques excessives and 30 000 à 40 000 décès. L'essai VIGOR de Merck a montré 5x cardiovascular risk en 2000, mais elle a été rejetée comme un « naproxène cardioprotecteur effet."
L'organigramme PRISMA
Chaque étape du dépistage doit être documentée et transparente.
Double dépistage : pourquoi deux évaluateurs ?
Réduit le biais de sélection
Un évaluateur pourrait inconsciemment favoriser certains études
Catches Errors
La fatigue, les erreurs de lecture et les erreurs sont inévitables
Force des critères explicites
Les désaccords révèlent une ambiguïté dans les règles d'inclusion
Typical agreement: κ = 0.6-0.8
Désaccords résolus par discussion ou par un troisième évaluateur
Étalonnage : la phase pilote
Avant de filtrer des milliers de dossiers, les examinateurs doivent calibrer sur un échantillon de 50 à 100 dossiers.
Dépister le même ensemble de manière indépendante
Comparez les décisions et discutez des désaccords
Affiner les critères d'inclusion jusqu'à κ > 0,7
Documenter le processus d'étalonnage et tout changement de règle
PRISMA 2020 Updates
PRISMA 2020 était une révision substantielle de la déclaration originale de 2009, restructurant la liste de contrôle et ajoutant de nouvelles directives de reporting pour des éléments tels que les outils d'automatisation, la certitude des preuves, le protocole/l'enregistrement et la synthèse élargie. méthodes.
Si les données cardiovasculaires de Vioxx avaient été examinées par des évaluateurs indépendants,
si tous les résultats prédéfinis devaient être rapportés,
88 000 crises cardiaques auraient pu être évitées.
Le numéro sans provenance n'est pas un numéro.
Quiz module 4
1. Dans l'essai VIGOR, quel était le risque relatif d'IM dans le groupe Vioxx par rapport au naproxène ?
2. Pourquoi la double sélection (deux évaluateurs indépendants) est-elle importante ?
Le numéro sans provenance n'est pas un numéro.
Module 5 : L'extraction
Le numéro sans provenance n'est pas un numéro.
Ceci est une histoire sur
nombres qui n'ont jamais existait.
Module 5 : L'extraction
🎯 Learning Objectives
- Concevoir un formulaire d'extraction de données standardisé avec des champs de provenance
- Calculez l'ampleur des effets à partir de diverses statistiques rapportées (OR, RR, HR, SMD)
- Mettre en œuvre une double extraction avec résolution des écarts
- Identifier les signaux d'alarme en cas de fabrication de données et de mauvaise conduite
- Expliquez comment la fraude DECREASE a affecté les directives cliniques
~10,000
surmortalité possible en Europe
À partir de lignes directrices basées sur des données d'essais cliniques fabriquées.
Les essais DECREASE ont influencé les activités périopératoires soins dans le monde entier. Les données ont été inventées.
Don Poldermans : une star Chercheur
Professeur au centre médical Erasmus de Rotterdam. Auteur de plus de 500 articles. Auteur principal des lignes directrices de l'ESC sur les soins cardiaques périopératoires.
Une source apparemment irréprochable. Jusqu'à ce que quelqu'un examine les données.
Les essais DECREASE : l'allégation
| Procès | Trouver | Impact |
|---|---|---|
| DIMINUTION-I (1999) | Réduction de 90 % des décès | Changed guidelines |
| DIMINUTION-IV (2009) | Les bêtabloquants sont sûrs chez les patients à faible risque | Expanded recommendations |
Les tailles d'effet étaient invraisemblables grand.
90% de réduction ? Presque rien en médecine ne fonctionne aussi bien.
L'enquête : 2011
Erasmus MC a enquêté suite à des plaintes de dénonciateurs
Données de patients fabriques : Patients qui n'existaient pas ou n'étaient pas inscrits
Aucun consentement éclairé : De nombreux « participants » n'ont jamais consenti
Poldermans dismissed: D'Erasmus MC en 2011
La cascade du mal
Lorsque DECREASE a été retiré des méta-analyses...
L'essai POISE (2008) avait montré des dommages. Il a été rejeté car il était en conflit avec DECREASE.
Pourquoi Cela n'a-t-il pas été détecté ?
Confiance en l'autorité : Poldermans était l'auteur des lignes directrices qui examinait ses propres preuves
Aucune vérification des données : Personne n'a demandé de données individuelles sur les patients
Publication prestige: Publié dans les meilleures revues, supposé valide
Effets invraisemblables acceptés : Des réductions de 90 % devraient éveiller les soupçons
Extraction de données : défense contre la fraude
Dual Extraction
Deux extracteurs indépendants : détectent les erreurs de transcription et forcent un examen minutieux
Record Provenance
Tableau, page, paragraphe - chaque numéro traçable à la source
Vérifier par rapport au registre
Résultats de ClinicalTrials.gov par rapport à la publication - les écarts sont rouges flags
Request IPD
Les données individuelles des patients révèlent ce que cachent les CV globaux
Calcul de la taille de l'effet
Lors de l'extraction, vous calculez les tailles d'effet à partir des données rapportées :
Rapport de cotes, risque Ratio, différence de risque par rapport aux tableaux 2x2
Différence moyenne, différence moyenne standardisée à partir des moyennes et des écarts-types
Toujours extraire à partir de la source la plus fiable.
Préférer : résultats ITT > par protocole > sous-groupes
Drapeaux rouges pendant l'extraction
Tailles d'effet invraisemblables : Des réductions de 80 à 90 % devraient inciter à un examen minutieux
Baseline imbalances: Les groupes qui sont "trop parfaitement" correspond
Round numbers: "Exactement 50" ou "exactement 100 " patients par bras
Registry discrepancies: Le N publié diffère du N enregistré
Chaque chiffre de votre méta-analyse
doit remonter à une source vérifiable.
Le numéro sans provenance n'est pas un numéro.
Les données frauduleuses peuvent tuer aussi sûrement que les médicaments frauduleux.
Conversions de tailles d'effet
Les études rapportent leurs résultats avec différentes métriques. Pour les combiner, des conversions sont souvent nécessaires :
| De | Vers | Formule |
|---|---|---|
| SMD (d) | journal-OU | log-OR = d × π / √3 |
| journal-OU | SMD (d) | d = log-OR × √3 / π |
| Corrélation (r) | Pêcheur Z | z = 0.5 × ln((1+r)/(1−r)) |
| OR | RR | RR = OU / (1 − P₀ + P₀ × OU) |
| OR | NNT | NNT = 1 / (P₀ − OR×P₀ / (1−P₀+OR×P₀)) |
P₀ = risque de base dans le groupe contrôle. Ces formules supposent des conditions approximatives ; voir Borenstein et al. (Ch. 7) pour les dérivations exactes.
Données de type temps-jusqu'à-événement
De nombreux essais rapportent des résultats de type temps-jusqu'à-événement via des rapports de risques instantanés (HR). Le pooling des HR en méta-analyse nécessite un traitement spécial :
La méthode log(HR) + SE
Extraire le log(HR) et son erreur-type de l'essai. Si non rapportée, dériver l'ET à partir de l'IC : SE = (ln(borne sup) − ln(borne inf)) / (2 × 1.96). Combiner par la méthode de la variance inverse.
Quand le HR n'est pas rapporté
Des méthodes existent pour reconstruire les données individuelles à partir des courbes de Kaplan–Meier (Guyot et al. 2012) ou estimer le HR à partir des valeurs p et du nombre d'événements (Parmar et al. 1998). Toujours préférer le HR ajusté directement rapporté lorsque disponible.
HR < 1 favorise le traitement ; HR > 1 favorise le contrôle. Ne pas convertir les HR en OR ou RR — ils mesurent des quantités fondamentalement différentes.
Quiz module 5
1. Que s'est-il passé lorsque les données de l'essai DECREASE ont été supprimées des méta-analyses des bêtabloquants ?
2. Pourquoi la double extraction devrait-elle être une pratique standard ?
Le numéro sans provenance n'est pas un numéro.
Module 6 : Le biais
Les méthodes protègent les patients de notre confiance.
Ceci est une histoire sur
le biais que nous ne pouvons pas voir.
Module 6 : Le biais
🎯 Learning Objectives
- Appliquer le risque de biais 2.0 (RoB 2) aux essais randomisés
- Appliquer ROBINS-I aux études non randomisées
- Évaluer les cinq domaines RoB 2 (randomisation, écarts, données manquantes, mesure, sélection)
- Distinguer les effets confondants par indication des effets réels du traitement
- Expliquez comment BART a révélé les méfaits cachés de l'aprotinine
20+
années sur le marché
L'aprotinine était l'étalon-or pour réduire les risques chirurgicaux saignement.
Puis quelqu'un a réalisé un ECR. La vérité était différente.
Le biais caché : confusion par indication
Les patients les plus malades ont reçu de l'aprotinine : Les chirurgiens l'ont utilisée dans des cas complexes et à haut risque
Survivors bias: Les patients décédés ne peuvent pas signaler de complications
Publication bias: Les études négatives n'ont pas été publié
Les études observationnelles n'ont pas pu séparer l'effet du médicament du risque de base du patient.
BART : la vérité randomisée
Conservation du sang à l'aide d'antifibrinolytiques dans un essai randomisé
| Résultat | Aprotinine | Alternatives |
|---|---|---|
| 30-day mortality | 6.0% | 3.9% |
| Risque relatif | 1.53 (53% increased death) | |
Enquête : Évaluez la Biais
Vous examinez les études observationnelles. Appliquer le risque de biais en pensant :
| Question | Observation | BART (RCT) |
|---|---|---|
| Random allocation? | ❌ Surgeon choice | ✓ Yes |
| Baseline comparable? | ❌ Un malade a reçu un médicament | ✓ Équilibré |
| Aveuglant ? | ❌ Open label | ✓ Double aveugle |
Confondant par indication : Les chirurgiens ont administré de l'aprotinine aux patients les plus malades. Les études observationnelles attribuaient la survie au médicament, lorsqu'elles mesuraient le biais de survie.
Risque de Biais 2.0 : Les cinq domaines
Randomization Process
Écarts par rapport aux interventions prévues
Données de résultats manquantes
Mesure du résultat
Sélection du résultat rapporté
ROBINS-I : pour les études non randomisées
Lorsque les ECR ne sont pas disponibles, utilisez ROBINS-I (risque de biais dans les études non randomisées sur Interventions)
Confondant
Différences de base entre les groupes
Sélection des participants
Exclusions liées à l'intervention
Classification des interventions
Classification erronée du statut d'exposition
Écarts par rapport aux interventions prévues
Co-interventions, contamination
Manquant Données
Perte différentielle au suivi
Mesure des résultats
Ascertainment bias
Sélection du résultat rapporté
Selective reporting
Notes : faible/modéré/sérieux / Critique / Aucune information
Des études observationnelles suggèrent la sécurité.
L'ECR a révélé une augmentation de la mortalité de 53 %.
Only randomization can break confounding.
Quiz du module 6
1. Pourquoi les études observationnelles ont-elles négligé les effets nocifs de l'aprotinine ?
Les méthodes protègent les patients de notre confiance.
Module 7 : La Synthèse
L'hétérogénéité est un message, pas un bruit.
La controverse sur le magnésium : 1991-1995
Lorsque la mise en commun nous égare.
Module 7 : La Synthèse
🎯 Learning Objectives
- Calculez les tailles d'effet groupées à l'aide de modèles à effets fixes et à effets aléatoires
- Choisissez entre DerSimonian-Laird et Les estimateurs HKSJ de manière appropriée
- Interpréter les parcelles forestières, y compris les poids, les intervalles de confiance et diamants
- Expliquez pourquoi les effets de petites études peuvent induire en erreur les méta-analyses
- Appliquer le principe : "L'hétérogénéité est un message, pas un bruit"
L'année : 1991
"Vous vous trouvez à la croisée de l'espoir et des preuves..."
Les maladies cardiaques tuent plus de personnes dans le monde que toute autre cause. En 1991, un nouvel espoir émerge : pourrait-il quelque chose d'aussi simple et bon marché que intravenous magnesium sauver des vies après un infarctus du myocarde ?
Le raisonnement biologique était solide :
Le magnésium stabilise les membranes cardiaques, prévient les arythmies et vasodilate les artères coronaires.
LIMIT-2 : L'essai Landmark
Essai d'intervention sur le magnésium intraveineux de Leicester, 1992
Une intervention peu coûteuse et sûre qui pourrait sauver 250 000 vies par an dans le monde.
La communauté médicale était électrisée.
La méta-analyse : 1993
Researchers pooled sept essais randomisés de magnésium IV dans l'IM :
| Procès | Année | N | Rapport de cotes |
|---|---|---|---|
| Morton 1984 | 1984 | 40 | 0.10 |
| Rasmussen 1986 | 1986 | 273 | 0.35 |
| Forgeron 1986 | 1986 | 400 | 0.48 |
| Abraham1987 | 1987 | 94 | 0.87 |
| Shechter 1990 | 1990 | 103 | 0.27 |
| Ceremuzynski 1989 | 1989 | 48 | 0.22 |
| LIMITE-2 | 1992 | 2,316 | 0.74 |
Exercice d'enquête : le dilemme du méta-analyste
Vous êtes un évaluateur Cochrane en 1993. On vous a demandé de synthétiser les preuves sur le magnésium pour l'IM. Les données de sept essais se trouvent devant vous.
Voyez-vous la tendance dans ce graphique forestier ?
Mais attendez... remarquez-vous quelque chose à propos de la taille des essais ?
Les panneaux d'avertissement
Qu'est-ce qui aurait dû nous faire réfléchir ?
Petits échantillons : Six essais sur sept comptaient <500 patients
Extreme effects: Un OR de 0,10 (réduction de 90 %) est invraisemblable pour tout médicament
All positive: Où étaient les résultats négatifs ? des essais ? Le problème du tiroir de fichiers...
Funnel asymmetry: Les petits essais ont montré des effets beaucoup plus importants que les plus grands
Le test de tracé en entonnoir
Avant de mettre en commun, nous devons vérifier les biais de publication. Examinons le tracé en entonnoir.
⚠️ Asymmetric Funnel
Petit cluster d'essais sur la gauche (montrant les avantages). Où sont les petits essais négatifs ?
Test d'Egger p = 0,04 — asymétrie statistiquement significative.
Année : 1995 — Rapports ISIS-4
"Et puis est venue la vérité..."
The Quatrième étude internationale sur la survie à l'infarctus (ISIS-4) recruté 58 050 patients dans 1 086 hôpitaux dans 31 paie.
Avant et après : le tableau complet
Regardez ce qui se passe lorsque nous ajoutons le méga-essai à notre parcelle forestière...
BEFORE ISIS-4
7 small trials (N = 3,274)
OR = 0.44
Signal de bénéfice fort
AFTER ISIS-4
8 essais (N = 61 324)
OR = 1.02
Aucun effet
Pourquoi les petits essais ont-ils induit en erreur ?
Biais de publication
Petits essais n'ont jamais été publiés - ils sont restés dans des tiroirs
Small-Study Effects
Les essais de plus petite envergure ont tendance à montrer des effets plus importants en raison de faiblesses méthodologiques
Biais aléatoire élevé
Par hasard, quelques petits essais ont eu lieu des résultats extrêmes — et ceux-ci sont publiés
Random-Effects Amplification
Les modèles à effets aléatoires accordent plus de poids aux petits essais, les amplifiant biais
Effets fixes ou aléatoires
Quel modèle devriez-vous choisir ?
Suppose un vrai effet. Pondère les études par variance inverse (précision). Les grands essais dominent.
Magnesium result: OR = 0.96 (p = 0.52)
Suppose distribution des effets. Donne plus de poids aux petits essais. Intervalles de confiance plus larges.
Magnesium result: OR = 0.59 (p = 0.01)
⚠️ Le choix du modèle a déterminé la conclusion !
Lorsqu'un biais de publication existe, des effets aléatoires peuvent le rendre pire.
Les leçons du magnésium
1. Vérifiez les biais de publication avant de se fier à une estimation groupée. Les tracés en entonnoir et le test d'Egger sont vos outils.
2. Méfiez-vous des effets des petites études. Si seuls de petits essais montrent un bénéfice, attendez un essai de grande envergure et bien mené.
3. Le choix du modèle est important. Les effets aléatoires peuvent amplifier les preuves biaisées. Considérez les deux modèles et comprenez les implications.
4. Un grand essai peut renverser de nombreux petits essais. C'est pourquoi les méga-essais comme ISIS-4 sont si précieux.
Quiz du module 7
1. Pourquoi la méta-analyse du magnésium a-t-elle montré un bénéfice qu'ISIS-4 n'a pas trouvé ?
2. Quel signe d’avertissement aurait dû alerter les évaluateurs d’un biais potentiel ?
3. Lorsqu'un biais de publication est suspecté, quel modèle peut amplifier le biais ?
Designs d'études spéciaux en méta-analyse
Tous les ECR n'utilisent pas un design en groupes parallèles standard. Deux alternatives courantes nécessitent un traitement spécial lors du pooling des résultats :
Essais randomisés en grappes
Randomise des groupes (hôpitaux, écoles), pas des individus. L'effet de plan = 1 + (m−1) × ICC réduit la taille d'échantillon effective. Diviser N par l'effet de plan avant le pooling, ou utiliser l'ET ajustée de l'essai. Ignorer le clustering produit des IC artificiellement étroits.
Essais croisés (Crossover)
Chaque patient reçoit les deux traitements. Le design apparié réduit la variance, mais vous avez besoin de la corrélation intra-patient (ou l'ET de l'analyse appariée) pour combiner correctement. Utiliser l'ET du groupe parallèle est conservateur ; utiliser le mauvais N double-compte les patients.
Voir le Manuel Cochrane v6.4, Chapitre 23 pour les formules détaillées et exemples pratiques.
De petits essais peuvent montrer de faux signaux.
Des essais à grande échelle ancrent la vérité.
L'hétérogénéité est un message, pas un bruit.
L'hétérogénéité est un message, pas un bruit.
Module 8 : L'hétérogénéité
L'hétérogénéité est un message, pas un bruit.
ACCORD : 2008
Quand la moyenne cache le vérité.
Module 8 : L'hétérogénéité
🎯 Learning Objectives
- Calculez et interprétez I², τ² et les intervalles de prédiction
- Appliquer les critères ICEMAN pour évaluer la crédibilité du sous-groupe
- Distinguer l'hétérogénéité clinique, méthodologique et statistique
- Réaliser et interpréter des analyses de sensibilité sans intervention
- Expliquez comment ACCORD a révélé des effets différentiels entre les sous-groupes
L'année : 2008
"Vous êtes sur le point d'assister à l'une des terminaisons d'essais les plus choquantes de l'histoire..."
Pendant des décennies, la communauté du diabète avait un guide principe : une glycémie plus faible est préférable. Les études historiques DCCT (1993) et UKPDS (1998) ont montré qu'un contrôle intensif de la glycémie réduisait les complications microvasculaires : cécité, insuffisance rénale, lésions nerveuses.
L'extrapolation logique :
Si le contrôle de la glycémie prévient les complications, un contrôle intensif ne devrait-il pas également prévenir les maladies cardiovasculaires ?
ACCORD : Action pour contrôler le risque cardiovasculaire dans le diabète
Le test définitif de contrôle intensif de la glycémie
Tous les patients souffraient de diabète de type 2 avec un risque cardiovasculaire élevé, qu'il s'agisse d'une maladie cardiovasculaire établie ou de plusieurs facteurs de risque. L'essai a été conçu pour une durée de 5,6 ans.
6 février 2008
Le comité de surveillance de la sécurité des données convoque une réunion d'urgence.
Après 3,5 ans, ils prennent une décision sans précédent :
ARRÊTEZ L'ESSAI.
Les résultats choquants
| Résultat | Intensif | Standard | HR (95% CI) |
|---|---|---|---|
| Critère de jugement principal du CV | 352 événements | 371 événements | 0.90 (0.78–1.04) |
| All-cause mortality | 257 décès | 203 décès | 1.22 (1.01–1.46) |
| Severe hypoglycemia | 10.5% | 3.5% | 3,0× supérieur |
Exercice d'enquête : le dilemme du clinicien
Vous êtes un endocrinologue auprès de 500 patients diabétiques. Les résultats ACCORD sont publiés. Que dites-vous à vos patients qui recherchent un taux d'HbA1c <6 % ?
Un contrôle intensif est-il nocif pour tout le monde ? Ou seulement pour certains ?
Analyse de sous-groupe révélée :
| Sous-groupe | Intensive HR | Interprétation |
|---|---|---|
| Aucun MCV antérieur | 1.00 (0.76–1.32) | Aucun effet |
| Prior CVD | 1.45 (1.15–1.84) | Significant harm |
| HbA1c de base <8 % | 1.02 (0.75–1.40) | Aucun effet |
| HbA1c de base ≥8% | 1.29 (1.03–1.60) | Nuire |
L'effet moyen masqué est critique hétérogénéité !
Pour les patients présentant une maladie cardiovasculaire établie ou un mauvais contrôle de base, le traitement intensif nocif était.
Comprendre l'hétérogénéité : I² et Au-delà
Lorsque des études (ou des sous-groupes) montrent des effets différents, nous devons quantifier cette variation.
I² = 0–25%: Faible hétérogénéité. Les effets sont cohérents dans toutes les études.
I² = 25–50%: Modéré. Recherchez les sources de variation.
I² = 50–75%: substantiel. Déterminez si la mise en commun est appropriée.
I² = 75–100%: Considérable. Une seule estimation groupée peut induire en erreur.
Mais I² à lui seul ne vous dit pas quoi faire : il indique que vous devez approfondir vos recherches.
Tau² (τ²) : la variance entre les études
Alors que I² vous indique la proportion de variance due à l'hétérogénéité, τ² vous indique l'ampleur.
"Quelle fraction de la variance totale est due aux véritables différences entre les études ?"
Echelle : 0% à 100%
"Dans quelle mesure les effets réels varient-ils entre les études ?"
Même échelle que la mesure de l'effet
Utilisez τ² pour calculer prediction intervals
Un intervalle de prédiction montre la gamme d'effets auxquels vous vous attendez dans une nouvelle étude, souvent beaucoup plus large que l'intervalle de confiance.
L'intervalle de prédiction : ce que ACCORD nous dit réellement
Envisagez une méta-analyse du contrôle intensif de la glycémie à travers plusieurs essais...
Confidence Interval
HR 1.10 (0.95–1.27)
"Notre meilleure estimation de l'effet moyen"
Intervalle de pr?diction
HR 1.10 (0.70–1.73)
"La gamme d'effets dans un nouveau décor"
L'intervalle de prédiction couvre à la fois les avantages et les inconvénients !
Dans certains contextes, un contrôle intensif peut être utile. Dans d'autres, cela pourrait tuer.
Quand un effet de sous-groupe est-il crédible ?
L'instrument ICEMAN (instrument d'évaluation de la crédibilité de la modification de l'effet Analyses)
L'analyse des sous-groupes a-t-elle été prédéfinie ?
Les sous-groupes post-hoc sont sujets au dragage des données
Existe-t-il une hypothèse biologique plausible justification ?
Le mécanisme doit être clair et indépendant des données
L'effet est-il cohérent entre les critères de jugement associés ?
Si un préjudice apparaît pour mortalité, y a-t-il des dommages similaires en cas d'IM et d'accident vasculaire cérébral ?
Y a-t-il une réplication indépendante ?
L'effet du sous-groupe a-t-il été confirmé dans d'autres études ?
ICEMAN appliqué à ACCORD
| Critère | Évaluation | Score |
|---|---|---|
| Pré-spécifié ? | Oui : une maladie cardiovasculaire antérieure figurait dans le protocole | ✓ |
| Biological rationale? | Oui : l'hypoglycémie est plus dangereuse en cas de maladies cardiovasculaires | ✓ |
| Consistent outcomes? | Oui – Mortalité CV et mortalité toutes causes confondues alignées | ✓ |
| Independent replication? | Partiellement : ADVANCE et VADT ont montré des tendances similaires | ~ |
Classement ICEMAN : haute crédibilité
Le préjudice différentiel chez les patients à haut risque semble réel.
Les implications cliniques
Pour les patients sans MCV : Un contrôle modéré de la glycémie (HbA1c ~ 7 %) reste l'objectif. Un contrôle intensif peut réduire les complications microvasculaires.
Pour les patients présentant une maladie cardiovasculaire établie : Évitez les cibles intensives. L'hypoglycémie est dangereuse pour les cœurs endommagés.
Pour les personnes âgées patients : Cibles détendues. La qualité de vie compte. Un contrôle strict provoque des chutes, de la confusion et une mortalité excessive.
Le traitement « taille unique » n'est pas une médecine centrée sur le patient.
Méta-régression : expliquer l'hétérogénéité
Lorsque l'hétérogénéité est élevée, la méta-régression peut identifier les covariables au niveau de l'étude qui expliquent la variation.
L'ampleur de l'effet varie-t-elle systématiquement avec les caractéristiques de l'étude ?
Prudence
La méta-régression nécessite ≥10 études par covariable. Avec peu d’études, elle est uniquement exploratoire. Erreur écologique : les associations au niveau de l'étude peuvent ne pas s'appliquer aux individus.
Exemple: Dans ACCORD, la méta-régression pourrait tester si l'effet du traitement varie en fonction de l'HbA1c de base, démontrant que les dommages sont concentrés chez les patients présentant des taux très élevés.
Quel numéro sauve des vies ? Qui décide ?
DONNÉES RÉELLES
Pendant des décennies, l'objectif était : traiter la tension artérielle à <140 mmHg systolic. Then came SPRINT (2015): 9 361 patients à haut risque randomisé selon des cibles intensives (<120) par rapport aux cibles standard (<140). Traitement intensif réduit Événements CV de 25 % and décès de 27%. L’essai s’est arrêté prématurément pour en bénéficier. Les directives ont changé dans le monde entier.
Quiz module 8
1. Pourquoi l'essai ACCORD a-t-il été arrêté prématurément ?
2. Qu'est-ce qu'un intervalle de prédiction nous dit qu'un intervalle de confiance ne nous dit pas ?
3. Selon ICEMAN, quel facteur est le PLUS important pour la crédibilité du sous-groupe ?
Lorsque les études ne sont pas d'accord,
écouter le désaccord.
L'hétérogénéité est un message, pas un bruit.
L'absence de preuve n'est pas une preuve d'absence.
Module 9 : Les études cachées
L'absence de preuve n'est pas une preuve d'absence.
Réboxétine : 2010
Les 74 % qui n'ont jamais vu le jour.
Module 9 : Les études cachées
🎯 Learning Objectives
- Interpréter les tracés en entonnoir pour la détection de l'asymétrie
- Appliquer le test d'Egger et d'autres tests statistiques pour le biais de publication
- Mettre en œuvre la méthode de découpage et de remplissage pour le biais ajustement
- Évaluer de manière critique les limites des tests de biais de publication
- Appliquer le principe : "L'absence de preuve n'est pas une preuve d'absence"
Année : 1997
"Un nouvel espoir pour les patients dépressifs qui ne peuvent pas tolérer les ISRS..."
La réboxétine (Edronax) était un nouvel antidépresseur, un inhibiteur sélectif de la recapture de la noradrénaline (NRI). Contrairement à l'ISRS, il ciblait un système de neurotransmetteurs différent. Pour les patients qui ne toléraient pas ou ne toléraient pas la fluoxétine ou la sertraline, il offre un nouveau mécanisme.
Les données probantes publiées
Ce que les médecins ont pu trouver dans les revues médicales :
| Comparaison | Published Trials | Published Result |
|---|---|---|
| Réboxétine vs Placebo | 3 essais (n=507) | Significativement meilleure (SMD = 0,56) |
| Réboxétine vs ISRS | 4 essais (n=628) | Équivalent ou supérieur |
La littérature publiée raconte une histoire claire :
La réboxétine fonctionne. Les patients en profitent. Prescrire en toute confiance.
Mais qu'en est-il des essais que vous ne pouviez pas voir ?
En 2010, des chercheurs allemands de l'IQWiG ont adressé une demande à l'Agence européenne des médicaments...
Ils ont demandé l'accès à all données des essais publiées et non publié.
Ce qu'ils ont trouvé a tout changé.
Le tableau complet
Eyding et coll., BMJ 2010
| Comparaison | Published Only | TOUTES LES DONNÉES |
|---|---|---|
| Réboxétine vs Placebo | SMD 0.56 (benefit) | SMD 0,10 (aucun avantage) |
| Patients analysés | 507 (14%) | 2,731 (100%) |
| Réboxétine vs ISRS | Équivalent | Inférieur (RR 1,23 pour les dommages) |
| Patients analysés | 628 (26%) | 2,411 (100%) |
Exercice d'enquête : le tiroir-classeur
Vous êtes un évaluateur systématique en 2008. Vous effectuez une recherche dans PubMed, Embase et la bibliothèque Cochrane pour tous les essais sur la réboxétine. Vous trouvez 7 essais publiés démontrant un bénéfice.
Pouvez-vous faire confiance à ces preuves ?
⚠️ L'entonnoir est considérablement réduit asymétrique !
Toutes les études publiées se regroupent d'un seul côté. Où sont les essais nuls et négatifs ?
La boîte à outils sur le biais de publication
Diagramme en entonnoir
Taille de l'effet de tracé par rapport à l'erreur standard. Un entonnoir symétrique ne suggère aucun biais ; l'asymétrie déclenche des alarmes.
Test de régression d'Egger
Régression de l'effet standardisé sur la précision. P <0,10 suggère des effets issus d'une petite étude.
Peters' Test
Pour les résultats binaires, régresse le journal OU sur l'inverse de la taille totale de l'échantillon. Moins sujet aux faux positifs.
Découper et remplir
Impute les études « manquantes » pour rendre l'entonnoir symétrique, puis recalcule l'effet poolé.
Interactif : analyser le Trim-and-Fill
Appliquons le découpage et le remplissage aux données de reboxétine et voyons quelle serait l'estimation ajustée...
Published Only
7 essais
SMD = 0.56
Significant benefit
Découper et remplir
7 + 5 imputed = 12 trials
SMD = 0.23
Réduit, toujours nominalement significatif
Mais même le trim-and-fill a sous-estimé le problème !
Le véritable effet avec tous les données étaient SMD = 0,10 (essentiellement nulles).
Le découpage et le remplissage sont conservateurs, ce n'est pas le cas. entièrement correct pour une publication sélective.
La meilleure défense : registres d'essais
Les méthodes de détection des biais de publication sont imparfaites. La vraie solution est prospective registration.
Lors de la recherche d'essais, vérifiez toujours les registres. Comparez le nombre de enregistré essais au nombre publié. Cette lacune est votre signal d'alarme.
Depuis 2005, l'ICMJE exige l'enregistrement des essais comme condition de publication.
La campagne AllTrials
"Tous les essais enregistrés. Tous les résultats rapportés."
Le scandale de la réboxétine, ainsi que des cas similaires concernant d'autres médicaments, ont catalysé un mouvement mondial :
2013 : Politique de données cliniques de l'EMA
L'Agence européenne des médicaments s'engage à publier des rapports d'études cliniques
2016 : application de la FDA Amendments Act
Rapport obligatoire des résultats sur ClinicalTrials.gov dans les 12 mois
AllTrials Coalition
Plus de 90 000 sympathisants, plus de 700 organisations exigeantes transparence
Les conséquences de la réboxétine
L'IQWiG allemand recommande de ne pas utiliser la réboxétine pour la dépression
Le NICE du Royaume-Uni l'a déclassé à "non recommandé"
La FDA avait rejeté la reboxétine en 2001 (ils avait accès à des données non publiées)
Pendant plus d'une décennie, les patients n'ont pas reçu un médicament meilleur qu'un placebo.
Car seuls les essais positifs ont été publiés.
Module 9 Quiz
1. Quel pourcentage des données des essais sur la réboxétine a été caché dans la littérature publiée ?
2. Pourquoi le découpage et le remplissage peuvent-ils sous-estimer la correction nécessaire ?
3. Quelle est la meilleure défense prospective contre le biais de publication ?
Ce que tu ne peux pas voir
peut être plus important que ce que vous pouvez.
L'absence de preuve n'est pas une preuve d'absence.
La certitude doit être gagnée et non assumée.
Module 10 : Le Certitude
La certitude doit être gagnée et non assumée.
Early Surfactant: 2012
Lorsque des données probantes de haute qualité évoluent.
Module 10 : Le Certitude
🎯 Learning Objectives
- Appliquer le cadre complet GRADE pour évaluer la certitude des preuves
- Évaluez les cinq facteurs de déclassement (RoB, incohérence, caractère indirect, imprécision, biais de publication)
- Identifier quand effectuer une mise à niveau en cas d'effet important, de dose-réponse ou de confusion
- Construire des tableaux de résumé des résultats avec des estimations d'effet absolu
- Appliquer le principe : "La certitude doit être gagnée, pas supposé"
L'année : années 1990
"Une révolution dans les soins néonatals..."
Le syndrome de détresse respiratoire (SDR) était la principale cause de décès chez les nourrissons prématurés. Le développement de substances exogènes tensioactif, la substance qui empêche les alvéoles de s'effondrer, a été l'une des grandes avancées de la médecine néonatale.
La question est devenue : Quand devrions-nous administrer un surfactant ?
Prophylactiquement (pour tous les nourrissons à haut risque) ou sélectivement (uniquement après le développement du SDR) ?
La revue Cochrane originale (2003)
Plusieurs ECR menés avant l'ère de la CPAP de routine
| Résultat | Prophylactique vs Sélectif | Certitude |
|---|---|---|
| Neonatal mortality | RR 0,73 (favorise la prophylaxie) | Haut |
| TPL ou décès | RR 0,84 (favorise prophylactique) | Haut |
Mais le monde des soins néonatals était en train de changer...
Une nouvelle technologie a émergé : Pression positive continue des voies respiratoires (CPAP)
Soutien non invasif qui pourrait aider les poumons prématurés sans intubation.
Les anciennes preuves s'appliqueraient-elles toujours ?
La mise à jour Cochrane 2012
Nouveaux essais menés à l'ère CPAP
| Résultat | Old Trials | New Trials |
|---|---|---|
| TPL ou décès | RR 0,84 (favorise prophylactique) | RR 1,12 (favorise la sélectivité) |
| Besoin d'une ventilation mécanique | Faible avec prophylaxie | Plus élevé avec prophylaxie ! |
Enquête : pourquoi les preuves ont-elles évolué ?
Vous êtes néonatologiste. Un collègue demande : « Comment les essais randomisés peuvent-ils se contredire ? »
Les preuves originales étaient-elles erronées ?
Indirectness Changed
Anciens essais : aucune CPAP disponible. Nouveaux essais : norme de soins CPAP.
Le comparateur amélioré
Le surfactant sélectif + la CPAP sont meilleurs que l'intubation prophylactique.
Context Matters
Les preuves d'une époque peuvent ne pas s'appliquer à une autre.
C'est pourquoi GRADE évalue le caractère indirect !
Des preuves de haute qualité peuvent devenir inapplicables lorsque le contexte change.
Le cadre GRADE
Classement des recommandations, évaluation, développement et évaluations
GRADE répond à la question : Dans quelle mesure sommes-nous confiants dans cette estimation ?
⊕⊕⊕⊕ ÉLEVÉ : Très confiant. L'effet réel est proche de l'estimation.
⊕⊕⊕◯ MODÉRÉ : Modérément confiant. L'effet réel est probablement proche, mais peut différer considérablement.
⊕⊕◯◯ LOW: Confiance limitée. L'effet réel peut différer considérablement.
⊕◯◯◯ VERY LOW: Très peu de confiance. L'effet réel est probablement sensiblement différent.
GRADE : Facteurs qui dégradent la certitude
Les preuves ECR commencent à ÉLEVÉ. Il peut être rétrogradé en raison de :
Risque de biais
La randomisation défectueuse, le manque de mise en aveugle, le suivi incomplet, les rapports sélectifs
Incohérence
Hétérogénéité inexpliquée entre les études (grand I², sans chevauchement CI)
Indirectité
Différences dans la population, l'intervention, le comparateur ou les résultats de la question
Imprécision
Intervalles de confiance larges, petite taille d'échantillon, peu d'événements
GRADE : le cinquième facteur
Biais de publication
Tracé en entonnoir asymétrique, essais enregistrés manquants, influence du sponsor
Chaque facteur peut être déclassé d'un ou deux niveaux
Élevé → Modéré → Faible → Très faible
Exemple: Une méta-analyse d'ECR (début ÉLEVÉ) présentant un risque élevé de biais (↓1) et un caractère indirect grave (↓1) serait notée LOW.
Interactif : appliquer GRADE au surfactant
Évaluons la certitude des preuves en faveur du surfactant prophylactique à l'aide d'essais anciens et nouveaux.
ANCIENS ESSAIS (Pré-CPAP)
Départ: HIGH (RCTs)
Risque de biais : Low (−0)
Incohérence : Aucun (−0)
Indirectité : Sérieux (−1)
Norme de soins différente aujourd'hui
Final: ⊕⊕⊕◯ MODÉRÉ
NOUVEAU ESSAIS (CPAP Era)
Départ: HIGH (RCTs)
Risque de biais : Low (−0)
Incohérence : Aucun (−0)
Indirectité : Aucun (−0)
Correspond à la pratique actuelle
Final: ⊕⊕⊕⊕ ÉLEVÉ
GRADE : facteurs qui améliorent la certitude
Les preuves d'observation commencent à FAIBLE. Il peut être mis à niveau pour :
Grande ampleur de Effet
RR >2 ou <0,5 sans confusion plausible
Dose-Response Gradient
Une exposition plus élevée = un effet plus important selon un schéma cohérent
Residual Confounding
Tous les facteurs de confusion plausibles réduiraient l'effet (renforce l'inférence causale)
Communicating Certainty
GRADE nécessite un langage transparent sur la confiance :
HAUT: "Prophylactic surfactant réduit mortalité..."
MODÉRÉ: "Prophylactic surfactant probably reduces mortalité..."
LOW: "Prophylactic surfactant may reduce mortalité..."
VERY LOW: "Nous sommes uncertain whether le surfactant prophylactique réduit la mortalité..."
Ce langage garantit que les cliniciens comprennent la force des preuves.
Une trop grande bouée de sauvetage peut-elle devenir une tueur ?
DONNÉES RÉELLES
1940s-50s: Des concentrations élevées d'oxygène ont sauvé les bébés prématurés de l'insuffisance respiratoire. Puis vint épidémie de cécité—fibroplasie rétrolentale (maintenant appelée ROP). Médecins réduction spectaculaire de l'oxygène. La cécité est tombée. Mais alors : augmentation des décès et des lésions cérébrales de l'hypoxie. Le niveau d'oxygène optimal requis décennies de essais à trouver. Les récents essais SUPPORT/BOOST II ont finalement défini la fenêtre thérapeutique : SpO2 91-95%.
Module 10 Quiz
1. Pourquoi la recommandation sur les tensioactifs s'est-elle inversée entre 2003 et 2012 ?
2. Lequel des éléments suivants n'est PAS un facteur de déclassement de GRADE ?
3. Quel langage doit être utilisé pour les preuves de FAIBLE certitude ?
Un nombre ne suffit pas.
Vous devez indiquer votre niveau de certitude.
La certitude doit être gagnée et non assumée.
Les méthodes protègent les patients de notre confiance.
Module 11 : La revue vivante
Les méthodes protègent les patients de notre confiance.
COVID-19 Hydroxychloroquine: 2020
Lorsque l'urgence est satisfaite preuves.
Module 11 : La revue vivante
🎯 Learning Objectives
- Appliquer l'analyse séquentielle des essais pour déterminer quand les preuves sont suffisantes
- Concevoir et maintenir une revue systématique vivante
- Établir des déclencheurs de mise à jour et des limites de futilité/préjudice
- Gérer la multiplicité et les dépenses alpha dans des analyses séquentielles
- Expliquez avec quelle rapidité les preuves sont obtenues synthèse évoluée pendant la COVID-19
Mars 2020 : un monde en crise
"Le virus se propage plus rapidement que ce que nous comprenons..."
Le COVID-19 tuait des milliers de personnes. Les unités de soins intensifs débordaient. Il n’existait ni vaccin, ni traitement. Puis une lueur d'espoir : hydroxychloroquine (HCQ)- un ancien médicament contre le paludisme - a montré une activité antivirale dans des études en laboratoire.
Le Rush to Adopt
À quelques semaines de l'étude Gautret :
28 mars : FDA délivre une autorisation d'utilisation d'urgence pour HCQ
4 avril : L’Inde interdit les exportations de HCQ (craintes de thésaurisation)
Mondial: Les pénuries concernent les patients atteints de lupus et de polyarthrite rhumatoïde
Des millions de personnes ont reçu du HCQ sur la base d'une étude observationnelle de 36 patients
Qu'est-ce qui pourrait mal se passer ?
Enquête : l'étude Gautret
Vous êtes un expert EBM chargé d'évaluer l'étude française HCQ. Examinez la conception...
| Problème | Impact |
|---|---|
| Non randomisé | Biais de sélection : qui a obtenu HCQ ? |
| 6 patients exclus | 3 sont allés aux soins intensifs, 1 est décédé, 1 s'est retiré, 1 a été hospitalisé nausées |
| Surrogate outcome | Charge virale, pas de résultats cliniques |
| Contrôle de différents hôpitaux | Des soins différents, différents tests |
| No blinding | Biais d'attente dans les tests de laboratoire |
Cette étude présenterait un risque de biais ÉLEVÉ sur RoB 2.0
Certitude de GRADE : TRÈS FAIBLE. Pourtant, cela a changé la politique mondiale.
Pourquoi les études observationnelles sur le COVID ont été induites en erreur
Immortel Time Biais
Les patients doivent survivre suffisamment longtemps pour recevoir un traitement. Les survivants sont comparés aux non-survivants.
Confondant par Indication
Les patients plus malades peuvent recevoir des traitements différents. Des patients en meilleure santé ont reçu l'HCQ plus tôt.
Effet utilisateur sain
Les patientes qui recherchent un traitement ont tendance à être globalement en meilleure santé.
Outcome Reporting
Les études avec des résultats positifs ont été publiées plus rapidement.
Juin 2020 : Le rapport des ECR
Des essais rigoureux et de grande envergure réalisés à une vitesse remarquable
| Procès | N | Résultat |
|---|---|---|
| RECOVERY (UK) | 4,716 | Aucun bénéfice sur la mortalité (RR 1,09) |
| WHO SOLIDARITY | 954 | Aucun avantage (RR 1,19) |
| ORCHID (US) | 479 | Arrêté pour cause de futilité |
Chronologie : données probantes observationnelles ou ECR
Mars-mai 2020
Observation : ~20 études
Suggest benefit
OR groupé ~0,65
Juin-Juillet 2020
ECR : RECOVERY, SOLIDARITY
Ne montre aucun avantage/préjudice
Pooled RR ~1.10
De « prometteur » à « inefficace » en 3 mois
C'est pourquoi nous avons besoin de randomisation et d'analyses vivantes pour suivre l'évolution preuves.
Examens systématiques vivants
Une nouvelle approche pour des preuves en évolution rapide :
Continuous Surveillance
Recherchez dans la littérature chaque semaine, voire quotidiennement, de nouvelles preuves
Méta-analyse cumulative
Mettre à jour les estimations regroupées à chaque nouvel essai
Analyse séquentielle des essais (TSA)
Déterminez quand suffisamment d'informations se sont accumulées pour conclure
Transparent Versioning
Suivez chaque changement, maintenez-le complet piste d'audit
Analyse séquentielle des essais (TSA)
Quand en avons-nous suffisamment appris ?
La TSA applique des limites d'arrêt à la méta-analyse, de la même manière qu'une analyse intermédiaire dans un seul essai. Cela explique le taille des informations requises (RIS) nécessaires pour détecter ou exclure un effet cliniquement significatif.
Pour HCQ dans COVID, la TSA a montré que la limite de futilité avait été franchie en juin 2020.
Leçons de la saga HCQ
1. Les études observationnelles peuvent induire en erreur de façon spectaculaire lorsque les biais sont répandus. Même de nombreuses études allant dans la même direction peuvent être erronées.
2. Les ECR peuvent être menés rapidement lorsque la volonté existe. RECOVERY a recruté plus de 5 000 patients en quelques semaines.
3. Les examens vivants sont essentiels pour des sujets en évolution. Les évaluations à un moment donné deviennent instantanément obsolètes.
4. La pression politique ne change pas la biologie. Des méthodes rigoureuses protègent les patients même lorsqu'ils sont sous pression.
Et si la prévention EST la cause ?
DONNÉES RÉELLES
Pendant des décennies, des lignes directrices pédiatriques recommandé : éviter les cacahuètes pendant la petite enfance pour prévenir les allergies. Pendant ce temps, les taux d’allergie aux arachides triplé de 1997 à 2008. Puis est venu SAUT (2015): 640 nourrissons à haut risque randomisés pour une introduction précoce aux arachides plutôt qu'un évitement. Résultat : introduction précoce réduction de 81 % de l'allergie aux arachides (1,9 % contre 13,7 %). La stratégie de prévention était à l'origine de l'épidémie.
Module 11 Quiz
1. Quel était le principal défaut de l’étude Gautret sur l’hydroxychloroquine ?
2. Qu'est-ce que l'analyse séquentielle des essais aide à déterminer ?
3. Pourquoi les études observationnelles sur la COVID ont-elles montré un bénéfice de l'HCQ alors que les ECR ne l'ont pas fait ?
La rapidité ne peut pas remplacer la rigueur.
Mais la rigueur peut être rapide.
Revues récentes équilibrer les deux.
Tous les signaux ne sont pas vrais.
Module 12 : Méthodes avancées
Tous les signaux ne sont pas vrais.
Méthodes avancées
Au-delà de la méta-analyse par paires.
Module 12 : Méthodes avancées
🎯 Learning Objectives
- Interpréter la géométrie de la méta-analyse du réseau et les classements SUCRA
- Appliquer des modèles bivariés pour une méta-analyse de l'exactitude des tests diagnostiques
- Effectuez une méta-analyse dose-réponse avec des splines flexibles
- Comprendre quand une méta-analyse des données individuelles des patients (IPD) est nécessaire
- Reconnaître les hypothèses et les limites de chaque méthode avancée méthode
Quand deux par deux ne suffisent pas
"Parfois, la question est plus complexe que A contre B..."
Les méthodes que vous avez apprises constituent la base. Mais la réalité clinique exige souvent plus : Lequel des 10 antidépresseurs est le meilleur ? Quelle est la dose optimale de statine ? Ce test permet-il de diagnostiquer avec précision un cancer précoce ?
Ce module présente quatre méthodes avancées, chacune répondant à différentes questions complexes.
Méta-analyse de réseau (NMA)
Lorsque vous avez de nombreux traitements mais peu de face-à-face essais
NMA combines direct preuve (A vs B) avec preuves indirectes (A vs C, B vs C → déduit A vs B) pour comparer plusieurs traitements simultanément.
Exemple NMA : antidépresseurs
Le rapport historique Cipriani 2018 NMA comparé à 21 antidépresseurs utilisant 522 essais.
Le défi
21 médicaments, mais toutes les paires n'ont pas été testées en tête-à-tête
Beaucoup contre placebo, peu les uns contre les autres
La solution
La NMA "emprunte sa force" à travers réseau
Classe les 21 en termes d'efficacité et d'acceptabilité
Résultat : Amitriptyline, mirtazapine la plus efficace ; la fluoxétine et la vortioxétine sont les plus tolérables
Aucun médicament n'est « le meilleur » – cela dépend de ce qui compte pour le patient.
NMA : hypothèses critiques
Transitivité
Patients, résultats et modificateurs d'effet similaires dans les comparaisons
Cohérence
Preuves directes et indirectes concordantes (testables)
Connected Network
Tous les traitements liés par au moins un comparateur commun
Lorsque les hypothèses échouent, la NMA peut induire en erreur
Toujours évaluer la transitivité et tester l'incohérence.
Méta-analyse dose-réponse
Trouver l'optimal dose
Utilise le Méthode Groenland-Longnecker avec des splines cubiques restreintes pour modéliser des relations non linéaires entre la dose et l'effet.
Non-linear patterns
En forme de J (alcool et mortalité), en forme de U (vitamine D), seuil (aspirine)
Clinical relevance
Trouvez la dose avec le meilleur équilibre bénéfices-risques, pas seulement « plus c'est mieux »
Données individuelles des patients (IPD)
L'étalon-or pour le sous-groupe analyse
Au lieu de données récapitulatives publiées, obtenir données brutes au niveau du patient des essayistes. Permet des analyses précises de sous-groupes, une modélisation du temps jusqu'à l'événement et des définitions standardisées.
Le groupe collaboratif des premiers essais sur le cancer du sein a été le pionnier de l'IPD MA dans les années 1980.
Précision des tests de diagnostic (DTA)
Lorsque « l'intervention » est un test
DTA la méta-analyse synthétise sensibilité (taux de vrais positifs) et spécificité (taux vrai négatif) : deux résultats corrélés nécessitant une analyse bivariée modèles.
Modèle bivarié/HSROC
Comprend en compte la corrélation entre la sensibilité et la spécificité
SROC Curve
Courbe ROC récapitulative avec Régions de confiance et de prédiction à 95 %
QUADAS-2
Évaluation de la qualité des études sur l'exactitude du diagnostic
Choisir la bonne méthode
| Question | Méthode |
|---|---|
| Does A beat B? | Pairwise MA |
| Lequel des plusieurs traitements sont les meilleurs ? | Réseau MA (NMA) |
| Quelle est la dose optimale ? | Dose-Response MA |
| Qui en profite le plus ? (sous-groupes) | IPD MA |
| Quelle est la précision de ce test ? | DTA MA |
| Comment l'effet évolue-t-il dans le temps ? | AMM de survie/délai jusqu'à l'événement |
La méthode doit correspondre à la question. Ne forcez jamais une question dans la mauvaise méthode.
Trois grands essais. Trois réponses différentes. Que pensez-vous ?
DONNÉES RÉELLES
CORTICUS (2008) : 499. Hydrocortisone en cas de choc septique. Aucune mortalité bénéfice. ADRENAL (2018) 3 658 patients. Hydrocortisone. Aucune mortalité bénéfice. APROCCHSS (2018) : 1 241 patients. Hydrocortisone + fludrocortisone. Mortality reduced (43 % contre 49,1 %, p = 0,03). Même classe d'intervention. Différents protocoles. Différents résultats.
Quiz du module 12
1. Quel est le principal avantage de la méta-analyse en réseau par rapport à la méta-analyse par paire ?
2. Pourquoi la méta-analyse DTA nécessite-t-elle des modèles bivariés ?
3. Qu'exige l'hypothèse de « cohérence » dans la NMA ?
La méthode doit correspondre à la question.
Les méthodes avancées répondent aux questions avancées.
Mais les fondamentaux ne changent jamais.
L'écosystème des cours
Ce cours couvre l'ensemble du flux de travail de la revue systématique. Pour des approfondissements, explorez les cours compagnons :
Bivarié/HSROC, courbes SROC, QUADAS-2
RoB 2, ROBINS-I/E, évaluation par domaine
Tableaux SoF complets, GRADE-CERQual
Modèles à une/deux étapes, effets mixtes
Copas, PET-PEESE, p-curve, modèles de sélection
AMSTAR 2, ROBIS, correction du chevauchement
CHARMS, PROBAST, pooling du c-statistique
TSA, déclencheurs de mise à jour, méthodes abrégées
Module 12 terminé
« La méthode doit correspondre à la question. Les méthodes avancées répondent à des questions avancées — mais les fondamentaux ne changent jamais. »
Vous avez maîtrisé le flux de travail fondamental. Les dix prochains modules explorent la frontière : inférence bayésienne, méta-analyse en réseau, données individuelles de patients, modélisation dose–réponse, robustesse et fragilité, équité, synthèse assistée par IA, preuves qualitatives, méthodes multivariées et reproductibilité.
Tout signal n'est pas vérité.
Module 13 : Le Tournant Bayésien
Tout signal n'est pas vérité.
Module 13 : Le Tournant Bayésien
Module 13 : Le Tournant Bayésien
🎯 Objectifs d'apprentissage
- Expliquer la différence entre l'inférence fréquentiste et bayésienne
- Interpréter les distributions a priori, les vraisemblances et les distributions a posteriori
- Distinguer les intervalles de crédibilité des intervalles de confiance
- Comprendre quand la méta-analyse bayésienne offre des avantages
- Reconnaître comment le choix de l'a priori affecte les conclusions
En 2005, un essai a commencé
qui ne se terminerait jamais vraiment.
L'essai STAMPEDE pour le cancer de la prostate a utilisé un design de plateforme multi-bras, multi-étapes (MAMS). Des bras pouvaient être ajoutés ou abandonnés au fur et à mesure que les preuves s'accumulaient. Bien que ses statistiques fussent fréquentistes, la philosophie adaptative incarnait l'esprit bayésien : mettre à jour les décisions au fil de l'accumulation des données.
La Vision Fréquentiste
En statistique fréquentiste, la probabilité signifie fréquence à long terme. Un IC à 95 % ne signifie PAS « 95 % de probabilité que le vrai effet soit à l'intérieur ». Cela signifie : si nous répétions l'étude à l'infini, 95 % des intervalles contiendraient la vérité.
La Vision Bayésienne
En statistique bayésienne, la probabilité représente le degré de croyance. On commence avec un a priori (ce que l'on croit avant les données), on met à jour avec la vraisemblance (ce que les données nous disent), et on obtient un a posteriori (croyance mise à jour).
A priori × Vraisemblance = A posteriori
Théorème de Bayes : P(θ|données) ∝ P(données|θ) × P(θ)
Intervalles de crédibilité
Un intervalle de crédibilité à 95 % signifie « 95 % de probabilité que le paramètre se trouve ici ». Directement interprétable.
Choisir les A Priori
Non informatif (vague)
Normal(0, 10000) ou uniforme. Laisse les données dominer. Reproduit les résultats fréquentistes.
Faiblement informatif
Normal(0, 1) pour le log-OR. Régularise les estimations extrêmes tout en restant flexible.
Informatif
Basé sur des preuves antérieures. Puissant mais controversé. Doit être pré-spécifié.
Half-Cauchy pour τ
Recommandé pour l'hétérogénéité. Half-Cauchy(0, 0.5) permet des τ grands mais concentre la masse près de zéro.
Échantillonnage MCMC
La plupart des modèles bayésiens ne peuvent pas être résolus analytiquement. On utilise les chaînes de Markov Monte Carlo (MCMC) pour tirer des échantillons de la distribution a posteriori. Outils : JAGS, Stan, brms (R), PyMC (Python).
Pondération Bayésienne de Modèles
Au lieu de choisir entre modèles à effet fixe et à effets aléatoires, la pondération bayésienne de modèles (BMA) pondère chaque modèle par sa probabilité a posteriori. Cela prend en compte l'incertitude du modèle dans l'estimation finale.
Facteurs de Bayes
BF₁₀ > 10 = preuve forte pour H₁. BF₁₀ < 1/10 = preuve forte pour H₀.
Interactif : Visualiseur de Postérieure
Ajustez la force de l'a priori pour voir comment elle affecte la postérieure. Observez comment plus de données submergent l'a priori.
L'Histoire de STAMPEDE
STAMPEDE a été lancé en 2005 avec 5 bras de recherche comparant des traitements pour le cancer avancé de la prostate. En 2016, l'essai avait ajouté l'abiratérone et démontré une réduction de 37 % de la mortalité (HR 0.63, IC 95 % 0.52–0.76).
Le design de plateforme incarne la pensée adaptative bayésienne : les analyses intermédiaires guident la sélection des soutiens-gorge, de nouveaux bras peuvent entrer au fur et à mesure que des traitements émergent, et les bras futiles sont abandonnés tôt—épargnant aux patients des thérapies inefficaces.
STAMPEDE a recruté plus de 10 000 patients dans plus de 100 centres et a fondamentalement transformé la prise en charge du cancer de la prostate. L'état d'esprit bayésien a permis aux preuves de s'accumuler et d'éclairer les décisions en temps réel.
Arbre de Décision : Quand Passer au Bayésien ?
Vous souvenez-vous du Module 1 ?
CAST à Travers le Prisme Bayésien
Si une analyse bayésienne de CAST avait utilisé un a priori informatif basé sur la science fondamentale (les antiarythmiques suppriment les ESV), la postérieure aurait quand même fortement basculé vers le danger. Avec suffisamment de données, même un a priori fort cède devant la vraisemblance. La leçon : les méthodes bayésiennes ne protègent pas contre les mauvais a priori—mais elles rendent les hypothèses transparentes.
Quiz du Module 13
Q1. Que signifie un intervalle de crédibilité bayésien à 95 % ?
Q2. Quel est l'a priori recommandé pour l'hétérogénéité inter-études (τ) ?
Module 13 Terminé
« Le tournant bayésien n'est pas une question de mathématiques. C'est une question d'honnêteté—rendre nos hypothèses visibles. »
Tout signal n'est pas vérité.
Module 14 : Le Réseau
Les méthodes protègent les patients de notre assurance.
Module 14 : Le Réseau
Module 14 : Le Réseau
🎯 Objectifs d'apprentissage
- Expliquer pourquoi les comparaisons par paires sont insuffisantes quand de nombreux traitements existent
- Interpréter la géométrie du réseau (nœuds, arêtes, épaisseur)
- Comprendre la transitivité, la cohérence et le rôle des preuves indirectes
- Interpréter les classements SUCRA et les tableaux de ligue
- Reconnaître quand les hypothèses de la NMA sont violées
Un clinicien fait face à un patient
dépressif. Quel médicament ?
Il existe 21 antidépresseurs couramment prescrits. La plupart des essais comparatifs ne comparent que 2 ou 3 molécules. Cipriani et coll. (2018, Lancet) ont connecté 522 essais et 116 477 patients dans un seul réseau.
La Logique de la Méta-Analyse en Réseau
Preuve directe
Les essais comparant directement A vs B donnent l'estimation la plus fiable.
Preuve indirecte
Si A vs C et B vs C existent, on peut inférer A vs B. C'est l'hypothèse de « transitivité ».
Preuve mixte
La NMA combine les deux, pondérées par la précision, pour classer tous les traitements simultanément.
Interactif : Graphe de Réseau
Chaque nœud est un traitement. L'épaisseur des arêtes représente le nombre d'études comparant ces deux traitements.
Transitivité & Cohérence
Transitivité : L'estimation indirecte (via un comparateur commun) devrait approximer l'estimation directe. Cela exige que les modificateurs d'effet soient distribués de manière similaire entre les comparaisons.
Cohérence : Test statistique comparant les preuves directes et indirectes. Les tests globaux (interaction design-traitement) et locaux (node-splitting) aident à identifier les boucles d'incohérence.
SUCRA & P-scores
Attention : Le classement est séduisant mais trompeur quand les différences entre traitements sont faibles ou incertaines. Toujours rapporter les intervalles de crédibilité/confiance avec les rangs.
NMA par Composantes
Quand les interventions sont complexes (ex. comportementale + pharmacologique), la NMA par composantes décompose les traitements multi-composantes pour estimer la contribution individuelle de chaque composante. Utilise des modèles additifs : effet(A+B) = effet(A) + effet(B) + interaction.
Le Réseau de Cipriani
L'analyse du Lancet de 2018 a montré que les 21 antidépresseurs étaient tous plus efficaces que le placebo. L'amitriptyline, la mirtazapine et la venlafaxine étaient les mieux classées pour l'efficacité. L'agomélatine, la fluoxétine et l'escitalopram étaient les mieux classées pour l'acceptabilité (moins d'abandons).
Aucun médicament n'a « gagné » sur tous les critères. Le réseau a révélé des compromis invisibles à l'analyse par paires.
Arbre de Décision : La NMA Est-elle Appropriée ?
Quiz du Module 14
Q1. Quelle hypothèse doit être vérifiée pour que les preuves indirectes soient valides en NMA ?
Module 14 Terminé
« Le réseau voit ce que les comparaisons par paires ne peuvent pas : le paysage complet des choix thérapeutiques. »
Tout signal n'est pas vérité.
Module 15 : L'Individu
Qu'est-ce qui était caché en pleine vue ?
Module 15 : L'Individu
Module 15 : L'Individu
🎯 Objectifs d'apprentissage
- Expliquer pourquoi les données agrégées peuvent masquer les interactions traitement–covariable
- Distinguer les modèles IPD en une étape et en deux étapes
- Reconnaître le biais écologique dans la méta-analyse agrégée
- Comprendre les défis pratiques de la collecte de DPI
- Interpréter les graphiques d'interaction traitement–covariable
Pendant des décennies, les essais sur le cancer du sein
publiaient des curriculum vitae. Pas des patients.
L'Early Breast Cancer Trialists' Collaborative Group (EBCTCG) a collecté les dossiers individuels de plus de 100 000 femmes à travers des centaines d'essais. Leurs méta-analyses sur DPI ont montré que les bénéfices du tamoxifène dépendent fortement du statut des récepteurs aux œstrogènes—quelque chose d'invisible dans les données agrégées.
Ce Que les Résumés Cachaient
Chaque essai publié sur le tamoxifène rapportait un résultat global. À travers des centaines d'études, le tamoxifène semblait offrir un bénéfice modeste. Mais ce « bénéfice modeste » était une moyenne qui dissimulait une vérité profonde.
La Division Cachée en Sous-groupes
L'effet combiné global—mélangeant patientes réceptives et non réceptives—était une fiction statistique. Une moyenne « modeste » qui surestimait le bénéfice pour un groupe et impliquait un bénéfice inexistant pour l'autre.
Données Agrégées vs Données Individuelles de Patients
Les DPI permettent : (1) des définitions correspondantes des critères de jugement, (2) des analyses en sous-groupes par caractéristiques des patients, (3) la modélisation du délai avant événement, (4) la vérification du biais écologique. C'est le gold standard pour explorer la modification de l'effet du traitement.
DPI en Une Étape vs Deux Étapes
Deux étapes
Analyser chaque étude séparément, puis combiner les estimations (comme la MA standard). Simple mais perte d'information.
Une étape
Ajuster un seul modèle mixte à toutes les données patients simultanément. Plus puissant pour les interactions et les événements rares.
Clé : Les deux doivent tenir compte du regroupement par étude. Ne jamais regrouper les DPI comme s'il s'agissait d'un méga-essai—cela introduit un facteur de confusion (paradoxe de Simpson).
Biais Écologique
Une méta-régression utilisant l'âge moyen au niveau de l'étude pourrait montrer que les patients plus étendus bénéficieraient davantage. Mais cela pourrait être un biais écologique—l'association au niveau de l'étude ne reflète pas la vérité au niveau du patient. Seules les DPI peuvent séparer les effets intra-étude des effets inter-études.
Quand le Tout Ment Sur Ses Parties
Le paradoxe de Simpson : une tendance qui apparaît dans les données agrégées s'inverse lorsque les données sont regroupées par une variable de confusion.
Le Paradoxe en Pratique
Une analyse de type méga-essai a trouvé le Traitement X bénéfique globalement. Mais au sein de chaque étude, il était nocif. Comment ? Les différences de risque de base entre études créaient une illusion—les populations plus malades recevaient davantage de traitement, gonflant le bénéfice agrégé.
Cates (2002, BMJ) a montré que combiner les études sans tenir compte du regroupement peut inverser la direction apparente de l'effet.
C'est pourquoi les modèles DPI à une étape incluent l'étude comme variable de regroupement—pour empêcher la confusion inter-études de se faire passer pour un effet du traitement.
L'Héritage de l'EBCTCG
Les méta-analyses sur DPI de l'EBCTCG ont défini le traitement du cancer du sein pendant 40 ans. Leur analyse de 2005 du tamoxifène versus pas de traitement a montré un bénéfice clair dans les tumeurs ER-positives (RR 0.59) mais aucun bénéfice dans les tumeurs ER-négatives (RR 0.97).
Sans les DPI, l'effet global agrégé aurait été poolé entre les deux groupes— diluant le bénéfice et privant potentiellement les patientes ER-positives de l'ampleur de leur gain.
Arbre de Décision : Quand les DPI Valent-elles la Peine ?
Pouvez-vous obtenir les DPI de >80 % des essais ?
Le biais écologique est-il une préoccupation ?
L'EBCTCG a collecté des données de centaines d'essais sur 40 ans. La plupart des méta-analyses sur DPI portent sur 5–20 essais. La décision dépend de la question, pas de l'ambition.
Le Schéma Se Répète
Souvenez-vous du Module 3 ? Le THS semblait bénéfique dans les études observationnelles mais nocif dans les ECR. Le même masquage par l'agrégation se produisait : le bénéfice global cachait un préjudice dans certains sous-groupes.
L'analyse sur DPI de la Women’s Health Initiative a ensuite montré que le moment importait—les femmes commençant le THS dans les 10 ans suivant la ménopause avaient des résultats différents de celles commençant plus tard. L'« hypothèse du timing » était invisible dans les résumés agrégés publiés.
La leçon se répète : les données agrégées peuvent masquer des interactions traitement–covariable critiques. Que ce soit le statut ER dans le cancer du sein ou le timing dans le THS, les données individuelles révèlent ce que les résumés dissimulent.
Quiz du Module 15
Q1. Quel est le principal avantage des DPI par rapport à la méta-analyse sur données agrégées ?
Module 15 Terminé
« Derrière chaque estimation poolée se trouvent des individus dont les histoires ne peuvent être racontées par l'agrégat. »
L'hétérogénéité est un message, pas du bruit.
Module 16 : La Dose
L'hétérogénéité est un message, pas du bruit.
Module 16 : La Dose
Module 16 : La Dose
🎯 Objectifs d'apprentissage
- Expliquer pourquoi les simples comparaisons par paires ne capturent pas les relations dose–réponse
- Distinguer les modèles dose–réponse linéaires, quadratiques et par splines
- Interpréter les splines cubiques restreintes avec nœuds
- Identifier les effets de seuil et les courbes en J/U
- Comprendre la comparaison de modèles avec AIC/BIC
Pendant des décennies, la consommation modérée d'alcool
semblait protéger le cœur.
La « courbe en J » montrait que les non-buveurs avaient une mortalité cardiovasculaire plus élevée que les buveurs modérés. Mais Stockwell et al. (2016) ont démontré que la courbe en J était un artefact dû à la classification erronée d'anciens buveurs (ayant arrêté pour cause de maladie) comme « abstinents ».
Un Consensus Scientifique Bâti sur du Sable
En 2010, plus de 100 études observationnelles avaient confirmé la courbe en J. Les manuels médicaux l'enseignaient. Les cardiologues la citaient. Les lobbyistes de l'industrie vinicole finançaient des conférences autour d'elle.
Les preuves semblaient accablantes. Mais que se passait-il si le groupe de comparaison—les « abstinents »—était contaminé ?
Le Malade Qui Arrête
Un Facteur de Confusion Caché
Le Problème
Les personnes qui arrêtent de boire le font souvent parce qu'elles sont déjà malades—maladie hépatique, interactions médicamenteuses, diagnostic de cancer. Ces « anciens buveurs » étaient classés comme « abstinents » dans la plupart des études.
L'effet : Le groupe de référence (abstinents) semblait moins en bonne santé—non pas parce que l'abstinence était nocive, mais parce que des personnes malades l'avaient rejoint.
Quand Stockwell et al. (2016, J Stud Alcool Drogues) ont exclu les anciens buveurs et appliqué les corrections de qualité d'étude adéquates : la courbe en J a disparu. L'effet protecteur était un fantôme.
Méta-Analyse Dose–Réponse
La méta-analyse standard demande : « Le traitement X fonctionne-t-il ? » La méta-analyse dose–réponse demande : « À quelle dose le traitement X fonctionne-t-il le mieux ? » Elle modélise la relation entre le niveau de dose et le critère de jugement à travers plusieurs études.
Splines Cubiques Restreintes
Les RCS placent des nœuds à des points de dose pré-spécifiés et ajustent des polynômes lisses entre eux. Typiquement 3–5 nœuds aux quantiles de la distribution des doses. Linéaire au-delà des nœuds aux bornes. Les tests de non-linéarité comparent le modèle par spline à un modèle linéaire plus simple.
Comparaison de modèles
AIC/BIC comparent l'ajustement linéaire vs par spline. Plus bas = meilleur. Tester aussi l'écart à la linéarité (p-value pour les termes de spline).
Interactif : Constructeur Dose–Réponse
Comparez les ajustements linéaire, quadratique et par spline. Observez comment la forme du modèle change selon les hypothèses.
La Courbe en J de l'Alcool Démystifiée
La ré-analyse de Stockwell en 2016 a montré que lorsque les anciens buveurs étaient correctement exclus du groupe de référence « abstinents », l'effet protecteur de la consommation modérée disparaissait. La courbe en J était due au biais du « malade qui arrête ».
La méta-analyse dose–réponse a révélé la vérité : la forme de la courbe dépend de manière critique de la façon dont on définit la « dose zéro ». La mauvaise catégorie de référence a créé un bénéfice fantôme.
Quand les Courbes Façonnent les Politiques
La courbe en J fantôme a influencé les recommandations sur l'alcool dans le monde entier :
Recommandations du NHS (jusqu'en 2016)
« La consommation modérée peut protéger le cœur » figurait dans les recommandations officielles. Après la correction de Stockwell, le Royaume-Uni a révisé ses limites à 14 unités/semaine pour tous les buveurs (auparavant 21 pour les hommes). Aucune quantité n'a été déclarée « sûre ».
Comité Consultatif des Dietary Guidelines
Les études sur la courbe en J ont été citées jusqu'en 2015. Le comité de 2020 a recommandé de réduire les limites à 1 verre/jour pour les hommes, reconnaissant le biais du groupe de référence.
Recommandations Australiennes
Les limites de consommation sûre ont été retardées par la recherche financée par l'industrie promouvant une consommation modérée « cardioprotectrice ».
Arbre de Décision : L'Analyse Dose–Réponse Est-elle Appropriée ?
La relation est-elle plausiblement non linéaire ?
Méta-analyse par paires standard (pas d'analyse dose–réponse possible avec seulement deux niveaux)
Quiz du Module 16
Q1. Qu'est-ce qui rend les splines cubiques restreintes utiles en méta-analyse dose–réponse ?
Module 16 Terminé
« La dose fait le poison. Et la forme de la courbe révèle si le poison est réel. »
L'absence de preuve n'est pas la preuve de l'absence.
Module 17 : La Fragilité
L'absence de preuve n'est pas la preuve de l'absence.
Module 17 : La Fragilité
Module 17 : La Fragilité
🎯 Objectifs d'apprentissage
- Calculer et interpréter l'indice de fragilité
- Utiliser les graphiques GOSH pour identifier les études influentes et les effets de sous-groupes
- Interpréter les funnel plots à contours améliorés
- Appliquer les modèles de sélection de Copas et PET-PEESE pour le biais de publication
- Comprendre comment les analyses de sensibilité renforcent les conclusions méta-analytiques
Les gouvernements ont stocké des milliards
sur la base de preuves qu'ils ne pouvaient pas voir.
Après le H1N1, les gouvernements ont dépensé des milliards pour constituer des stocks d'oseltamivir (Tamiflu). L'équipe Cochrane (Jefferson et al. 2014) a lutté pendant des années pour accéder aux données non publiées. Quand ils y sont finalement parvenus, les preuves de prévention des complications se sont évaporées.
L'Indice de Fragilité
L'indice de fragilité demande : « Combien de patients devraient changer de résultat pour faire basculer un résultat statistiquement significatif en non significatif ? » Il ajoute itérativement des événements (convertit des non-événements en événements) dans le groupe avec le moins d'événements jusqu'à ce que p > 0.05.
Interactif : Calculateur de Fragilité
Entrez un tableau 2×2 pour calculer l'indice de fragilité. Observez les événements se déplacer jusqu'à ce que la significativité bascule.
Graphiques GOSH
Aperçu graphique de l'étude Hétérogénéité (GOSH) ajuste des modèles de méta-analyse à tous les sous-ensembles possibles d'études. Chaque point représente l'effet poolé vs I² pour un sous-ensemble. Les clusters suggèrent des sous-groupes distincts ; les nuages aberrants suggèrent qu'une étude conduit l'hétérogénéité.
Pour k études, il y a 2k−1 sous-ensembles. Pour k > 15, un échantillonnage aléatoire est utilisé.
Diagramme en entonnoirs à Contours Améliorés
Les funnel plots standard montrent la taille d'effet vs l'erreur standard. Les versions à contours améliorés ajoutent des zones ombrées pour p < 0.01, p < 0.05 et p < 0.10. Si les études manquantes se situent dans les zones non significatives, un biais de publication est probable. Si elles se situent dans les zones significatives, d'autres causes (ex. qualité des études) peuvent expliquer l'asymétrie.
Sélection de Copas & PET-PEESE
Modèle de sélection de Copas
Modélise la probabilité de publication d'une étude en fonction de son erreur standard et de sa taille d'effet. Estime conjointement le vrai effet et le mécanisme de sélection.
ANIMAUX DE COMPAGNIE
Test d'effet par la précision (PET) : régresse les effets sur l'ES. Si l'ordonnée à l'origine = 0, pas de vrai effet. PEESE utilise ES² pour de meilleures performances quand un vrai effet existe.
La Saga de l'Oseltamivir
La méta-analyse originale financée par Roche (Kaiser 2003) montrait que l'oseltamivir réduisait les complications grippales de 67 %. Mais 8 des 10 essais n'avaient jamais été publiés. Après que Cochrane a obtenu les rapports d'étude clinique, le bénéfice pour les complications est tombé à 11 %, non significatif.
La fragilité n'était pas seulement statistique—elle était informationnelle. La base de preuves elle-même manquait la plupart des données.
Arbre de Décision : Interpréter Vos Résultats de Fragilité
Très fragile. Une poignée d'événements différents inverserait la conclusion. À interpréter avec une extrême prudence.
Modérément fragile. Sensible à de petites perturbations. Y a-t-il des essais non publiés qui pourraient faire basculer le résultat ?
Relativement robuste. Mais n'oubliez pas : la fragilité n'est qu'une dimension. Le biais de publication peut saper même des résultats robustes.
Walsh et coll. (2014, J Clin Epidemiol) ont trouvé que dans 399 ECR publiés dans des revues prestigieuses, l'indice de fragilité médian n'était que de 8. Plus de 25 % avaient un IF ≤ 3. Des essais majeurs influençant la pratique clinique ne tenaient souvent qu'à un fil statistique.
Au-delà de l'Indice : La Fragilité Structurelle
La saga de l'oseltamivir a révélé trois types de fragilité—et l'Indice de Fragilité ne capture que le premier.
Fragilité Statistique (IF)
Combien d'événements font basculer la p-value ? C'est ce que mesure l'Indice de Fragilité. Il quantifie la sensibilité aux résultats de patients individuels.
Fragilité Informationnelle
Quelle proportion des preuves est cachée ? Huit des dix essais de Roche sur l'oseltamivir n'étaient pas publiés. La base de preuves était structurellement incomplète.
Fragilité Analytique
Combien de degrés de liberté du chercheur pourraient changer la conclusion ? Définitions différentes des critères de jugement, populations d'analyse ou méthodes statistiques.
Rappel du Module 10 (la paroxétine) : La ré-analyse avec des définitions de critères de jugement différentes a complètement inversé la conclusion. C'était de la fragilité analytique—l'IF n'a jamais été calculé car le critère de jugement lui-même était contesté. Une évaluation complète de la robustesse examine les trois dimensions.
Quiz du Module 17
Q1. Un essai comporte 200 patients par bras, 12 événements dans le traitement, 25 dans le contrôle (p=0,03). L'indice de fragilité est 3. Qu'est-ce que cela signifie ?
Module 17 Terminé
« Le nombre qui survit à chaque tentative de le briser est le nombre digne de confiance. »
Tout signal n'est pas vérité.
Module 18 : L'Équité
La certitude doit être méritée, pas présumée.
Module 18 : L'Équité
Module 18 : L'Équité
🎯 Objectifs d'apprentissage
- Identifier comment les critères d'exclusion des essais créent des lacunes dans les preuves
- Appliquer le cadre PROGRESS-Plus pour évaluer l'équité dans les preuves
- Utiliser les directives de rapport PRISMA-Equity
- Comprendre la transportabilité : quand les résultats d'essais échouent en pratique
- Concevoir des stratégies de recherche et de synthèse sensibles à l'équité
SPRINT a prouvé qu'un contrôle strict de la pression artérielle
sauve des vies. Mais les vies de qui ?
L'essai phare SPRINT excluait les patients diabétiques, ceux ayant eu un AVC antérieur et ceux en insuffisance cardiaque. Plus de 75 % des patients hypertendus américains n'auraient pas été éligibles. Les preuves étaient solides mais l'applicabilité était restreinte.
L'Essai Qui Excluait la Majorité de Ses Patients
SPRINT a inclus 9 361 patients et a prouvé que le contrôle intensif de la pression artérielle (cible <120 mmHg) réduisait les événements cardiaques de 25 % (HR 0,75, IC 95 % 0,64–0,89). Mais les critères d'inclusion racontaient une autre histoire.
Qui était exclu :
- Diabète — 35 % des adultes américains hypertendus
- AVC antérieur — 8 % de la population hypertendue
- Insuffisance cardiaque symptomatique — 6 % des adultes hypertendus
- Survie attendue <3 ans — les patients les plus fragiles
- Résidents en maison de retraite — exclus entièrement
- DFG <20 mL/min — insuffisance rénale avancée
Résultat : Plus de 75 % des adultes américains hypertendus n'auraient PAS été éligibles. Les preuves étaient solides. Mais pour qui ?
D'Où Viennent les Preuves
78 %
des participants aux méga-essais cardiovasculaires provenaient de pays à revenu élevé (2000–2020).
6 %
d'Afrique subsaharienne — là où les maladies cardiovasculaires progressent le plus rapidement.
Essais polypill : 4 sur 5 ont été menés dans des populations avec un IMC moyen <25. L'IMC moyen aux États-Unis est de 30. Le métabolisme, les profils de comorbidités, l'accès aux soins et la variation génétique diffèrent selon les populations. L'efficacité dans une population ne garantit pas l'efficacité dans une autre.
Référence : Essais multinationaux et le fossé PROGRESS-Plus
Le Cadre PROGRESS-Plus
Plus : Âge, handicap, orientation sexuelle, autres groupes vulnérables.
PRISMA-Equity & Transportabilité
PRISMA-Actions étend PRISMA en exigeant le rapport de la manière dont l'équité a été prise en compte dans la revue : caractéristiques des populations, analyses en sous-groupes par désavantage, et évaluation de l'applicabilité aux populations défavorisées.
Transportabilité : L'efficacité en essai ne correspond pas à l'efficacité en conditions réelles. Des méthodes existent pour repondérer les données d'essai afin de correspondre à la distribution de la population cible.
De l'Essai au Monde Réel : La Transportabilité
Transportabilité = Les résultats de la population X de l'essai peuvent-ils s'appliquer à la population cible Y ? Ce n'est pas une question philosophique—il existe des méthodes formelles.
Pondération Inverse par la Probabilité de Participation (IPPW)
Repondère les participants de l'essai pour qu'ils ressemblent à la population cible sur les covariables clés.
Indice de Généralisabilité
Quantifie la similarité entre l'échantillon de l'essai et la population cible sur les caractéristiques observées.
Stuart et coll. (2015, Stat Med) : Lorsque les résultats de SPRINT ont été repondérés pour correspondre à la population américaine hypertendue, le bénéfice estimé était atténué — HR 0,82 (vs 0,75 dans l'essai). Le traitement fonctionne toujours. Mais l'ampleur change quand la population change.
SPRINT et la Majorité Manquante
SPRINT un essai était bien conçu de 9 361 patients. Son résultat (HR 0.75 pour le contrôle intensif vs standard de la PA) a changé les recommandations mondiales. Mais des analyses ultérieures ont montré que le bénéfice était le plus fort dans le sous-groupe le plus similaire à la population de l'essai—et incertain pour les groupes exclus.
L'équité dans la synthèse des preuves signifie demander non seulement « Est-ce que ça marche ? » mais « Pour qui est-ce que ça marche ? »
Arbre de Décision : Évaluation de l'Équité de Votre Revue
RACINE : Les preuves de votre revue proviennent-elles de populations similaires à votre cible ?
OUI → Bien. Mais vérifiez : Les sous-groupes (âge, sexe, ethnicité, SSE) sont-ils rapportés séparément ?
- Oui : Utilisez les effets par sous-groupe pour des recommandations spécifiques à la population
- Non : Signalez comme limitation — lacune d'équité dans le rapport
NON → L'analyse PROGRESS-Plus révèle-t-elle des effets différentiels ?
- Oui : Des recommandations spécifiques à la population sont nécessaires. Envisagez une repondération de transportabilité.
- Non : Généralisation prudente avec déclaration explicite d'équité dans la discussion
Le Rappel : La Leçon du THS
Souvenez-vous du Module 3 ? L'histoire du THS montrait que le biais de l'utilisateur en bonne santé rendait un traitement nocif apparemment bénéfique. SPRINT peut avoir le problème inverse — l'effet « volontaire en bonne santé » peut rendre un traitement efficace plus efficace qu'il ne le serait dans le monde réel.
Chaque méta-analyse devrait demander : Qui était inclus ? Qui était exclu ? Et est-ce que cela compte ?
Quiz du Module 18
Q1. Qu'est-ce que le cadre PROGRESS-Plus aide les réviseurs à évaluer ?
Module 18 Terminé
« Les preuves qui excluent les vulnérables ne peuvent prétendre les servir. »
Tout signal n'est pas vérité.
Module 19 : La Machine
Le nombre sans provenance n'est pas un nombre.
Module 19 : La Machine
Module 19 : La Machine
🎯 Objectifs d'apprentissage
- Décrire comment l'IA/ML est utilisée dans le criblage des revues systématiques
- Expliquer l'apprentissage actif et les flux de travail avec l'humain dans la boucle
- Évaluer la validation de l'automatisation : rappel, économies de charge de travail et risques
- Reconnaître les limites et biais du criblage algorithmique
- Appliquer des cadres pour l'utilisation responsable de l'IA dans la synthèse des preuves
Quand la COVID-19 a frappé,
les articles arrivaient plus vite que les humains ne pouvaient lire.
En 2021, plus de 300 000 articles sur la COVID existaient. Cochrane a utilisé des classifieurs d'apprentissage automatique pour trier les études pour leurs revues rapides—réduisant la charge de criblage jusqu'à 70 % tout en maintenant un rappel >95 %.
Le Déluge
En avril 2020, 4 000 prépublications COVID apparaissaient chaque semaine.
PubMed indexait 500 nouveaux articles COVID par jour.
La file d'attente de criblage de Cochrane atteignait 10 000 titres non examinés.
Une paire de réviseurs examine environ 200 titres par jour.
À 500 nouveaux articles/jour, ils prenaient du retard à chaque heure.
La revue vivante mourait avant de pouvoir vivre.
Les Premières Tentatives
L'idée n'était pas nouvelle. Cohen et al. (2006, JAMIA) ont montré pour la première fois que l'apprentissage automatique pouvait réduire la charge de criblage de 50 %—avec moins de 5 % de perte de rappel.
Mais la simulation n'est pas la réalité. La COVID allait être le premier vrai test à grande échelle.
L'IA dans les Revues Systématiques
Priorisation du criblage
L'apprentissage actif classe les références par pertinence. Les réviseurs examinent d'abord les plus probablement pertinentes.
Aide à l'extraction de données
Le TAL extrait les éléments PICO, les critères de jugement et les résultats. Nécessite toujours une vérification humaine.
Évaluation du risque de biais
Les classifieurs ML prédisent les domaines RoB. Expérimental—le jugement humain reste le gold standard.
Valider l'Automatisation
La tension fondamentale : L'automatisation fait gagner du temps mais introduit une nouvelle source d'erreur. Toujours rapporter l'outil, la version, les données d'entraînement et les critères d'arrêt.
Pour savoir si la machine a manqué une étude pertinente, il faut qu'un humain examine tout.
Mais si les humains examinent tout, pourquoi utiliser la machine ?
La solution : la validation prospective sur échantillon réservé.
- Échantillon aléatoire de 10 % examiné par l'humain et la machine
- Comparer : la machine a-t-elle manqué ce que l'humain a trouvé ?
- Si le rappel tombe sous 95 %, réentraîner et élargir le criblage humain
Faire confiance, mais vérifier. La machine gagne son rôle—elle n'en hérite pas.
La Réponse COVID de Cochrane
Cochrane a construit le Registre d'Études COVID-19 en utilisant des classifieurs d'apprentissage automatique entraînés sur des millions de références. Le système a atteint 99 % de sensibilité tout en réduisant le criblage manuel de semaines à jours.
Mais la machine était un outil, pas un remplacement. Chaque étude incluse était encore vérifiée par des réviseurs humains. La leçon : l'IA augmente le réviseur, elle ne le remplace pas.
L'Étude Qui a Failli Ne Pas Être Trouvée
En juin 2020, l'essai RECOVERY a publié ses résultats sur la dexaméthasone—le premier traitement prouvé pour réduire la mortalité COVID (mortalité à 28 jours : 22,9 % vs 25,7 %, RR 0,83).
La prépublication est apparue sur medRxiv avec un titre non standard. Des scénarios comme celui-ci se sont répétés tout au long de la pandémie : les classifieurs ML, entraînés sur la terminologie existante, classaient bas les formulations inhabituelles.
Dans plusieurs revues vivantes, des réviseurs humains examinant les titres signalés ont reconnu les noms de médicaments clés et ont escaladé des études que les classifieurs avaient dépriorisées.
Sans ces humains, des découvertes thérapeutiques majeures auraient pu attendre des semaines avant d'entrer dans la revue vivante.
La machine lit plus vite. L'humain lit plus profondément. Ni l'un ni l'autre ne suffit seul.
Arbre de Décision : Quand Utiliser l'IA ?
Priorisation par apprentissage actif. Double criblage sur 10 % réservé aléatoire. Arrêt quand 3 lots consécutifs donnent 0 étude pertinente.
Rapporter : type de classifieur, données d'entraînement, rappel sur l'échantillon réservé, règle d'arrêt.
Pour <5 000 titres, le double criblage humain reste le gold standard. L'IA ajoute de la complexité sans bénéfice proportionnel.
Si oui → L'IA est particulièrement précieuse. Réentraînement continu du classifieur sur les nouvelles preuves. Mais : ne laissez jamais la machine prendre la décision finale d'inclusion.
Le Schéma Se Répète
Souvenez-vous du Module 6 ? Poldermans a fabriqué les données DECREASE qui ont guidé les recommandations sur les bêta-bloquants périopératoires pendant une décennie.
L'IA peut désormais détecter automatiquement les anomalies statistiques :
- Test GRIM : Les moyennes rapportées sont-elles cohérentes avec des tailles d'échantillon entières ?
- SPRITE : Les statistiques résumées rapportées peuvent-elles être reconstruites à partir de données individuelles plausibles ?
- Statcheck : Les p-values rapportées correspondent-elles aux statistiques de test ?
Ces outils ont trouvé des anomalies dans des centaines d'articles publiés—plus rapidement que tout auditeur humain.
Mais la machine signale. L'humain juge. La décision de rétracter reste profondément humaine.
Quiz du Module 19
Q1. Quel est le rappel minimum acceptable pour le criblage assisté par IA dans les revues systématiques ?
Module 19 Terminé
« La machine lit plus vite. L'humain lit plus profondément. Ensemble, ils lisent la vérité. »
Tout signal n'est pas vérité.
Module 20 : Le Qualitatif
Les méthodes protègent les patients de notre assurance.
Module 20 : Le Qualitatif
Module 20 : Le Qualitatif
🎯 Objectifs d'apprentissage
- Expliquer pourquoi certaines questions nécessitent une synthèse de preuves qualitatives
- Décrire la méta-ethnographie (Noblit & Hare) et la synthèse thématique
- Appliquer le cadre CERQual pour évaluer la confiance dans les résultats qualitatifs
- Comprendre les approches de synthèse à méthodes mixtes
- Reconnaître quand les preuves qualitatives changent la pratique
L'OMS a posé une question
à laquelle aucun ECR ne pouvait répondre.
Pourquoi les femmes du monde entier subissent-elles irrespect et maltraitance pendant l'accouchement ? Bohren et al. (2015) ont synthétisé 65 études qualitatives de 34 pays en un cadre de sept domaines de maltraitance.
Une Question Au-delà de la Randomisation
En 2014, l'OMS a convoqué un panel pour faire face à une crise mondiale : des femmes étaient physiquement maltraitées, verbalement humiliées et privées de soins pendant l'accouchement. Ce n'était pas un événement rare — des rapports provenaient de 34 pays.
Ils devaient comprendre POURQUOI. Qu'est-ce qui motive l'irrespect et la maltraitance dans les soins de maternité ?
Aucun ECR ne pouvait y répondre. On ne peut pas randomiser les femmes vers des soins abusifs versus respectueux. On ne peut pas mettre les accompagnantes en aveugle. On ne peut pas mesurer la « dignité » sur une échelle de Likert. Les preuves devaient être qualitatives.
Méta-Ethnographie
Développée par Noblit & Hare (1988), la méta-ethnographie traduit des concepts entre études plutôt que d'agréger des nombres. Elle produit de nouveaux cadres interprétatifs (construits de troisième ordre) à partir de données de premier ordre (citations des participants) et de deuxième ordre (interprétations des auteurs).
d'argument
Ce Que Bohren a Trouvé : Une Taxonomie de la Maltraitance
Frapper, pincer, gifler pendant le travail
Touchers inappropriés, procédures non consenties
Cris, menaces, commentaires dégradants
Basées sur le statut VIH, l'origine ethnique, l'âge, la pauvreté
Négligence, absence de consentement éclairé
Communication déficiente, mépris
Surpeuplement, sous-effectif, manque de fournitures
65 études. 34 pays. Les mêmes schémas se répétaient à travers les langues, les cultures et les systèmes de santé. Ce n'était pas de l'anecdote. C'était des preuves synthétisées.
CERQual : Confiance dans les Preuves Qualitatives
CERQual évalue la confiance dans les résultats de revues qualitatives à travers quatre composantes :
Limites méthodologiques
Qualité des études contributrices.
Cohérence
Dans quelle mesure les données soutiennent le résultat.
Adéquation
Richesse des données (pas seulement le nombre d'études).
Pertinence
Applicabilité au contexte de la question de la revue.
Quand les Preuves Qualitatives Changent la Pratique
La synthèse de Bohren a informé les Recommandations de l'OMS 2018 sur les soins intrapartum pour une expérience positive de l'accouchement. Changements spécifiques fondés sur des preuves qualitatives :
Ces recommandations — fondées sur des preuves qualitatives — guident désormais les soins maternels dans 194 États membres de l'OMS. Aucune parcelle forestière n'aurait pu les produire. Aucune statistique I² n'aurait pu les révéler.
Le Cadre de Maltraitance de Bohren
La synthèse qualitative de 2015 a identifié sept domaines : violence physique, violence sexuelle, violence verbale, stigmatisation et discrimination, non-respect des standards professionnels, mauvais rapport soignant-soigné, et conditions du système de santé. Ce cadre a informé les Recommandations de l'OMS sur les soins intrapartum (2018).
Aucune p-value ne pouvait capturer l'expérience d'être frappée pendant le travail. La synthèse qualitative a donné voix à ce que les chiffres ne pouvaient pas exprimer.
Arbre de Décision : Quand la Synthèse Qualitative Est-elle Appropriée ?
RACINE : Votre question de recherche porte-t-elle sur les expériences, perceptions, obstacles ou facilitateurs ?
OUI → Votre question porte-t-elle sur le COMMENT ou POURQUOI, et pas seulement le SI ?
- Oui : Synthèse de preuves qualitatives (méta-ethnographie, synthèse thématique ou synthèse de cadres)
- Non : Envisagez les méthodes mixtes : quantitatif pour l'effet + qualitatif pour le mécanisme
NON → Votre question porte-t-elle sur l'efficacité ?
- Oui : Méta-analyse quantitative
- Mais : Complétez par une revue qualitative des obstacles à la mise en oeuvre (évaluée par CERQual)
Point clé : Les revues systématiques les plus solides répondent AUX DEUX : Est-ce que ça marche ? (quantitatif) ET Pourquoi est-ce que ça marche ou échoue ? (qualitatif)
Quiz du Module 20
Q1. Qu'est-ce qui distingue la méta-ethnographie de la méta-analyse quantitative ?
Module 20 Terminé
« Tout ce qui compte ne peut pas être compté. Tout ce qui est compté ne compte pas. »
L'hétérogénéité est un message, pas du bruit.
Module 21 : Le Multivarié
L'hétérogénéité est un message, pas du bruit.
Module 21 : Le Multivarié
Module 21 : Le Multivarié
🎯 Objectifs d'apprentissage
- Reconnaître quand les critères de jugement au sein d'une étude sont corrélés
- Expliquer les modèles multivariés à effets aléatoires
- Appliquer l'estimation robuste de la variance (RVE) pour les tailles d'effet dépendantes
- Comprendre les modèles à trois niveaux pour les données emboîtées
- Choisir entre les approches multivariées selon la structure des données
Les essais cardiovasculaires rapportent
mortalité, IDM, AVC et plus encore.
Ces critères de jugement sont corrélés au sein des patients. Un patient qui décède ne peut pas avoir un critère IDM. La méta-analyse standard traite chaque critère déterminé—ignorant la dépendance et supposant double les preuves.
L'Hypothèse Que Personne Ne Remet en Question
Ouvrez n'importe quel manuel standard de méta-analyse. Les modèles supposent que chaque étude contribue une taille d'effet indépendante. Mais la réalité est différente.
Un seul essai cardiovasculaire rapporte mortalité, infarctus du myocarde, AVC et revascularisation. Une seule étude de psychothérapie rapporte dépression, anxiété et qualité de vie à 3, 6 et 12 mois.
La plupart des analystes : (a) traitent les 120 comme indépendants (gonflant la précision d'un facteur √4), ou (b) choisissent un critère et abandonnent les autres. Les deux approches sont fausses.
Le Problème de la Dépendance
En méta-analyse standard par paires, chaque étude contribue une taille d'effet. Mais de nombreuses études rapportent plusieurs critères, sous-groupes, points temporels ou bras—créant des tailles d'effet dépendantes. Ignorer cela gonfle la précision et fausse l'inférence.
Estimation Robuste de la Variance
La RVE (Hedges, Tipton & Johnson, 2010) utilise un estimateur de type sandwich qui fournit des erreurs standard valides quelle que soit la vraie corrélation entre les effets dépendants. Pas besoin de connaître ou d'estimer la corrélation intra-étude. Idéal pour ≥20 études.
Correction pour petits échantillons : Tipton & Pustejovsky (2015) ont développé des corrections pour petits échantillons (CR2) pour la RVE, utilisant les degrés de liberté de Satterthwaite quand le nombre de clusters est faible.
Ce Que la Dépendance Fait à Vos Intervalles de Confiance
Si 4 critères de jugement d'une même étude ont une corrélation intra-étude ρ = 0,5 :
Traités comme indépendants
Largeur IC = X
En tenant compte de la dépendance
Largeur IC = 1,58X
Votre intervalle de confiance devrait être 58 % plus large. Chaque méta-analyse qui a ignoré cela a publié des résultats faussement précis.
RVE (Hedges, Tipton & Johnson, 2010) : Utilise un estimateur de variance « sandwich » qui produit des erreurs standard correctes sans avoir besoin de connaître la corrélation exacte intra-étude.
Modèles à Trois Niveaux : Rendre la Structure Explicite
Niveau 1 : Variance d'échantillonnage
Erreur de mesure au sein de chaque estimation de taille d'effet.
Niveau 2 : Variance intra-étude
Les critères de jugement et points temporels varient au sein d'une même étude.
Niveau 3 : Variance inter-études
Les études diffèrent entre elles par les populations, les contextes et les méthodes.
Exemple : Dans une méta-analyse de psychothérapie pour la dépression (k=50 études, 180 tailles d'effet), 35 % de la variance était intra-étude (différents critères) et 65 % inter-études (différentes thérapies, populations). Cette décomposition révèle combien d'hétérogénéité est intra- vs inter-études.
Modèles à Trois Niveaux : Cadre Formel
Quand les effets sont emboîtés (ex. plusieurs critères au sein d'études, ou études au sein de groupes de recherche), un modèle à trois niveaux décompose la variance en : (1) variance d'échantillonnage (niveau 1), (2) variance intra-étude (niveau 2), et (3) variance inter-études (niveau 3). Cela maintient une inférence correcte tout en empruntant de la force entre les niveaux.
Le Défi Cardiovasculaire
Une méta-analyse des statines pourrait inclure 30 essais, chacun rapportant mortalité, IDM, AVC et revascularisation. Soit 120 tailles d'effet de 30 clusters. Les traiter comme 120 estimations indépendantes gonfle la précision d'un facteur lié à la corrélation intra-étude.
La RVE ou les modèles multivariés gèrent cela correctement—produisant des intervalles de confiance plus larges et honnêtes.
Arbre de Décision : Quelle Approche pour les Tailles d'Effet Dépendantes ?
RACINE : Votre méta-analyse a-t-elle plusieurs effets par étude ?
OUI → Connaissez-vous (ou pouvez-vous estimer) les corrélations intra-étude ?
- Oui : Modèle multivarié à effets aléatoires (le plus efficient)
- Non : RVE avec correction pour petits échantillons (robuste aux corrélations inconnues)
NON → Modèle univarié standard à effets aléatoires
Sous-question : Vos effets multiples proviennent-ils de critères de jugement différents, de points temporels, ou de sous-groupes ?
- Différents critères de jugement → Modèle à trois niveaux ou RVE avec regroupement
- Différents points temporels → Réseau de points temporels avec corrélation temporelle
- Différents sous-groupes → Considérez si les sous-groupes sont significatifs ou doivent être moyennés
Quiz du Module 21
Q1. Quel problème l'Estimation Robuste de la Variance (RVE) résout-elle ?
Module 21 Terminé
« Quand les critères sont enchevêtrés, prétendre qu'ils sont indépendants est un mensonge de commodité. »
Le nombre sans provenance n'est pas un nombre.
Module 22 : La Preuve
Le nombre sans provenance n'est pas un nombre.
Module 22 : La Preuve
Module 22 : La Preuve
🎯 Objectifs d'apprentissage
- Comprendre comment les erreurs de calcul se propagent dans les politiques publiques
- Définir la reproductibilité et la distinguer de la réplicabilité
- Appliquer le hachage de preuves et les nombres porteurs de preuve
- Utiliser des listes de vérification de reproductibilité pour la méta-analyse
- Reconnaître le rôle du pré-enregistrement et des données ouvertes
Un étudiant en master a ouvert un tableur
et a découvert que l'ère d'austérité reposait sur une erreur.
En 2010, Reinhart et Rogoff affirmaient que les pays avec un ratio dette/PIB >90 % avaient une croissance négative. Cela a influencé les politiques d'austérité à travers l'Europe. En 2013, Thomas Herndon a découvert une erreur Excel qui excluait 5 pays de la moyenne. Le résultat corrigé : une croissance positive modérée, pas un effondrement.
Reproductibilité vs Réplicabilité
La reproductibilité est le standard minimum. Si d'autres ne peuvent pas reproduire votre estimation poolée à partir de vos données rapportées, l'analyse ne peut pas être vérifiée. Les méta-analyses doivent partager : données extraites, scripts d'analyse, versions logicielles et graines aléatoires.
Nombres Porteurs de Preuve
Chaque nombre dans une méta-analyse devrait porter sa provenance : d'où il vient, comment il a été transformé, et quel code l'a produit. Le hachage de preuves crée une empreinte cryptographique des entrées de sorte que tout changement (accidentel ou délibéré) soit détectable.
Hash d'entrée
Hash SHA-256 des données extraites. Si une cellule change, le hash change. Chaîne de provenance : données → code → résultat → hash.
Interactif : Liste de Vérification de Reproductibilité
Cochez chaque élément pour évaluer la reproductibilité d'une méta-analyse. Quel est le score de votre revue ?
L'Erreur Excel Qui a Changé des Économies
L'article de Reinhart-Rogoff « Growth in a Time of Debt » a été cité dans des auditions au Congrès, des rapports de la Commission européenne et des notes de politique du FMI. L'erreur Excel (les lignes 30–34 étaient exclues d'une formule AVERAGE) signifiait que cinq pays—Australie, Autriche, Belgique, Canada et Danemark—étaient simplement manquants.
La moyenne corrigée est passée de −0.1 % à +2.2 %. Les politiques d'austérité ont affecté des millions de personnes. La reproductibilité n'est pas du perfectionnisme académique—c'est une protection contre la catastrophe.
Vous souvenez-vous du Module 5 ?
DECREASE à Travers le Prisme de la Reproductibilité
Les essais DECREASE de Don Poldermans ont été rétractés pour données fabriquées. Si les nombres porteurs de preuve avaient existé—entrées hachées, chaînes de provenance, calculs vérifiés—la fabrication aurait été détectable avant que les preuves n'entrent dans les méta-analyses et ne changent les recommandations chirurgicales.
Quiz du Module 22
Q1. Quelle était l'erreur de Reinhart-Rogoff ?
Module 22 Terminé
« Le nombre sans provenance n'est pas un nombre. L'analyse sans reproductibilité n'est pas une preuve. »
La certitude doit être méritée, pas présumée.
Module 23 : Votre Premier Méta-Sprint
La certitude doit être gagnée et non assumée.
Module 23 : Votre premier méta-sprint
Module 23 : Votre premier méta-sprint
🎯 Learning Objectives
- Comprendre le flux de travail d'examen systématique de 40 jours
- Mappez les sept principes en phases de pratique réelle
- Reconnaître les portes de la définition du fait (DoD) comme points de contrôle de qualité
- Comprenez pourquoi la structure empêche les échecs que vous avez étudiés
- Le diplômé est prêt à mener (pas seulement à comprendre) une méta-analyse
Vous avez appris les histoires.
Maintenant, vous devez parcourir le chemin.
Chaque inversion des preuves que vous avez étudiées s'est produite parce que les équipes savait ont appliqué les méthodes mais ne l'ont pas fait suivre them systematically.
Le cadre META-SPRINT
Un flux de travail structuré de 40 jours avec 5 portes de phase. Chaque porte est un point de contrôle de définition du fait (DoD) qui vous empêche d'avancer jusqu'à ce que la qualité soit assurée.
Why 40 days? Assez long pour la rigueur, suffisamment court pour éviter toute dérive de la portée. Les signaux cardiaques de la rosiglitazone ont été enterrés pendant des années parce qu'il n'y avait pas de date limite imposant la transparence.
Les cinq portes de phase
DoD-A : verrouillage du protocole (jours 1-3)
PICOS défini, règles de point temporel définies, choix de modèles prédéfinis. Aucune cible mobile.
DoD-B : verrouillage de recherche (jours 6 à 10)
Toutes les bases de données ont été consultées, la littérature grise vérifiée, validée par PRESS. Non masqué études.
DoD-C : Verrouillage d'extraction (jours 10 à 28)
Double extraction, liée à la provenance, RoB évalué. Aucun chiffre fabriqué.
Les cinq portes de phase (suite)
DoD-D : Analysis Lock (jours 21-33)
Parcelles forestières générées, analyses de sensibilité effectuées, hétérogénéité explorée. No cherry-picking.
DoD-E : verrouillage des soumissions (jours 33-40)
GRADE avec certitude, résumé clinique rédigé, manuscrit finalisé. No overconfidence.
Day 34 Freeze: Aucune nouvelle étude ne peut être ajoutée après le jour 34. Cela évite la « dérive de la portée militaire » qui a tourmenté les méta-analyses BMP sur la chirurgie de la colonne vertébrale, où l'industrie a continué à « trouver » des études favorables.
Les sept principes en pratique
Chaque principe que vous avez appris correspond à une porte de phase spécifique :
Le principe de l'équipe rouge
Votre propre équipe essaie d'interrompre votre travail.
Chaque jour, deux membres de l'équipe en rotation passent 12 minutes à vérifier la qualité des données en tant qu'adversaires. C'est ainsi que la fraude de Boldt a été détectée, non pas par un examen amical, mais par une vérification sceptique qui a révélé des taux de recrutement impossibles.
CondGO : Quand les choses évoluent Mauvais
Que se passe-t-il lorsque vous découvrez un problème critique à mi-sprint ?
CondGO = Aller conditionnel
Un protocole de sauvetage limité. Vous avez exactement 72 heures pour résoudre le problème en utilisant uniquement les actions autorisées. Si vous ne parvenez pas à résoudre le problème, vous devez arrêter l'examen.
📖 La leçon Avandia : GSK a détecté des signaux cardiovasculaires en 2000, mais n'a imposé aucun délai. Ils ont « regardé et attendu » pendant 7 ans. Des dizaines de milliers de personnes ont été blessées. CondGO existe parce que "nous finirons par nous en occuper" tue des gens.
Vous avez commencé ce cours avec des histoires.
Vous le terminez prêt pour la pratique.
Le flux de travail META-SPRINT prend tout ce que vous avez appris et le structure dans un système de 40 jours qui évite les échecs. vous avez étudié.
Lorsque vous êtes prêt à mener une véritable revue systématique, ouvrez l'application META-SPRINT. Les histoires que vous avez apprises ici vous guideront et apparaîtront comme des rappels à chaque étape.
Module 23 Quiz
1. Quel est le but du "hard freeze" du Jour 34 dans META-SPRINT ?
2. Le protocole CondGO donne aux équipes combien de temps pour résoudre les problèmes critiques ?
3. Le contrôle qualité contradictoire de l'équipe rouge a détecté la fraude de Joachim Boldt en remarquant :
Les histoires que vous avez apprises ne font pas partie de l'histoire.
Ce sont des avertissements qui protègent votre travail futur.
Lorsque vous effectuez votre première méta-analyse,
rappelez-vous CAST avant de faire confiance à un signal,
souvenez-vous de Poldermans avant de sauter la provenance,
rappelez-vous Reboxetine avant d'ignorer l'entonnoir.
Vous êtes maintenant prêt. Optez pour la structure. Allez-y avec humilité. Suivez les Sept Principes.
Tous les signaux ne sont pas vrais.
Module 24 : Examen final
La certitude doit être méritée, pas supposée.
Examen Final
Examen Final : Partie 1 sur 2
Testez votre maîtrise des principes de la méta-analyse. Chaque question aborde un concept clé du cours.
Q1. Un chercheur souhaite étudier « les effets de l'exercice sur la santé ». Quel est le problème PRINCIPAL de cette question de recherche ?
Q2. Un funnel plot montre une asymétrie prononcée avec des études manquantes dans la région Inférieure gauche. Que cela suggère-t-il ?
Q3. Une méta-analyse rapporte I² = 85 % et τ² = 0,42. Quelle est l'interprétation la PLUS appropriée ?
Q4. Dans GRADE, quel est le niveau de certitude initial pour un corpus de preuves provenant d'essais contrôlés randomisés ?
Q5. Dans RoB 2.0, quel domaine évalue si les évaluateurs des critères de jugement connaissaient l'allocation du traitement ?
Examen Final : Partie 2 sur 2
Q6. L'essai CAST a montré que les antiarythmiques augmentaient la mortalité malgré la suppression des arythmies. Ceci est un exemple de :
Q7. Quand doit-on préférer un modèle à effets aléatoires plutôt qu'un modèle à effet fixe ?
Q8. Selon les critères ICEMAN, qu'est-ce qui rend une analyse en sous-groupes PLUS crédible ?
Q9. Quelle hypothèse doit être vérifiée dans une méta-analyse en réseau pour assurer la validité des comparaisons indirectes ?
Q10. Dans l'analyse séquentielle des essais (TSA), que signifie le franchissement de la frontière de futilité ?
Examen Final : Partie 2 sur 2 (Avancé)
Les questions 11 à 20 couvrent les Modules 13–22 (Bayésien, NMA, DPI, Dose-Réponse, Fragilité, Équité, IA, Qualitatif, Multivarié, Reproductibilité).
Q11. Dans une méta-analyse bayésienne, que se passe-t-il lorsqu'on utilise un a priori vague avec de nombreuses études ?
Q12. Dans la NMA des antidépresseurs de Cipriani, pourquoi aucun médicament unique n'a-t-il été déclaré « le gagnant » ?
Q13. Pourquoi ne devrait-on jamais combiner les DPI comme si elles provenaient d'un méga-essai unique ?
Q14. Qu'est-ce qui a fait disparaître la « courbe en J » de l'alcool dans la réanalyse de Stockwell ?
Q15. Dans la saga de l'oseltamivir, qu'a découvert Cochrane en accédant aux rapports d'études cliniques non publiés ?
Q16. Quel pourcentage de patients hypertendus américains n'auraient PAS été éligibles pour l'essai SPRINT ?
Q17. Pourquoi l'IA est-elle considérée comme un « augmentateur » plutôt qu'un « remplaçant » dans les revues systématiques ?
Q18. Que évalue la composante « adéquation » de CERQual ?
Q19. Une méta-analyse inclut 30 essais de statines, chacun rapportant 4 critères corrélés (120 tailles d'effet). Quelle approche est correcte ?
Q20. Dans l'erreur de Reinhart-Rogoff, quel était le taux de croissance moyen corrigé pour les pays à dette élevée ?
Note de passage : 15/20 sur les deux parties
Révisez les questions manquées en retournant au module correspondant. Chaque question teste un concept fondamental.
Tout signal n'est pas vérité.
Les méthodes protègent les patients de notre assurance.
Félicitations
Vous avez terminé Renversement des Preuves : Un Cours de Méta-Analyse.
Que votre synthèse soit guidée par la vérité, votre combinaison par la sagesse,
et vos conclusions par l'humilité.
Les Sept Principes :
« Tout signal n'est pas vérité. »
« Les méthodes protègent les patients de notre assurance. »
« Qu'est-ce qui était caché en pleine vue ? »
« Le nombre sans provenance n'est pas un nombre. »
« L'hétérogénéité est un message, pas du bruit. »
« L'absence de preuve n'est pas preuve d'absence. »
« La certitude doit être méritée, pas supposée. »
« Guide-nous vers le Droit Chemin... »