Module 0 : L'ouverture

Tous les signaux ne sont pas vrais.

🎯 Learning Objectives

  • Définir la méta-analyse et expliquer son rôle dans la synthèse des preuves
  • Identifier quand les études ne doivent PAS être regroupées
  • Décrire la hiérarchie des preuves et où se situent les revues systématiques
  • Reconnaître que la méta-analyse peut induire en erreur lorsqu'elle est mal effectuée
  • Rappeler les sept principes qui ancrent ce cours

Ce le cours existe parce que

la médecine était mauvaise.

Pas une seule fois. Pas rarement. À plusieurs reprises. D'une manière qui a tué les patients qui croyaient que les preuves étaient solides.

Une méthode statistique permettant de combiner les résultats de plusieurs études indépendantes abordant la même question.

1976
Terme inventé par Gene Glass
~50,000
Publié par an
#1
Evidence hierarchie
1

Augmentation de la puissance statistique

Les études individuelles peuvent être trop petites pour détecter des effets.

2

Improve Precision

Intervalles de confiance plus étroits autour des estimations d'effet.

3

Resolve Disagreement

Lorsque les études sont en conflit, la mise en commun peut clarifier le signal.

4

Explore Heterogeneity

Identifiez pourquoi les effets diffèrent selon les populations ou les contextes.

Mais la méta-analyse peut aussi

TROMPER

Lorsqu'elles sont mal réalisées, elles amplifient les préjugés plutôt que la vérité.

1

Les études mesurent des choses fondamentalement différentes (des pommes et oranges)

2

Hétérogénéité extrême qui ne peut être expliquée

3

Une étude domine toutes les autres (problème de méga-étude)

4

Les études présentent un risque élevé de biais qui ne peut pas être ajusté en fonction

La mise en commun est un privilège, pas un droit.

La décision d'association doit être défendue.

Revues systématiques et méta-analyses des ECR

Essais contrôlés randomisés

Études de cohorte

Études cas-témoins

Série de cas/avis d'experts

La position dans la hiérarchie dépend de la qualité de la méthodologie, et non du seul type d'étude.

Ce cours enseigne via

renversements de preuves.

Chaque module s'ouvre sur une histoire expliquant comment la médecine s'est trompée. Ensuite, nous apprenons la méthode qui aurait évité le préjudice.

Ces phrases reviendront tout au long de votre voyage :

1. "Tous les signaux ne sont pas vrais."

2. "Les méthodes protègent les patients de notre confiance."

3. "Qu'est-ce qui était caché à la vue de tous ?"

4. "Le numéro sans provenance n'est pas un numéro."

5. "L'hétérogénéité est un message, pas un bruit."

6. "L'absence de preuve n'est pas une preuve d'absence."

7. "La certitude doit être gagnée et non assumée."

1. Pourquoi ne devriez-vous parfois PAS regrouper les études dans une méta-analyse ?

A. La mise en commun est toujours mieux que des études uniques
B. Lorsque l'hétérogénéité est extrême ou que les études mesurent des choses différentes
C. La mise en commun est toujours appropriée pour les ECR
D. Les méthodes statistiques permettent de gérer n'importe quelle situation

2. Où se situent les revues systématiques des ECR dans la hiérarchie des preuves ?

A. En haut
B. Même niveau que les ECR individuels
C. Études de cohorte ci-dessous
D. Identique à l'opinion d'un expert

Commencez le voyage.

Module 1 : La question

Module 1 : La question (CAST)

Tous les signaux ne sont pas vrais.

Ceci n'est pas une histoire d'erreur.

C'est une histoire de certitude.

🎯 Learning Objectives

  • Formuler une approche ciblée Question PICO pour une revue systématique
  • Distinguer les résultats de substitution des résultats importants pour le patient
  • Expliquez pourquoi la plausibilité biologique à elle seule ne constitue pas une preuve suffisante
  • Décrire l'essai CAST et ses implications pour la médecine factuelle
  • Appliquer le principe : "Tous les signes lumineux ne sont pas des conseils"

Décès excédentaires par an

D'un traitement que tout le monde croyait efficace.

C'est l'histoire de ce que nous croyions - et comment nous étions tort.

Les patients présentant des ESV fréquemment après un IM présentaient une 2 à 5 fois plus élevée.

400,000+
Survivants d'IM/an
~40%
avec des PVC
160,000
à un niveau élevé risque

Un besoin clinique massif. Un objectif clair.

Des médicaments antiarythmiques ont été développés, approuvés par la FDA,
et prescrite à environ 200 000 patients par an.

Aucun méchant n'apparaît dans cette histoire.

Tout le monde a agi sur la base des meilleures preuves disponibles.

PREMIÈRE 1

Les PVC après un IM prédisent une mort cardiaque subite

LOCALITÉ 2

Les médicaments antiarythmiques suppriment les ESV

PREMIÈRE 3

La suppression des ESV devrait prévenir la mort subite

La chaîne était logique. La conclusion semblait inévitable.

Enfin, quelqu'un a demandé : "La suppression des PVC sauve-t-elle réellement des vies ?"

Conception
499 patients randomisés, en double aveugle, contrôlés par placebo
Population
Patients post-IM présentant des ESV asymptomatiques
Intervention
Encaïnide, flécaïnide ou moricizine vs placebo
Rodage
Seuls les patients présentant une suppression des PVC ≥ 80 % ont été randomisés
Crit?re principal
Décès ou arrêt cardiaque avec réanimation
Taille de l'?chantillon
1 498 patients (bras encaïnide/flécaïnide)

Le Data Safety Monitoring Board arrête l'essai prématurément.

Résultat Médicament (n=755) Placebo (n = 743)
Arrhythmic deaths 33 9
Tous les décès cardiaques 43 16
Total deaths 56 22
Death rate 7.4% 3.0%
Risque relatif de décès : 2,5
95% CI: 1.6 - 4.5 | p < 0.001

Les médicaments qui supprimaient parfaitement les arythmies ont augmenté la mortalité de 150 %

Le coût humain

Avant CAST, environ 200 000 Américains recevaient chaque année ces médicaments.

~9,000

excès de décès par an - peut-être plus

Guerre du Vietnam : ~6 000 décès aux États-Unis/an • Ces médicaments : ~9 000+ décès/an

Pour chaque numéro, un nom que nous ne connaîtrons jamais.

Regardez ? nouveau.

PREMIÈRE 1

Les PVC après un IM prédisent une mort cardiaque subite

LOCALITÉ 2

Les médicaments antiarythmiques suppriment les ESV

← LE SAUT
PREMIÈRE 3

La suppression des ESV devrait prévenir la mort subite

L'hypothèse que la suppression du marqueur corrigerait le résultat n'a jamais été testé.

1

Les PVC étaient un marqueur de tissus endommagés, pas une cause de décès

2

Les médicaments ont eu des effets proarythmiques - déclenchant des rythmes plus mortels

3

La mère porteuse s'est améliorée tandis que le résultat s'est aggravé - une mère porteuse dissociée

La mère porteuse n'a pas menti. Nous lui avons posé la mauvaise question.

Chaque question clinique pouvant répondre comporte quatre éléments :

P - POPULATION
Qui sont les patients ? Quelles sont leurs caractéristiques ?
I - INTERVENTION
Quel traitement ou quelle exposition est évalué ?
C - COMPARATEUR
Quelle est l'alternative ? Placebo? Soins standards ?
O - RÉSULTAT
Qu'est-ce qui compte pour des malades ? Paramètres d'évaluation stricts par rapport aux substituts.
CAST PICO
Patients post-IM atteints d'ESV | Antiarythmiques | Placebo | Mortalité
🔍

Exercice d'enquête : les preuves avant CAST

Vous êtes cardiologue en 1988. Un patient a survécu à un IM mais présente des ESV fréquentes. La littérature observationnelle est claire...

ÉtudePatients atteints d'ESVMortality Risk
Lown (1977)High-grade PVCs2,4x plus élevée
Plus grand (1984)>10 PVCs/hour3,1x plus élevé
Mukharji (1984)Complex PVCs4,8x supérieur

Le signal est clair. Le mécanisme est plausible. Prescririez-vous des antiarythmiques ?

Avant : logique d'observation

PVC → Mortalité plus élevée

Les médicaments suppriment les PVC

∴ Les médicaments devraient réduire la mortalité

Après : CAST ECR (1989)

Taux de mortalité dû à la drogue : 7.4%

Taux de mortalité sous placebo : 3.0%

RR = 2,5 (augmentation de 150 % des décès)

La mère porteuse s'est améliorée. Les patients sont morts. C'est pourquoi nous demandons : « Quel est le résultat qui compte ? »

1

La plausibilité biologique n'est pas une preuve

Un mécanisme logique ne garantit pas l'effet attendu.

2

Les paramètres de substitution peuvent induire en erreur

L'amélioration d'un biomarqueur ne prouve pas une amélioration des résultats.

3

Only randomized trials establish causation

Les données observationnelles ne peuvent prouver les effets de l'intervention.

4

Le consensus n'est pas une preuve

200 000 prescriptions, l'approbation de la FDA et les lignes directrices ont toutes été faux.

C'est pourquoi nous effectuons une méta-analyse : pour voir le passé apparent vérités.

Ce qui semble certain peut être faux.

Ce que tout le monde croit pourrait être faux.

Il existe des méthodes pour que les patients ne paient pas pour notre confiance.

C'est pourquoi vous êtes ici.

1. Quelle était l'erreur fondamentale dans la logique antiarythmique ?

A. Les essais n'étaient pas randomisés
B. Le traitement d'une mère porteuse (PVC) était supposé améliorer les résultats
C. La taille de l'échantillon était trop petite
D. L'approbation de la FDA a été précipitée

2. Dans PICO, que signifie le « O » et pourquoi est-ce important ?

A. Observation - ce que pensent les chercheurs voir
B. Objectif - le but de la recherche
C. Résultat - ce qui compte pour les patients
D. Organisation - structure de l'étude

Tous les signaux ne sont pas vrais.

Les méthodes protègent les patients de notre confiance.

Module 2 : Le protocole (THS)

Qu'est-ce qui était caché à la vue de tous ?

Ceci est une histoire sur

preuves observationnelles.

🎯 Learning Objectives

  • Expliquez pourquoi le protocole de pré-enregistrement prévient les biais
  • Identifier les éléments clés d'un enregistrement PROSPERO
  • Distinguer les biais des utilisateurs sains des véritables effets du traitement
  • Décrire pourquoi les études observationnelles ont surestimé les bénéfices du THS
  • Appliquer le principe : "Les méthodes protègent les patients de notre confiance"

études observationnelles

Tous ceux qui ont suivi un traitement hormonal substitutif ont protégé les femmes ménopausées des maladies cardiaques.

Les preuves semblaient accablantes. La conclusion semblait certaine.

122 000 infirmières suivies pendant des décennies. Les utilisateurs de THS présentaient une mortalité cardiovasculaire inférieure de 40 à 50 %.

RR 0.56
Cardiovascular mortality
122,000
Women followed
20+ ans
Suivi

Étude historique. Méthodologie impeccable. Mauvaise conclusion.

1

Biais d'utilisateur sain : Les femmes qui ont choisi le THS étaient en meilleure santé, plus riches et mieux instruites

2

Compliance Bias: Les femmes qui prenaient régulièrement un THS prenaient également mieux soin d'elles-mêmes

3

Prescriber Bias: Les médecins ont administré un THS à des femmes en meilleure santé présentant moins de risques facteurs

Le traitement ne les protégeait pas. Ils étaient déjà protégés.

Le plus grand essai randomisé de THS jamais mené.

Conception
499 patients randomisés, en double aveugle, contrôlés par placebo
Population
Femmes ménopausées âgées 50-79
Intervention
Œstrogène + Progestatif vs Placebo
Taille de l'?chantillon
16 608 femmes
Crit?re principal
Maladie coronarienne
Planned duration
8,5 ans

L'essai s'est arrêté prématurément après 5,2 ans. Les dommages ont dépassé les avantages.

Résultat Hazard Ratio Direction
Maladie coronarienne 1.29 NUIRE
Accident vasculaire cérébral 1.41 NUIRE
Breast cancer 1.26 NUIRE
Pulmonary embolism 2.13 NUIRE
Inversion compl?te
30 ans de preuves d'observation annulées

La Leçon

PRÉ-SPÉCIFIER

Un protocole rédigé avant le début de la recherche empêche la pêche, prévient les biais, empêche la distorsion rétrospective.

HISTOIRE : L’hypothèse du timing hormonal

Et si le traitement fonctionnait, mais seulement pour certains ?

DONNÉES RÉELLES

WHI a montré un HRT augmentation globale des événements cardiovasculaires. Mais des analyses ultérieures ont révélé une tendance critique : les femmes qui ont commencé un THS dans les 10 ans suivant la ménopause had Risque cardiovasculaire RÉDUIT. Women starting 20 ans et plus après la ménopause had INCREASED risk. Le résultat global nul/préjudiciable masquait un effet de timing.

Le dilemme de l'analyste
Vous analysez des sous-groupes WHI. Le résultat global montre un préjudice. Creusez-vous plus profondément ?
CHEMIN A : Rapport global uniquement
Conclure que le THS est nocif pour toutes les femmes ménopausées
Message simple. Les lignes directrices déconseillent universellement le THS.
RÉSULTAT : refuser le bénéfice potentiel aux jeunes femmes ménopausées
CHEMIN B : Pré-spécifier les sous-groupes temporels
Analyser par années depuis la ménopause (biologiquement plausible)
Découvrez la « fenêtre de synchronisation » pour un démarrage du THS en toute sécurité.
OUTCOME : permettez des personnalisations recommandations
LE REVELATION
L'analyse des sous-groupes est dangereuse lors de la pêche. C’est essentiel lorsque la biologie prédit une modification des effets. L'hypothèse temporelle était biologiquement plausible et aurait dû être prédéfinie.
1

Inscrivez-vous avant de rechercher

PROSPERO : Registre prospectif international des revues systématiques

2

Verrouillez vos décisions

PICO, stratégie de recherche, résultats, plan d'analyse - tous prédéfinis

3

Document Amendments

Les modifications sont autorisées mais doivent être transparentes et justifiées

4

Prevent Duplication

Vérifiez si votre avis existe déjà avant de commencer

1. Pourquoi l'étude sur la santé des infirmières a-t-elle montré un bénéfice du THS que WHI n'a pas démontré ?

A. La santé des infirmières compté trop peu de patients
B. Biais des utilisateurs sains dans les études observationnelles
C. Nurses' Health a bénéficié d'un suivi plus court
D. Différentes formulations hormonales ont été utilisées

2. Quel est l'objectif principal de l'enregistrement PROSPERO ?

A. Pour enregistrer les essais cliniques
B. Pour accélérer l'achèvement de l'examen
C. Pour pré-spécifier les méthodes et éviter les biais
D. Pour obtenir un financement pour les examens

La pré-spécification n'est pas une bureaucratie.

C'est une protection.

Contre notre propre tendance à trouver ce à quoi nous nous attendons.

Les méthodes protègent les patients de notre confiance.

Qu'est-ce qui était caché à la vue de tous ?

Module 3 : La recherche

Module 3 : La recherche (Rosiglitazone)

Qu'est-ce qui était caché à la vue de tous ?

Ceci est une histoire sur

ce qu'ils n'ont pas fait publier.

🎯 Learning Objectives

  • Développer une stratégie de recherche complète en utilisant les directives de la PRESS
  • Rechercher dans plusieurs bases de données, y compris des sources de littérature grise
  • Identifier les registres d'essais et les bases de données réglementaires (ClinicalTrials.gov, FDA)
  • Expliquez comment le cas de la rosiglitazone a révélé des dommages cardiovasculaires cachés
  • Appliquez le principe : « Qu'est-ce qui était caché à la vue de tous ?

Ventes annuelles au sommet

Avandia (rosiglitazone) était l'un des médicaments contre le diabète les plus vendus au monde.

Les essais publiés semblaient rassurants. Les inédits racontaient une histoire différente.

Les essais publiés ont montré que la rosiglitazone réduisait efficacement l'HbA1c. Les résultats cardiovasculaires ont été rarement signalés.

1999
FDA approval
6M+
Patients traités
~0.7%
Réduction de l'HbA1c

La mère porteuse avait l'air bien. Mais qu'en est-il des événements cardiovasculaires réels ?

Le Dr Steven Nissen a obtenu des données d'essais non publiées sur le site Web de GSK.

GSK avait été tenu par un accord juridique de publier en ligne les résultats des essais cliniques. Nissen et Wolski ont analysé 42 essais, dont beaucoup n'ont jamais été publiés dans des revues.

Les données étaient techniquement publiques.

Personne ne l'avait systématiquement recherché.

Résultat Rapport de cotes 95% CI
Infarctus du myocarde 1.43 1.03 - 1.98
CV Death 1.64 0.98 - 2.74
43 % de risque accru de crise cardiaque
p = 0,03 pour l'infarctus du myocarde

Publié dans NEJM. La FDA a convoqué une réunion du comité consultatif d'urgence.

Le comité consultatif de la FDA : juillet 2007

22-1
Votés : le risque CV existe
20-3
Rester sur le marché avec des avertissements

Le comité était divisé. Certains voulaient le retirer. Certains ont qualifié la méta-analyse de défectueuse.

Mais le signal ne pouvait pas passer inaperçu.

1

Avertissement boîte noire ajouté pour le risque d'insuffisance cardiaque (2007)

2

Severe restrictions sur prescription aux États-Unis (2010)

3

Retiré à partir du marché européen entièrement (2010)

4

La FDA nécessite désormais essais sur les résultats cardiovasculaires pour tous les médicaments contre le diabète

PUBLIÉ
PubMed, Embase, CENTRAL, Web de Science
GREY LITERATURE
Résumés de conférence, mémoires, documents réglementaires
TRIAL REGISTRIES
ClinicalTrials.gov, OMS ICTRP, EU CTR
RÉGLEMENTATION
Soumissions FDA, EMA, Santé Canada
ENTREPRISE DONNÉES
Registres d'essais cliniques GSK, Pfizer, Roche
HAND SEARCH
Listes de référence, auteurs de contact, experts

Examen par les pairs des stratégies de recherche électronique

1

Traduction de la recherche Question

La recherche reflète-t-elle les éléments PICO ?

2

Booléen et proximité Opérateurs

AND, OR, NOT sont-ils correctement utilisés ?

3

Subject Headings

Les termes MeSH/Emtree sont-ils appropriés et éclatés ?

4

Text Words

Synonymes, variantes orthographiques, troncature ?

5

Orthographe, syntaxe, numéros de ligne

Y a-t-il des erreurs qui pourraient entraîner des échecs de récupération ?

6

Limites et filtres

Les limites de date, de langue et de conception de l’étude sont-elles appropriées ?

Une recherche évaluée par les pairs a 30 % plus de chances de trouver la clé études.

McGowan et al., 2016

La même recherche doit être adaptée pour chaque base de données :

PubMed

"diabète sucré de type 2"[MeSH] OU "type 2 diabète"[tiab]

Embase

'diabète sucré non insulino-dépendant'/exp OU 'diabète de type 2' :ti,ab

Les en-têtes de sujet, les balises de champ et les opérateurs diffèrent selon les bases de données.

Si Nissen avait seulement cherché PubMed,

le signal serait resté caché.

La recherche complète est la survie.

Qu'est-ce qui était caché à la vue de tous ?

1. Quel type de source de preuves a révélé le signal cardiovasculaire de la rosiglitazone ?

A. Articles de revues publiés
B. Bibliothèque Cochrane
C. Registre des essais cliniques des entreprises
D. Documents d'approbation de la FDA

2. Que vaut PRESS pour ?

A. Examen des publications sur les normes de recherche de preuves
B. Examen par les pairs des stratégies de recherche électronique
C. Protocole de reporting des études de synthèse des preuves
D. Système de recherche de preuves de recherche primaires

Qu'est-ce qui était caché à la vue de tous ?

Module 4 : La projection

Module 4 : Le dépistage (Vioxx)

Le numéro sans provenance n'est pas un numéro.

Ceci est une histoire sur

ce qu'ils a choisi de signaler.

🎯 Learning Objectives

  • Appliquer le diagramme de flux PRISMA à documenter la sélection des études
  • Mettre en œuvre une sélection à double évaluateur en cas de conflit. résolution
  • Identifier les rapports sélectifs sur les résultats et la manipulation des données
  • Calculer la fiabilité inter-évaluateurs (kappa de Cohen)
  • Appliquer le principe : « Le numéro sans provenance n'est pas un numéro »

crise cardiaque attribuée au Vioxx

Un médicament à succès. Un signal caché. Une catastrophe évitable.

Entre 1999 et 2004, des millions de personnes ont pris cet analgésique. Certains ne sont jamais rentrés à la maison.

Le rofécoxib (Vioxx) était un AINS sélectif de la COX-2. Commercialisé comme étant plus sûr pour l’estomac que les analgésiques traditionnels.

1999
FDA approval
$2.5B
Pic des ventes annuelles
80M+
Patients prescrits

Recherche sur les résultats gastro-intestinaux du Vioxx

Conception
Randomized, double-blind
Comparaison
Vioxx ou Naproxène
Population
Rheumatoid arthritis
Échantillon
8 076 patients
Primary Outcome
GI events
Publié
NEJM, November 2000
GI Outcome Vioxx Naproxène
Événements gastro-intestinaux confirmés 2.1 per 100 pt-yrs 4.5 per 100 pt-yrs
Réduction 54 % d'événements gastro-intestinaux en moins

C'est ce qu'on a dit aux médecins. C’est ce que croyaient les patients.

CV Outcome Vioxx Naproxène
Infarctus du myocarde 20 événements 4 événements
Risque relatif 5 fois plus élevées dans le groupe Vioxx
Une multiplication par 5 des crises cardiaques
Mentionné seulement brièvement, attribué au fait que le naproxène est « cardioprotecteur »
1

Manipulation du seuil de données : 3 crises cardiaques supplémentaires se sont produites après le seuil utilisé dans la publication

2

Rotation: Le signal CV a été expliqué par le fait que le naproxène était cardioprotecteur (aucune preuve)

3

Outcome switching: Les événements CV étaient prédéfinis mais non soulignés

4

Internal knowledge: Les e-mails de Merck montrent qu'ils connaissaient le signal

L'essai APPROVe (2004)

Un essai pour la prévention des polypes colorectaux – arrêté tôt pour des raisons de sécurité.

RR 1.92
Événements CV par rapport au placebo
septembre 2004
Vioxx withdrawn

Quatre ans après que VIGOR ait montré un risque 5x. Quatre ans trop tard.

HISTOIRE : L’arbre décisionnel Vioxx

Avez-vous réfléchi à ce qui se passe lorsqu’un signal se cache dans le bruit ?

DONNÉES RÉELLES

Le Vioxx (rofécoxib) a été approuvé dans 1999. By 2004, estimates suggest 88 000 à 140 000 crises cardiaques excessives and 30 000 à 40 000 décès. L'essai VIGOR de Merck a montré 5x cardiovascular risk en 2000, mais elle a été rejetée comme un « naproxène cardioprotecteur effet."

La fourche sur la route
Vous êtes un examinateur de la FDA en 2001. Les données VIGOR montrent un risque de crise cardiaque multiplié par 5 avec le Vioxx par rapport au naproxène.
CHEMIN A : Accepter l'explication
Croyez l'hypothèse de Merck : le naproxène est cardioprotecteur
Aucune étude de sécurité supplémentaire n'est requise. Le médicament reste sur le marché à toute vitesse.
RÉSULTAT : plus de 40 000 décès sur 4 ans
CHEMIN B : Exiger des preuves
Exiger un essai dédié sur la sécurité du CV avant de continuer marketing
Retarder ou restreindre la commercialisation jusqu'à ce que la sécurité cardiovasculaire soit établie.
OUTCOME : signal détecté tôt, vies sauvées
LE REVELATION
Le signal était là en 2000. Une explication erronée a retardé l’action de 4 ans. Une hypothèse alternative – acceptée sans preuve – a coûté des dizaines de milliers de vies.

Chaque étape du dépistage doit être documentée et transparente.

Identification
Enregistrements issus de bases de données + autres sources
Dépistage
Revue du titre/du résumé (doublons supprimés)
Éligibilité
Évaluation en texte intégral (avec raisons d'exclusion)
Compris
Etudes en synthèse
1

Réduit le biais de sélection

Un évaluateur pourrait inconsciemment favoriser certains études

2

Catches Errors

La fatigue, les erreurs de lecture et les erreurs sont inévitables

3

Force des critères explicites

Les désaccords révèlent une ambiguïté dans les règles d'inclusion

Typical agreement: κ = 0.6-0.8

Désaccords résolus par discussion ou par un troisième évaluateur

Avant de filtrer des milliers de dossiers, les examinateurs doivent calibrer sur un échantillon de 50 à 100 dossiers.

1

Dépister le même ensemble de manière indépendante

2

Comparez les décisions et discutez des désaccords

3

Affiner les critères d'inclusion jusqu'à κ > 0,7

4

Documenter le processus d'étalonnage et tout changement de règle

Nouveauté 2020
Rapport séparé des recherches dans la base de données et dans les registres
Nouveauté 2020
Les outils d'automatisation doivent être signalés
Nouveauté 2020
Recherche de citations documentées séparément
Nouveauté 2020
Motifs d'exclusion au texte intégral obligatoire

PRISMA 2020 était une révision substantielle de la déclaration originale de 2009, restructurant la liste de contrôle et ajoutant de nouvelles directives de reporting pour des éléments tels que les outils d'automatisation, la certitude des preuves, le protocole/l'enregistrement et la synthèse élargie. méthodes.

Si les données cardiovasculaires de Vioxx avaient été examinées par des évaluateurs indépendants,

si tous les résultats prédéfinis devaient être rapportés,

88 000 crises cardiaques auraient pu être évitées.

Le numéro sans provenance n'est pas un numéro.

1. Dans l'essai VIGOR, quel était le risque relatif d'IM dans le groupe Vioxx par rapport au naproxène ?

A. 1,5x supérieur
B. 2x plus élevé
C. 5x plus élevé
D. 10x plus élevé

2. Pourquoi la double sélection (deux évaluateurs indépendants) est-elle importante ?

A. Cela facilite le dépistage plus rapide
B. Il réduit les biais de sélection et détecte les erreurs
C. Cela réduit le nombre d'études à examiner
D. Il permet aux évaluateurs d'ignorer l'examen du texte intégral

Le numéro sans provenance n'est pas un numéro.

Module 5 : L'extraction

Module 5 : L'extraction (DIMINUER)

Le numéro sans provenance n'est pas un numéro.

Ceci est une histoire sur

nombres qui n'ont jamais existait.

🎯 Learning Objectives

  • Concevoir un formulaire d'extraction de données standardisé avec des champs de provenance
  • Calculez l'ampleur des effets à partir de diverses statistiques rapportées (OR, RR, HR, SMD)
  • Mettre en œuvre une double extraction avec résolution des écarts
  • Identifier les signaux d'alarme en cas de fabrication de données et de mauvaise conduite
  • Expliquez comment la fraude DECREASE a affecté les directives cliniques

surmortalité possible en Europe

À partir de lignes directrices basées sur des données d'essais cliniques fabriquées.

Les essais DECREASE ont influencé les activités périopératoires soins dans le monde entier. Les données ont été inventées.

Professeur au centre médical Erasmus de Rotterdam. Auteur de plus de 500 articles. Auteur principal des lignes directrices de l'ESC sur les soins cardiaques périopératoires.

500+
Publications
DIMINUER
Séries d'essais I à VI
ESC
Guideline chair

Une source apparemment irréprochable. Jusqu'à ce que quelqu'un examine les données.

Procès Trouver Impact
DIMINUTION-I (1999) Réduction de 90 % des décès Changed guidelines
DIMINUTION-IV (2009) Les bêtabloquants sont sûrs chez les patients à faible risque Expanded recommendations

Les tailles d'effet étaient invraisemblables grand.

90% de réduction ? Presque rien en médecine ne fonctionne aussi bien.

1

Erasmus MC a enquêté suite à des plaintes de dénonciateurs

2

Données de patients fabriques : Patients qui n'existaient pas ou n'étaient pas inscrits

3

Aucun consentement éclairé : De nombreux « participants » n'ont jamais consenti

4

Poldermans dismissed: D'Erasmus MC en 2011

La cascade du mal

Lorsque DECREASE a été retiré des méta-analyses...

Benefit → Harm
Direction reversed
27% ↑
Augmentation du risque d'accident vasculaire cérébral

L'essai POISE (2008) avait montré des dommages. Il a été rejeté car il était en conflit avec DECREASE.

1

Confiance en l'autorité : Poldermans était l'auteur des lignes directrices qui examinait ses propres preuves

2

Aucune vérification des données : Personne n'a demandé de données individuelles sur les patients

3

Publication prestige: Publié dans les meilleures revues, supposé valide

4

Effets invraisemblables acceptés : Des réductions de 90 % devraient éveiller les soupçons

1

Dual Extraction

Deux extracteurs indépendants : détectent les erreurs de transcription et forcent un examen minutieux

2

Record Provenance

Tableau, page, paragraphe - chaque numéro traçable à la source

3

Vérifier par rapport au registre

Résultats de ClinicalTrials.gov par rapport à la publication - les écarts sont rouges flags

4

Request IPD

Les données individuelles des patients révèlent ce que cachent les CV globaux

Lors de l'extraction, vous calculez les tailles d'effet à partir des données rapportées :

BINARY OUTCOMES

Rapport de cotes, risque Ratio, différence de risque par rapport aux tableaux 2x2

CONTINUOUS OUTCOMES

Différence moyenne, différence moyenne standardisée à partir des moyennes et des écarts-types

Toujours extraire à partir de la source la plus fiable.

Préférer : résultats ITT > par protocole > sous-groupes

!

Tailles d'effet invraisemblables : Des réductions de 80 à 90 % devraient inciter à un examen minutieux

!

Baseline imbalances: Les groupes qui sont "trop parfaitement" correspond

!

Round numbers: "Exactement 50" ou "exactement 100 " patients par bras

!

Registry discrepancies: Le N publié diffère du N enregistré

Chaque chiffre de votre méta-analyse

doit remonter à une source vérifiable.

Le numéro sans provenance n'est pas un numéro.

Les données frauduleuses peuvent tuer aussi sûrement que les médicaments frauduleux.

Chercheur

Les études rapportent leurs résultats avec différentes métriques. Pour les combiner, des conversions sont souvent nécessaires :

DeVersFormule
SMD (d)journal-OUlog-OR = d × π / √3
journal-OUSMD (d)d = log-OR × √3 / π
Corrélation (r)Pêcheur Zz = 0.5 × ln((1+r)/(1−r))
ORRRRR = OU / (1 − P₀ + P₀ × OU)
ORNNTNNT = 1 / (P₀ − OR×P₀ / (1−P₀+OR×P₀))

P₀ = risque de base dans le groupe contrôle. Ces formules supposent des conditions approximatives ; voir Borenstein et al. (Ch. 7) pour les dérivations exactes.

Chercheur

De nombreux essais rapportent des résultats de type temps-jusqu'à-événement via des rapports de risques instantanés (HR). Le pooling des HR en méta-analyse nécessite un traitement spécial :

1

La méthode log(HR) + SE

Extraire le log(HR) et son erreur-type de l'essai. Si non rapportée, dériver l'ET à partir de l'IC : SE = (ln(borne sup) − ln(borne inf)) / (2 × 1.96). Combiner par la méthode de la variance inverse.

2

Quand le HR n'est pas rapporté

Des méthodes existent pour reconstruire les données individuelles à partir des courbes de Kaplan–Meier (Guyot et al. 2012) ou estimer le HR à partir des valeurs p et du nombre d'événements (Parmar et al. 1998). Toujours préférer le HR ajusté directement rapporté lorsque disponible.

HR < 1 favorise le traitement ; HR > 1 favorise le contrôle. Ne pas convertir les HR en OR ou RR — ils mesurent des quantités fondamentalement différentes.

1. Que s'est-il passé lorsque les données de l'essai DECREASE ont été supprimées des méta-analyses des bêtabloquants ?

A. Le bénéfice est devenu encore plus important
B. Aucun changement dans les conclusions
C. La direction s'est inversée pour montrer les dommages potentiels
D. Les résultats ne sont pas concluants

2. Pourquoi la double extraction devrait-elle être une pratique standard ?

A. Il détecte les erreurs de transcription et force un examen minutieux
B. Il rend l'extraction plus rapide
C. Cela permet de trouver plus d'études
D. Cela réduit le quantité de travail nécessaire

Le numéro sans provenance n'est pas un numéro.

Module 6 : Le biais

Module 6 : Le biais (aprotinine/BART)

Les méthodes protègent les patients de notre confiance.

Ceci est une histoire sur

le biais que nous ne pouvons pas voir.

🎯 Learning Objectives

  • Appliquer le risque de biais 2.0 (RoB 2) aux essais randomisés
  • Appliquer ROBINS-I aux études non randomisées
  • Évaluer les cinq domaines RoB 2 (randomisation, écarts, données manquantes, mesure, sélection)
  • Distinguer les effets confondants par indication des effets réels du traitement
  • Expliquez comment BART a révélé les méfaits cachés de l'aprotinine

années sur le marché

L'aprotinine était l'étalon-or pour réduire les risques chirurgicaux saignement.

Puis quelqu'un a réalisé un ECR. La vérité était différente.

1

Les patients les plus malades ont reçu de l'aprotinine : Les chirurgiens l'ont utilisée dans des cas complexes et à haut risque

2

Survivors bias: Les patients décédés ne peuvent pas signaler de complications

3

Publication bias: Les études négatives n'ont pas été publié

Les études observationnelles n'ont pas pu séparer l'effet du médicament du risque de base du patient.

Conservation du sang à l'aide d'antifibrinolytiques dans un essai randomisé

RésultatAprotinineAlternatives
30-day mortality6.0%3.9%
Risque relatif1.53 (53% increased death)
Essai arrêté prématurément pour Dommages
Retiré du marché en novembre 2007
🔍

Enquête : Évaluez la Biais

Vous examinez les études observationnelles. Appliquer le risque de biais en pensant :

QuestionObservationBART (RCT)
Random allocation?❌ Surgeon choice✓ Yes
Baseline comparable?❌ Un malade a reçu un médicament✓ Équilibré
Aveuglant ?❌ Open label✓ Double aveugle

Confondant par indication : Les chirurgiens ont administré de l'aprotinine aux patients les plus malades. Les études observationnelles attribuaient la survie au médicament, lorsqu'elles mesuraient le biais de survie.

D1

Randomization Process

D2

Écarts par rapport aux interventions prévues

D3

Données de résultats manquantes

D4

Mesure du résultat

D5

Sélection du résultat rapporté

Lorsque les ECR ne sont pas disponibles, utilisez ROBINS-I (risque de biais dans les études non randomisées sur Interventions)

1

Confondant

Différences de base entre les groupes

2

Sélection des participants

Exclusions liées à l'intervention

3

Classification des interventions

Classification erronée du statut d'exposition

4

Écarts par rapport aux interventions prévues

Co-interventions, contamination

5

Manquant Données

Perte différentielle au suivi

6

Mesure des résultats

Ascertainment bias

7

Sélection du résultat rapporté

Selective reporting

Notes : faible/modéré/sérieux / Critique / Aucune information

Des études observationnelles suggèrent la sécurité.

L'ECR a révélé une augmentation de la mortalité de 53 %.

Only randomization can break confounding.

1. Pourquoi les études observationnelles ont-elles négligé les effets nocifs de l'aprotinine ?

A. Taille de l'?chantillons too small
B. Confusion par indication
C. Résultat mesuré de manière incorrecte
D. Suivi trop court

Les méthodes protègent les patients de notre confiance.

Module 7 : La Synthèse

Module 7 : La Synthèse (Magnésium/ISIS-4)

L'hétérogénéité est un message, pas un bruit.

La controverse sur le magnésium : 1991-1995

Lorsque la mise en commun nous égare.

🎯 Learning Objectives

  • Calculez les tailles d'effet groupées à l'aide de modèles à effets fixes et à effets aléatoires
  • Choisissez entre DerSimonian-Laird et Les estimateurs HKSJ de manière appropriée
  • Interpréter les parcelles forestières, y compris les poids, les intervalles de confiance et diamants
  • Expliquez pourquoi les effets de petites études peuvent induire en erreur les méta-analyses
  • Appliquer le principe : "L'hétérogénéité est un message, pas un bruit"

"Vous vous trouvez à la croisée de l'espoir et des preuves..."

Les maladies cardiaques tuent plus de personnes dans le monde que toute autre cause. En 1991, un nouvel espoir émerge : pourrait-il quelque chose d'aussi simple et bon marché que intravenous magnesium sauver des vies après un infarctus du myocarde ?

Le raisonnement biologique était solide :

Le magnésium stabilise les membranes cardiaques, prévient les arythmies et vasodilate les artères coronaires.

Essai d'intervention sur le magnésium intraveineux de Leicester, 1992

2,316
Patients recrutés
24%
Mortality reduction
p = 0.04
Statistically significant

Une intervention peu coûteuse et sûre qui pourrait sauver 250 000 vies par an dans le monde.

La communauté médicale était électrisée.

Researchers pooled sept essais randomisés de magnésium IV dans l'IM :

Procès Année N Rapport de cotes
Morton 19841984400.10
Rasmussen 198619862730.35
Forgeron 198619864000.48
Abraham19871987940.87
Shechter 199019901030.27
Ceremuzynski 19891989480.22
LIMITE-219922,3160.74
🔍

Exercice d'enquête : le dilemme du méta-analyste

Vous êtes un évaluateur Cochrane en 1993. On vous a demandé de synthétiser les preuves sur le magnésium pour l'IM. Les données de sept essais se trouvent devant vous.

Voyez-vous la tendance dans ce graphique forestier ?

OR groupé = 0,44 (IC à 95 % : 0,27–0,71)
Réduction de la mortalité de 55 % ! Publier dans le Lancet ?

Mais attendez... remarquez-vous quelque chose à propos de la taille des essais ?

Qu'est-ce qui aurait dû nous faire réfléchir ?

1

Petits échantillons : Six essais sur sept comptaient <500 patients

2

Extreme effects: Un OR de 0,10 (réduction de 90 %) est invraisemblable pour tout médicament

3

All positive: Où étaient les résultats négatifs ? des essais ? Le problème du tiroir de fichiers...

4

Funnel asymmetry: Les petits essais ont montré des effets beaucoup plus importants que les plus grands

🔍

Le test de tracé en entonnoir

Avant de mettre en commun, nous devons vérifier les biais de publication. Examinons le tracé en entonnoir.

"Et puis est venue la vérité..."

The Quatrième étude internationale sur la survie à l'infarctus (ISIS-4) recruté 58 050 patients dans 1 086 hôpitaux dans 31 paie.

58,050
Patients
2,216
Décès dans le groupe Mg
2,103
Décès sous placebo
OR = 1,06 (IC à 95 % : 1,00–1,12)
Aucun avantage. Au contraire, il s'agit d'une tendance à la nocivité.
📊

Avant et après : le tableau complet

Regardez ce qui se passe lorsque nous ajoutons le méga-essai à notre parcelle forestière...

BEFORE ISIS-4

7 small trials (N = 3,274)

OR = 0.44

Signal de bénéfice fort

AFTER ISIS-4

8 essais (N = 61 324)

OR = 1.02

Aucun effet

1

Biais de publication

Petits essais n'ont jamais été publiés - ils sont restés dans des tiroirs

2

Small-Study Effects

Les essais de plus petite envergure ont tendance à montrer des effets plus importants en raison de faiblesses méthodologiques

3

Biais aléatoire élevé

Par hasard, quelques petits essais ont eu lieu des résultats extrêmes — et ceux-ci sont publiés

4

Random-Effects Amplification

Les modèles à effets aléatoires accordent plus de poids aux petits essais, les amplifiant biais

Quel modèle devriez-vous choisir ?

MODÈLE À EFFET FIXE

Suppose un vrai effet. Pondère les études par variance inverse (précision). Les grands essais dominent.

Magnesium result: OR = 0.96 (p = 0.52)

MODÈLE À EFFETS ALÉATOIRES

Suppose distribution des effets. Donne plus de poids aux petits essais. Intervalles de confiance plus larges.

Magnesium result: OR = 0.59 (p = 0.01)

⚠️ Le choix du modèle a déterminé la conclusion !

Lorsqu'un biais de publication existe, des effets aléatoires peuvent le rendre pire.

1. Vérifiez les biais de publication avant de se fier à une estimation groupée. Les tracés en entonnoir et le test d'Egger sont vos outils.

2. Méfiez-vous des effets des petites études. Si seuls de petits essais montrent un bénéfice, attendez un essai de grande envergure et bien mené.

3. Le choix du modèle est important. Les effets aléatoires peuvent amplifier les preuves biaisées. Considérez les deux modèles et comprenez les implications.

4. Un grand essai peut renverser de nombreux petits essais. C'est pourquoi les méga-essais comme ISIS-4 sont si précieux.

1. Pourquoi la méta-analyse du magnésium a-t-elle montré un bénéfice qu'ISIS-4 n'a pas trouvé ?

A. La méthodologie ISIS-4 était imparfaite
B. Erreur de calcul dans la méta-analyse
C. Biais de publication dans les petits essais
D. LIMIT-2 était sous-alimenté

2. Quel signe d’avertissement aurait dû alerter les évaluateurs d’un biais potentiel ?

A. Graphique en entonnoir asymétrique (petits essais montrant des effets plus importants)
B. Low heterogeneity (I² = 0%)
C. Forte plausibilité biologique
D. Trop peu d'essais à analyser

3. Lorsqu'un biais de publication est suspecté, quel modèle peut amplifier le biais ?

A. Effet fixe modèle
B. Modèle à effets aléatoires
C. Bayesian model
D. Méta-analyse réseau
Chercheur

Tous les ECR n'utilisent pas un design en groupes parallèles standard. Deux alternatives courantes nécessitent un traitement spécial lors du pooling des résultats :

1

Essais randomisés en grappes

Randomise des groupes (hôpitaux, écoles), pas des individus. L'effet de plan = 1 + (m−1) × ICC réduit la taille d'échantillon effective. Diviser N par l'effet de plan avant le pooling, ou utiliser l'ET ajustée de l'essai. Ignorer le clustering produit des IC artificiellement étroits.

2

Essais croisés (Crossover)

Chaque patient reçoit les deux traitements. Le design apparié réduit la variance, mais vous avez besoin de la corrélation intra-patient (ou l'ET de l'analyse appariée) pour combiner correctement. Utiliser l'ET du groupe parallèle est conservateur ; utiliser le mauvais N double-compte les patients.

Voir le Manuel Cochrane v6.4, Chapitre 23 pour les formules détaillées et exemples pratiques.

De petits essais peuvent montrer de faux signaux.

Des essais à grande échelle ancrent la vérité.

L'hétérogénéité est un message, pas un bruit.

L'hétérogénéité est un message, pas un bruit.

Module 8 : L'hétérogénéité

Module 8 : L'hétérogénéité (ACCORD)

L'hétérogénéité est un message, pas un bruit.

ACCORD : 2008

Quand la moyenne cache le vérité.

🎯 Learning Objectives

  • Calculez et interprétez I², τ² et les intervalles de prédiction
  • Appliquer les critères ICEMAN pour évaluer la crédibilité du sous-groupe
  • Distinguer l'hétérogénéité clinique, méthodologique et statistique
  • Réaliser et interpréter des analyses de sensibilité sans intervention
  • Expliquez comment ACCORD a révélé des effets différentiels entre les sous-groupes

"Vous êtes sur le point d'assister à l'une des terminaisons d'essais les plus choquantes de l'histoire..."

Pendant des décennies, la communauté du diabète avait un guide principe : une glycémie plus faible est préférable. Les études historiques DCCT (1993) et UKPDS (1998) ont montré qu'un contrôle intensif de la glycémie réduisait les complications microvasculaires : cécité, insuffisance rénale, lésions nerveuses.

L'extrapolation logique :

Si le contrôle de la glycémie prévient les complications, un contrôle intensif ne devrait-il pas également prévenir les maladies cardiovasculaires ?

Le test définitif de contrôle intensif de la glycémie

10,251
Type 2 diabetics
HbA1c <6%
Intensive target
HbA1c 7-7.9%
Standard target

Tous les patients souffraient de diabète de type 2 avec un risque cardiovasculaire élevé, qu'il s'agisse d'une maladie cardiovasculaire établie ou de plusieurs facteurs de risque. L'essai a été conçu pour une durée de 5,6 ans.

6 février 2008

Le comité de surveillance de la sécurité des données convoque une réunion d'urgence.

Après 3,5 ans, ils prennent une décision sans précédent :

ARRÊTEZ L'ESSAI.

Résultat Intensif Standard HR (95% CI)
Critère de jugement principal du CV 352 événements 371 événements 0.90 (0.78–1.04)
All-cause mortality 257 décès 203 décès 1.22 (1.01–1.46)
Severe hypoglycemia 10.5% 3.5% 3,0× supérieur
Augmentation de 22 % de mortalité
54 décès supplémentaires dans le bras intensif
🔍

Exercice d'enquête : le dilemme du clinicien

Vous êtes un endocrinologue auprès de 500 patients diabétiques. Les résultats ACCORD sont publiés. Que dites-vous à vos patients qui recherchent un taux d'HbA1c <6 % ?

Un contrôle intensif est-il nocif pour tout le monde ? Ou seulement pour certains ?

Analyse de sous-groupe révélée :

Sous-groupeIntensive HRInterprétation
Aucun MCV antérieur1.00 (0.76–1.32)Aucun effet
Prior CVD1.45 (1.15–1.84)Significant harm
HbA1c de base <8 %1.02 (0.75–1.40)Aucun effet
HbA1c de base ≥8%1.29 (1.03–1.60)Nuire

L'effet moyen masqué est critique hétérogénéité !

Pour les patients présentant une maladie cardiovasculaire établie ou un mauvais contrôle de base, le traitement intensif nocif était.

Lorsque des études (ou des sous-groupes) montrent des effets différents, nous devons quantifier cette variation.

I² = 0–25%: Faible hétérogénéité. Les effets sont cohérents dans toutes les études.

I² = 25–50%: Modéré. Recherchez les sources de variation.

I² = 50–75%: substantiel. Déterminez si la mise en commun est appropriée.

I² = 75–100%: Considérable. Une seule estimation groupée peut induire en erreur.

Mais I² à lui seul ne vous dit pas quoi faire : il indique que vous devez approfondir vos recherches.

Alors que I² vous indique la proportion de variance due à l'hétérogénéité, τ² vous indique l'ampleur.

I² (pourcentage)

"Quelle fraction de la variance totale est due aux véritables différences entre les études ?"

Echelle : 0% à 100%

τ² (absolute)

"Dans quelle mesure les effets réels varient-ils entre les études ?"

Même échelle que la mesure de l'effet

Utilisez τ² pour calculer prediction intervals

Un intervalle de prédiction montre la gamme d'effets auxquels vous vous attendez dans une nouvelle étude, souvent beaucoup plus large que l'intervalle de confiance.

📊

L'intervalle de prédiction : ce que ACCORD nous dit réellement

Envisagez une méta-analyse du contrôle intensif de la glycémie à travers plusieurs essais...

Confidence Interval

HR 1.10 (0.95–1.27)

"Notre meilleure estimation de l'effet moyen"

Intervalle de pr?diction

HR 1.10 (0.70–1.73)

"La gamme d'effets dans un nouveau décor"

L'intervalle de prédiction couvre à la fois les avantages et les inconvénients !

Dans certains contextes, un contrôle intensif peut être utile. Dans d'autres, cela pourrait tuer.

L'instrument ICEMAN (instrument d'évaluation de la crédibilité de la modification de l'effet Analyses)

1

L'analyse des sous-groupes a-t-elle été prédéfinie ?

Les sous-groupes post-hoc sont sujets au dragage des données

2

Existe-t-il une hypothèse biologique plausible justification ?

Le mécanisme doit être clair et indépendant des données

3

L'effet est-il cohérent entre les critères de jugement associés ?

Si un préjudice apparaît pour mortalité, y a-t-il des dommages similaires en cas d'IM et d'accident vasculaire cérébral ?

4

Y a-t-il une réplication indépendante ?

L'effet du sous-groupe a-t-il été confirmé dans d'autres études ?

CritèreÉvaluationScore
Pré-spécifié ? Oui : une maladie cardiovasculaire antérieure figurait dans le protocole
Biological rationale? Oui : l'hypoglycémie est plus dangereuse en cas de maladies cardiovasculaires
Consistent outcomes? Oui – Mortalité CV et mortalité toutes causes confondues alignées
Independent replication? Partiellement : ADVANCE et VADT ont montré des tendances similaires ~

Classement ICEMAN : haute crédibilité

Le préjudice différentiel chez les patients à haut risque semble réel.

Pour les patients sans MCV : Un contrôle modéré de la glycémie (HbA1c ~ 7 %) reste l'objectif. Un contrôle intensif peut réduire les complications microvasculaires.

Pour les patients présentant une maladie cardiovasculaire établie : Évitez les cibles intensives. L'hypoglycémie est dangereuse pour les cœurs endommagés.

Pour les personnes âgées patients : Cibles détendues. La qualité de vie compte. Un contrôle strict provoque des chutes, de la confusion et une mortalité excessive.

Le traitement « taille unique » n'est pas une médecine centrée sur le patient.

Lorsque l'hétérogénéité est élevée, la méta-régression peut identifier les covariables au niveau de l'étude qui expliquent la variation.

LA QUESTION

L'ampleur de l'effet varie-t-elle systématiquement avec les caractéristiques de l'étude ?

Covariables
Année, dose, durée, risque de base, qualité de l'étude
Sortir
Coefficient de régression (pente), R², hétérogénéité résiduelle

Prudence

La méta-régression nécessite ≥10 études par covariable. Avec peu d’études, elle est uniquement exploratoire. Erreur écologique : les associations au niveau de l'étude peuvent ne pas s'appliquer aux individus.

Exemple: Dans ACCORD, la méta-régression pourrait tester si l'effet du traitement varie en fonction de l'HbA1c de base, démontrant que les dommages sont concentrés chez les patients présentant des taux très élevés.

HISTOIRE : La révolution de la tension artérielle SPRINT

Quel numéro sauve des vies ? Qui décide ?

DONNÉES RÉELLES

Pendant des décennies, l'objectif était : traiter la tension artérielle à <140 mmHg systolic. Then came SPRINT (2015): 9 361 patients à haut risque randomisé selon des cibles intensives (<120) par rapport aux cibles standard (<140). Traitement intensif réduit Événements CV de 25 % and décès de 27%. L’essai s’est arrêté prématurément pour en bénéficier. Les directives ont changé dans le monde entier.

Avant SPRINT : le comité des lignes directrices
Vous fixez des lignes directrices en matière de tension artérielle en 2014. L'objectif est < 140 depuis des années. Devez-vous attendre de meilleures preuves ?
CHEMIN A : Maintenir le statu quo
Maintenir l'objectif < 140 (pratique établie, controverse minimale)
Lignes directrices inchangées. Les médecins continuent de traiter jusqu'à <140.
OUTCOME : rater l'occasion de prévenir les décès
CHEMIN B : Financer l'essai définitif
Attendez les résultats SPRINT avant de mettre à jour les cibles
SPRINT démontre ses avantages. Mettre à jour l'objectif à <120 pour les patients à haut risque.
RÉSULTAT : plus de 100 000 vies sauvées dans le monde
JNC 7 (2003): <140
Des années d'incertitude
SPRINT (2015) : <120 pour les patients à haut risque
LE REVELATION
« Norme de soins » n'est pas corrigée. Cela change lorsque les essais remettent en question les hypothèses. Pendant une décennie, les patients ont peut-être été sous-traités parce que personne n'a répondu à la question évidente.

1. Pourquoi l'essai ACCORD a-t-il été arrêté prématurément ?

A. Le contrôle intensif a montré un bénéfice cardiovasculaire évident
B. Le contrôle intensif a augmenté la mortalité
C. L'inscription a été trop lente
D. Budget exécuté sortie

2. Qu'est-ce qu'un intervalle de prédiction nous dit qu'un intervalle de confiance ne nous dit pas ?

A. Le véritable effet est estimé plus précisément
B. L'échantillon la taille est adéquate
C. La gamme d'effets auxquels nous nous attendrions dans une nouvelle étude
D. La formule mathématique utilisée

3. Selon ICEMAN, quel facteur est le PLUS important pour la crédibilité du sous-groupe ?

A. Pré-spécification du sous-groupe hypothèse
B. Grande taille d'échantillon dans le sous-groupe
C. Valeur p statistiquement significative
D. Plusieurs résultats montrant la même direction

Lorsque les études ne sont pas d'accord,

écouter le désaccord.

L'hétérogénéité est un message, pas un bruit.

L'absence de preuve n'est pas une preuve d'absence.

Module 9 : Les études cachées

Module 9 : Les études cachées (Reboxetine)

L'absence de preuve n'est pas une preuve d'absence.

Réboxétine : 2010

Les 74 % qui n'ont jamais vu le jour.

🎯 Learning Objectives

  • Interpréter les tracés en entonnoir pour la détection de l'asymétrie
  • Appliquer le test d'Egger et d'autres tests statistiques pour le biais de publication
  • Mettre en œuvre la méthode de découpage et de remplissage pour le biais ajustement
  • Évaluer de manière critique les limites des tests de biais de publication
  • Appliquer le principe : "L'absence de preuve n'est pas une preuve d'absence"

"Un nouvel espoir pour les patients dépressifs qui ne peuvent pas tolérer les ISRS..."

La réboxétine (Edronax) était un nouvel antidépresseur, un inhibiteur sélectif de la recapture de la noradrénaline (NRI). Contrairement à l'ISRS, il ciblait un système de neurotransmetteurs différent. Pour les patients qui ne toléraient pas ou ne toléraient pas la fluoxétine ou la sertraline, il offre un nouveau mécanisme.

1997
EU approval
50+
Countries approved
Des millions
Prescriptions written

Ce que les médecins ont pu trouver dans les revues médicales :

ComparaisonPublished TrialsPublished Result
Réboxétine vs Placebo 3 essais (n=507) Significativement meilleure (SMD = 0,56)
Réboxétine vs ISRS 4 essais (n=628) Équivalent ou supérieur

La littérature publiée raconte une histoire claire :

La réboxétine fonctionne. Les patients en profitent. Prescrire en toute confiance.

Mais qu'en est-il des essais que vous ne pouviez pas voir ?

En 2010, des chercheurs allemands de l'IQWiG ont adressé une demande à l'Agence européenne des médicaments...

Ils ont demandé l'accès à all données des essais publiées et non publié.

Ce qu'ils ont trouvé a tout changé.

Eyding et coll., BMJ 2010

ComparaisonPublished OnlyTOUTES LES DONNÉES
Réboxétine vs Placebo SMD 0.56 (benefit) SMD 0,10 (aucun avantage)
Patients analysés 507 (14%) 2,731 (100%)
Réboxétine vs ISRS Équivalent Inférieur (RR 1,23 pour les dommages)
Patients analysés 628 (26%) 2,411 (100%)
74 % des données des patients n'ont jamais été publiées
Les essais cachés n'ont montré aucun bénéfice et davantage de dommages
🔍

Exercice d'enquête : le tiroir-classeur

Vous êtes un évaluateur systématique en 2008. Vous effectuez une recherche dans PubMed, Embase et la bibliothèque Cochrane pour tous les essais sur la réboxétine. Vous trouvez 7 essais publiés démontrant un bénéfice.

Pouvez-vous faire confiance à ces preuves ?

⚠️ L'entonnoir est considérablement réduit asymétrique !

Toutes les études publiées se regroupent d'un seul côté. Où sont les essais nuls et négatifs ?

1

Diagramme en entonnoir

Taille de l'effet de tracé par rapport à l'erreur standard. Un entonnoir symétrique ne suggère aucun biais ; l'asymétrie déclenche des alarmes.

2

Test de régression d'Egger

Régression de l'effet standardisé sur la précision. P <0,10 suggère des effets issus d'une petite étude.

3

Peters' Test

Pour les résultats binaires, régresse le journal OU sur l'inverse de la taille totale de l'échantillon. Moins sujet aux faux positifs.

4

Découper et remplir

Impute les études « manquantes » pour rendre l'entonnoir symétrique, puis recalcule l'effet poolé.

📊

Interactif : analyser le Trim-and-Fill

Appliquons le découpage et le remplissage aux données de reboxétine et voyons quelle serait l'estimation ajustée...

Published Only

7 essais

SMD = 0.56

Significant benefit

Découper et remplir

7 + 5 imputed = 12 trials

SMD = 0.23

Réduit, toujours nominalement significatif

Mais même le trim-and-fill a sous-estimé le problème !

Le véritable effet avec tous les données étaient SMD = 0,10 (essentiellement nulles).
Le découpage et le remplissage sont conservateurs, ce n'est pas le cas. entièrement correct pour une publication sélective.

Les méthodes de détection des biais de publication sont imparfaites. La vraie solution est prospective registration.

ClinicalTrials.gov
US registry (2000)
WHO ICTRP
Global portal
PROSPÉRO
Vérifier l'inscription

Lors de la recherche d'essais, vérifiez toujours les registres. Comparez le nombre de enregistré essais au nombre publié. Cette lacune est votre signal d'alarme.

Depuis 2005, l'ICMJE exige l'enregistrement des essais comme condition de publication.

"Tous les essais enregistrés. Tous les résultats rapportés."

Le scandale de la réboxétine, ainsi que des cas similaires concernant d'autres médicaments, ont catalysé un mouvement mondial :

2013 : Politique de données cliniques de l'EMA

L'Agence européenne des médicaments s'engage à publier des rapports d'études cliniques

2016 : application de la FDA Amendments Act

Rapport obligatoire des résultats sur ClinicalTrials.gov dans les 12 mois

AllTrials Coalition

Plus de 90 000 sympathisants, plus de 700 organisations exigeantes transparence

!

L'IQWiG allemand recommande de ne pas utiliser la réboxétine pour la dépression

!

Le NICE du Royaume-Uni l'a déclassé à "non recommandé"

!

La FDA avait rejeté la reboxétine en 2001 (ils avait accès à des données non publiées)

Pendant plus d'une décennie, les patients n'ont pas reçu un médicament meilleur qu'un placebo.

Car seuls les essais positifs ont été publiés.

1. Quel pourcentage des données des essais sur la réboxétine a été caché dans la littérature publiée ?

A. 25%
B. 50%
C. 74%
D. 90%

2. Pourquoi le découpage et le remplissage peuvent-ils sous-estimer la correction nécessaire ?

A. Il suppose que les effets sont normalement distribué
B. Il impute uniquement des études visant à obtenir une symétrie, ce qui peut ne pas refléter pleinement la réalité
C. Il nécessite au moins 20 études
D. Cela ne fonctionne qu'avec des études de très grande envergure

3. Quelle est la meilleure défense prospective contre le biais de publication ?

A. Entonnoir tracés dans toutes les méta-analyses
B. Test d'Egger avant regroupement
C. Enregistrement d'un essai prospectif
D. Plus médical journals

Ce que tu ne peux pas voir

peut être plus important que ce que vous pouvez.

L'absence de preuve n'est pas une preuve d'absence.

La certitude doit être gagnée et non assumée.

Module 10 : Le Certitude

Module 10 : La certitude (surfactant précoce)

La certitude doit être gagnée et non assumée.

Early Surfactant: 2012

Lorsque des données probantes de haute qualité évoluent.

🎯 Learning Objectives

  • Appliquer le cadre complet GRADE pour évaluer la certitude des preuves
  • Évaluez les cinq facteurs de déclassement (RoB, incohérence, caractère indirect, imprécision, biais de publication)
  • Identifier quand effectuer une mise à niveau en cas d'effet important, de dose-réponse ou de confusion
  • Construire des tableaux de résumé des résultats avec des estimations d'effet absolu
  • Appliquer le principe : "La certitude doit être gagnée, pas supposé"

"Une révolution dans les soins néonatals..."

Le syndrome de détresse respiratoire (SDR) était la principale cause de décès chez les nourrissons prématurés. Le développement de substances exogènes tensioactif, la substance qui empêche les alvéoles de s'effondrer, a été l'une des grandes avancées de la médecine néonatale.

La question est devenue : Quand devrions-nous administrer un surfactant ?

Prophylactiquement (pour tous les nourrissons à haut risque) ou sélectivement (uniquement après le développement du SDR) ?

Plusieurs ECR menés avant l'ère de la CPAP de routine

RésultatProphylactique vs SélectifCertitude
Neonatal mortality RR 0,73 (favorise la prophylaxie) Haut
TPL ou décès RR 0,84 (favorise prophylactique) Haut
Recommandation : administrer du surfactant à titre prophylactique
Les lignes directrices du monde entier ont adopté ce approche

Mais le monde des soins néonatals était en train de changer...

Une nouvelle technologie a émergé : Pression positive continue des voies respiratoires (CPAP)

Soutien non invasif qui pourrait aider les poumons prématurés sans intubation.

Les anciennes preuves s'appliqueraient-elles toujours ?

Nouveaux essais menés à l'ère CPAP

RésultatOld TrialsNew Trials
TPL ou décès RR 0,84 (favorise prophylactique) RR 1,12 (favorise la sélectivité)
Besoin d'une ventilation mécanique Faible avec prophylaxie Plus élevé avec prophylaxie !
Inversion compl?te
À l'ère de la CPAP, les surfactants prophylactiques causent plus de dommages
🔍

Enquête : pourquoi les preuves ont-elles évolué ?

Vous êtes néonatologiste. Un collègue demande : « Comment les essais randomisés peuvent-ils se contredire ? »

Les preuves originales étaient-elles erronées ?

1

Indirectness Changed

Anciens essais : aucune CPAP disponible. Nouveaux essais : norme de soins CPAP.

2

Le comparateur amélioré

Le surfactant sélectif + la CPAP sont meilleurs que l'intubation prophylactique.

3

Context Matters

Les preuves d'une époque peuvent ne pas s'appliquer à une autre.

C'est pourquoi GRADE évalue le caractère indirect !

Des preuves de haute qualité peuvent devenir inapplicables lorsque le contexte change.

Classement des recommandations, évaluation, développement et évaluations

GRADE répond à la question : Dans quelle mesure sommes-nous confiants dans cette estimation ?

⊕⊕⊕⊕ ÉLEVÉ : Très confiant. L'effet réel est proche de l'estimation.

⊕⊕⊕◯ MODÉRÉ : Modérément confiant. L'effet réel est probablement proche, mais peut différer considérablement.

⊕⊕◯◯ LOW: Confiance limitée. L'effet réel peut différer considérablement.

⊕◯◯◯ VERY LOW: Très peu de confiance. L'effet réel est probablement sensiblement différent.

Les preuves ECR commencent à ÉLEVÉ. Il peut être rétrogradé en raison de :

1

Risque de biais

La randomisation défectueuse, le manque de mise en aveugle, le suivi incomplet, les rapports sélectifs

2

Incohérence

Hétérogénéité inexpliquée entre les études (grand I², sans chevauchement CI)

3

Indirectité

Différences dans la population, l'intervention, le comparateur ou les résultats de la question

4

Imprécision

Intervalles de confiance larges, petite taille d'échantillon, peu d'événements

5

Biais de publication

Tracé en entonnoir asymétrique, essais enregistrés manquants, influence du sponsor

Chaque facteur peut être déclassé d'un ou deux niveaux

Élevé → Modéré → Faible → Très faible

Exemple: Une méta-analyse d'ECR (début ÉLEVÉ) présentant un risque élevé de biais (↓1) et un caractère indirect grave (↓1) serait notée LOW.

📊

Interactif : appliquer GRADE au surfactant

Évaluons la certitude des preuves en faveur du surfactant prophylactique à l'aide d'essais anciens et nouveaux.

ANCIENS ESSAIS (Pré-CPAP)

Départ: HIGH (RCTs)

Risque de biais : Low (−0)

Incohérence : Aucun (−0)

Indirectité : Sérieux (−1)

Norme de soins différente aujourd'hui

Final: ⊕⊕⊕◯ MODÉRÉ

NOUVEAU ESSAIS (CPAP Era)

Départ: HIGH (RCTs)

Risque de biais : Low (−0)

Incohérence : Aucun (−0)

Indirectité : Aucun (−0)

Correspond à la pratique actuelle

Final: ⊕⊕⊕⊕ ÉLEVÉ

Les preuves d'observation commencent à FAIBLE. Il peut être mis à niveau pour :

+1

Grande ampleur de Effet

RR >2 ou <0,5 sans confusion plausible

+1

Dose-Response Gradient

Une exposition plus élevée = un effet plus important selon un schéma cohérent

+1

Residual Confounding

Tous les facteurs de confusion plausibles réduiraient l'effet (renforce l'inférence causale)

GRADE nécessite un langage transparent sur la confiance :

HAUT: "Prophylactic surfactant réduit mortalité..."

MODÉRÉ: "Prophylactic surfactant probably reduces mortalité..."

LOW: "Prophylactic surfactant may reduce mortalité..."

VERY LOW: "Nous sommes uncertain whether le surfactant prophylactique réduit la mortalité..."

Ce langage garantit que les cliniciens comprennent la force des preuves.

HISTOIRE : Le paradoxe de l’oxygène chez les bébés prématurés

Une trop grande bouée de sauvetage peut-elle devenir une tueur ?

DONNÉES RÉELLES

1940s-50s: Des concentrations élevées d'oxygène ont sauvé les bébés prématurés de l'insuffisance respiratoire. Puis vint épidémie de cécité—fibroplasie rétrolentale (maintenant appelée ROP). Médecins réduction spectaculaire de l'oxygène. La cécité est tombée. Mais alors : augmentation des décès et des lésions cérébrales de l'hypoxie. Le niveau d'oxygène optimal requis décennies de essais à trouver. Les récents essais SUPPORT/BOOST II ont finalement défini la fenêtre thérapeutique : SpO2 91-95%.

Le Le dilemme du néonatologiste : 1955
Vous êtes néonatologiste. Les bébés prématurés sous haute oxygène deviennent aveugles. Que faites-vous ?
CHEMIN A : Dramatique Réduction
Réduire considérablement l'oxygène pour prévenir la cécité
Les taux de cécité diminuent. Mais certains bébés meurent ou souffrent de lésions cérébrales dues à l'hypoxie.
RÉSULTAT : Échanger un préjudice contre un autre
PATH B : Étude systématique
Tirer soigneusement l'oxygène, étudier la relation dose-réponse
Prend des décennies, mais finit par identifier la plage optimale.
RÉSULTAT : optimiser à la fois la survie et la vision
Années 1940 : un taux élevé d'O2 sauve des vies
1950s: Blindness epidemic
Années 1960-70 : décès dus à un faible taux d'O2
Années 2010 : SUPPORT/BOOST définit la plage optimale
LE REVELATION
Chaque intervention a une fenêtre thérapeutique. Le trouver nécessite des mesures, pas des hypothèses. Le pendule a basculé pendant 60 ans avant que les preuves ne définissent l'équilibre.

1. Pourquoi la recommandation sur les tensioactifs s'est-elle inversée entre 2003 et 2012 ?

A. Les essais initiaux étaient frauduleux
B. La CPAP a changé le comparateur (caractère indirect)
C. Pas assez de patients dans les essais initiaux
D. Le résultat a été mesuré différemment

2. Lequel des éléments suivants n'est PAS un facteur de déclassement de GRADE ?

A. Risque de biais
B. Imprécision
C. Publication bias
D. Grande ampleur de l'effet

3. Quel langage doit être utilisé pour les preuves de FAIBLE certitude ?

A. "L'intervention réduit..."
B. "L'intervention réduit probablement..."
C. "L'intervention peut réduire..."
D. "Nous ne savons pas si..."

Un nombre ne suffit pas.

Vous devez indiquer votre niveau de certitude.

La certitude doit être gagnée et non assumée.

Les méthodes protègent les patients de notre confiance.

Module 11 : La revue vivante

Module 11 : La revue vivante (COVID-19)

Les méthodes protègent les patients de notre confiance.

COVID-19 Hydroxychloroquine: 2020

Lorsque l'urgence est satisfaite preuves.

🎯 Learning Objectives

  • Appliquer l'analyse séquentielle des essais pour déterminer quand les preuves sont suffisantes
  • Concevoir et maintenir une revue systématique vivante
  • Établir des déclencheurs de mise à jour et des limites de futilité/préjudice
  • Gérer la multiplicité et les dépenses alpha dans des analyses séquentielles
  • Expliquez avec quelle rapidité les preuves sont obtenues synthèse évoluée pendant la COVID-19

"Le virus se propage plus rapidement que ce que nous comprenons..."

Le COVID-19 tuait des milliers de personnes. Les unités de soins intensifs débordaient. Il n’existait ni vaccin, ni traitement. Puis une lueur d'espoir : hydroxychloroquine (HCQ)- un ancien médicament contre le paludisme - a montré une activité antivirale dans des études en laboratoire.

20 mars
Etude Gautret (France)
36 pts
Non randomisé
Viral
Clearance improved

À quelques semaines de l'étude Gautret :

!

28 mars : FDA délivre une autorisation d'utilisation d'urgence pour HCQ

!

4 avril : L’Inde interdit les exportations de HCQ (craintes de thésaurisation)

!

Mondial: Les pénuries concernent les patients atteints de lupus et de polyarthrite rhumatoïde

Des millions de personnes ont reçu du HCQ sur la base d'une étude observationnelle de 36 patients

Qu'est-ce qui pourrait mal se passer ?

🔍

Enquête : l'étude Gautret

Vous êtes un expert EBM chargé d'évaluer l'étude française HCQ. Examinez la conception...

ProblèmeImpact
Non randomiséBiais de sélection : qui a obtenu HCQ ?
6 patients exclus3 sont allés aux soins intensifs, 1 est décédé, 1 s'est retiré, 1 a été hospitalisé nausées
Surrogate outcomeCharge virale, pas de résultats cliniques
Contrôle de différents hôpitauxDes soins différents, différents tests
No blindingBiais d'attente dans les tests de laboratoire

Cette étude présenterait un risque de biais ÉLEVÉ sur RoB 2.0

Certitude de GRADE : TRÈS FAIBLE. Pourtant, cela a changé la politique mondiale.

1

Immortel Time Biais

Les patients doivent survivre suffisamment longtemps pour recevoir un traitement. Les survivants sont comparés aux non-survivants.

2

Confondant par Indication

Les patients plus malades peuvent recevoir des traitements différents. Des patients en meilleure santé ont reçu l'HCQ plus tôt.

3

Effet utilisateur sain

Les patientes qui recherchent un traitement ont tendance à être globalement en meilleure santé.

4

Outcome Reporting

Les études avec des résultats positifs ont été publiées plus rapidement.

Des essais rigoureux et de grande envergure réalisés à une vitesse remarquable

ProcèsNRésultat
RECOVERY (UK) 4,716 Aucun bénéfice sur la mortalité (RR 1,09)
WHO SOLIDARITY 954 Aucun avantage (RR 1,19)
ORCHID (US) 479 Arrêté pour cause de futilité
L'HCQ n'a apporté aucun bénéfice et a peut-être causé préjudice
15 juin 2020 : la FDA révoque l'autorisation d'utilisation d'urgence
📊

Chronologie : données probantes observationnelles ou ECR

Mars-mai 2020

Observation : ~20 études

Suggest benefit

OR groupé ~0,65

Juin-Juillet 2020

ECR : RECOVERY, SOLIDARITY

Ne montre aucun avantage/préjudice

Pooled RR ~1.10

De « prometteur » à « inefficace » en 3 mois

C'est pourquoi nous avons besoin de randomisation et d'analyses vivantes pour suivre l'évolution preuves.

Une nouvelle approche pour des preuves en évolution rapide :

1

Continuous Surveillance

Recherchez dans la littérature chaque semaine, voire quotidiennement, de nouvelles preuves

2

Méta-analyse cumulative

Mettre à jour les estimations regroupées à chaque nouvel essai

3

Analyse séquentielle des essais (TSA)

Déterminez quand suffisamment d'informations se sont accumulées pour conclure

4

Transparent Versioning

Suivez chaque changement, maintenez-le complet piste d'audit

Quand en avons-nous suffisamment appris ?

La TSA applique des limites d'arrêt à la méta-analyse, de la même manière qu'une analyse intermédiaire dans un seul essai. Cela explique le taille des informations requises (RIS) nécessaires pour détecter ou exclure un effet cliniquement significatif.

RIS
Taille d'échantillon requise
α-spending
Contrôles des erreurs de type I
Limites
Bénéfice/Méfait/ Futilité

Pour HCQ dans COVID, la TSA a montré que la limite de futilité avait été franchie en juin 2020.

1. Les études observationnelles peuvent induire en erreur de façon spectaculaire lorsque les biais sont répandus. Même de nombreuses études allant dans la même direction peuvent être erronées.

2. Les ECR peuvent être menés rapidement lorsque la volonté existe. RECOVERY a recruté plus de 5 000 patients en quelques semaines.

3. Les examens vivants sont essentiels pour des sujets en évolution. Les évaluations à un moment donné deviennent instantanément obsolètes.

4. La pression politique ne change pas la biologie. Des méthodes rigoureuses protègent les patients même lorsqu'ils sont sous pression.

HISTOIRE : La révolution LEAP contre les allergies aux arachides

Et si la prévention EST la cause ?

DONNÉES RÉELLES

Pendant des décennies, des lignes directrices pédiatriques recommandé : éviter les cacahuètes pendant la petite enfance pour prévenir les allergies. Pendant ce temps, les taux d’allergie aux arachides triplé de 1997 à 2008. Puis est venu SAUT (2015): 640 nourrissons à haut risque randomisés pour une introduction précoce aux arachides plutôt qu'un évitement. Résultat : introduction précoce réduction de 81 % de l'allergie aux arachides (1,9 % contre 13,7 %). La stratégie de prévention était à l'origine de l'épidémie.

Le carrefour des allergologues : 2010
Vous êtes allergologue pédiatrique. Les allergies aux arachides sont en augmentation malgré les directives d’évitement. Remettez-vous en question le dogme ?
CHEMIN A : suivre les directives
Continuez à recommander d'éviter les arachides chez les nourrissons à haut risque
Les lignes directrices sont « fondées sur des preuves ». Suivre le consensus en toute sécurité.
RESULTAT : Les allergies aux arachides continuent de Rise
CHEMIN B : Remettez en question le dogme
Concevez un essai pour tester si une introduction précoce peut être protectrice
L'essai LEAP révèle la vérité. Les directives s'inversent dans le monde entier.
RESULTAT : Prévenir une épidémie
2000 : AAP recommande évitement
2008 : les taux d'allergies triplent
2015 : LEAP renverse les preuves
2017 : les lignes directrices passent à une introduction précoce
LE REVELATION
« D'abord, ne pas nuire » nécessite des preuves. Les hypothèses, même celles qui sont bien intentionnées, peuvent causer des dommages à grande échelle. Le système immunitaire avait besoin d'être exposé pour développer une tolérance ; l'évitement créait une sensibilisation.

1. Quel était le principal défaut de l’étude Gautret sur l’hydroxychloroquine ?

A. Trop peu de patients
B. No blinding
C. À l'exclusion des patients qui détérioré
D. Suivi trop court

2. Qu'est-ce que l'analyse séquentielle des essais aide à déterminer ?

A. Quelles études présentent un risque élevé de biais
B. Lorsque suffisamment de preuves se sont accumulées
C. Le degré de hétérogénéité
D. Quel traitement est le meilleur

3. Pourquoi les études observationnelles sur la COVID ont-elles montré un bénéfice de l'HCQ alors que les ECR ne l'ont pas fait ?

A. ECR recruté des patients plus malades
B. Les ECR ont utilisé différents résultats
C. Biais dans les études observationnelles
D. Les études observationnelles disposaient de meilleures données

La rapidité ne peut pas remplacer la rigueur.

Mais la rigueur peut être rapide.

Revues récentes équilibrer les deux.

Tous les signaux ne sont pas vrais.

Module 12 : Méthodes avancées

Module 12 : Méthodes avancées

Tous les signaux ne sont pas vrais.

Méthodes avancées

Au-delà de la méta-analyse par paires.

🎯 Learning Objectives

  • Interpréter la géométrie de la méta-analyse du réseau et les classements SUCRA
  • Appliquer des modèles bivariés pour une méta-analyse de l'exactitude des tests diagnostiques
  • Effectuez une méta-analyse dose-réponse avec des splines flexibles
  • Comprendre quand une méta-analyse des données individuelles des patients (IPD) est nécessaire
  • Reconnaître les hypothèses et les limites de chaque méthode avancée méthode

"Parfois, la question est plus complexe que A contre B..."

Les méthodes que vous avez apprises constituent la base. Mais la réalité clinique exige souvent plus : Lequel des 10 antidépresseurs est le meilleur ? Quelle est la dose optimale de statine ? Ce test permet-il de diagnostiquer avec précision un cancer précoce ?

Ce module présente quatre méthodes avancées, chacune répondant à différentes questions complexes.

Lorsque vous avez de nombreux traitements mais peu de face-à-face essais

NMA combines direct preuve (A vs B) avec preuves indirectes (A vs C, B vs C → déduit A vs B) pour comparer plusieurs traitements simultanément.

SUCRA
Ranking probabilities, not effect size
Cohérence
Direct = Indirect?
Réseaux
Visualisez les preuves
🔍

Exemple NMA : antidépresseurs

Le rapport historique Cipriani 2018 NMA comparé à 21 antidépresseurs utilisant 522 essais.

Le défi

21 médicaments, mais toutes les paires n'ont pas été testées en tête-à-tête

Beaucoup contre placebo, peu les uns contre les autres

La solution

La NMA "emprunte sa force" à travers réseau

Classe les 21 en termes d'efficacité et d'acceptabilité

Résultat : Amitriptyline, mirtazapine la plus efficace ; la fluoxétine et la vortioxétine sont les plus tolérables

Aucun médicament n'est « le meilleur » – cela dépend de ce qui compte pour le patient.

1

Transitivité

Patients, résultats et modificateurs d'effet similaires dans les comparaisons

2

Cohérence

Preuves directes et indirectes concordantes (testables)

3

Connected Network

Tous les traitements liés par au moins un comparateur commun

Lorsque les hypothèses échouent, la NMA peut induire en erreur

Toujours évaluer la transitivité et tester l'incohérence.

Trouver l'optimal dose

Utilise le Méthode Groenland-Longnecker avec des splines cubiques restreintes pour modéliser des relations non linéaires entre la dose et l'effet.

1

Non-linear patterns

En forme de J (alcool et mortalité), en forme de U (vitamine D), seuil (aspirine)

2

Clinical relevance

Trouvez la dose avec le meilleur équilibre bénéfices-risques, pas seulement « plus c'est mieux »

L'étalon-or pour le sous-groupe analyse

Au lieu de données récapitulatives publiées, obtenir données brutes au niveau du patient des essayistes. Permet des analyses précises de sous-groupes, une modélisation du temps jusqu'à l'événement et des définitions standardisées.

Une étape
Single mega-dataset
Deux étapes
Analyser, puis regrouper
80%+ needed
Pour une inférence valide

Le groupe collaboratif des premiers essais sur le cancer du sein a été le pionnier de l'IPD MA dans les années 1980.

Lorsque « l'intervention » est un test

DTA la méta-analyse synthétise sensibilité (taux de vrais positifs) et spécificité (taux vrai négatif) : deux résultats corrélés nécessitant une analyse bivariée modèles.

1

Modèle bivarié/HSROC

Comprend en compte la corrélation entre la sensibilité et la spécificité

2

SROC Curve

Courbe ROC récapitulative avec Régions de confiance et de prédiction à 95 %

3

QUADAS-2

Évaluation de la qualité des études sur l'exactitude du diagnostic

QuestionMéthode
Does A beat B?Pairwise MA
Lequel des plusieurs traitements sont les meilleurs ?Réseau MA (NMA)
Quelle est la dose optimale ?Dose-Response MA
Qui en profite le plus ? (sous-groupes)IPD MA
Quelle est la précision de ce test ?DTA MA
Comment l'effet évolue-t-il dans le temps ?AMM de survie/délai jusqu'à l'événement

La méthode doit correspondre à la question. Ne forcez jamais une question dans la mauvaise méthode.

HISTOIRE : Les stéroïdes dans Sepsis Saga

Trois grands essais. Trois réponses différentes. Que pensez-vous ?

DONNÉES RÉELLES

CORTICUS (2008) : 499. Hydrocortisone en cas de choc septique. Aucune mortalité bénéfice. ADRENAL (2018) 3 658 patients. Hydrocortisone. Aucune mortalité bénéfice. APROCCHSS (2018) : 1 241 patients. Hydrocortisone + fludrocortisone. Mortality reduced (43 % contre 49,1 %, p = 0,03). Même classe d'intervention. Différents protocoles. Différents résultats.

Le défi du rédacteur de lignes directrices
Vous rédigez des directives sur la septicémie. Trois essais majeurs sont en désaccord. Que recommandez-vous ?
CHEMIN A : Moyenne simple
Regroupez les trois essais. Effet global incertain. Concluez « preuves peu claires ».
Les directives indiquent que les stéroïdes sont facultatifs. Aucune recommandation forte.
RÉSULTAT : les cliniciens sont restés sans conseils clairs
CHEMIN B : Enquêter sur l'hétérogénéité
Analysez pourquoi l'APROCCHSS différait (fludrocortisone, durée plus longue, population différente)
Identifiez que le protocole efficace diffère de ceux inefficaces.
RÉSULTAT : Recommander le protocole efficace spécifique
LE REVELATION
Les essais contradictoires ne sont pas des échecs. Ce sont des cartes indiquant où le traitement fonctionne et où il ne fonctionne pas. Les différences entre les essais (dose, durée, co-interventions, population) sont la clé de la compréhension.

1. Quel est le principal avantage de la méta-analyse en réseau par rapport à la méta-analyse par paire ?

A. Ne nécessite pas d'extraction de données
B. Il compare les traitements non directement testés les uns contre les autres. autre
C. Cela élimine le besoin d'évaluation du risque de biais
D. Il produit de meilleures parcelles forestières

2. Pourquoi la méta-analyse DTA nécessite-t-elle des modèles bivariés ?

A. Pour gérer plus de deux études
B. Pour ajuster le biais de publication
C. La sensibilité et la spécificité sont corrélées
D. Pour générer des parcelles forestières

3. Qu'exige l'hypothèse de « cohérence » dans la NMA ?

A. Toutes les études doivent être de haute qualité
B. Les preuves directes et indirectes doivent d'accord
C. Les tailles d'échantillon doivent être similaires
D. Aucun manquant études

La méthode doit correspondre à la question.

Les méthodes avancées répondent aux questions avancées.

Mais les fondamentaux ne changent jamais.

Méthodologiste

Ce cours couvre l'ensemble du flux de travail de la revue systématique. Pour des approfondissements, explorez les cours compagnons :

Cours DTA
Bivarié/HSROC, courbes SROC, QUADAS-2
Risque de biais
RoB 2, ROBINS-I/E, évaluation par domaine
Certitude GRADE
Tableaux SoF complets, GRADE-CERQual
Méta-analyse IPD
Modèles à une/deux étapes, effets mixtes
Biais de publication
Copas, PET-PEESE, p-curve, modèles de sélection
Revues parapluie
AMSTAR 2, ROBIS, correction du chevauchement
Revues pronostiques
CHARMS, PROBAST, pooling du c-statistique
Revues vivantes + rapides
TSA, déclencheurs de mise à jour, méthodes abrégées

Module 12 terminé

« La méthode doit correspondre à la question. Les méthodes avancées répondent à des questions avancées — mais les fondamentaux ne changent jamais. »

Vous avez maîtrisé le flux de travail fondamental. Les dix prochains modules explorent la frontière : inférence bayésienne, méta-analyse en réseau, données individuelles de patients, modélisation dose–réponse, robustesse et fragilité, équité, synthèse assistée par IA, preuves qualitatives, méthodes multivariées et reproductibilité.

Tout signal n'est pas vérité.

Module 13 : Le Tournant Bayésien

Tout signal n'est pas vérité.

Module 13 : Le Tournant Bayésien

🎯 Objectifs d'apprentissage

  • Expliquer la différence entre l'inférence fréquentiste et bayésienne
  • Interpréter les distributions a priori, les vraisemblances et les distributions a posteriori
  • Distinguer les intervalles de crédibilité des intervalles de confiance
  • Comprendre quand la méta-analyse bayésienne offre des avantages
  • Reconnaître comment le choix de l'a priori affecte les conclusions

En 2005, un essai a commencé

qui ne se terminerait jamais vraiment.

L'essai STAMPEDE pour le cancer de la prostate a utilisé un design de plateforme multi-bras, multi-étapes (MAMS). Des bras pouvaient être ajoutés ou abandonnés au fur et à mesure que les preuves s'accumulaient. Bien que ses statistiques fussent fréquentistes, la philosophie adaptative incarnait l'esprit bayésien : mettre à jour les décisions au fil de l'accumulation des données.

En statistique fréquentiste, la probabilité signifie fréquence à long terme. Un IC à 95 % ne signifie PAS « 95 % de probabilité que le vrai effet soit à l'intérieur ». Cela signifie : si nous répétions l'étude à l'infini, 95 % des intervalles contiendraient la vérité.

valeur p
P(données | H₀), pas P(H₀ | données)
IC 95 %
Propriété de couverture, pas croyance
Fixe
Le vrai paramètre est fixe

En statistique bayésienne, la probabilité représente le degré de croyance. On commence avec un a priori (ce que l'on croit avant les données), on met à jour avec la vraisemblance (ce que les données nous disent), et on obtient un a posteriori (croyance mise à jour).

1

A priori × Vraisemblance = A posteriori

Théorème de Bayes : P(θ|données) ∝ P(données|θ) × P(θ)

2

Intervalles de crédibilité

Un intervalle de crédibilité à 95 % signifie « 95 % de probabilité que le paramètre se trouve ici ». Directement interprétable.

Chercheur
1

Non informatif (vague)

Normal(0, 10000) ou uniforme. Laisse les données dominer. Reproduit les résultats fréquentistes.

2

Faiblement informatif

Normal(0, 1) pour le log-OR. Régularise les estimations extrêmes tout en restant flexible.

3

Informatif

Basé sur des preuves antérieures. Puissant mais controversé. Doit être pré-spécifié.

4

Half-Cauchy pour τ

Recommandé pour l'hétérogénéité. Half-Cauchy(0, 0.5) permet des τ grands mais concentre la masse près de zéro.

Chercheur

La plupart des modèles bayésiens ne peuvent pas être résolus analytiquement. On utilise les chaînes de Markov Monte Carlo (MCMC) pour tirer des échantillons de la distribution a posteriori. Outils : JAGS, Stan, brms (R), PyMC (Python).

Chaînes
Plusieurs chaînes indépendantes (typiquement 4)
Convergence : R̂ < 1.01 (strict ; anciens textes utilisent < 1.1)
ESS
Bulk-ESS > 400 pour les moyennes ; tail-ESS > 400 pour les IC
Méthodologiste

Au lieu de choisir entre modèles à effet fixe et à effets aléatoires, la pondération bayésienne de modèles (BMA) pondère chaque modèle par sa probabilité a posteriori. Cela prend en compte l'incertitude du modèle dans l'estimation finale.

BF

Facteurs de Bayes

BF₁₀ > 10 = preuve forte pour H₁. BF₁₀ < 1/10 = preuve forte pour H₀.

Ajustez la force de l'a priori pour voir comment elle affecte la postérieure. Observez comment plus de données submergent l'a priori.



L'Histoire de STAMPEDE

STAMPEDE a été lancé en 2005 avec 5 bras de recherche comparant des traitements pour le cancer avancé de la prostate. En 2016, l'essai avait ajouté l'abiratérone et démontré une réduction de 37 % de la mortalité (HR 0.63, IC 95 % 0.52–0.76).

Le design de plateforme incarne la pensée adaptative bayésienne : les analyses intermédiaires guident la sélection des soutiens-gorge, de nouveaux bras peuvent entrer au fur et à mesure que des traitements émergent, et les bras futiles sont abandonnés tôt—épargnant aux patients des thérapies inefficaces.

STAMPEDE a recruté plus de 10 000 patients dans plus de 100 centres et a fondamentalement transformé la prise en charge du cancer de la prostate. L'état d'esprit bayésien a permis aux preuves de s'accumuler et d'éclairer les décisions en temps réel.

Méta-analyse fréquentiste vs bayésienne
Choisir le bayésien quand : (1) vous disposez d'informations a priori genuines, (2) vous avez besoin d'énoncés probabilistes (« 80 % de chance que l'effet > 0 »), (3) peu d'études rendent les propriétés fréquentistes peu fiables, ou (4) vous souhaitez faire de la pondération de modèles.
Bayésien avec a priori faiblement informatif
Meilleur choix par défaut pour la plupart des méta-analyses bayésiennes. Régularise sans dominer.
Bayésien avec a priori informatif
Uniquement quand les preuves antérieures sont solides et pré-spécifiées. Analyse de sensibilité obligatoire.
Rester fréquentiste
Plus simple, bien compris. Préféré quand k est grand et qu'il n'y a pas d'information a priori.

Vous souvenez-vous du Module 1 ?

CAST à Travers le Prisme Bayésien

Si une analyse bayésienne de CAST avait utilisé un a priori informatif basé sur la science fondamentale (les antiarythmiques suppriment les ESV), la postérieure aurait quand même fortement basculé vers le danger. Avec suffisamment de données, même un a priori fort cède devant la vraisemblance. La leçon : les méthodes bayésiennes ne protègent pas contre les mauvais a priori—mais elles rendent les hypothèses transparentes.

Q1. Que signifie un intervalle de crédibilité bayésien à 95 % ?

A. 95 % des expériences répétées produiraient des intervalles contenant la vraie valeur
B. Il y a 95 % de probabilité que le vrai paramètre se trouve dans cet intervalle
C. L'intervalle a 95 % de chances d'être correct
D. 95 % des données futures tomberont dans cet intervalle

Q2. Quel est l'a priori recommandé pour l'hétérogénéité inter-études (τ) ?

A. Uniforme (0, 100)
B. Normale(0, 1)
C. Demi-Cauchy (0, 0,5)
D. Fixé à 0.5

Module 13 Terminé

« Le tournant bayésien n'est pas une question de mathématiques. C'est une question d'honnêteté—rendre nos hypothèses visibles. »

Tout signal n'est pas vérité.

Module 14 : Le Réseau

Les méthodes protègent les patients de notre assurance.

Module 14 : Le Réseau

🎯 Objectifs d'apprentissage

  • Expliquer pourquoi les comparaisons par paires sont insuffisantes quand de nombreux traitements existent
  • Interpréter la géométrie du réseau (nœuds, arêtes, épaisseur)
  • Comprendre la transitivité, la cohérence et le rôle des preuves indirectes
  • Interpréter les classements SUCRA et les tableaux de ligue
  • Reconnaître quand les hypothèses de la NMA sont violées

Un clinicien fait face à un patient

dépressif. Quel médicament ?

Il existe 21 antidépresseurs couramment prescrits. La plupart des essais comparatifs ne comparent que 2 ou 3 molécules. Cipriani et coll. (2018, Lancet) ont connecté 522 essais et 116 477 patients dans un seul réseau.

1

Preuve directe

Les essais comparant directement A vs B donnent l'estimation la plus fiable.

2

Preuve indirecte

Si A vs C et B vs C existent, on peut inférer A vs B. C'est l'hypothèse de « transitivité ».

3

Preuve mixte

La NMA combine les deux, pondérées par la précision, pour classer tous les traitements simultanément.

Chaque nœud est un traitement. L'épaisseur des arêtes représente le nombre d'études comparant ces deux traitements.

Chercheur

Transitivité : L'estimation indirecte (via un comparateur commun) devrait approximer l'estimation directe. Cela exige que les modificateurs d'effet soient distribués de manière similaire entre les comparaisons.

Cohérence : Test statistique comparant les preuves directes et indirectes. Les tests globaux (interaction design-traitement) et locaux (node-splitting) aident à identifier les boucles d'incohérence.

Chercheur
SUCRA
Surface Under Cumulative Ranking. 100 % = toujours le meilleur, 0 % = toujours le pire.
Score P
Analogue fréquentiste. Degré moyen de certitude qu'un traitement est supérieur à un autre.

Attention : Le classement est séduisant mais trompeur quand les différences entre traitements sont faibles ou incertaines. Toujours rapporter les intervalles de crédibilité/confiance avec les rangs.

Méthodologiste

Quand les interventions sont complexes (ex. comportementale + pharmacologique), la NMA par composantes décompose les traitements multi-composantes pour estimer la contribution individuelle de chaque composante. Utilise des modèles additifs : effet(A+B) = effet(A) + effet(B) + interaction.

Le Réseau de Cipriani

L'analyse du Lancet de 2018 a montré que les 21 antidépresseurs étaient tous plus efficaces que le placebo. L'amitriptyline, la mirtazapine et la venlafaxine étaient les mieux classées pour l'efficacité. L'agomélatine, la fluoxétine et l'escitalopram étaient les mieux classées pour l'acceptabilité (moins d'abandons).

Aucun médicament n'a « gagné » sur tous les critères. Le réseau a révélé des compromis invisibles à l'analyse par paires.

Vérification de faisabilité de la NMA
Vous avez 15 ECR comparant 6 statines différentes. Certaines paires ont des preuves directes, d'autres non.
Vérifier la transitivité, puis ajuster la NMA
Vérifier que les populations et les designs d'étude sont suffisamment similaires entre les comparaisons.
Ignorer les preuves indirectes
Perte de puissance statistique et lacunes dans la base de preuves.
Tout regrouper en une comparaison par paires
Viole la structure des preuves. Les statines sont des médicaments différents.

Q1. Quelle hypothèse doit être vérifiée pour que les preuves indirectes soient valides en NMA ?

A. Transitivité — les modificateurs d'effet sont équilibrés entre les comparaisons
B. Homogénéité — I² doit être inférieur à 25 %
C. Toutes les études doivent avoir des tailles d'échantillon similaires
D. Toutes les études doivent être en double aveugle

Module 14 Terminé

« Le réseau voit ce que les comparaisons par paires ne peuvent pas : le paysage complet des choix thérapeutiques. »

Tout signal n'est pas vérité.

Module 15 : L'Individu

Qu'est-ce qui était caché en pleine vue ?

Module 15 : L'Individu

🎯 Objectifs d'apprentissage

  • Expliquer pourquoi les données agrégées peuvent masquer les interactions traitement–covariable
  • Distinguer les modèles IPD en une étape et en deux étapes
  • Reconnaître le biais écologique dans la méta-analyse agrégée
  • Comprendre les défis pratiques de la collecte de DPI
  • Interpréter les graphiques d'interaction traitement–covariable

Pendant des décennies, les essais sur le cancer du sein

publiaient des curriculum vitae. Pas des patients.

L'Early Breast Cancer Trialists' Collaborative Group (EBCTCG) a collecté les dossiers individuels de plus de 100 000 femmes à travers des centaines d'essais. Leurs méta-analyses sur DPI ont montré que les bénéfices du tamoxifène dépendent fortement du statut des récepteurs aux œstrogènes—quelque chose d'invisible dans les données agrégées.

Chaque essai publié sur le tamoxifène rapportait un résultat global. À travers des centaines d'études, le tamoxifène semblait offrir un bénéfice modeste. Mais ce « bénéfice modeste » était une moyenne qui dissimulait une vérité profonde.

La Division Cachée en Sous-groupes

RR 0.59
Sous-groupe ER-positif : réduction de 41 % des récidives
RR 0.97
Sous-groupe ER-négatif : essentiellement aucun bénéfice

L'effet combiné global—mélangeant patientes réceptives et non réceptives—était une fiction statistique. Une moyenne « modeste » qui surestimait le bénéfice pour un groupe et impliquait un bénéfice inexistant pour l'autre.

DA
Agrégées : effet publié + IC uniquement
DPI
Individuelles : données brutes au niveau du patient

Les DPI permettent : (1) des définitions correspondantes des critères de jugement, (2) des analyses en sous-groupes par caractéristiques des patients, (3) la modélisation du délai avant événement, (4) la vérification du biais écologique. C'est le gold standard pour explorer la modification de l'effet du traitement.

Chercheur
1

Deux étapes

Analyser chaque étude séparément, puis combiner les estimations (comme la MA standard). Simple mais perte d'information.

2

Une étape

Ajuster un seul modèle mixte à toutes les données patients simultanément. Plus puissant pour les interactions et les événements rares.

Clé : Les deux doivent tenir compte du regroupement par étude. Ne jamais regrouper les DPI comme s'il s'agissait d'un méga-essai—cela introduit un facteur de confusion (paradoxe de Simpson).

Méthodologiste

Une méta-régression utilisant l'âge moyen au niveau de l'étude pourrait montrer que les patients plus étendus bénéficieraient davantage. Mais cela pourrait être un biais écologique—l'association au niveau de l'étude ne reflète pas la vérité au niveau du patient. Seules les DPI peuvent séparer les effets intra-étude des effets inter-études.

Quand le Tout Ment Sur Ses Parties

Le paradoxe de Simpson : une tendance qui apparaît dans les données agrégées s'inverse lorsque les données sont regroupées par une variable de confusion.

Le Paradoxe en Pratique

Une analyse de type méga-essai a trouvé le Traitement X bénéfique globalement. Mais au sein de chaque étude, il était nocif. Comment ? Les différences de risque de base entre études créaient une illusion—les populations plus malades recevaient davantage de traitement, gonflant le bénéfice agrégé.

Cates (2002, BMJ) a montré que combiner les études sans tenir compte du regroupement peut inverser la direction apparente de l'effet.

C'est pourquoi les modèles DPI à une étape incluent l'étude comme variable de regroupement—pour empêcher la confusion inter-études de se faire passer pour un effet du traitement.

L'Héritage de l'EBCTCG

Les méta-analyses sur DPI de l'EBCTCG ont défini le traitement du cancer du sein pendant 40 ans. Leur analyse de 2005 du tamoxifène versus pas de traitement a montré un bénéfice clair dans les tumeurs ER-positives (RR 0.59) mais aucun bénéfice dans les tumeurs ER-négatives (RR 0.97).

Sans les DPI, l'effet global agrégé aurait été poolé entre les deux groupes— diluant le bénéfice et privant potentiellement les patientes ER-positives de l'ampleur de leur gain.

Soupçonnez-vous des interactions traitement–covariable ?
Oui →

Pouvez-vous obtenir les DPI de >80 % des essais ?

Oui → Méta-analyse DPI à une étape avec termes d'interaction
Non → Approche à deux étapes : demander les DPI disponibles + agrégées pour le reste
Non →

Le biais écologique est-il une préoccupation ?

Oui → DPI préférées même sans interactions
Non → La méta-analyse de données agrégées peut suffire

L'EBCTCG a collecté des données de centaines d'essais sur 40 ans. La plupart des méta-analyses sur DPI portent sur 5–20 essais. La décision dépend de la question, pas de l'ambition.

Méthodologiste

Souvenez-vous du Module 3 ? Le THS semblait bénéfique dans les études observationnelles mais nocif dans les ECR. Le même masquage par l'agrégation se produisait : le bénéfice global cachait un préjudice dans certains sous-groupes.

L'analyse sur DPI de la Women’s Health Initiative a ensuite montré que le moment importait—les femmes commençant le THS dans les 10 ans suivant la ménopause avaient des résultats différents de celles commençant plus tard. L'« hypothèse du timing » était invisible dans les résumés agrégés publiés.

La leçon se répète : les données agrégées peuvent masquer des interactions traitement–covariable critiques. Que ce soit le statut ER dans le cancer du sein ou le timing dans le THS, les données individuelles révèlent ce que les résumés dissimulent.

Q1. Quel est le principal avantage des DPI par rapport à la méta-analyse sur données agrégées ?

A. Elles incluent toujours plus d'études
B. C'est moins cher et plus rapide
C. Elles permettent d'explorer les interactions traitement–covariable sans biais écologique
D. Elles éliminent le besoin de modèles à effets aléatoires

Module 15 Terminé

« Derrière chaque estimation poolée se trouvent des individus dont les histoires ne peuvent être racontées par l'agrégat. »

L'hétérogénéité est un message, pas du bruit.

Module 16 : La Dose

L'hétérogénéité est un message, pas du bruit.

Module 16 : La Dose

🎯 Objectifs d'apprentissage

  • Expliquer pourquoi les simples comparaisons par paires ne capturent pas les relations dose–réponse
  • Distinguer les modèles dose–réponse linéaires, quadratiques et par splines
  • Interpréter les splines cubiques restreintes avec nœuds
  • Identifier les effets de seuil et les courbes en J/U
  • Comprendre la comparaison de modèles avec AIC/BIC

Pendant des décennies, la consommation modérée d'alcool

semblait protéger le cœur.

La « courbe en J » montrait que les non-buveurs avaient une mortalité cardiovasculaire plus élevée que les buveurs modérés. Mais Stockwell et al. (2016) ont démontré que la courbe en J était un artefact dû à la classification erronée d'anciens buveurs (ayant arrêté pour cause de maladie) comme « abstinents ».

En 2010, plus de 100 études observationnelles avaient confirmé la courbe en J. Les manuels médicaux l'enseignaient. Les cardiologues la citaient. Les lobbyistes de l'industrie vinicole finançaient des conférences autour d'elle.

100+
Études observationnelles confirmant la courbe en J
15–25 %
Mortalité cardiovasculaire inférieure chez les buveurs modérés vs abstinents

Les preuves semblaient accablantes. Mais que se passait-il si le groupe de comparaison—les « abstinents »—était contaminé ?

Le Malade Qui Arrête

Un Facteur de Confusion Caché

Le Problème

Les personnes qui arrêtent de boire le font souvent parce qu'elles sont déjà malades—maladie hépatique, interactions médicamenteuses, diagnostic de cancer. Ces « anciens buveurs » étaient classés comme « abstinents » dans la plupart des études.

L'effet : Le groupe de référence (abstinents) semblait moins en bonne santé—non pas parce que l'abstinence était nocive, mais parce que des personnes malades l'avaient rejoint.

Quand Stockwell et al. (2016, J Stud Alcool Drogues) ont exclu les anciens buveurs et appliqué les corrections de qualité d'étude adéquates : la courbe en J a disparu. L'effet protecteur était un fantôme.

La méta-analyse standard demande : « Le traitement X fonctionne-t-il ? » La méta-analyse dose–réponse demande : « À quelle dose le traitement X fonctionne-t-il le mieux ? » Elle modélise la relation entre le niveau de dose et le critère de jugement à travers plusieurs études.

Linéaire
Le plus simple : log(RR) = β × dose
Spline
Flexible : polynômes par morceaux avec nœuds
Fractionnaire
Polynomial : dose^p1 + dose^p2
Chercheur

Les RCS placent des nœuds à des points de dose pré-spécifiés et ajustent des polynômes lisses entre eux. Typiquement 3–5 nœuds aux quantiles de la distribution des doses. Linéaire au-delà des nœuds aux bornes. Les tests de non-linéarité comparent le modèle par spline à un modèle linéaire plus simple.

AIC

Comparaison de modèles

AIC/BIC comparent l'ajustement linéaire vs par spline. Plus bas = meilleur. Tester aussi l'écart à la linéarité (p-value pour les termes de spline).

Comparez les ajustements linéaire, quadratique et par spline. Observez comment la forme du modèle change selon les hypothèses.

La Courbe en J de l'Alcool Démystifiée

La ré-analyse de Stockwell en 2016 a montré que lorsque les anciens buveurs étaient correctement exclus du groupe de référence « abstinents », l'effet protecteur de la consommation modérée disparaissait. La courbe en J était due au biais du « malade qui arrête ».

La méta-analyse dose–réponse a révélé la vérité : la forme de la courbe dépend de manière critique de la façon dont on définit la « dose zéro ». La mauvaise catégorie de référence a créé un bénéfice fantôme.

La courbe en J fantôme a influencé les recommandations sur l'alcool dans le monde entier :

UK

Recommandations du NHS (jusqu'en 2016)

« La consommation modérée peut protéger le cœur » figurait dans les recommandations officielles. Après la correction de Stockwell, le Royaume-Uni a révisé ses limites à 14 unités/semaine pour tous les buveurs (auparavant 21 pour les hommes). Aucune quantité n'a été déclarée « sûre ».

US

Comité Consultatif des Dietary Guidelines

Les études sur la courbe en J ont été citées jusqu'en 2015. Le comité de 2020 a recommandé de réduire les limites à 1 verre/jour pour les hommes, reconnaissant le biais du groupe de référence.

AU

Recommandations Australiennes

Les limites de consommation sûre ont été retardées par la recherche financée par l'industrie promouvant une consommation modérée « cardioprotectrice ».

Avez-vous ≥3 niveaux d'exposition (pas seulement exposé vs non exposé) ?
Oui →

La relation est-elle plausiblement non linéaire ?

Oui → Splines cubiques restreintes (3–5 nœuds). Comparer AIC avec le modèle linéaire.
Non → La méta-régression dose–réponse linéaire peut suffire
Non →

Méta-analyse par paires standard (pas d'analyse dose–réponse possible avec seulement deux niveaux)

Attention : Vérifiez toujours—votre catégorie de référence est-elle propre ? La leçon de la courbe en J : un groupe de référence contaminé crée une non-linéarité fantôme.

Q1. Qu'est-ce qui rend les splines cubiques restreintes utiles en méta-analyse dose–réponse ?

A. Elles produisent toujours une ligne droite
B. Elles capturent de manière flexible les courbes dose–réponse non linéaires
C. Elles réduisent le nombre d'études nécessaires
D. Elles simplifient le modèle en réduisant les paramètres

Module 16 Terminé

« La dose fait le poison. Et la forme de la courbe révèle si le poison est réel. »

L'absence de preuve n'est pas la preuve de l'absence.

Module 17 : La Fragilité

L'absence de preuve n'est pas la preuve de l'absence.

Module 17 : La Fragilité

🎯 Objectifs d'apprentissage

  • Calculer et interpréter l'indice de fragilité
  • Utiliser les graphiques GOSH pour identifier les études influentes et les effets de sous-groupes
  • Interpréter les funnel plots à contours améliorés
  • Appliquer les modèles de sélection de Copas et PET-PEESE pour le biais de publication
  • Comprendre comment les analyses de sensibilité renforcent les conclusions méta-analytiques

Les gouvernements ont stocké des milliards

sur la base de preuves qu'ils ne pouvaient pas voir.

Après le H1N1, les gouvernements ont dépensé des milliards pour constituer des stocks d'oseltamivir (Tamiflu). L'équipe Cochrane (Jefferson et al. 2014) a lutté pendant des années pour accéder aux données non publiées. Quand ils y sont finalement parvenus, les preuves de prévention des complications se sont évaporées.

L'indice de fragilité demande : « Combien de patients devraient changer de résultat pour faire basculer un résultat statistiquement significatif en non significatif ? » Il ajoute itérativement des événements (convertit des non-événements en événements) dans le groupe avec le moins d'événements jusqu'à ce que p > 0.05.

IF = 1
Extrêmement fragile. Le changement d'un seul patient modifie la conclusion.
IF > 8
Raisonnablement robuste. Moins sensible aux résultats individuels.

Entrez un tableau 2×2 pour calculer l'indice de fragilité. Observez les événements se déplacer jusqu'à ce que la significativité bascule.

Événements
Nombre total
Traitement
Contrôle
Chercheur

Aperçu graphique de l'étude Hétérogénéité (GOSH) ajuste des modèles de méta-analyse à tous les sous-ensembles possibles d'études. Chaque point représente l'effet poolé vs I² pour un sous-ensemble. Les clusters suggèrent des sous-groupes distincts ; les nuages aberrants suggèrent qu'une étude conduit l'hétérogénéité.

Pour k études, il y a 2k−1 sous-ensembles. Pour k > 15, un échantillonnage aléatoire est utilisé.

Chercheur

Les funnel plots standard montrent la taille d'effet vs l'erreur standard. Les versions à contours améliorés ajoutent des zones ombrées pour p < 0.01, p < 0.05 et p < 0.10. Si les études manquantes se situent dans les zones non significatives, un biais de publication est probable. Si elles se situent dans les zones significatives, d'autres causes (ex. qualité des études) peuvent expliquer l'asymétrie.

Méthodologiste
1

Modèle de sélection de Copas

Modélise la probabilité de publication d'une étude en fonction de son erreur standard et de sa taille d'effet. Estime conjointement le vrai effet et le mécanisme de sélection.

2

ANIMAUX DE COMPAGNIE

Test d'effet par la précision (PET) : régresse les effets sur l'ES. Si l'ordonnée à l'origine = 0, pas de vrai effet. PEESE utilise ES² pour de meilleures performances quand un vrai effet existe.

La Saga de l'Oseltamivir

La méta-analyse originale financée par Roche (Kaiser 2003) montrait que l'oseltamivir réduisait les complications grippales de 67 %. Mais 8 des 10 essais n'avaient jamais été publiés. Après que Cochrane a obtenu les rapports d'étude clinique, le bénéfice pour les complications est tombé à 11 %, non significatif.

La fragilité n'était pas seulement statistique—elle était informationnelle. La base de preuves elle-même manquait la plupart des données.

Vous avez calculé l'Indice de Fragilité. Que signifie le nombre ?
IF ≤ 3

Très fragile. Une poignée d'événements différents inverserait la conclusion. À interpréter avec une extrême prudence.

IF 4–8

Modérément fragile. Sensible à de petites perturbations. Y a-t-il des essais non publiés qui pourraient faire basculer le résultat ?

IF > 8

Relativement robuste. Mais n'oubliez pas : la fragilité n'est qu'une dimension. Le biais de publication peut saper même des résultats robustes.

Walsh et coll. (2014, J Clin Epidemiol) ont trouvé que dans 399 ECR publiés dans des revues prestigieuses, l'indice de fragilité médian n'était que de 8. Plus de 25 % avaient un IF ≤ 3. Des essais majeurs influençant la pratique clinique ne tenaient souvent qu'à un fil statistique.

Méthodologiste

La saga de l'oseltamivir a révélé trois types de fragilité—et l'Indice de Fragilité ne capture que le premier.

1

Fragilité Statistique (IF)

Combien d'événements font basculer la p-value ? C'est ce que mesure l'Indice de Fragilité. Il quantifie la sensibilité aux résultats de patients individuels.

2

Fragilité Informationnelle

Quelle proportion des preuves est cachée ? Huit des dix essais de Roche sur l'oseltamivir n'étaient pas publiés. La base de preuves était structurellement incomplète.

3

Fragilité Analytique

Combien de degrés de liberté du chercheur pourraient changer la conclusion ? Définitions différentes des critères de jugement, populations d'analyse ou méthodes statistiques.

Rappel du Module 10 (la paroxétine) : La ré-analyse avec des définitions de critères de jugement différentes a complètement inversé la conclusion. C'était de la fragilité analytique—l'IF n'a jamais été calculé car le critère de jugement lui-même était contesté. Une évaluation complète de la robustesse examine les trois dimensions.

Q1. Un essai comporte 200 patients par bras, 12 événements dans le traitement, 25 dans le contrôle (p=0,03). L'indice de fragilité est 3. Qu'est-ce que cela signifie ?

A. La taille d'effet est exactement 3
B. Changer seulement 3 résultats de patients feraient basculer le résultat en non significatif
C. Le résultat est très robuste avec 3 études de confirmation
D. Au moins 3 patients sont nécessaires pour l'étude

Module 17 Terminé

« Le nombre qui survit à chaque tentative de le briser est le nombre digne de confiance. »

Tout signal n'est pas vérité.

Module 18 : L'Équité

La certitude doit être méritée, pas présumée.

Module 18 : L'Équité

🎯 Objectifs d'apprentissage

  • Identifier comment les critères d'exclusion des essais créent des lacunes dans les preuves
  • Appliquer le cadre PROGRESS-Plus pour évaluer l'équité dans les preuves
  • Utiliser les directives de rapport PRISMA-Equity
  • Comprendre la transportabilité : quand les résultats d'essais échouent en pratique
  • Concevoir des stratégies de recherche et de synthèse sensibles à l'équité

SPRINT a prouvé qu'un contrôle strict de la pression artérielle

sauve des vies. Mais les vies de qui ?

L'essai phare SPRINT excluait les patients diabétiques, ceux ayant eu un AVC antérieur et ceux en insuffisance cardiaque. Plus de 75 % des patients hypertendus américains n'auraient pas été éligibles. Les preuves étaient solides mais l'applicabilité était restreinte.

SPRINT a inclus 9 361 patients et a prouvé que le contrôle intensif de la pression artérielle (cible <120 mmHg) réduisait les événements cardiaques de 25 % (HR 0,75, IC 95 % 0,64–0,89). Mais les critères d'inclusion racontaient une autre histoire.

Qui était exclu :

  • Diabète — 35 % des adultes américains hypertendus
  • AVC antérieur — 8 % de la population hypertendue
  • Insuffisance cardiaque symptomatique — 6 % des adultes hypertendus
  • Survie attendue <3 ans — les patients les plus fragiles
  • Résidents en maison de retraite — exclus entièrement
  • DFG <20 mL/min — insuffisance rénale avancée

Résultat : Plus de 75 % des adultes américains hypertendus n'auraient PAS été éligibles. Les preuves étaient solides. Mais pour qui ?

D'Où Viennent les Preuves

78 %

des participants aux méga-essais cardiovasculaires provenaient de pays à revenu élevé (2000–2020).

6 %

d'Afrique subsaharienne — là où les maladies cardiovasculaires progressent le plus rapidement.

Essais polypill : 4 sur 5 ont été menés dans des populations avec un IMC moyen <25. L'IMC moyen aux États-Unis est de 30. Le métabolisme, les profils de comorbidités, l'accès aux soins et la variation génétique diffèrent selon les populations. L'efficacité dans une population ne garantit pas l'efficacité dans une autre.

Référence : Essais multinationaux et le fossé PROGRESS-Plus

P
Lieu de résidence
R
Race / ethnicité
O
Profession
G
Genre / sexe
R
Religion
E
Éducation
S
SSE (statut socio-économique)
S
Capital social

Plus : Âge, handicap, orientation sexuelle, autres groupes vulnérables.

Chercheur

PRISMA-Actions étend PRISMA en exigeant le rapport de la manière dont l'équité a été prise en compte dans la revue : caractéristiques des populations, analyses en sous-groupes par désavantage, et évaluation de l'applicabilité aux populations défavorisées.

Transportabilité : L'efficacité en essai ne correspond pas à l'efficacité en conditions réelles. Des méthodes existent pour repondérer les données d'essai afin de correspondre à la distribution de la population cible.

Diapositive C : La Question de la Transportabilité
Chercheur

Transportabilité = Les résultats de la population X de l'essai peuvent-ils s'appliquer à la population cible Y ? Ce n'est pas une question philosophique—il existe des méthodes formelles.

1

Pondération Inverse par la Probabilité de Participation (IPPW)

Repondère les participants de l'essai pour qu'ils ressemblent à la population cible sur les covariables clés.

2

Indice de Généralisabilité

Quantifie la similarité entre l'échantillon de l'essai et la population cible sur les caractéristiques observées.

Stuart et coll. (2015, Stat Med) : Lorsque les résultats de SPRINT ont été repondérés pour correspondre à la population américaine hypertendue, le bénéfice estimé était atténué — HR 0,82 (vs 0,75 dans l'essai). Le traitement fonctionne toujours. Mais l'ampleur change quand la population change.

SPRINT et la Majorité Manquante

SPRINT un essai était bien conçu de 9 361 patients. Son résultat (HR 0.75 pour le contrôle intensif vs standard de la PA) a changé les recommandations mondiales. Mais des analyses ultérieures ont montré que le bénéfice était le plus fort dans le sous-groupe le plus similaire à la population de l'essai—et incertain pour les groupes exclus.

L'équité dans la synthèse des preuves signifie demander non seulement « Est-ce que ça marche ? » mais « Pour qui est-ce que ça marche ? »

RACINE : Les preuves de votre revue proviennent-elles de populations similaires à votre cible ?

OUI → Bien. Mais vérifiez : Les sous-groupes (âge, sexe, ethnicité, SSE) sont-ils rapportés séparément ?

  • Oui : Utilisez les effets par sous-groupe pour des recommandations spécifiques à la population
  • Non : Signalez comme limitation — lacune d'équité dans le rapport

NON → L'analyse PROGRESS-Plus révèle-t-elle des effets différentiels ?

  • Oui : Des recommandations spécifiques à la population sont nécessaires. Envisagez une repondération de transportabilité.
  • Non : Généralisation prudente avec déclaration explicite d'équité dans la discussion
Méthodologiste

Le Rappel : La Leçon du THS

Souvenez-vous du Module 3 ? L'histoire du THS montrait que le biais de l'utilisateur en bonne santé rendait un traitement nocif apparemment bénéfique. SPRINT peut avoir le problème inverse — l'effet « volontaire en bonne santé » peut rendre un traitement efficace plus efficace qu'il ne le serait dans le monde réel.

Chaque méta-analyse devrait demander : Qui était inclus ? Qui était exclu ? Et est-ce que cela compte ?

Q1. Qu'est-ce que le cadre PROGRESS-Plus aide les réviseurs à évaluer ?

A. L'hétérogénéité statistique
B. L'équité et l'applicabilité aux populations défavorisées
C. La validité interne des études incluses
D. La certitude globale des preuves

Module 18 Terminé

« Les preuves qui excluent les vulnérables ne peuvent prétendre les servir. »

Tout signal n'est pas vérité.

Module 19 : La Machine

Le nombre sans provenance n'est pas un nombre.

Module 19 : La Machine

🎯 Objectifs d'apprentissage

  • Décrire comment l'IA/ML est utilisée dans le criblage des revues systématiques
  • Expliquer l'apprentissage actif et les flux de travail avec l'humain dans la boucle
  • Évaluer la validation de l'automatisation : rappel, économies de charge de travail et risques
  • Reconnaître les limites et biais du criblage algorithmique
  • Appliquer des cadres pour l'utilisation responsable de l'IA dans la synthèse des preuves

Quand la COVID-19 a frappé,

les articles arrivaient plus vite que les humains ne pouvaient lire.

En 2021, plus de 300 000 articles sur la COVID existaient. Cochrane a utilisé des classifieurs d'apprentissage automatique pour trier les études pour leurs revues rapides—réduisant la charge de criblage jusqu'à 70 % tout en maintenant un rappel >95 %.

En avril 2020, 4 000 prépublications COVID apparaissaient chaque semaine.

PubMed indexait 500 nouveaux articles COVID par jour.

La file d'attente de criblage de Cochrane atteignait 10 000 titres non examinés.

🔍 Les Mathématiques de l'Impossible

Une paire de réviseurs examine environ 200 titres par jour.

À 500 nouveaux articles/jour, ils prenaient du retard à chaque heure.

La revue vivante mourait avant de pouvoir vivre.

L'idée n'était pas nouvelle. Cohen et al. (2006, JAMIA) ont montré pour la première fois que l'apprentissage automatique pouvait réduire la charge de criblage de 50 %—avec moins de 5 % de perte de rappel.

📅
2006 : Cohen et al. — Classifieurs SVM pour les revues de classes médicamenteuses. Preuve de concept.
📅
2016 : RobotReviewer (Marshall et al., JMLR) — ML pour l'évaluation du risque de biais. Fiabilité inter-évaluateurs comparable aux réviseurs humains.
📅
2021 : ASReview (van de Schoot et al., Nature Machine Intelligence) — Apprentissage actif simulant une réduction de 95 % de la charge de travail.

Mais la simulation n'est pas la réalité. La COVID allait être le premier vrai test à grande échelle.

1

Priorisation du criblage

L'apprentissage actif classe les références par pertinence. Les réviseurs examinent d'abord les plus probablement pertinentes.

2

Aide à l'extraction de données

Le TAL extrait les éléments PICO, les critères de jugement et les résultats. Nécessite toujours une vérification humaine.

3

Évaluation du risque de biais

Les classifieurs ML prédisent les domaines RoB. Expérimental—le jugement humain reste le gold standard.

Chercheur
Rappel
>95 % requis. Manquer 1 étude peut changer les conclusions.
WSS@95%
Travail économisé par rapport à l'échantillonnage à 95 % de rappel.
Arrêt
Quand arrêter le criblage ? Seuil de références non pertinentes consécutives.

La tension fondamentale : L'automatisation fait gagner du temps mais introduit une nouvelle source d'erreur. Toujours rapporter l'outil, la version, les données d'entraînement et les critères d'arrêt.

🔍 Le Paradoxe de la Validation

Pour savoir si la machine a manqué une étude pertinente, il faut qu'un humain examine tout.

Mais si les humains examinent tout, pourquoi utiliser la machine ?

La solution : la validation prospective sur échantillon réservé.

  • Échantillon aléatoire de 10 % examiné par l'humain et la machine
  • Comparer : la machine a-t-elle manqué ce que l'humain a trouvé ?
  • Si le rappel tombe sous 95 %, réentraîner et élargir le criblage humain

Faire confiance, mais vérifier. La machine gagne son rôle—elle n'en hérite pas.

La Réponse COVID de Cochrane

Cochrane a construit le Registre d'Études COVID-19 en utilisant des classifieurs d'apprentissage automatique entraînés sur des millions de références. Le système a atteint 99 % de sensibilité tout en réduisant le criblage manuel de semaines à jours.

Mais la machine était un outil, pas un remplacement. Chaque étude incluse était encore vérifiée par des réviseurs humains. La leçon : l'IA augmente le réviseur, elle ne le remplace pas.

En juin 2020, l'essai RECOVERY a publié ses résultats sur la dexaméthasone—le premier traitement prouvé pour réduire la mortalité COVID (mortalité à 28 jours : 22,9 % vs 25,7 %, RR 0,83).

La prépublication est apparue sur medRxiv avec un titre non standard. Des scénarios comme celui-ci se sont répétés tout au long de la pandémie : les classifieurs ML, entraînés sur la terminologie existante, classaient bas les formulations inhabituelles.

Dans plusieurs revues vivantes, des réviseurs humains examinant les titres signalés ont reconnu les noms de médicaments clés et ont escaladé des études que les classifieurs avaient dépriorisées.

Sans ces humains, des découvertes thérapeutiques majeures auraient pu attendre des semaines avant d'entrer dans la revue vivante.

La machine lit plus vite. L'humain lit plus profondément. Ni l'un ni l'autre ne suffit seul.

Votre revue va cribler plus de 5 000 titres ?
Oui → Envisager le criblage assisté par IA

Priorisation par apprentissage actif. Double criblage sur 10 % réservé aléatoire. Arrêt quand 3 lots consécutifs donnent 0 étude pertinente.

Rapporter : type de classifieur, données d'entraînement, rappel sur l'échantillon réservé, règle d'arrêt.

Non → Le criblage manuel est faisable

Pour <5 000 titres, le double criblage humain reste le gold standard. L'IA ajoute de la complexité sans bénéfice proportionnel.

Est-ce une revue vivante ou rapide ?

Si oui → L'IA est particulièrement précieuse. Réentraînement continu du classifieur sur les nouvelles preuves. Mais : ne laissez jamais la machine prendre la décision finale d'inclusion.

Méthodologiste

Souvenez-vous du Module 6 ? Poldermans a fabriqué les données DECREASE qui ont guidé les recommandations sur les bêta-bloquants périopératoires pendant une décennie.

L'IA peut désormais détecter automatiquement les anomalies statistiques :

  • Test GRIM : Les moyennes rapportées sont-elles cohérentes avec des tailles d'échantillon entières ?
  • SPRITE : Les statistiques résumées rapportées peuvent-elles être reconstruites à partir de données individuelles plausibles ?
  • Statcheck : Les p-values rapportées correspondent-elles aux statistiques de test ?

Ces outils ont trouvé des anomalies dans des centaines d'articles publiés—plus rapidement que tout auditeur humain.

Mais la machine signale. L'humain juge. La décision de rétracter reste profondément humaine.

Q1. Quel est le rappel minimum acceptable pour le criblage assisté par IA dans les revues systématiques ?

A. 80 %
B. 90 %
C. >95 %
D. 100 %

Module 19 Terminé

« La machine lit plus vite. L'humain lit plus profondément. Ensemble, ils lisent la vérité. »

Tout signal n'est pas vérité.

Module 20 : Le Qualitatif

Les méthodes protègent les patients de notre assurance.

Module 20 : Le Qualitatif

🎯 Objectifs d'apprentissage

  • Expliquer pourquoi certaines questions nécessitent une synthèse de preuves qualitatives
  • Décrire la méta-ethnographie (Noblit & Hare) et la synthèse thématique
  • Appliquer le cadre CERQual pour évaluer la confiance dans les résultats qualitatifs
  • Comprendre les approches de synthèse à méthodes mixtes
  • Reconnaître quand les preuves qualitatives changent la pratique

L'OMS a posé une question

à laquelle aucun ECR ne pouvait répondre.

Pourquoi les femmes du monde entier subissent-elles irrespect et maltraitance pendant l'accouchement ? Bohren et al. (2015) ont synthétisé 65 études qualitatives de 34 pays en un cadre de sept domaines de maltraitance.

En 2014, l'OMS a convoqué un panel pour faire face à une crise mondiale : des femmes étaient physiquement maltraitées, verbalement humiliées et privées de soins pendant l'accouchement. Ce n'était pas un événement rare — des rapports provenaient de 34 pays.

Ils devaient comprendre POURQUOI. Qu'est-ce qui motive l'irrespect et la maltraitance dans les soins de maternité ?

Aucun ECR ne pouvait y répondre. On ne peut pas randomiser les femmes vers des soins abusifs versus respectueux. On ne peut pas mettre les accompagnantes en aveugle. On ne peut pas mesurer la « dignité » sur une échelle de Likert. Les preuves devaient être qualitatives.

Développée par Noblit & Hare (1988), la méta-ethnographie traduit des concepts entre études plutôt que d'agréger des nombres. Elle produit de nouveaux cadres interprétatifs (construits de troisième ordre) à partir de données de premier ordre (citations des participants) et de deuxième ordre (interprétations des auteurs).

Réciproque
Les études se confirment mutuellement
Réfutationnelle
Les études se contredisent
Ligne
d'argument
Les études construisent une nouvelle théorie

Ce Que Bohren a Trouvé : Une Taxonomie de la Maltraitance

1. Violence physique

Frapper, pincer, gifler pendant le travail

2. Violence sexuelle

Touchers inappropriés, procédures non consenties

3. Violence verbale

Cris, menaces, commentaires dégradants

4. Stigmatisation & discrimination

Basées sur le statut VIH, l'origine ethnique, l'âge, la pauvreté

5. Non-respect des normes professionnelles

Négligence, absence de consentement éclairé

6. Mauvaise relation soignant-soigné

Communication déficiente, mépris

7. Conditions du système de santé

Surpeuplement, sous-effectif, manque de fournitures

65 études. 34 pays. Les mêmes schémas se répétaient à travers les langues, les cultures et les systèmes de santé. Ce n'était pas de l'anecdote. C'était des preuves synthétisées.

Chercheur

CERQual évalue la confiance dans les résultats de revues qualitatives à travers quatre composantes :

1

Limites méthodologiques

Qualité des études contributrices.

2

Cohérence

Dans quelle mesure les données soutiennent le résultat.

3

Adéquation

Richesse des données (pas seulement le nombre d'études).

4

Pertinence

Applicabilité au contexte de la question de la revue.

La synthèse de Bohren a informé les Recommandations de l'OMS 2018 sur les soins intrapartum pour une expérience positive de l'accouchement. Changements spécifiques fondés sur des preuves qualitatives :

Rec. 15
Accompagnement pendant le travail
Rec. 1
Soins maternels respectueux
Rec. 3
Communication efficace
Rec. 12
Soutien émotionnel

Ces recommandations — fondées sur des preuves qualitatives — guident désormais les soins maternels dans 194 États membres de l'OMS. Aucune parcelle forestière n'aurait pu les produire. Aucune statistique I² n'aurait pu les révéler.

Le Cadre de Maltraitance de Bohren

La synthèse qualitative de 2015 a identifié sept domaines : violence physique, violence sexuelle, violence verbale, stigmatisation et discrimination, non-respect des standards professionnels, mauvais rapport soignant-soigné, et conditions du système de santé. Ce cadre a informé les Recommandations de l'OMS sur les soins intrapartum (2018).

Aucune p-value ne pouvait capturer l'expérience d'être frappée pendant le travail. La synthèse qualitative a donné voix à ce que les chiffres ne pouvaient pas exprimer.

RACINE : Votre question de recherche porte-t-elle sur les expériences, perceptions, obstacles ou facilitateurs ?

OUI → Votre question porte-t-elle sur le COMMENT ou POURQUOI, et pas seulement le SI ?

  • Oui : Synthèse de preuves qualitatives (méta-ethnographie, synthèse thématique ou synthèse de cadres)
  • Non : Envisagez les méthodes mixtes : quantitatif pour l'effet + qualitatif pour le mécanisme

NON → Votre question porte-t-elle sur l'efficacité ?

  • Oui : Méta-analyse quantitative
  • Mais : Complétez par une revue qualitative des obstacles à la mise en oeuvre (évaluée par CERQual)

Point clé : Les revues systématiques les plus solides répondent AUX DEUX : Est-ce que ça marche ? (quantitatif) ET Pourquoi est-ce que ça marche ou échoue ? (qualitatif)

Q1. Qu'est-ce qui distingue la méta-ethnographie de la méta-analyse quantitative ?

A. Elle n'inclut que 3–5 études
B. Elle traduit des concepts entre études plutôt que de combiner des nombres
C. Elle ne nécessite pas de recherche systématique
D. Elle est moins rigoureuse que la synthèse quantitative

Module 20 Terminé

« Tout ce qui compte ne peut pas être compté. Tout ce qui est compté ne compte pas. »

L'hétérogénéité est un message, pas du bruit.

Module 21 : Le Multivarié

L'hétérogénéité est un message, pas du bruit.

Module 21 : Le Multivarié

🎯 Objectifs d'apprentissage

  • Reconnaître quand les critères de jugement au sein d'une étude sont corrélés
  • Expliquer les modèles multivariés à effets aléatoires
  • Appliquer l'estimation robuste de la variance (RVE) pour les tailles d'effet dépendantes
  • Comprendre les modèles à trois niveaux pour les données emboîtées
  • Choisir entre les approches multivariées selon la structure des données

Les essais cardiovasculaires rapportent

mortalité, IDM, AVC et plus encore.

Ces critères de jugement sont corrélés au sein des patients. Un patient qui décède ne peut pas avoir un critère IDM. La méta-analyse standard traite chaque critère déterminé—ignorant la dépendance et supposant double les preuves.

Ouvrez n'importe quel manuel standard de méta-analyse. Les modèles supposent que chaque étude contribue une taille d'effet indépendante. Mais la réalité est différente.

Un seul essai cardiovasculaire rapporte mortalité, infarctus du myocarde, AVC et revascularisation. Une seule étude de psychothérapie rapporte dépression, anxiété et qualité de vie à 3, 6 et 12 mois.

30 essais
× 4 critères de jugement
= 120
tailles d'effet

La plupart des analystes : (a) traitent les 120 comme indépendants (gonflant la précision d'un facteur √4), ou (b) choisissent un critère et abandonnent les autres. Les deux approches sont fausses.

En méta-analyse standard par paires, chaque étude contribue une taille d'effet. Mais de nombreuses études rapportent plusieurs critères, sous-groupes, points temporels ou bras—créant des tailles d'effet dépendantes. Ignorer cela gonfle la précision et fausse l'inférence.

RVE
Estimation Robuste de la Variance. Estimateur sandwich gère la corrélation inconnue.
3 niveaux
Étude → Critère de jugement emboîté modélisé explicitement.
Chercheur

La RVE (Hedges, Tipton & Johnson, 2010) utilise un estimateur de type sandwich qui fournit des erreurs standard valides quelle que soit la vraie corrélation entre les effets dépendants. Pas besoin de connaître ou d'estimer la corrélation intra-étude. Idéal pour ≥20 études.

Correction pour petits échantillons : Tipton & Pustejovsky (2015) ont développé des corrections pour petits échantillons (CR2) pour la RVE, utilisant les degrés de liberté de Satterthwaite quand le nombre de clusters est faible.

Chercheur

Ce Que la Dépendance Fait à Vos Intervalles de Confiance

Si 4 critères de jugement d'une même étude ont une corrélation intra-étude ρ = 0,5 :

Traités comme indépendants

Largeur IC = X

En tenant compte de la dépendance

Largeur IC = 1,58X

Votre intervalle de confiance devrait être 58 % plus large. Chaque méta-analyse qui a ignoré cela a publié des résultats faussement précis.

RVE (Hedges, Tipton & Johnson, 2010) : Utilise un estimateur de variance « sandwich » qui produit des erreurs standard correctes sans avoir besoin de connaître la corrélation exacte intra-étude.

Chercheur
1

Niveau 1 : Variance d'échantillonnage

Erreur de mesure au sein de chaque estimation de taille d'effet.

2

Niveau 2 : Variance intra-étude

Les critères de jugement et points temporels varient au sein d'une même étude.

3

Niveau 3 : Variance inter-études

Les études diffèrent entre elles par les populations, les contextes et les méthodes.

Exemple : Dans une méta-analyse de psychothérapie pour la dépression (k=50 études, 180 tailles d'effet), 35 % de la variance était intra-étude (différents critères) et 65 % inter-études (différentes thérapies, populations). Cette décomposition révèle combien d'hétérogénéité est intra- vs inter-études.

Méthodologiste

Quand les effets sont emboîtés (ex. plusieurs critères au sein d'études, ou études au sein de groupes de recherche), un modèle à trois niveaux décompose la variance en : (1) variance d'échantillonnage (niveau 1), (2) variance intra-étude (niveau 2), et (3) variance inter-études (niveau 3). Cela maintient une inférence correcte tout en empruntant de la force entre les niveaux.

Le Défi Cardiovasculaire

Une méta-analyse des statines pourrait inclure 30 essais, chacun rapportant mortalité, IDM, AVC et revascularisation. Soit 120 tailles d'effet de 30 clusters. Les traiter comme 120 estimations indépendantes gonfle la précision d'un facteur lié à la corrélation intra-étude.

La RVE ou les modèles multivariés gèrent cela correctement—produisant des intervalles de confiance plus larges et honnêtes.

RACINE : Votre méta-analyse a-t-elle plusieurs effets par étude ?

OUI → Connaissez-vous (ou pouvez-vous estimer) les corrélations intra-étude ?

  • Oui : Modèle multivarié à effets aléatoires (le plus efficient)
  • Non : RVE avec correction pour petits échantillons (robuste aux corrélations inconnues)

NON → Modèle univarié standard à effets aléatoires

Sous-question : Vos effets multiples proviennent-ils de critères de jugement différents, de points temporels, ou de sous-groupes ?

  • Différents critères de jugement → Modèle à trois niveaux ou RVE avec regroupement
  • Différents points temporels → Réseau de points temporels avec corrélation temporelle
  • Différents sous-groupes → Considérez si les sous-groupes sont significatifs ou doivent être moyennés

Q1. Quel problème l'Estimation Robuste de la Variance (RVE) résout-elle ?

A. Le biais de publication
B. La dépendance entre plusieurs tailles d'effet de la même étude
C. L'hétérogénéité inter-études
D. Les effets des petites études

Module 21 Terminé

« Quand les critères sont enchevêtrés, prétendre qu'ils sont indépendants est un mensonge de commodité. »

Le nombre sans provenance n'est pas un nombre.

Module 22 : La Preuve

Le nombre sans provenance n'est pas un nombre.

Module 22 : La Preuve

🎯 Objectifs d'apprentissage

  • Comprendre comment les erreurs de calcul se propagent dans les politiques publiques
  • Définir la reproductibilité et la distinguer de la réplicabilité
  • Appliquer le hachage de preuves et les nombres porteurs de preuve
  • Utiliser des listes de vérification de reproductibilité pour la méta-analyse
  • Reconnaître le rôle du pré-enregistrement et des données ouvertes

Un étudiant en master a ouvert un tableur

et a découvert que l'ère d'austérité reposait sur une erreur.

En 2010, Reinhart et Rogoff affirmaient que les pays avec un ratio dette/PIB >90 % avaient une croissance négative. Cela a influencé les politiques d'austérité à travers l'Europe. En 2013, Thomas Herndon a découvert une erreur Excel qui excluait 5 pays de la moyenne. Le résultat corrigé : une croissance positive modérée, pas un effondrement.

Reproductible
Mêmes données + même code = même résultat
Réplicable
Nouvelles données + mêmes méthodes = résultat cohérent

La reproductibilité est le standard minimum. Si d'autres ne peuvent pas reproduire votre estimation poolée à partir de vos données rapportées, l'analyse ne peut pas être vérifiée. Les méta-analyses doivent partager : données extraites, scripts d'analyse, versions logicielles et graines aléatoires.

Chercheur

Chaque nombre dans une méta-analyse devrait porter sa provenance : d'où il vient, comment il a été transformé, et quel code l'a produit. Le hachage de preuves crée une empreinte cryptographique des entrées de sorte que tout changement (accidentel ou délibéré) soit détectable.

SHA

Hash d'entrée

Hash SHA-256 des données extraites. Si une cellule change, le hash change. Chaîne de provenance : données → code → résultat → hash.

Cochez chaque élément pour évaluer la reproductibilité d'une méta-analyse. Quel est le score de votre revue ?

L'Erreur Excel Qui a Changé des Économies

L'article de Reinhart-Rogoff « Growth in a Time of Debt » a été cité dans des auditions au Congrès, des rapports de la Commission européenne et des notes de politique du FMI. L'erreur Excel (les lignes 30–34 étaient exclues d'une formule AVERAGE) signifiait que cinq pays—Australie, Autriche, Belgique, Canada et Danemark—étaient simplement manquants.

La moyenne corrigée est passée de −0.1 % à +2.2 %. Les politiques d'austérité ont affecté des millions de personnes. La reproductibilité n'est pas du perfectionnisme académique—c'est une protection contre la catastrophe.

Vous souvenez-vous du Module 5 ?

DECREASE à Travers le Prisme de la Reproductibilité

Les essais DECREASE de Don Poldermans ont été rétractés pour données fabriquées. Si les nombres porteurs de preuve avaient existé—entrées hachées, chaînes de provenance, calculs vérifiés—la fabrication aurait été détectable avant que les preuves n'entrent dans les méta-analyses et ne changent les recommandations chirurgicales.

Q1. Quelle était l'erreur de Reinhart-Rogoff ?

A. Ils ont utilisé un échantillon trop petit
B. Une formule Excel excluait 5 pays, inversant la conclusion
C. Ils ont étudié la mauvaise période temporelle
D. Ils ont utilisé le mauvais test statistique

Module 22 Terminé

« Le nombre sans provenance n'est pas un nombre. L'analyse sans reproductibilité n'est pas une preuve. »

La certitude doit être méritée, pas présumée.

Module 23 : Votre Premier Méta-Sprint

Module 23 : Capstone - Votre premier méta-sprint

La certitude doit être gagnée et non assumée.

Module 23 : Votre premier méta-sprint

🎯 Learning Objectives

  • Comprendre le flux de travail d'examen systématique de 40 jours
  • Mappez les sept principes en phases de pratique réelle
  • Reconnaître les portes de la définition du fait (DoD) comme points de contrôle de qualité
  • Comprenez pourquoi la structure empêche les échecs que vous avez étudiés
  • Le diplômé est prêt à mener (pas seulement à comprendre) une méta-analyse
Le voyage est terminé

Vous avez appris les histoires.

Maintenant, vous devez parcourir le chemin.

Chaque inversion des preuves que vous avez étudiées s'est produite parce que les équipes savait ont appliqué les méthodes mais ne l'ont pas fait suivre them systematically.

Le cadre META-SPRINT

Un flux de travail structuré de 40 jours avec 5 portes de phase. Chaque porte est un point de contrôle de définition du fait (DoD) qui vous empêche d'avancer jusqu'à ce que la qualité soit assurée.

40
Jours jusqu'à la fin
5
Portes de phase DoD
Day 34
Hard Freeze

Why 40 days? Assez long pour la rigueur, suffisamment court pour éviter toute dérive de la portée. Les signaux cardiaques de la rosiglitazone ont été enterrés pendant des années parce qu'il n'y avait pas de date limite imposant la transparence.

Les cinq portes
A

DoD-A : verrouillage du protocole (jours 1-3)

PICOS défini, règles de point temporel définies, choix de modèles prédéfinis. Aucune cible mobile.

B

DoD-B : verrouillage de recherche (jours 6 à 10)

Toutes les bases de données ont été consultées, la littérature grise vérifiée, validée par PRESS. Non masqué études.

C

DoD-C : Verrouillage d'extraction (jours 10 à 28)

Double extraction, liée à la provenance, RoB évalué. Aucun chiffre fabriqué.

D

DoD-D : Analysis Lock (jours 21-33)

Parcelles forestières générées, analyses de sensibilité effectuées, hétérogénéité explorée. No cherry-picking.

E

DoD-E : verrouillage des soumissions (jours 33-40)

GRADE avec certitude, résumé clinique rédigé, manuscrit finalisé. No overconfidence.

Day 34 Freeze: Aucune nouvelle étude ne peut être ajoutée après le jour 34. Cela évite la « dérive de la portée militaire » qui a tourmenté les méta-analyses BMP sur la chirurgie de la colonne vertébrale, où l'industrie a continué à « trouver » des études favorables.

Chaque principe que vous avez appris correspond à une porte de phase spécifique :

DoD-A "Tous les signaux ne sont pas véridiques" — Pré-préciser ce qui compte comme preuve
DoD-B "Qu'est-ce qui était caché à la vue de tous ?" — Search comprehensively
DoD-C "Le numéro sans provenance n'est pas un numéro" — Reliez chaque point de données
DoD-D "L'hétérogénéité est un message, pas bruit" — Enquêtez, n'ignorez pas
DoD-E "La certitude doit être acquise, et non supposée" — GRADE everything

Le principe de l'équipe rouge

Votre propre équipe essaie d'interrompre votre travail.

Chaque jour, deux membres de l'équipe en rotation passent 12 minutes à vérifier la qualité des données en tant qu'adversaires. C'est ainsi que la fraude de Boldt a été détectée, non pas par un examen amical, mais par une vérification sceptique qui a révélé des taux de recrutement impossibles.

Que se passe-t-il lorsque vous découvrez un problème critique à mi-sprint ?

CondGO = Aller conditionnel

Un protocole de sauvetage limité. Vous avez exactement 72 heures pour résoudre le problème en utilisant uniquement les actions autorisées. Si vous ne parvenez pas à résoudre le problème, vous devez arrêter l'examen.

📖 La leçon Avandia : GSK a détecté des signaux cardiovasculaires en 2000, mais n'a imposé aucun délai. Ils ont « regardé et attendu » pendant 7 ans. Des dizaines de milliers de personnes ont été blessées. CondGO existe parce que "nous finirons par nous en occuper" tue des gens.

Vous avez commencé ce cours avec des histoires.

Vous le terminez prêt pour la pratique.

Le flux de travail META-SPRINT prend tout ce que vous avez appris et le structure dans un système de 40 jours qui évite les échecs. vous avez étudié.

Lorsque vous êtes prêt à mener une véritable revue systématique, ouvrez l'application META-SPRINT. Les histoires que vous avez apprises ici vous guideront et apparaîtront comme des rappels à chaque étape.

1. Quel est le but du "hard freeze" du Jour 34 dans META-SPRINT ?

A. Pour accorder du temps à l'examen par les pairs
B. Pour éviter que des études ajoutées tardivement ne manipulent les résultats
C. Pour accélérer la publication
D. Se coordonner avec les délais du journal

2. Le protocole CondGO donne aux équipes combien de temps pour résoudre les problèmes critiques ?

A. 24 heures
B. 48 heures
C. 72 heures
D. 1 semaine

3. Le contrôle qualité contradictoire de l'équipe rouge a détecté la fraude de Joachim Boldt en remarquant :

A. Des taux de recrutement de patients impossibles
B. p-piratage dans les tests statistiques
C. Tailles d'effet incohérentes
D. Whistleblower testimony

Les histoires que vous avez apprises ne font pas partie de l'histoire.

Ce sont des avertissements qui protègent votre travail futur.

Lorsque vous effectuez votre première méta-analyse,
rappelez-vous CAST avant de faire confiance à un signal,
souvenez-vous de Poldermans avant de sauter la provenance,
rappelez-vous Reboxetine avant d'ignorer l'entonnoir.

Vous êtes maintenant prêt. Optez pour la structure. Allez-y avec humilité. Suivez les Sept Principes.

Tous les signaux ne sont pas vrais.

Module 24 : Examen final

La certitude doit être méritée, pas supposée.

Examen Final

Testez votre maîtrise des principes de la méta-analyse. Chaque question aborde un concept clé du cours.

Q1. Un chercheur souhaite étudier « les effets de l'exercice sur la santé ». Quel est le problème PRINCIPAL de cette question de recherche ?

A. Elle manque de randomisation
B. La taille de l'échantillon est trop petite
C. Elle n'est pas formulable — elle manque d'éléments PICO spécifiques
D. Elle manque d'approbation éthique

Q2. Un funnel plot montre une asymétrie prononcée avec des études manquantes dans la région Inférieure gauche. Que cela suggère-t-il ?

A. Les grandes études ont des estimations plus précises
B. Les petites études négatives sont probablement non publiées
C. Le vrai effet est plus fort que celui estimé
D. Erreur d'échantillonnage aléatoire

Q3. Une méta-analyse rapporte I² = 85 % et τ² = 0,42. Quelle est l'interprétation la PLUS appropriée ?

A. Il y a 85 % de chances d'un vrai effet
B. La taille de l'effet est très grande
C. Une variance inter-études substantielle existe ; investiguer les sources
D. Les résultats sont cliniquement importants

Q4. Dans GRADE, quel est le niveau de certitude initial pour un corpus de preuves provenant d'essais contrôlés randomisés ?

A. Élevée
B. Modérée
C. Faible
D. Très faible

Q5. Dans RoB 2.0, quel domaine évalue si les évaluateurs des critères de jugement connaissaient l'allocation du traitement ?

A. D1 : Processus de randomisation
B. D2 : Déviations par rapport aux interventions prévues
C. D3 : Données manquantes sur les critères de jugement
D. D4 : Mesure du critère de jugement

Q6. L'essai CAST a montré que les antiarythmiques augmentaient la mortalité malgré la suppression des arythmies. Ceci est un exemple de :

A. Erreur d'échantillonnage aléatoire
B. Échec du critère de substitution
C. Confusion par indication
D. Causalité inverse

Q7. Quand doit-on préférer un modèle à effets aléatoires plutôt qu'un modèle à effet fixe ?

A. Quand les tailles d'échantillon sont grandes
B. Quand les critères de jugement sont binaires
C. Quand une hétérogénéité inter-études est attendue
D. Quand un biais de publication est suspecté

Q8. Selon les critères ICEMAN, qu'est-ce qui rend une analyse en sous-groupes PLUS crédible ?

A. Hypothèse spécifiée a priori
B. Grand nombre de sous-groupes testés
C. Pas de justification biologique
D. Effets incohérents entre les essais au sein du sous-groupe

Q9. Quelle hypothèse doit être vérifiée dans une méta-analyse en réseau pour assurer la validité des comparaisons indirectes ?

A. Toutes les études ont des tailles d'échantillon égales
B. Toutes les études mesurent le même critère de jugement
C. Transitivité (cohérence des modificateurs d'effet)
D. Double aveugle dans tous les essais

Q10. Dans l'analyse séquentielle des essais (TSA), que signifie le franchissement de la frontière de futilité ?

A. Le traitement cause un préjudice
B. Des études supplémentaires ont peu de chances de montrer un effet significatif
C. Les preuves sont concluantes en faveur d'un bénéfice
D. La méta-analyse manque de puissance
Partie 2 : Questions du module avancé (Q11-Q20)

Les questions 11 à 20 couvrent les Modules 13–22 (Bayésien, NMA, DPI, Dose-Réponse, Fragilité, Équité, IA, Qualitatif, Multivarié, Reproductibilité).

Q11. Dans une méta-analyse bayésienne, que se passe-t-il lorsqu'on utilise un a priori vague avec de nombreuses études ?

A. La distribution a posteriori correspond étroitement au résultat fréquentiste
B. L'a priori domine la distribution a posteriori
C. L'intervalle de crédibilité devient infiniment large
D. Le modèle ne converge pas

Q12. Dans la NMA des antidépresseurs de Cipriani, pourquoi aucun médicament unique n'a-t-il été déclaré « le gagnant » ?

A. Trop peu d'études
B. Différents médicaments se classaient en tête sur différents critères
C. Aucune preuve indirecte n'était disponible
D. Le SUCRA ne pouvait pas être calculé

Q13. Pourquoi ne devrait-on jamais combiner les DPI comme si elles provenaient d'un méga-essai unique ?

A. Les DPI ont toujours moins d'études que les données agrégées
B. Cela ignore le regroupement par étude et introduit de la confusion
C. Cela ne peut pas gérer les données de survie
D. Les critères binaires ne peuvent pas être combinés

Q14. Qu'est-ce qui a fait disparaître la « courbe en J » de l'alcool dans la réanalyse de Stockwell ?

A. De nouvelles études ont été ajoutées ne montrant aucun bénéfice
B. Les anciens buveurs ont été correctement retirés du groupe de référence abstinent
C. La taille de l'échantillon a été augmentée
D. Un meilleur ajustement pour les facteurs de confusion

Q15. Dans la saga de l'oseltamivir, qu'a découvert Cochrane en accédant aux rapports d'études cliniques non publiés ?

A. Le médicament était complètement inefficace
B. L'effet était plus important que ce qui était initialement pensé
C. Le bénéfice sur les complications a largement disparu
D. Les effets secondaires étaient plus fréquents que rapporté

Q16. Quel pourcentage de patients hypertendus américains n'auraient PAS été éligibles pour l'essai SPRINT ?

A. Environ 25 %
B. Environ 50 %
C. Plus de 75 %
D. Presque 100 %

Q17. Pourquoi l'IA est-elle considérée comme un « augmentateur » plutôt qu'un « remplaçant » dans les revues systématiques ?

A. L'IA est plus lente que les évaluateurs humains
B. L'IA a un rappel parfait
C. L'IA crible rapidement mais ne peut pas porter de jugements contextuels au niveau humain
D. L'IA est trop coûteuse pour la plupart des revues

Q18. Que évalue la composante « adéquation » de CERQual ?

A. Le nombre d'études uniquement
B. La richesse et la quantité des données soutenant la conclusion
C. La cohérence des résultats entre les études
D. La généralisabilité à d'autres populations

Q19. Une méta-analyse inclut 30 essais de statines, chacun rapportant 4 critères corrélés (120 tailles d'effet). Quelle approche est correcte ?

A. Traiter les 120 comme des tailles d'effet indépendantes
B. Utiliser la RVE avec correction pour petits échantillons
C. Choisir un seul critère par étude
D. Moyenner les 4 critères au sein de chaque étude

Q20. Dans l'erreur de Reinhart-Rogoff, quel était le taux de croissance moyen corrigé pour les pays à dette élevée ?

A. −0,1 % (identique à ce qui était affirmé)
B. +2,2 %
C. 0 %
D. +5 %

Note de passage : 15/20 sur les deux parties

Révisez les questions manquées en retournant au module correspondant. Chaque question teste un concept fondamental.

Tout signal n'est pas vérité.

Les méthodes protègent les patients de notre assurance.

Félicitations

Vous avez terminé Renversement des Preuves : Un Cours de Méta-Analyse.

Que votre synthèse soit guidée par la vérité, votre combinaison par la sagesse,
et vos conclusions par l'humilité.

Les Sept Principes :

« Tout signal n'est pas vérité. »

« Les méthodes protègent les patients de notre assurance. »

« Qu'est-ce qui était caché en pleine vue ? »

« Le nombre sans provenance n'est pas un nombre. »

« L'hétérogénéité est un message, pas du bruit. »

« L'absence de preuve n'est pas preuve d'absence. »

« La certitude doit être méritée, pas supposée. »

« Guide-nous vers le Droit Chemin... »