Renversement des preuves : Un cours de meta-analyse

Tous les signaux ne sont pas vrais.

Module 0 : L'ouverture

🎯 Learning Objectives

Définir la méta-analyse et expliquer son rôle dans la synthèse des preuves
Identifier quand les études ne doivent PAS être regroupées
Décrire la hiérarchie des preuves et où se situent les revues systématiques
Reconnaître que la méta-analyse peut induire en erreur lorsqu'elle est mal effectuée
Rappeler les sept principes qui ancrent ce cours

Ce le cours existe parce que

la médecine était mauvaise.

Pas une seule fois. Pas rarement. À plusieurs reprises. D'une manière qui a tué les patients qui croyaient que les preuves étaient solides.

Qu'est-ce que la méta-analyse ?

Une méthode statistique permettant de combiner les résultats de plusieurs études indépendantes abordant la même question.

1976

Terme inventé par Gene Glass

~50,000

Publié par an

#1

Evidence hierarchie

Pourquoi le pool Études ?

1

Augmentation de la puissance statistique

Les études individuelles peuvent être trop petites pour détecter des effets.

2

Improve Precision

Intervalles de confiance plus étroits autour des estimations d'effet.

3

Resolve Disagreement

Lorsque les études sont en conflit, la mise en commun peut clarifier le signal.

4

Explore Heterogeneity

Identifiez pourquoi les effets diffèrent selon les populations ou les contextes.

Mais la méta-analyse peut aussi

TROMPER

Lorsqu'elles sont mal réalisées, elles amplifient les préjugés plutôt que la vérité.

Quand NE PAS regrouper

1

Les études mesurent des choses fondamentalement différentes (des pommes et oranges)

2

Hétérogénéité extrême qui ne peut être expliquée

3

Une étude domine toutes les autres (problème de méga-étude)

4

Les études présentent un risque élevé de biais qui ne peut pas être ajusté en fonction

La mise en commun est un privilège, pas un droit.

La décision d'association doit être défendue.

La hiérarchie des preuves

Revues systématiques et méta-analyses des ECR

Essais contrôlés randomisés

Études de cohorte

Études cas-témoins

Série de cas/avis d'experts

La position dans la hiérarchie dépend de la qualité de la méthodologie, et non du seul type d'étude.

Ce cours enseigne via

renversements de preuves.

Chaque module s'ouvre sur une histoire expliquant comment la médecine s'est trompée. Ensuite, nous apprenons la méthode qui aurait évité le préjudice.

Les sept principes

Ces phrases reviendront tout au long de votre voyage :

1. "Tous les signaux ne sont pas vrais."

2. "Les méthodes protègent les patients de notre confiance."

3. "Qu'est-ce qui était caché à la vue de tous ?"

4. "Le numéro sans provenance n'est pas un numéro."

5. "L'hétérogénéité est un message, pas un bruit."

6. "L'absence de preuve n'est pas une preuve d'absence."

7. "La certitude doit être gagnée et non assumée."

Quiz du module 0

1. Pourquoi ne devriez-vous parfois PAS regrouper les études dans une méta-analyse ?

A. La mise en commun est toujours mieux que des études uniques

B. Lorsque l'hétérogénéité est extrême ou que les études mesurent des choses différentes

C. La mise en commun est toujours appropriée pour les ECR

D. Les méthodes statistiques permettent de gérer n'importe quelle situation

2. Où se situent les revues systématiques des ECR dans la hiérarchie des preuves ?

A. En haut

B. Même niveau que les ECR individuels

C. Études de cohorte ci-dessous

D. Identique à l'opinion d'un expert

Commencez le voyage.

Module 1 : La question

Tous les signaux ne sont pas vrais.

Ceci n'est pas une histoire d'erreur.

C'est une histoire de certitude.

Module 1 : La question

🎯 Learning Objectives

Formuler une approche ciblée Question PICO pour une revue systématique
Distinguer les résultats de substitution des résultats importants pour le patient
Expliquez pourquoi la plausibilité biologique à elle seule ne constitue pas une preuve suffisante
Décrire l'essai CAST et ses implications pour la médecine factuelle
Appliquer le principe : "Tous les signes lumineux ne sont pas des conseils"

~9,000

Décès excédentaires par an

D'un traitement que tout le monde croyait efficace.

C'est l'histoire de ce que nous croyions - et comment nous étions tort.

L'observation

Les patients présentant des ESV fréquemment après un IM présentaient une 2 à 5 fois plus élevée.

400,000+

Survivants d'IM/an

~40%

avec des PVC

160,000

à un niveau élevé risque

Un besoin clinique massif. Un objectif clair.

La Réponse

Des médicaments antiarythmiques ont été développés, approuvés par la FDA,
et prescrite à environ 200 000 patients par an.

Aucun méchant n'apparaît dans cette histoire.

Tout le monde a agi sur la base des meilleures preuves disponibles.

La logique qui a convaincu tout le monde

PREMIÈRE 1

Les PVC après un IM prédisent une mort cardiaque subite

↓

LOCALITÉ 2

Les médicaments antiarythmiques suppriment les ESV

↓

PREMIÈRE 3

La suppression des ESV devrait prévenir la mort subite

↓

CONCLUSION

Les antiarythmiques sauvent des vies chez les patients post-IM

La chaîne était logique. La conclusion semblait inévitable.

CAST : Essai sur la suppression de l'arythmie cardiaque

Enfin, quelqu'un a demandé : "La suppression des PVC sauve-t-elle réellement des vies ?"

Conception

499 patients randomisés, en double aveugle, contrôlés par placebo

Population

Patients post-IM présentant des ESV asymptomatiques

Intervention

Encaïnide, flécaïnide ou moricizine vs placebo

Rodage

Seuls les patients présentant une suppression des PVC ≥ 80 % ont été randomisés

Crit?re principal

Décès ou arrêt cardiaque avec réanimation

Taille de l'?chantillon

1 498 patients (bras encaïnide/flécaïnide)

Les résultats : avril 1989

Le Data Safety Monitoring Board arrête l'essai prématurément.

Résultat	Médicament (n=755)	Placebo (n = 743)
Arrhythmic deaths	33	9
Tous les décès cardiaques	43	16
Total deaths	56	22
Death rate	7.4%	3.0%

Risque relatif de décès : 2,5

95% CI: 1.6 - 4.5 | p < 0.001

Les médicaments qui supprimaient parfaitement les arythmies ont augmenté la mortalité de 150 %

Le coût humain

Avant CAST, environ 200 000 Américains recevaient chaque année ces médicaments.

~9,000

excès de décès par an - peut-être plus

Guerre du Vietnam : ~6 000 décès aux États-Unis/an • Ces médicaments : ~9 000+ décès/an

Pour chaque numéro, un nom que nous ne connaîtrons jamais.

Regardez ? nouveau.

La logique - revisitée

PREMIÈRE 1

Les PVC après un IM prédisent une mort cardiaque subite

↓

LOCALITÉ 2

Les médicaments antiarythmiques suppriment les ESV

← LE SAUT

↓

PREMIÈRE 3

La suppression des ESV devrait prévenir la mort subite

↓

CONCLUSION

Les antiarythmiques sauvent des vies chez les patients post-IM

L'hypothèse que la suppression du marqueur corrigerait le résultat n'a jamais été testé.

Ce qui n'a pas fonctionné : le piège des substituts

1

Les PVC étaient un marqueur de tissus endommagés, pas une cause de décès

2

Les médicaments ont eu des effets proarythmiques - déclenchant des rythmes plus mortels

3

La mère porteuse s'est améliorée tandis que le résultat s'est aggravé - une mère porteuse dissociée

La mère porteuse n'a pas menti. Nous lui avons posé la mauvaise question.

Le framework PICO

Chaque question clinique pouvant répondre comporte quatre éléments :

P - POPULATION

Qui sont les patients ? Quelles sont leurs caractéristiques ?

I - INTERVENTION

Quel traitement ou quelle exposition est évalué ?

C - COMPARATEUR

Quelle est l'alternative ? Placebo? Soins standards ?

O - RÉSULTAT

Qu'est-ce qui compte pour des malades ? Paramètres d'évaluation stricts par rapport aux substituts.

CAST PICO

Patients post-IM atteints d'ESV | Antiarythmiques | Placebo | Mortalité

🔍

Exercice d'enquête : les preuves avant CAST

Vous êtes cardiologue en 1988. Un patient a survécu à un IM mais présente des ESV fréquentes. La littérature observationnelle est claire...

Étude	Patients atteints d'ESV	Mortality Risk
Lown (1977)	High-grade PVCs	2,4x plus élevée
Plus grand (1984)	>10 PVCs/hour	3,1x plus élevé
Mukharji (1984)	Complex PVCs	4,8x supérieur

Le signal est clair. Le mécanisme est plausible. Prescririez-vous des antiarythmiques ?

Avant : logique d'observation

PVC → Mortalité plus élevée

Les médicaments suppriment les PVC

∴ Les médicaments devraient réduire la mortalité

Après : CAST ECR (1989)

Taux de mortalité dû à la drogue : 7.4%

Taux de mortalité sous placebo : 3.0%

RR = 2,5 (augmentation de 150 % des décès)

La mère porteuse s'est améliorée. Les patients sont morts. C'est pourquoi nous demandons : « Quel est le résultat qui compte ? »

Les leçons pour la synthèse des preuves

1

La plausibilité biologique n'est pas une preuve

Un mécanisme logique ne garantit pas l'effet attendu.

2

Les paramètres de substitution peuvent induire en erreur

L'amélioration d'un biomarqueur ne prouve pas une amélioration des résultats.

3

Only randomized trials establish causation

Les données observationnelles ne peuvent prouver les effets de l'intervention.

4

Le consensus n'est pas une preuve

200 000 prescriptions, l'approbation de la FDA et les lignes directrices ont toutes été faux.

C'est pourquoi nous effectuons une méta-analyse : pour voir le passé apparent vérités.

Ce qui semble certain peut être faux.

Ce que tout le monde croit pourrait être faux.

Il existe des méthodes pour que les patients ne paient pas pour notre confiance.

C'est pourquoi vous êtes ici.

Quiz du module 1

1. Quelle était l'erreur fondamentale dans la logique antiarythmique ?

A. Les essais n'étaient pas randomisés

B. Le traitement d'une mère porteuse (PVC) était supposé améliorer les résultats

C. La taille de l'échantillon était trop petite

D. L'approbation de la FDA a été précipitée

2. Dans PICO, que signifie le « O » et pourquoi est-ce important ?

A. Observation - ce que pensent les chercheurs voir

B. Objectif - le but de la recherche

C. Résultat - ce qui compte pour les patients

D. Organisation - structure de l'étude

Tous les signaux ne sont pas vrais.

Les méthodes protègent les patients de notre confiance.

Qu'est-ce qui était caché à la vue de tous ?

Ceci est une histoire sur

preuves observationnelles.

Module 2 : Le Protocole

🎯 Learning Objectives

Expliquez pourquoi le protocole de pré-enregistrement prévient les biais
Identifier les éléments clés d'un enregistrement PROSPERO
Distinguer les biais des utilisateurs sains des véritables effets du traitement
Décrire pourquoi les études observationnelles ont surestimé les bénéfices du THS
Appliquer le principe : "Les méthodes protègent les patients de notre confiance"

30+

études observationnelles

Tous ceux qui ont suivi un traitement hormonal substitutif ont protégé les femmes ménopausées des maladies cardiaques.

Les preuves semblaient accablantes. La conclusion semblait certaine.

L'étude sur la santé des infirmières

122 000 infirmières suivies pendant des décennies. Les utilisateurs de THS présentaient une mortalité cardiovasculaire inférieure de 40 à 50 %.

RR 0.56

Cardiovascular mortality

122,000

Women followed

20+ ans

Suivi

Étude historique. Méthodologie impeccable. Mauvaise conclusion.

Le biais caché

1

Biais d'utilisateur sain : Les femmes qui ont choisi le THS étaient en meilleure santé, plus riches et mieux instruites

2

Compliance Bias: Les femmes qui prenaient régulièrement un THS prenaient également mieux soin d'elles-mêmes

3

Prescriber Bias: Les médecins ont administré un THS à des femmes en meilleure santé présentant moins de risques facteurs

Le traitement ne les protégeait pas. Ils étaient déjà protégés.

WHI : La santé des femmes Initiative

Le plus grand essai randomisé de THS jamais mené.

Conception

499 patients randomisés, en double aveugle, contrôlés par placebo

Population

Femmes ménopausées âgées 50-79

Intervention

Œstrogène + Progestatif vs Placebo

Taille de l'?chantillon

16 608 femmes

Crit?re principal

Maladie coronarienne

Planned duration

8,5 ans

Les résultats : juillet 2002

L'essai s'est arrêté prématurément après 5,2 ans. Les dommages ont dépassé les avantages.

Résultat	Hazard Ratio	Direction
Maladie coronarienne	1.29	NUIRE
Accident vasculaire cérébral	1.41	NUIRE
Breast cancer	1.26	NUIRE
Pulmonary embolism	2.13	NUIRE

Inversion compl?te

30 ans de preuves d'observation annulées

La Leçon

PRÉ-SPÉCIFIER

Un protocole rédigé avant le début de la recherche empêche la pêche, prévient les biais, empêche la distorsion rétrospective.

HISTOIRE : L’hypothèse du timing hormonal

Et si le traitement fonctionnait, mais seulement pour certains ?

DONNÉES RÉELLES

WHI a montré un HRT augmentation globale des événements cardiovasculaires. Mais des analyses ultérieures ont révélé une tendance critique : les femmes qui ont commencé un THS dans les 10 ans suivant la ménopause had Risque cardiovasculaire RÉDUIT. Women starting 20 ans et plus après la ménopause had INCREASED risk. Le résultat global nul/préjudiciable masquait un effet de timing.

Le dilemme de l'analyste

Vous analysez des sous-groupes WHI. Le résultat global montre un préjudice. Creusez-vous plus profondément ?

CHEMIN A : Rapport global uniquement

Conclure que le THS est nocif pour toutes les femmes ménopausées

↓

Message simple. Les lignes directrices déconseillent universellement le THS.

RÉSULTAT : refuser le bénéfice potentiel aux jeunes femmes ménopausées

CHEMIN B : Pré-spécifier les sous-groupes temporels

Analyser par années depuis la ménopause (biologiquement plausible)

↓

Découvrez la « fenêtre de synchronisation » pour un démarrage du THS en toute sécurité.

OUTCOME : permettez des personnalisations recommandations

LE REVELATION

L'analyse des sous-groupes est dangereuse lors de la pêche. C’est essentiel lorsque la biologie prédit une modification des effets. L'hypothèse temporelle était biologiquement plausible et aurait dû être prédéfinie.

PROSPERO Registration

1

Inscrivez-vous avant de rechercher

PROSPERO : Registre prospectif international des revues systématiques

2

Verrouillez vos décisions

PICO, stratégie de recherche, résultats, plan d'analyse - tous prédéfinis

3

Document Amendments

Les modifications sont autorisées mais doivent être transparentes et justifiées

4

Prevent Duplication

Vérifiez si votre avis existe déjà avant de commencer

Quiz du module 2

1. Pourquoi l'étude sur la santé des infirmières a-t-elle montré un bénéfice du THS que WHI n'a pas démontré ?

A. La santé des infirmières compté trop peu de patients

B. Biais des utilisateurs sains dans les études observationnelles

C. Nurses' Health a bénéficié d'un suivi plus court

D. Différentes formulations hormonales ont été utilisées

2. Quel est l'objectif principal de l'enregistrement PROSPERO ?

A. Pour enregistrer les essais cliniques

B. Pour accélérer l'achèvement de l'examen

C. Pour pré-spécifier les méthodes et éviter les biais

D. Pour obtenir un financement pour les examens

La pré-spécification n'est pas une bureaucratie.

C'est une protection.

Contre notre propre tendance à trouver ce à quoi nous nous attendons.

Les méthodes protègent les patients de notre confiance.

Qu'est-ce qui était caché à la vue de tous ?

Module 3 : La recherche

Qu'est-ce qui était caché à la vue de tous ?

Ceci est une histoire sur

ce qu'ils n'ont pas fait publier.

Module 3 : La recherche

🎯 Learning Objectives

Développer une stratégie de recherche complète en utilisant les directives de la PRESS
Rechercher dans plusieurs bases de données, y compris des sources de littérature grise
Identifier les registres d'essais et les bases de données réglementaires (ClinicalTrials.gov, FDA)
Expliquez comment le cas de la rosiglitazone a révélé des dommages cardiovasculaires cachés
Appliquez le principe : « Qu'est-ce qui était caché à la vue de tous ?

$3.2B

Ventes annuelles au sommet

Avandia (rosiglitazone) était l'un des médicaments contre le diabète les plus vendus au monde.

Les essais publiés semblaient rassurants. Les inédits racontaient une histoire différente.

Les preuves publiées (avant 2007)

Les essais publiés ont montré que la rosiglitazone réduisait efficacement l'HbA1c. Les résultats cardiovasculaires ont été rarement signalés.

1999

FDA approval

6M+

Patients traités

~0.7%

Réduction de l'HbA1c

La mère porteuse avait l'air bien. Mais qu'en est-il des événements cardiovasculaires réels ?

Découverte de Nissan : mai 2007

Le Dr Steven Nissen a obtenu des données d'essais non publiées sur le site Web de GSK.

GSK avait été tenu par un accord juridique de publier en ligne les résultats des essais cliniques. Nissen et Wolski ont analysé 42 essais, dont beaucoup n'ont jamais été publiés dans des revues.

Les données étaient techniquement publiques.

Personne ne l'avait systématiquement recherché.

Les résultats de la méta-analyse

Résultat	Rapport de cotes	95% CI
Infarctus du myocarde	1.43	1.03 - 1.98
CV Death	1.64	0.98 - 2.74

43 % de risque accru de crise cardiaque

p = 0,03 pour l'infarctus du myocarde

Publié dans NEJM. La FDA a convoqué une réunion du comité consultatif d'urgence.

Le comité consultatif de la FDA : juillet 2007

22-1

Votés : le risque CV existe

20-3

Rester sur le marché avec des avertissements

Le comité était divisé. Certains voulaient le retirer. Certains ont qualifié la méta-analyse de défectueuse.

Mais le signal ne pouvait pas passer inaperçu.

Le Conséquences

1

Avertissement boîte noire ajouté pour le risque d'insuffisance cardiaque (2007)

2

Severe restrictions sur prescription aux États-Unis (2010)

3

Retiré à partir du marché européen entièrement (2010)

4

La FDA nécessite désormais essais sur les résultats cardiovasculaires pour tous les médicaments contre le diabète

Ce qu'exige une recherche complète

PUBLIÉ

PubMed, Embase, CENTRAL, Web de Science

GREY LITERATURE

Résumés de conférence, mémoires, documents réglementaires

TRIAL REGISTRIES

ClinicalTrials.gov, OMS ICTRP, EU CTR

RÉGLEMENTATION

Soumissions FDA, EMA, Santé Canada

ENTREPRISE DONNÉES

Registres d'essais cliniques GSK, Pfizer, Roche

HAND SEARCH

Listes de référence, auteurs de contact, experts

La check-list PRESSE

Examen par les pairs des stratégies de recherche électronique

1

Traduction de la recherche Question

La recherche reflète-t-elle les éléments PICO ?

2

Booléen et proximité Opérateurs

AND, OR, NOT sont-ils correctement utilisés ?

3

Subject Headings

Les termes MeSH/Emtree sont-ils appropriés et éclatés ?

4

Text Words

Synonymes, variantes orthographiques, troncature ?

Liste de contrôle de PRESSE (suite)

5

Orthographe, syntaxe, numéros de ligne

Y a-t-il des erreurs qui pourraient entraîner des échecs de récupération ?

6

Limites et filtres

Les limites de date, de langue et de conception de l’étude sont-elles appropriées ?

Une recherche évaluée par les pairs a 30 % plus de chances de trouver la clé études.

McGowan et al., 2016

Database Translation

La même recherche doit être adaptée pour chaque base de données :

PubMed

"diabète sucré de type 2"[MeSH] OU "type 2 diabète"[tiab]

Embase

'diabète sucré non insulino-dépendant'/exp OU 'diabète de type 2' :ti,ab

Les en-têtes de sujet, les balises de champ et les opérateurs diffèrent selon les bases de données.

Si Nissen avait seulement cherché PubMed,

le signal serait resté caché.

La recherche complète est la survie.

Qu'est-ce qui était caché à la vue de tous ?

Quiz du module 3

1. Quel type de source de preuves a révélé le signal cardiovasculaire de la rosiglitazone ?

A. Articles de revues publiés

B. Bibliothèque Cochrane

C. Registre des essais cliniques des entreprises

D. Documents d'approbation de la FDA

2. Que vaut PRESS pour ?

A. Examen des publications sur les normes de recherche de preuves

B. Examen par les pairs des stratégies de recherche électronique

C. Protocole de reporting des études de synthèse des preuves

D. Système de recherche de preuves de recherche primaires

Qu'est-ce qui était caché à la vue de tous ?

Module 4 : La projection

Le numéro sans provenance n'est pas un numéro.

Ceci est une histoire sur

ce qu'ils a choisi de signaler.

Module 4 : La projection

🎯 Learning Objectives

Appliquer le diagramme de flux PRISMA à documenter la sélection des études
Mettre en œuvre une sélection à double évaluateur en cas de conflit. résolution
Identifier les rapports sélectifs sur les résultats et la manipulation des données
Calculer la fiabilité inter-évaluateurs (kappa de Cohen)
Appliquer le principe : « Le numéro sans provenance n'est pas un numéro »

88,000

crise cardiaque attribuée au Vioxx

Un médicament à succès. Un signal caché. Une catastrophe évitable.

Entre 1999 et 2004, des millions de personnes ont pris cet analgésique. Certains ne sont jamais rentrés à la maison.

La montée du Vioxx

Le rofécoxib (Vioxx) était un AINS sélectif de la COX-2. Commercialisé comme étant plus sûr pour l’estomac que les analgésiques traditionnels.

1999

FDA approval

$2.5B

Pic des ventes annuelles

80M+

Patients prescrits

L'essai VIGOR (2000)

Recherche sur les résultats gastro-intestinaux du Vioxx

Conception

Randomized, double-blind

Comparaison

Vioxx ou Naproxène

Population

Rheumatoid arthritis

Échantillon

8 076 patients

Primary Outcome

GI events

Publié

NEJM, November 2000

Ce que VIGOR a publié

GI Outcome	Vioxx	Naproxène
Événements gastro-intestinaux confirmés	2.1 per 100 pt-yrs	4.5 per 100 pt-yrs
Réduction	54 % d'événements gastro-intestinaux en moins

Le titre : Le Vioxx est plus sûr pour votre estomac !

C'est ce qu'on a dit aux médecins. C’est ce que croyaient les patients.

Qu'est-ce que VIGOR a enterré

CV Outcome	Vioxx	Naproxène
Infarctus du myocarde	20 événements	4 événements
Risque relatif	5 fois plus élevées dans le groupe Vioxx

Une multiplication par 5 des crises cardiaques

Mentionné seulement brièvement, attribué au fait que le naproxène est « cardioprotecteur »

Les rapports sélectifs

1

Manipulation du seuil de données : 3 crises cardiaques supplémentaires se sont produites après le seuil utilisé dans la publication

2

Rotation: Le signal CV a été expliqué par le fait que le naproxène était cardioprotecteur (aucune preuve)

3

Outcome switching: Les événements CV étaient prédéfinis mais non soulignés

4

Internal knowledge: Les e-mails de Merck montrent qu'ils connaissaient le signal

L'essai APPROVe (2004)

Un essai pour la prévention des polypes colorectaux – arrêté tôt pour des raisons de sécurité.

RR 1.92

Événements CV par rapport au placebo

septembre 2004

Vioxx withdrawn

Quatre ans après que VIGOR ait montré un risque 5x. Quatre ans trop tard.

HISTOIRE : L’arbre décisionnel Vioxx

Avez-vous réfléchi à ce qui se passe lorsqu’un signal se cache dans le bruit ?

DONNÉES RÉELLES

Le Vioxx (rofécoxib) a été approuvé dans 1999. By 2004, estimates suggest 88 000 à 140 000 crises cardiaques excessives and 30 000 à 40 000 décès. L'essai VIGOR de Merck a montré 5x cardiovascular risk en 2000, mais elle a été rejetée comme un « naproxène cardioprotecteur effet."

La fourche sur la route

Vous êtes un examinateur de la FDA en 2001. Les données VIGOR montrent un risque de crise cardiaque multiplié par 5 avec le Vioxx par rapport au naproxène.

CHEMIN A : Accepter l'explication

Croyez l'hypothèse de Merck : le naproxène est cardioprotecteur

↓

Aucune étude de sécurité supplémentaire n'est requise. Le médicament reste sur le marché à toute vitesse.

RÉSULTAT : plus de 40 000 décès sur 4 ans

CHEMIN B : Exiger des preuves

Exiger un essai dédié sur la sécurité du CV avant de continuer marketing

↓

Retarder ou restreindre la commercialisation jusqu'à ce que la sécurité cardiovasculaire soit établie.

OUTCOME : signal détecté tôt, vies sauvées

LE REVELATION

Le signal était là en 2000. Une explication erronée a retardé l’action de 4 ans. Une hypothèse alternative – acceptée sans preuve – a coûté des dizaines de milliers de vies.

L'organigramme PRISMA

Chaque étape du dépistage doit être documentée et transparente.

Identification

Enregistrements issus de bases de données + autres sources

↓

Dépistage

Revue du titre/du résumé (doublons supprimés)

↓

Éligibilité

Évaluation en texte intégral (avec raisons d'exclusion)

↓

Compris

Etudes en synthèse

Double dépistage : pourquoi deux évaluateurs ?

1

Réduit le biais de sélection

Un évaluateur pourrait inconsciemment favoriser certains études

2

Catches Errors

La fatigue, les erreurs de lecture et les erreurs sont inévitables

3

Force des critères explicites

Les désaccords révèlent une ambiguïté dans les règles d'inclusion

Typical agreement: κ = 0.6-0.8

Désaccords résolus par discussion ou par un troisième évaluateur

Étalonnage : la phase pilote

Avant de filtrer des milliers de dossiers, les examinateurs doivent calibrer sur un échantillon de 50 à 100 dossiers.

1

Dépister le même ensemble de manière indépendante

2

Comparez les décisions et discutez des désaccords

3

Affiner les critères d'inclusion jusqu'à κ > 0,7

4

Documenter le processus d'étalonnage et tout changement de règle

PRISMA 2020 Updates

Nouveauté 2020

Rapport séparé des recherches dans la base de données et dans les registres

Nouveauté 2020

Les outils d'automatisation doivent être signalés

Nouveauté 2020

Recherche de citations documentées séparément

Nouveauté 2020

Motifs d'exclusion au texte intégral obligatoire

PRISMA 2020 était une révision substantielle de la déclaration originale de 2009, restructurant la liste de contrôle et ajoutant de nouvelles directives de reporting pour des éléments tels que les outils d'automatisation, la certitude des preuves, le protocole/l'enregistrement et la synthèse élargie. méthodes.

Si les données cardiovasculaires de Vioxx avaient été examinées par des évaluateurs indépendants,

si tous les résultats prédéfinis devaient être rapportés,

88 000 crises cardiaques auraient pu être évitées.

Le numéro sans provenance n'est pas un numéro.

Quiz module 4

1. Dans l'essai VIGOR, quel était le risque relatif d'IM dans le groupe Vioxx par rapport au naproxène ?

A. 1,5x supérieur

B. 2x plus élevé

C. 5x plus élevé

D. 10x plus élevé

2. Pourquoi la double sélection (deux évaluateurs indépendants) est-elle importante ?

A. Cela facilite le dépistage plus rapide

B. Il réduit les biais de sélection et détecte les erreurs

C. Cela réduit le nombre d'études à examiner

D. Il permet aux évaluateurs d'ignorer l'examen du texte intégral

Le numéro sans provenance n'est pas un numéro.

Module 5 : L'extraction

Le numéro sans provenance n'est pas un numéro.

Ceci est une histoire sur

nombres qui n'ont jamais existait.

Module 5 : L'extraction

🎯 Learning Objectives

Concevoir un formulaire d'extraction de données standardisé avec des champs de provenance
Calculez l'ampleur des effets à partir de diverses statistiques rapportées (OR, RR, HR, SMD)
Mettre en œuvre une double extraction avec résolution des écarts
Identifier les signaux d'alarme en cas de fabrication de données et de mauvaise conduite
Expliquez comment la fraude DECREASE a affecté les directives cliniques

~10,000

surmortalité possible en Europe

À partir de lignes directrices basées sur des données d'essais cliniques fabriquées.

Les essais DECREASE ont influencé les activités périopératoires soins dans le monde entier. Les données ont été inventées.

Don Poldermans : une star Chercheur

Professeur au centre médical Erasmus de Rotterdam. Auteur de plus de 500 articles. Auteur principal des lignes directrices de l'ESC sur les soins cardiaques périopératoires.

500+

Publications

DIMINUER

Séries d'essais I à VI

ESC

Guideline chair

Une source apparemment irréprochable. Jusqu'à ce que quelqu'un examine les données.

Les essais DECREASE : l'allégation

Procès	Trouver	Impact
DIMINUTION-I (1999)	Réduction de 90 % des décès	Changed guidelines
DIMINUTION-IV (2009)	Les bêtabloquants sont sûrs chez les patients à faible risque	Expanded recommendations

Les tailles d'effet étaient invraisemblables grand.

90% de réduction ? Presque rien en médecine ne fonctionne aussi bien.

L'enquête : 2011

1

Erasmus MC a enquêté suite à des plaintes de dénonciateurs

2

Données de patients fabriques : Patients qui n'existaient pas ou n'étaient pas inscrits

3

Aucun consentement éclairé : De nombreux « participants » n'ont jamais consenti

4

Poldermans dismissed: D'Erasmus MC en 2011

La cascade du mal

Lorsque DECREASE a été retiré des méta-analyses...

Benefit → Harm

Direction reversed

27% ↑

Augmentation du risque d'accident vasculaire cérébral

L'essai POISE (2008) avait montré des dommages. Il a été rejeté car il était en conflit avec DECREASE.

Pourquoi Cela n'a-t-il pas été détecté ?

1

Confiance en l'autorité : Poldermans était l'auteur des lignes directrices qui examinait ses propres preuves

2

Aucune vérification des données : Personne n'a demandé de données individuelles sur les patients

3

Publication prestige: Publié dans les meilleures revues, supposé valide

4

Effets invraisemblables acceptés : Des réductions de 90 % devraient éveiller les soupçons

Extraction de données : défense contre la fraude

1

Dual Extraction

Deux extracteurs indépendants : détectent les erreurs de transcription et forcent un examen minutieux

2

Record Provenance

Tableau, page, paragraphe - chaque numéro traçable à la source

3

Vérifier par rapport au registre

Résultats de ClinicalTrials.gov par rapport à la publication - les écarts sont rouges flags

4

Request IPD

Les données individuelles des patients révèlent ce que cachent les CV globaux

Calcul de la taille de l'effet

Lors de l'extraction, vous calculez les tailles d'effet à partir des données rapportées :

BINARY OUTCOMES

Rapport de cotes, risque Ratio, différence de risque par rapport aux tableaux 2x2

CONTINUOUS OUTCOMES

Différence moyenne, différence moyenne standardisée à partir des moyennes et des écarts-types

Toujours extraire à partir de la source la plus fiable.

Préférer : résultats ITT > par protocole > sous-groupes

Drapeaux rouges pendant l'extraction

!

Tailles d'effet invraisemblables : Des réductions de 80 à 90 % devraient inciter à un examen minutieux

!

Baseline imbalances: Les groupes qui sont "trop parfaitement" correspond

!

Round numbers: "Exactement 50" ou "exactement 100 " patients par bras

!

Registry discrepancies: Le N publié diffère du N enregistré

Chaque chiffre de votre méta-analyse

doit remonter à une source vérifiable.

Le numéro sans provenance n'est pas un numéro.

Les données frauduleuses peuvent tuer aussi sûrement que les médicaments frauduleux.

Chercheur

Conversions de tailles d'effet

Les études rapportent leurs résultats avec différentes métriques. Pour les combiner, des conversions sont souvent nécessaires :

De	Vers	Formule
SMD (d)	journal-OU	log-OR = d × π / √3
journal-OU	SMD (d)	d = log-OR × √3 / π
Corrélation (r)	Pêcheur Z	z = 0.5 × ln((1+r)/(1−r))
OR	RR	RR = OU / (1 − P₀ + P₀ × OU)
OR	NNT	NNT = 1 / (P₀ − OR×P₀ / (1−P₀+OR×P₀))

P₀ = risque de base dans le groupe contrôle. Ces formules supposent des conditions approximatives ; voir Borenstein et al. (Ch. 7) pour les dérivations exactes.

Chercheur

Données de type temps-jusqu'à-événement

De nombreux essais rapportent des résultats de type temps-jusqu'à-événement via des rapports de risques instantanés (HR). Le pooling des HR en méta-analyse nécessite un traitement spécial :

1

La méthode log(HR) + SE

Extraire le log(HR) et son erreur-type de l'essai. Si non rapportée, dériver l'ET à partir de l'IC : SE = (ln(borne sup) − ln(borne inf)) / (2 × 1.96). Combiner par la méthode de la variance inverse.

2

Quand le HR n'est pas rapporté

Des méthodes existent pour reconstruire les données individuelles à partir des courbes de Kaplan–Meier (Guyot et al. 2012) ou estimer le HR à partir des valeurs p et du nombre d'événements (Parmar et al. 1998). Toujours préférer le HR ajusté directement rapporté lorsque disponible.

HR < 1 favorise le traitement ; HR > 1 favorise le contrôle. Ne pas convertir les HR en OR ou RR — ils mesurent des quantités fondamentalement différentes.

Quiz module 5

1. Que s'est-il passé lorsque les données de l'essai DECREASE ont été supprimées des méta-analyses des bêtabloquants ?

A. Le bénéfice est devenu encore plus important

B. Aucun changement dans les conclusions

C. La direction s'est inversée pour montrer les dommages potentiels

D. Les résultats ne sont pas concluants

2. Pourquoi la double extraction devrait-elle être une pratique standard ?

A. Il détecte les erreurs de transcription et force un examen minutieux

B. Il rend l'extraction plus rapide

C. Cela permet de trouver plus d'études

D. Cela réduit le quantité de travail nécessaire

Le numéro sans provenance n'est pas un numéro.

Module 6 : Le biais

Les méthodes protègent les patients de notre confiance.

Ceci est une histoire sur

le biais que nous ne pouvons pas voir.

Module 6 : Le biais

🎯 Learning Objectives

Appliquer le risque de biais 2.0 (RoB 2) aux essais randomisés
Appliquer ROBINS-I aux études non randomisées
Évaluer les cinq domaines RoB 2 (randomisation, écarts, données manquantes, mesure, sélection)
Distinguer les effets confondants par indication des effets réels du traitement
Expliquez comment BART a révélé les méfaits cachés de l'aprotinine

20+

années sur le marché

L'aprotinine était l'étalon-or pour réduire les risques chirurgicaux saignement.

Puis quelqu'un a réalisé un ECR. La vérité était différente.

Le biais caché : confusion par indication

1

Les patients les plus malades ont reçu de l'aprotinine : Les chirurgiens l'ont utilisée dans des cas complexes et à haut risque

2

Survivors bias: Les patients décédés ne peuvent pas signaler de complications

3

Publication bias: Les études négatives n'ont pas été publié

Les études observationnelles n'ont pas pu séparer l'effet du médicament du risque de base du patient.

BART : la vérité randomisée

Conservation du sang à l'aide d'antifibrinolytiques dans un essai randomisé

Résultat	Aprotinine	Alternatives
30-day mortality	6.0%	3.9%
Risque relatif	1.53 (53% increased death)

Essai arrêté prématurément pour Dommages

Retiré du marché en novembre 2007

🔍

Enquête : Évaluez la Biais

Vous examinez les études observationnelles. Appliquer le risque de biais en pensant :

Question	Observation	BART (RCT)
Random allocation?	❌ Surgeon choice	✓ Yes
Baseline comparable?	❌ Un malade a reçu un médicament	✓ Équilibré
Aveuglant ?	❌ Open label	✓ Double aveugle

Confondant par indication : Les chirurgiens ont administré de l'aprotinine aux patients les plus malades. Les études observationnelles attribuaient la survie au médicament, lorsqu'elles mesuraient le biais de survie.

Risque de Biais 2.0 : Les cinq domaines

D1

Randomization Process

D2

Écarts par rapport aux interventions prévues

D3

Données de résultats manquantes

D4

Mesure du résultat

D5

Sélection du résultat rapporté

ROBINS-I : pour les études non randomisées

Lorsque les ECR ne sont pas disponibles, utilisez ROBINS-I (risque de biais dans les études non randomisées sur Interventions)

1

Confondant

Différences de base entre les groupes

2

Sélection des participants

Exclusions liées à l'intervention

3

Classification des interventions

Classification erronée du statut d'exposition

4

Écarts par rapport aux interventions prévues

Co-interventions, contamination

5

Manquant Données

Perte différentielle au suivi

6

Mesure des résultats

Ascertainment bias

7

Sélection du résultat rapporté

Selective reporting

Notes : faible/modéré/sérieux / Critique / Aucune information

Des études observationnelles suggèrent la sécurité.

L'ECR a révélé une augmentation de la mortalité de 53 %.

Only randomization can break confounding.

Quiz du module 6

1. Pourquoi les études observationnelles ont-elles négligé les effets nocifs de l'aprotinine ?

A. Taille de l'?chantillons too small

B. Confusion par indication

C. Résultat mesuré de manière incorrecte

D. Suivi trop court

Les méthodes protègent les patients de notre confiance.

Module 7 : La Synthèse

L'hétérogénéité est un message, pas un bruit.

La controverse sur le magnésium : 1991-1995

Lorsque la mise en commun nous égare.

Module 7 : La Synthèse

🎯 Learning Objectives

Calculez les tailles d'effet groupées à l'aide de modèles à effets fixes et à effets aléatoires
Choisissez entre DerSimonian-Laird et Les estimateurs HKSJ de manière appropriée
Interpréter les parcelles forestières, y compris les poids, les intervalles de confiance et diamants
Expliquez pourquoi les effets de petites études peuvent induire en erreur les méta-analyses
Appliquer le principe : "L'hétérogénéité est un message, pas un bruit"

L'année : 1991

"Vous vous trouvez à la croisée de l'espoir et des preuves..."

Les maladies cardiaques tuent plus de personnes dans le monde que toute autre cause. En 1991, un nouvel espoir émerge : pourrait-il quelque chose d'aussi simple et bon marché que intravenous magnesium sauver des vies après un infarctus du myocarde ?

Le raisonnement biologique était solide :

Le magnésium stabilise les membranes cardiaques, prévient les arythmies et vasodilate les artères coronaires.

LIMIT-2 : L'essai Landmark

Essai d'intervention sur le magnésium intraveineux de Leicester, 1992

2,316

Patients recrutés

24%

Mortality reduction

p = 0.04

Statistically significant

Une intervention peu coûteuse et sûre qui pourrait sauver 250 000 vies par an dans le monde.

La communauté médicale était électrisée.

La méta-analyse : 1993

Researchers pooled sept essais randomisés de magnésium IV dans l'IM :

Procès	Année	N	Rapport de cotes
Morton 1984	1984	40	0.10
Rasmussen 1986	1986	273	0.35
Forgeron 1986	1986	400	0.48
Abraham1987	1987	94	0.87
Shechter 1990	1990	103	0.27
Ceremuzynski 1989	1989	48	0.22
LIMITE-2	1992	2,316	0.74

🔍

Exercice d'enquête : le dilemme du méta-analyste

Vous êtes un évaluateur Cochrane en 1993. On vous a demandé de synthétiser les preuves sur le magnésium pour l'IM. Les données de sept essais se trouvent devant vous.

Voyez-vous la tendance dans ce graphique forestier ?

OR groupé = 0,44 (IC à 95 % : 0,27–0,71)

Réduction de la mortalité de 55 % ! Publier dans le Lancet ?

Mais attendez... remarquez-vous quelque chose à propos de la taille des essais ?

Les panneaux d'avertissement

Qu'est-ce qui aurait dû nous faire réfléchir ?

1

Petits échantillons : Six essais sur sept comptaient <500 patients

2

Extreme effects: Un OR de 0,10 (réduction de 90 %) est invraisemblable pour tout médicament

3

All positive: Où étaient les résultats négatifs ? des essais ? Le problème du tiroir de fichiers...

4

Funnel asymmetry: Les petits essais ont montré des effets beaucoup plus importants que les plus grands

🔍

Le test de tracé en entonnoir

Avant de mettre en commun, nous devons vérifier les biais de publication. Examinons le tracé en entonnoir.

Année : 1995 — Rapports ISIS-4

"Et puis est venue la vérité..."

The Quatrième étude internationale sur la survie à l'infarctus (ISIS-4) recruté 58 050 patients dans 1 086 hôpitaux dans 31 paie.

58,050

Patients

2,216

Décès dans le groupe Mg

2,103

Décès sous placebo

OR = 1,06 (IC à 95 % : 1,00–1,12)

Aucun avantage. Au contraire, il s'agit d'une tendance à la nocivité.

📊

Avant et après : le tableau complet

Regardez ce qui se passe lorsque nous ajoutons le méga-essai à notre parcelle forestière...

BEFORE ISIS-4

7 small trials (N = 3,274)

OR = 0.44

Signal de bénéfice fort

AFTER ISIS-4

8 essais (N = 61 324)

OR = 1.02

Aucun effet

Pourquoi les petits essais ont-ils induit en erreur ?

1

Biais de publication

Petits essais n'ont jamais été publiés - ils sont restés dans des tiroirs

2

Small-Study Effects

Les essais de plus petite envergure ont tendance à montrer des effets plus importants en raison de faiblesses méthodologiques

3

Biais aléatoire élevé

Par hasard, quelques petits essais ont eu lieu des résultats extrêmes — et ceux-ci sont publiés

4

Random-Effects Amplification

Les modèles à effets aléatoires accordent plus de poids aux petits essais, les amplifiant biais

Effets fixes ou aléatoires

Quel modèle devriez-vous choisir ?

MODÈLE À EFFET FIXE

Suppose un vrai effet. Pondère les études par variance inverse (précision). Les grands essais dominent.

Magnesium result: OR = 0.96 (p = 0.52)

MODÈLE À EFFETS ALÉATOIRES

Suppose distribution des effets. Donne plus de poids aux petits essais. Intervalles de confiance plus larges.

Magnesium result: OR = 0.59 (p = 0.01)

⚠️ Le choix du modèle a déterminé la conclusion !

Lorsqu'un biais de publication existe, des effets aléatoires peuvent le rendre pire.

Les leçons du magnésium

1. Vérifiez les biais de publication avant de se fier à une estimation groupée. Les tracés en entonnoir et le test d'Egger sont vos outils.

2. Méfiez-vous des effets des petites études. Si seuls de petits essais montrent un bénéfice, attendez un essai de grande envergure et bien mené.

3. Le choix du modèle est important. Les effets aléatoires peuvent amplifier les preuves biaisées. Considérez les deux modèles et comprenez les implications.

4. Un grand essai peut renverser de nombreux petits essais. C'est pourquoi les méga-essais comme ISIS-4 sont si précieux.

Quiz du module 7

1. Pourquoi la méta-analyse du magnésium a-t-elle montré un bénéfice qu'ISIS-4 n'a pas trouvé ?

A. La méthodologie ISIS-4 était imparfaite

B. Erreur de calcul dans la méta-analyse

C. Biais de publication dans les petits essais

D. LIMIT-2 était sous-alimenté

2. Quel signe d’avertissement aurait dû alerter les évaluateurs d’un biais potentiel ?

A. Graphique en entonnoir asymétrique (petits essais montrant des effets plus importants)

B. Low heterogeneity (I² = 0%)

C. Forte plausibilité biologique

D. Trop peu d'essais à analyser

3. Lorsqu'un biais de publication est suspecté, quel modèle peut amplifier le biais ?

A. Effet fixe modèle

B. Modèle à effets aléatoires

C. Bayesian model

D. Méta-analyse réseau

Chercheur

Designs d'études spéciaux en méta-analyse

Tous les ECR n'utilisent pas un design en groupes parallèles standard. Deux alternatives courantes nécessitent un traitement spécial lors du pooling des résultats :

1

Essais randomisés en grappes

Randomise des groupes (hôpitaux, écoles), pas des individus. L'effet de plan = 1 + (m−1) × ICC réduit la taille d'échantillon effective. Diviser N par l'effet de plan avant le pooling, ou utiliser l'ET ajustée de l'essai. Ignorer le clustering produit des IC artificiellement étroits.

2

Essais croisés (Crossover)

Chaque patient reçoit les deux traitements. Le design apparié réduit la variance, mais vous avez besoin de la corrélation intra-patient (ou l'ET de l'analyse appariée) pour combiner correctement. Utiliser l'ET du groupe parallèle est conservateur ; utiliser le mauvais N double-compte les patients.

Voir le Manuel Cochrane v6.4, Chapitre 23 pour les formules détaillées et exemples pratiques.

De petits essais peuvent montrer de faux signaux.

Des essais à grande échelle ancrent la vérité.

L'hétérogénéité est un message, pas un bruit.

Module 8 : L'hétérogénéité

L'hétérogénéité est un message, pas un bruit.

ACCORD : 2008

Quand la moyenne cache le vérité.

Module 8 : L'hétérogénéité

🎯 Learning Objectives

Calculez et interprétez I², τ² et les intervalles de prédiction
Appliquer les critères ICEMAN pour évaluer la crédibilité du sous-groupe
Distinguer l'hétérogénéité clinique, méthodologique et statistique
Réaliser et interpréter des analyses de sensibilité sans intervention
Expliquez comment ACCORD a révélé des effets différentiels entre les sous-groupes

L'année : 2008

"Vous êtes sur le point d'assister à l'une des terminaisons d'essais les plus choquantes de l'histoire..."

Pendant des décennies, la communauté du diabète avait un guide principe : une glycémie plus faible est préférable. Les études historiques DCCT (1993) et UKPDS (1998) ont montré qu'un contrôle intensif de la glycémie réduisait les complications microvasculaires : cécité, insuffisance rénale, lésions nerveuses.

L'extrapolation logique :

Si le contrôle de la glycémie prévient les complications, un contrôle intensif ne devrait-il pas également prévenir les maladies cardiovasculaires ?

ACCORD : Action pour contrôler le risque cardiovasculaire dans le diabète

Le test définitif de contrôle intensif de la glycémie

10,251

Type 2 diabetics

HbA1c <6%

Intensive target

HbA1c 7-7.9%

Standard target

Tous les patients souffraient de diabète de type 2 avec un risque cardiovasculaire élevé, qu'il s'agisse d'une maladie cardiovasculaire établie ou de plusieurs facteurs de risque. L'essai a été conçu pour une durée de 5,6 ans.

6 février 2008

Le comité de surveillance de la sécurité des données convoque une réunion d'urgence.

Après 3,5 ans, ils prennent une décision sans précédent :

ARRÊTEZ L'ESSAI.

Les résultats choquants

Résultat	Intensif	Standard	HR (95% CI)
Critère de jugement principal du CV	352 événements	371 événements	0.90 (0.78–1.04)
All-cause mortality	257 décès	203 décès	1.22 (1.01–1.46)
Severe hypoglycemia	10.5%	3.5%	3,0× supérieur

Augmentation de 22 % de mortalité

54 décès supplémentaires dans le bras intensif

🔍

Exercice d'enquête : le dilemme du clinicien

Vous êtes un endocrinologue auprès de 500 patients diabétiques. Les résultats ACCORD sont publiés. Que dites-vous à vos patients qui recherchent un taux d'HbA1c <6 % ?

Un contrôle intensif est-il nocif pour tout le monde ? Ou seulement pour certains ?

Analyse de sous-groupe révélée :

Sous-groupe	Intensive HR	Interprétation
Aucun MCV antérieur	1.00 (0.76–1.32)	Aucun effet
Prior CVD	1.45 (1.15–1.84)	Significant harm
HbA1c de base <8 %	1.02 (0.75–1.40)	Aucun effet
HbA1c de base ≥8%	1.29 (1.03–1.60)	Nuire

L'effet moyen masqué est critique hétérogénéité !

Pour les patients présentant une maladie cardiovasculaire établie ou un mauvais contrôle de base, le traitement intensif nocif était.

Comprendre l'hétérogénéité : I² et Au-delà

Lorsque des études (ou des sous-groupes) montrent des effets différents, nous devons quantifier cette variation.

I² = 0–25%: Faible hétérogénéité. Les effets sont cohérents dans toutes les études.

I² = 25–50%: Modéré. Recherchez les sources de variation.

I² = 50–75%: substantiel. Déterminez si la mise en commun est appropriée.

I² = 75–100%: Considérable. Une seule estimation groupée peut induire en erreur.

Mais I² à lui seul ne vous dit pas quoi faire : il indique que vous devez approfondir vos recherches.

Tau² (τ²) : la variance entre les études

Alors que I² vous indique la proportion de variance due à l'hétérogénéité, τ² vous indique l'ampleur.

I² (pourcentage)

"Quelle fraction de la variance totale est due aux véritables différences entre les études ?"

Echelle : 0% à 100%

τ² (absolute)

"Dans quelle mesure les effets réels varient-ils entre les études ?"

Même échelle que la mesure de l'effet

Utilisez τ² pour calculer prediction intervals

Un intervalle de prédiction montre la gamme d'effets auxquels vous vous attendez dans une nouvelle étude, souvent beaucoup plus large que l'intervalle de confiance.

📊

L'intervalle de prédiction : ce que ACCORD nous dit réellement

Envisagez une méta-analyse du contrôle intensif de la glycémie à travers plusieurs essais...

Confidence Interval

HR 1.10 (0.95–1.27)

"Notre meilleure estimation de l'effet moyen"

Intervalle de pr?diction

HR 1.10 (0.70–1.73)

"La gamme d'effets dans un nouveau décor"

L'intervalle de prédiction couvre à la fois les avantages et les inconvénients !

Dans certains contextes, un contrôle intensif peut être utile. Dans d'autres, cela pourrait tuer.

Quand un effet de sous-groupe est-il crédible ?

L'instrument ICEMAN (instrument d'évaluation de la crédibilité de la modification de l'effet Analyses)

1

L'analyse des sous-groupes a-t-elle été prédéfinie ?

Les sous-groupes post-hoc sont sujets au dragage des données

2

Existe-t-il une hypothèse biologique plausible justification ?

Le mécanisme doit être clair et indépendant des données

3

L'effet est-il cohérent entre les critères de jugement associés ?

Si un préjudice apparaît pour mortalité, y a-t-il des dommages similaires en cas d'IM et d'accident vasculaire cérébral ?

4

Y a-t-il une réplication indépendante ?

L'effet du sous-groupe a-t-il été confirmé dans d'autres études ?

ICEMAN appliqué à ACCORD

Critère	Évaluation	Score
Pré-spécifié ?	Oui : une maladie cardiovasculaire antérieure figurait dans le protocole	✓
Biological rationale?	Oui : l'hypoglycémie est plus dangereuse en cas de maladies cardiovasculaires	✓
Consistent outcomes?	Oui – Mortalité CV et mortalité toutes causes confondues alignées	✓
Independent replication?	Partiellement : ADVANCE et VADT ont montré des tendances similaires	~

Classement ICEMAN : haute crédibilité

Le préjudice différentiel chez les patients à haut risque semble réel.

Les implications cliniques

Pour les patients sans MCV : Un contrôle modéré de la glycémie (HbA1c ~ 7 %) reste l'objectif. Un contrôle intensif peut réduire les complications microvasculaires.

Pour les patients présentant une maladie cardiovasculaire établie : Évitez les cibles intensives. L'hypoglycémie est dangereuse pour les cœurs endommagés.

Pour les personnes âgées patients : Cibles détendues. La qualité de vie compte. Un contrôle strict provoque des chutes, de la confusion et une mortalité excessive.

Le traitement « taille unique » n'est pas une médecine centrée sur le patient.

Méta-régression : expliquer l'hétérogénéité

Lorsque l'hétérogénéité est élevée, la méta-régression peut identifier les covariables au niveau de l'étude qui expliquent la variation.

LA QUESTION

L'ampleur de l'effet varie-t-elle systématiquement avec les caractéristiques de l'étude ?

Covariables

Année, dose, durée, risque de base, qualité de l'étude

Sortir

Coefficient de régression (pente), R², hétérogénéité résiduelle

Prudence

La méta-régression nécessite ≥10 études par covariable. Avec peu d’études, elle est uniquement exploratoire. Erreur écologique : les associations au niveau de l'étude peuvent ne pas s'appliquer aux individus.

Exemple: Dans ACCORD, la méta-régression pourrait tester si l'effet du traitement varie en fonction de l'HbA1c de base, démontrant que les dommages sont concentrés chez les patients présentant des taux très élevés.

HISTOIRE : La révolution de la tension artérielle SPRINT

Quel numéro sauve des vies ? Qui décide ?

DONNÉES RÉELLES

Pendant des décennies, l'objectif était : traiter la tension artérielle à <140 mmHg systolic. Then came SPRINT (2015): 9 361 patients à haut risque randomisé selon des cibles intensives (<120) par rapport aux cibles standard (<140). Traitement intensif réduit Événements CV de 25 % and décès de 27%. L’essai s’est arrêté prématurément pour en bénéficier. Les directives ont changé dans le monde entier.

Avant SPRINT : le comité des lignes directrices

Vous fixez des lignes directrices en matière de tension artérielle en 2014. L'objectif est < 140 depuis des années. Devez-vous attendre de meilleures preuves ?

CHEMIN A : Maintenir le statu quo

Maintenir l'objectif < 140 (pratique établie, controverse minimale)

↓

Lignes directrices inchangées. Les médecins continuent de traiter jusqu'à <140.

OUTCOME : rater l'occasion de prévenir les décès

CHEMIN B : Financer l'essai définitif

Attendez les résultats SPRINT avant de mettre à jour les cibles

↓

SPRINT démontre ses avantages. Mettre à jour l'objectif à <120 pour les patients à haut risque.

RÉSULTAT : plus de 100 000 vies sauvées dans le monde

JNC 7 (2003): <140

Des années d'incertitude

SPRINT (2015) : <120 pour les patients à haut risque

LE REVELATION

« Norme de soins » n'est pas corrigée. Cela change lorsque les essais remettent en question les hypothèses. Pendant une décennie, les patients ont peut-être été sous-traités parce que personne n'a répondu à la question évidente.

Quiz module 8

1. Pourquoi l'essai ACCORD a-t-il été arrêté prématurément ?

A. Le contrôle intensif a montré un bénéfice cardiovasculaire évident

B. Le contrôle intensif a augmenté la mortalité

C. L'inscription a été trop lente

D. Budget exécuté sortie

2. Qu'est-ce qu'un intervalle de prédiction nous dit qu'un intervalle de confiance ne nous dit pas ?

A. Le véritable effet est estimé plus précisément

B. L'échantillon la taille est adéquate

C. La gamme d'effets auxquels nous nous attendrions dans une nouvelle étude

D. La formule mathématique utilisée

3. Selon ICEMAN, quel facteur est le PLUS important pour la crédibilité du sous-groupe ?

A. Pré-spécification du sous-groupe hypothèse

B. Grande taille d'échantillon dans le sous-groupe

C. Valeur p statistiquement significative

D. Plusieurs résultats montrant la même direction

Lorsque les études ne sont pas d'accord,

écouter le désaccord.

L'hétérogénéité est un message, pas un bruit.

L'absence de preuve n'est pas une preuve d'absence.

Module 9 : Les études cachées

L'absence de preuve n'est pas une preuve d'absence.

Réboxétine : 2010

Les 74 % qui n'ont jamais vu le jour.

Module 9 : Les études cachées

🎯 Learning Objectives

Interpréter les tracés en entonnoir pour la détection de l'asymétrie
Appliquer le test d'Egger et d'autres tests statistiques pour le biais de publication
Mettre en œuvre la méthode de découpage et de remplissage pour le biais ajustement
Évaluer de manière critique les limites des tests de biais de publication
Appliquer le principe : "L'absence de preuve n'est pas une preuve d'absence"

Année : 1997

"Un nouvel espoir pour les patients dépressifs qui ne peuvent pas tolérer les ISRS..."

La réboxétine (Edronax) était un nouvel antidépresseur, un inhibiteur sélectif de la recapture de la noradrénaline (NRI). Contrairement à l'ISRS, il ciblait un système de neurotransmetteurs différent. Pour les patients qui ne toléraient pas ou ne toléraient pas la fluoxétine ou la sertraline, il offre un nouveau mécanisme.

1997

EU approval

50+

Countries approved

Des millions

Prescriptions written

Les données probantes publiées

Ce que les médecins ont pu trouver dans les revues médicales :

Comparaison	Published Trials	Published Result
Réboxétine vs Placebo	3 essais (n=507)	Significativement meilleure (SMD = 0,56)
Réboxétine vs ISRS	4 essais (n=628)	Équivalent ou supérieur

La littérature publiée raconte une histoire claire :

La réboxétine fonctionne. Les patients en profitent. Prescrire en toute confiance.

Mais qu'en est-il des essais que vous ne pouviez pas voir ?

En 2010, des chercheurs allemands de l'IQWiG ont adressé une demande à l'Agence européenne des médicaments...

Ils ont demandé l'accès à all données des essais publiées et non publié.

Ce qu'ils ont trouvé a tout changé.

Le tableau complet

Eyding et coll., BMJ 2010

Comparaison	Published Only	TOUTES LES DONNÉES
Réboxétine vs Placebo	SMD 0.56 (benefit)	SMD 0,10 (aucun avantage)
Patients analysés	507 (14%)	2,731 (100%)
Réboxétine vs ISRS	Équivalent	Inférieur (RR 1,23 pour les dommages)
Patients analysés	628 (26%)	2,411 (100%)

74 % des données des patients n'ont jamais été publiées

Les essais cachés n'ont montré aucun bénéfice et davantage de dommages

🔍

Exercice d'enquête : le tiroir-classeur

Vous êtes un évaluateur systématique en 2008. Vous effectuez une recherche dans PubMed, Embase et la bibliothèque Cochrane pour tous les essais sur la réboxétine. Vous trouvez 7 essais publiés démontrant un bénéfice.

Pouvez-vous faire confiance à ces preuves ?

⚠️ L'entonnoir est considérablement réduit asymétrique !

Toutes les études publiées se regroupent d'un seul côté. Où sont les essais nuls et négatifs ?

La boîte à outils sur le biais de publication

1

Diagramme en entonnoir

Taille de l'effet de tracé par rapport à l'erreur standard. Un entonnoir symétrique ne suggère aucun biais ; l'asymétrie déclenche des alarmes.

2

Test de régression d'Egger

Régression de l'effet standardisé sur la précision. P <0,10 suggère des effets issus d'une petite étude.

3

Peters' Test

Pour les résultats binaires, régresse le journal OU sur l'inverse de la taille totale de l'échantillon. Moins sujet aux faux positifs.

4

Découper et remplir

Impute les études « manquantes » pour rendre l'entonnoir symétrique, puis recalcule l'effet poolé.

📊

Interactif : analyser le Trim-and-Fill

Appliquons le découpage et le remplissage aux données de reboxétine et voyons quelle serait l'estimation ajustée...

Published Only

7 essais

SMD = 0.56

Significant benefit

Découper et remplir

7 + 5 imputed = 12 trials

SMD = 0.23

Réduit, toujours nominalement significatif

Mais même le trim-and-fill a sous-estimé le problème !

Le véritable effet avec tous les données étaient SMD = 0,10 (essentiellement nulles).
Le découpage et le remplissage sont conservateurs, ce n'est pas le cas. entièrement correct pour une publication sélective.

La meilleure défense : registres d'essais

Les méthodes de détection des biais de publication sont imparfaites. La vraie solution est prospective registration.

ClinicalTrials.gov

US registry (2000)

WHO ICTRP

Global portal

PROSPÉRO

Vérifier l'inscription

Lors de la recherche d'essais, vérifiez toujours les registres. Comparez le nombre de enregistré essais au nombre publié. Cette lacune est votre signal d'alarme.

Depuis 2005, l'ICMJE exige l'enregistrement des essais comme condition de publication.

La campagne AllTrials

"Tous les essais enregistrés. Tous les résultats rapportés."

Le scandale de la réboxétine, ainsi que des cas similaires concernant d'autres médicaments, ont catalysé un mouvement mondial :

✓

2013 : Politique de données cliniques de l'EMA

L'Agence européenne des médicaments s'engage à publier des rapports d'études cliniques

✓

2016 : application de la FDA Amendments Act

Rapport obligatoire des résultats sur ClinicalTrials.gov dans les 12 mois

✓

AllTrials Coalition

Plus de 90 000 sympathisants, plus de 700 organisations exigeantes transparence

Les conséquences de la réboxétine

!

L'IQWiG allemand recommande de ne pas utiliser la réboxétine pour la dépression

!

Le NICE du Royaume-Uni l'a déclassé à "non recommandé"

!

La FDA avait rejeté la reboxétine en 2001 (ils avait accès à des données non publiées)

Pendant plus d'une décennie, les patients n'ont pas reçu un médicament meilleur qu'un placebo.

Car seuls les essais positifs ont été publiés.

Module 9 Quiz

1. Quel pourcentage des données des essais sur la réboxétine a été caché dans la littérature publiée ?

A. 25%

B. 50%

C. 74%

D. 90%

2. Pourquoi le découpage et le remplissage peuvent-ils sous-estimer la correction nécessaire ?

A. Il suppose que les effets sont normalement distribué

B. Il impute uniquement des études visant à obtenir une symétrie, ce qui peut ne pas refléter pleinement la réalité

C. Il nécessite au moins 20 études

D. Cela ne fonctionne qu'avec des études de très grande envergure

3. Quelle est la meilleure défense prospective contre le biais de publication ?

A. Entonnoir tracés dans toutes les méta-analyses

B. Test d'Egger avant regroupement

C. Enregistrement d'un essai prospectif

D. Plus médical journals

Ce que tu ne peux pas voir

peut être plus important que ce que vous pouvez.

L'absence de preuve n'est pas une preuve d'absence.

La certitude doit être gagnée et non assumée.

Module 10 : Le Certitude

La certitude doit être gagnée et non assumée.

Early Surfactant: 2012

Lorsque des données probantes de haute qualité évoluent.

Module 10 : Le Certitude

🎯 Learning Objectives

Appliquer le cadre complet GRADE pour évaluer la certitude des preuves
Évaluez les cinq facteurs de déclassement (RoB, incohérence, caractère indirect, imprécision, biais de publication)
Identifier quand effectuer une mise à niveau en cas d'effet important, de dose-réponse ou de confusion
Construire des tableaux de résumé des résultats avec des estimations d'effet absolu
Appliquer le principe : "La certitude doit être gagnée, pas supposé"

L'année : années 1990

"Une révolution dans les soins néonatals..."

Le syndrome de détresse respiratoire (SDR) était la principale cause de décès chez les nourrissons prématurés. Le développement de substances exogènes tensioactif, la substance qui empêche les alvéoles de s'effondrer, a été l'une des grandes avancées de la médecine néonatale.

La question est devenue : Quand devrions-nous administrer un surfactant ?

Prophylactiquement (pour tous les nourrissons à haut risque) ou sélectivement (uniquement après le développement du SDR) ?

La revue Cochrane originale (2003)

Plusieurs ECR menés avant l'ère de la CPAP de routine

Résultat	Prophylactique vs Sélectif	Certitude
Neonatal mortality	RR 0,73 (favorise la prophylaxie)	Haut
TPL ou décès	RR 0,84 (favorise prophylactique)	Haut

Recommandation : administrer du surfactant à titre prophylactique

Les lignes directrices du monde entier ont adopté ce approche

Mais le monde des soins néonatals était en train de changer...

Une nouvelle technologie a émergé : Pression positive continue des voies respiratoires (CPAP)

Soutien non invasif qui pourrait aider les poumons prématurés sans intubation.

Les anciennes preuves s'appliqueraient-elles toujours ?

La mise à jour Cochrane 2012

Nouveaux essais menés à l'ère CPAP

Résultat	Old Trials	New Trials
TPL ou décès	RR 0,84 (favorise prophylactique)	RR 1,12 (favorise la sélectivité)
Besoin d'une ventilation mécanique	Faible avec prophylaxie	Plus élevé avec prophylaxie !

Inversion compl?te

À l'ère de la CPAP, les surfactants prophylactiques causent plus de dommages

🔍

Enquête : pourquoi les preuves ont-elles évolué ?

Vous êtes néonatologiste. Un collègue demande : « Comment les essais randomisés peuvent-ils se contredire ? »

Les preuves originales étaient-elles erronées ?

1

Indirectness Changed

Anciens essais : aucune CPAP disponible. Nouveaux essais : norme de soins CPAP.

2

Le comparateur amélioré

Le surfactant sélectif + la CPAP sont meilleurs que l'intubation prophylactique.

3

Context Matters

Les preuves d'une époque peuvent ne pas s'appliquer à une autre.

C'est pourquoi GRADE évalue le caractère indirect !

Des preuves de haute qualité peuvent devenir inapplicables lorsque le contexte change.

Le cadre GRADE

Classement des recommandations, évaluation, développement et évaluations

GRADE répond à la question : Dans quelle mesure sommes-nous confiants dans cette estimation ?

⊕⊕⊕⊕ ÉLEVÉ : Très confiant. L'effet réel est proche de l'estimation.

⊕⊕⊕◯ MODÉRÉ : Modérément confiant. L'effet réel est probablement proche, mais peut différer considérablement.

⊕⊕◯◯ LOW: Confiance limitée. L'effet réel peut différer considérablement.

⊕◯◯◯ VERY LOW: Très peu de confiance. L'effet réel est probablement sensiblement différent.

GRADE : Facteurs qui dégradent la certitude

Les preuves ECR commencent à ÉLEVÉ. Il peut être rétrogradé en raison de :

1

Risque de biais

La randomisation défectueuse, le manque de mise en aveugle, le suivi incomplet, les rapports sélectifs

2

Incohérence

Hétérogénéité inexpliquée entre les études (grand I², sans chevauchement CI)

3

Indirectité

Différences dans la population, l'intervention, le comparateur ou les résultats de la question

4

Imprécision

Intervalles de confiance larges, petite taille d'échantillon, peu d'événements

GRADE : le cinquième facteur

5

Biais de publication

Tracé en entonnoir asymétrique, essais enregistrés manquants, influence du sponsor

Chaque facteur peut être déclassé d'un ou deux niveaux

Élevé → Modéré → Faible → Très faible

Exemple: Une méta-analyse d'ECR (début ÉLEVÉ) présentant un risque élevé de biais (↓1) et un caractère indirect grave (↓1) serait notée LOW.

📊

Interactif : appliquer GRADE au surfactant

Évaluons la certitude des preuves en faveur du surfactant prophylactique à l'aide d'essais anciens et nouveaux.

ANCIENS ESSAIS (Pré-CPAP)

Départ: HIGH (RCTs)

Risque de biais : Low (−0)

Incohérence : Aucun (−0)

Indirectité : Sérieux (−1)

Norme de soins différente aujourd'hui

Final: ⊕⊕⊕◯ MODÉRÉ

NOUVEAU ESSAIS (CPAP Era)

Départ: HIGH (RCTs)

Risque de biais : Low (−0)

Incohérence : Aucun (−0)

Indirectité : Aucun (−0)

Correspond à la pratique actuelle

Final: ⊕⊕⊕⊕ ÉLEVÉ

GRADE : facteurs qui améliorent la certitude

Les preuves d'observation commencent à FAIBLE. Il peut être mis à niveau pour :

+1

Grande ampleur de Effet

RR >2 ou <0,5 sans confusion plausible

+1

Dose-Response Gradient

Une exposition plus élevée = un effet plus important selon un schéma cohérent

+1

Residual Confounding

Tous les facteurs de confusion plausibles réduiraient l'effet (renforce l'inférence causale)

Communicating Certainty

GRADE nécessite un langage transparent sur la confiance :

HAUT: "Prophylactic surfactant réduit mortalité..."

MODÉRÉ: "Prophylactic surfactant probably reduces mortalité..."

LOW: "Prophylactic surfactant may reduce mortalité..."

VERY LOW: "Nous sommes uncertain whether le surfactant prophylactique réduit la mortalité..."

Ce langage garantit que les cliniciens comprennent la force des preuves.

HISTOIRE : Le paradoxe de l’oxygène chez les bébés prématurés

Une trop grande bouée de sauvetage peut-elle devenir une tueur ?

DONNÉES RÉELLES

1940s-50s: Des concentrations élevées d'oxygène ont sauvé les bébés prématurés de l'insuffisance respiratoire. Puis vint épidémie de cécité—fibroplasie rétrolentale (maintenant appelée ROP). Médecins réduction spectaculaire de l'oxygène. La cécité est tombée. Mais alors : augmentation des décès et des lésions cérébrales de l'hypoxie. Le niveau d'oxygène optimal requis décennies de essais à trouver. Les récents essais SUPPORT/BOOST II ont finalement défini la fenêtre thérapeutique : SpO2 91-95%.

Le Le dilemme du néonatologiste : 1955

Vous êtes néonatologiste. Les bébés prématurés sous haute oxygène deviennent aveugles. Que faites-vous ?

CHEMIN A : Dramatique Réduction

Réduire considérablement l'oxygène pour prévenir la cécité

↓

Les taux de cécité diminuent. Mais certains bébés meurent ou souffrent de lésions cérébrales dues à l'hypoxie.

RÉSULTAT : Échanger un préjudice contre un autre

PATH B : Étude systématique

Tirer soigneusement l'oxygène, étudier la relation dose-réponse

↓

Prend des décennies, mais finit par identifier la plage optimale.

RÉSULTAT : optimiser à la fois la survie et la vision

Années 1940 : un taux élevé d'O2 sauve des vies

1950s: Blindness epidemic

Années 1960-70 : décès dus à un faible taux d'O2

Années 2010 : SUPPORT/BOOST définit la plage optimale

LE REVELATION

Chaque intervention a une fenêtre thérapeutique. Le trouver nécessite des mesures, pas des hypothèses. Le pendule a basculé pendant 60 ans avant que les preuves ne définissent l'équilibre.

Module 10 Quiz

1. Pourquoi la recommandation sur les tensioactifs s'est-elle inversée entre 2003 et 2012 ?

A. Les essais initiaux étaient frauduleux

B. La CPAP a changé le comparateur (caractère indirect)

C. Pas assez de patients dans les essais initiaux

D. Le résultat a été mesuré différemment

2. Lequel des éléments suivants n'est PAS un facteur de déclassement de GRADE ?

A. Risque de biais

B. Imprécision

C. Publication bias

D. Grande ampleur de l'effet

3. Quel langage doit être utilisé pour les preuves de FAIBLE certitude ?

A. "L'intervention réduit..."

B. "L'intervention réduit probablement..."

C. "L'intervention peut réduire..."

D. "Nous ne savons pas si..."

Un nombre ne suffit pas.

Vous devez indiquer votre niveau de certitude.

La certitude doit être gagnée et non assumée.

Les méthodes protègent les patients de notre confiance.

Module 11 : La revue vivante

Les méthodes protègent les patients de notre confiance.

COVID-19 Hydroxychloroquine: 2020

Lorsque l'urgence est satisfaite preuves.

Module 11 : La revue vivante

🎯 Learning Objectives

Appliquer l'analyse séquentielle des essais pour déterminer quand les preuves sont suffisantes
Concevoir et maintenir une revue systématique vivante
Établir des déclencheurs de mise à jour et des limites de futilité/préjudice
Gérer la multiplicité et les dépenses alpha dans des analyses séquentielles
Expliquez avec quelle rapidité les preuves sont obtenues synthèse évoluée pendant la COVID-19

Mars 2020 : un monde en crise

"Le virus se propage plus rapidement que ce que nous comprenons..."

Le COVID-19 tuait des milliers de personnes. Les unités de soins intensifs débordaient. Il n’existait ni vaccin, ni traitement. Puis une lueur d'espoir : hydroxychloroquine (HCQ)- un ancien médicament contre le paludisme - a montré une activité antivirale dans des études en laboratoire.

20 mars

Etude Gautret (France)

36 pts

Non randomisé

Viral

Clearance improved

Le Rush to Adopt

À quelques semaines de l'étude Gautret :

!

28 mars : FDA délivre une autorisation d'utilisation d'urgence pour HCQ

!

4 avril : L’Inde interdit les exportations de HCQ (craintes de thésaurisation)

!

Mondial: Les pénuries concernent les patients atteints de lupus et de polyarthrite rhumatoïde

Des millions de personnes ont reçu du HCQ sur la base d'une étude observationnelle de 36 patients

Qu'est-ce qui pourrait mal se passer ?

🔍

Enquête : l'étude Gautret

Vous êtes un expert EBM chargé d'évaluer l'étude française HCQ. Examinez la conception...

Problème	Impact
Non randomisé	Biais de sélection : qui a obtenu HCQ ?
6 patients exclus	3 sont allés aux soins intensifs, 1 est décédé, 1 s'est retiré, 1 a été hospitalisé nausées
Surrogate outcome	Charge virale, pas de résultats cliniques
Contrôle de différents hôpitaux	Des soins différents, différents tests
No blinding	Biais d'attente dans les tests de laboratoire

Cette étude présenterait un risque de biais ÉLEVÉ sur RoB 2.0

Certitude de GRADE : TRÈS FAIBLE. Pourtant, cela a changé la politique mondiale.

Pourquoi les études observationnelles sur le COVID ont été induites en erreur

1

Immortel Time Biais

Les patients doivent survivre suffisamment longtemps pour recevoir un traitement. Les survivants sont comparés aux non-survivants.

2

Confondant par Indication

Les patients plus malades peuvent recevoir des traitements différents. Des patients en meilleure santé ont reçu l'HCQ plus tôt.

3

Effet utilisateur sain

Les patientes qui recherchent un traitement ont tendance à être globalement en meilleure santé.

4

Outcome Reporting

Les études avec des résultats positifs ont été publiées plus rapidement.

Juin 2020 : Le rapport des ECR

Des essais rigoureux et de grande envergure réalisés à une vitesse remarquable

Procès	N	Résultat
RECOVERY (UK)	4,716	Aucun bénéfice sur la mortalité (RR 1,09)
WHO SOLIDARITY	954	Aucun avantage (RR 1,19)
ORCHID (US)	479	Arrêté pour cause de futilité

L'HCQ n'a apporté aucun bénéfice et a peut-être causé préjudice

15 juin 2020 : la FDA révoque l'autorisation d'utilisation d'urgence

📊

Chronologie : données probantes observationnelles ou ECR

Mars-mai 2020

Observation : ~20 études

Suggest benefit

OR groupé ~0,65

Juin-Juillet 2020

ECR : RECOVERY, SOLIDARITY

Ne montre aucun avantage/préjudice

Pooled RR ~1.10

De « prometteur » à « inefficace » en 3 mois

C'est pourquoi nous avons besoin de randomisation et d'analyses vivantes pour suivre l'évolution preuves.

Examens systématiques vivants

Une nouvelle approche pour des preuves en évolution rapide :

1

Continuous Surveillance

Recherchez dans la littérature chaque semaine, voire quotidiennement, de nouvelles preuves

2

Méta-analyse cumulative

Mettre à jour les estimations regroupées à chaque nouvel essai

3

Analyse séquentielle des essais (TSA)

Déterminez quand suffisamment d'informations se sont accumulées pour conclure

4

Transparent Versioning

Suivez chaque changement, maintenez-le complet piste d'audit

Analyse séquentielle des essais (TSA)

Quand en avons-nous suffisamment appris ?

La TSA applique des limites d'arrêt à la méta-analyse, de la même manière qu'une analyse intermédiaire dans un seul essai. Cela explique le taille des informations requises (RIS) nécessaires pour détecter ou exclure un effet cliniquement significatif.

RIS

Taille d'échantillon requise

α-spending

Contrôles des erreurs de type I

Limites

Bénéfice/Méfait/ Futilité

Pour HCQ dans COVID, la TSA a montré que la limite de futilité avait été franchie en juin 2020.

Leçons de la saga HCQ

1. Les études observationnelles peuvent induire en erreur de façon spectaculaire lorsque les biais sont répandus. Même de nombreuses études allant dans la même direction peuvent être erronées.

2. Les ECR peuvent être menés rapidement lorsque la volonté existe. RECOVERY a recruté plus de 5 000 patients en quelques semaines.

3. Les examens vivants sont essentiels pour des sujets en évolution. Les évaluations à un moment donné deviennent instantanément obsolètes.

4. La pression politique ne change pas la biologie. Des méthodes rigoureuses protègent les patients même lorsqu'ils sont sous pression.

HISTOIRE : La révolution LEAP contre les allergies aux arachides

Et si la prévention EST la cause ?

DONNÉES RÉELLES

Pendant des décennies, des lignes directrices pédiatriques recommandé : éviter les cacahuètes pendant la petite enfance pour prévenir les allergies. Pendant ce temps, les taux d’allergie aux arachides triplé de 1997 à 2008. Puis est venu SAUT (2015): 640 nourrissons à haut risque randomisés pour une introduction précoce aux arachides plutôt qu'un évitement. Résultat : introduction précoce réduction de 81 % de l'allergie aux arachides (1,9 % contre 13,7 %). La stratégie de prévention était à l'origine de l'épidémie.

Le carrefour des allergologues : 2010

Vous êtes allergologue pédiatrique. Les allergies aux arachides sont en augmentation malgré les directives d’évitement. Remettez-vous en question le dogme ?

CHEMIN A : suivre les directives

Continuez à recommander d'éviter les arachides chez les nourrissons à haut risque

↓

Les lignes directrices sont « fondées sur des preuves ». Suivre le consensus en toute sécurité.

RESULTAT : Les allergies aux arachides continuent de Rise

CHEMIN B : Remettez en question le dogme

Concevez un essai pour tester si une introduction précoce peut être protectrice

↓

L'essai LEAP révèle la vérité. Les directives s'inversent dans le monde entier.

RESULTAT : Prévenir une épidémie

2000 : AAP recommande évitement

2008 : les taux d'allergies triplent

2015 : LEAP renverse les preuves

2017 : les lignes directrices passent à une introduction précoce

LE REVELATION

« D'abord, ne pas nuire » nécessite des preuves. Les hypothèses, même celles qui sont bien intentionnées, peuvent causer des dommages à grande échelle. Le système immunitaire avait besoin d'être exposé pour développer une tolérance ; l'évitement créait une sensibilisation.

Module 11 Quiz

1. Quel était le principal défaut de l’étude Gautret sur l’hydroxychloroquine ?

A. Trop peu de patients

B. No blinding

C. À l'exclusion des patients qui détérioré

D. Suivi trop court

2. Qu'est-ce que l'analyse séquentielle des essais aide à déterminer ?

A. Quelles études présentent un risque élevé de biais

B. Lorsque suffisamment de preuves se sont accumulées

C. Le degré de hétérogénéité

D. Quel traitement est le meilleur

3. Pourquoi les études observationnelles sur la COVID ont-elles montré un bénéfice de l'HCQ alors que les ECR ne l'ont pas fait ?

A. ECR recruté des patients plus malades

B. Les ECR ont utilisé différents résultats

C. Biais dans les études observationnelles

D. Les études observationnelles disposaient de meilleures données

La rapidité ne peut pas remplacer la rigueur.

Mais la rigueur peut être rapide.

Revues récentes équilibrer les deux.

Tous les signaux ne sont pas vrais.

Module 12 : Méthodes avancées

Tous les signaux ne sont pas vrais.

Méthodes avancées

Au-delà de la méta-analyse par paires.

Module 12 : Méthodes avancées

🎯 Learning Objectives

Interpréter la géométrie de la méta-analyse du réseau et les classements SUCRA
Appliquer des modèles bivariés pour une méta-analyse de l'exactitude des tests diagnostiques
Effectuez une méta-analyse dose-réponse avec des splines flexibles
Comprendre quand une méta-analyse des données individuelles des patients (IPD) est nécessaire
Reconnaître les hypothèses et les limites de chaque méthode avancée méthode

Quand deux par deux ne suffisent pas

"Parfois, la question est plus complexe que A contre B..."

Les méthodes que vous avez apprises constituent la base. Mais la réalité clinique exige souvent plus : Lequel des 10 antidépresseurs est le meilleur ? Quelle est la dose optimale de statine ? Ce test permet-il de diagnostiquer avec précision un cancer précoce ?

Ce module présente quatre méthodes avancées, chacune répondant à différentes questions complexes.

Méta-analyse de réseau (NMA)

Lorsque vous avez de nombreux traitements mais peu de face-à-face essais

NMA combines direct preuve (A vs B) avec preuves indirectes (A vs C, B vs C → déduit A vs B) pour comparer plusieurs traitements simultanément.

SUCRA

Ranking probabilities, not effect size

Cohérence

Direct = Indirect?

Réseaux

Visualisez les preuves

🔍

Exemple NMA : antidépresseurs

Le rapport historique Cipriani 2018 NMA comparé à 21 antidépresseurs utilisant 522 essais.

Le défi

21 médicaments, mais toutes les paires n'ont pas été testées en tête-à-tête

Beaucoup contre placebo, peu les uns contre les autres

La solution

La NMA "emprunte sa force" à travers réseau

Classe les 21 en termes d'efficacité et d'acceptabilité

Résultat : Amitriptyline, mirtazapine la plus efficace ; la fluoxétine et la vortioxétine sont les plus tolérables

Aucun médicament n'est « le meilleur » – cela dépend de ce qui compte pour le patient.

NMA : hypothèses critiques

1

Transitivité

Patients, résultats et modificateurs d'effet similaires dans les comparaisons

2

Cohérence

Preuves directes et indirectes concordantes (testables)

3

Connected Network

Tous les traitements liés par au moins un comparateur commun

Lorsque les hypothèses échouent, la NMA peut induire en erreur

Toujours évaluer la transitivité et tester l'incohérence.

Méta-analyse dose-réponse

Trouver l'optimal dose

Utilise le Méthode Groenland-Longnecker avec des splines cubiques restreintes pour modéliser des relations non linéaires entre la dose et l'effet.

1

Non-linear patterns

En forme de J (alcool et mortalité), en forme de U (vitamine D), seuil (aspirine)

2

Clinical relevance

Trouvez la dose avec le meilleur équilibre bénéfices-risques, pas seulement « plus c'est mieux »

Données individuelles des patients (IPD)

L'étalon-or pour le sous-groupe analyse

Au lieu de données récapitulatives publiées, obtenir données brutes au niveau du patient des essayistes. Permet des analyses précises de sous-groupes, une modélisation du temps jusqu'à l'événement et des définitions standardisées.

Une étape

Single mega-dataset

Deux étapes

Analyser, puis regrouper

80%+ needed

Pour une inférence valide

Le groupe collaboratif des premiers essais sur le cancer du sein a été le pionnier de l'IPD MA dans les années 1980.

Précision des tests de diagnostic (DTA)

Lorsque « l'intervention » est un test

DTA la méta-analyse synthétise sensibilité (taux de vrais positifs) et spécificité (taux vrai négatif) : deux résultats corrélés nécessitant une analyse bivariée modèles.

1

Modèle bivarié/HSROC

Comprend en compte la corrélation entre la sensibilité et la spécificité

2

SROC Curve

Courbe ROC récapitulative avec Régions de confiance et de prédiction à 95 %

3

QUADAS-2

Évaluation de la qualité des études sur l'exactitude du diagnostic

Choisir la bonne méthode

Question	Méthode
Does A beat B?	Pairwise MA
Lequel des plusieurs traitements sont les meilleurs ?	Réseau MA (NMA)
Quelle est la dose optimale ?	Dose-Response MA
Qui en profite le plus ? (sous-groupes)	IPD MA
Quelle est la précision de ce test ?	DTA MA
Comment l'effet évolue-t-il dans le temps ?	AMM de survie/délai jusqu'à l'événement

La méthode doit correspondre à la question. Ne forcez jamais une question dans la mauvaise méthode.

HISTOIRE : Les stéroïdes dans Sepsis Saga

Trois grands essais. Trois réponses différentes. Que pensez-vous ?

DONNÉES RÉELLES

CORTICUS (2008) : 499. Hydrocortisone en cas de choc septique. Aucune mortalité bénéfice. ADRENAL (2018) 3 658 patients. Hydrocortisone. Aucune mortalité bénéfice. APROCCHSS (2018) : 1 241 patients. Hydrocortisone + fludrocortisone. Mortality reduced (43 % contre 49,1 %, p = 0,03). Même classe d'intervention. Différents protocoles. Différents résultats.

Le défi du rédacteur de lignes directrices

Vous rédigez des directives sur la septicémie. Trois essais majeurs sont en désaccord. Que recommandez-vous ?

CHEMIN A : Moyenne simple

Regroupez les trois essais. Effet global incertain. Concluez « preuves peu claires ».

↓

Les directives indiquent que les stéroïdes sont facultatifs. Aucune recommandation forte.

RÉSULTAT : les cliniciens sont restés sans conseils clairs

CHEMIN B : Enquêter sur l'hétérogénéité

Analysez pourquoi l'APROCCHSS différait (fludrocortisone, durée plus longue, population différente)

↓

Identifiez que le protocole efficace diffère de ceux inefficaces.

RÉSULTAT : Recommander le protocole efficace spécifique

LE REVELATION

Les essais contradictoires ne sont pas des échecs. Ce sont des cartes indiquant où le traitement fonctionne et où il ne fonctionne pas. Les différences entre les essais (dose, durée, co-interventions, population) sont la clé de la compréhension.

Quiz du module 12

1. Quel est le principal avantage de la méta-analyse en réseau par rapport à la méta-analyse par paire ?

A. Ne nécessite pas d'extraction de données

B. Il compare les traitements non directement testés les uns contre les autres. autre

C. Cela élimine le besoin d'évaluation du risque de biais

D. Il produit de meilleures parcelles forestières

2. Pourquoi la méta-analyse DTA nécessite-t-elle des modèles bivariés ?

A. Pour gérer plus de deux études

B. Pour ajuster le biais de publication

C. La sensibilité et la spécificité sont corrélées

D. Pour générer des parcelles forestières

3. Qu'exige l'hypothèse de « cohérence » dans la NMA ?

A. Toutes les études doivent être de haute qualité

B. Les preuves directes et indirectes doivent d'accord

C. Les tailles d'échantillon doivent être similaires

D. Aucun manquant études

La méthode doit correspondre à la question.

Les méthodes avancées répondent aux questions avancées.

Mais les fondamentaux ne changent jamais.

Méthodologiste

L'écosystème des cours

Ce cours couvre l'ensemble du flux de travail de la revue systématique. Pour des approfondissements, explorez les cours compagnons :

Cours DTA
Bivarié/HSROC, courbes SROC, QUADAS-2

Risque de biais
RoB 2, ROBINS-I/E, évaluation par domaine

Certitude GRADE
Tableaux SoF complets, GRADE-CERQual

Méta-analyse IPD
Modèles à une/deux étapes, effets mixtes

Biais de publication
Copas, PET-PEESE, p-curve, modèles de sélection

Revues parapluie
AMSTAR 2, ROBIS, correction du chevauchement

Revues pronostiques
CHARMS, PROBAST, pooling du c-statistique

Revues vivantes + rapides
TSA, déclencheurs de mise à jour, méthodes abrégées

Module 12 terminé

« La méthode doit correspondre à la question. Les méthodes avancées répondent à des questions avancées — mais les fondamentaux ne changent jamais. »

Vous avez maîtrisé le flux de travail fondamental. Les dix prochains modules explorent la frontière : inférence bayésienne, méta-analyse en réseau, données individuelles de patients, modélisation dose–réponse, robustesse et fragilité, équité, synthèse assistée par IA, preuves qualitatives, méthodes multivariées et reproductibilité.

Tout signal n'est pas vérité.

Module 13 : Le Tournant Bayésien

Tout signal n'est pas vérité.

Module 13 : Le Tournant Bayésien

🎯 Objectifs d'apprentissage

Expliquer la différence entre l'inférence fréquentiste et bayésienne
Interpréter les distributions a priori, les vraisemblances et les distributions a posteriori
Distinguer les intervalles de crédibilité des intervalles de confiance
Comprendre quand la méta-analyse bayésienne offre des avantages
Reconnaître comment le choix de l'a priori affecte les conclusions

En 2005, un essai a commencé

qui ne se terminerait jamais vraiment.

L'essai STAMPEDE pour le cancer de la prostate a utilisé un design de plateforme multi-bras, multi-étapes (MAMS). Des bras pouvaient être ajoutés ou abandonnés au fur et à mesure que les preuves s'accumulaient. Bien que ses statistiques fussent fréquentistes, la philosophie adaptative incarnait l'esprit bayésien : mettre à jour les décisions au fil de l'accumulation des données.

La Vision Fréquentiste

En statistique fréquentiste, la probabilité signifie fréquence à long terme. Un IC à 95 % ne signifie PAS « 95 % de probabilité que le vrai effet soit à l'intérieur ». Cela signifie : si nous répétions l'étude à l'infini, 95 % des intervalles contiendraient la vérité.

valeur p

P(données | H₀), pas P(H₀ | données)

IC 95 %

Propriété de couverture, pas croyance

Fixe

Le vrai paramètre est fixe

La Vision Bayésienne

En statistique bayésienne, la probabilité représente le degré de croyance. On commence avec un a priori (ce que l'on croit avant les données), on met à jour avec la vraisemblance (ce que les données nous disent), et on obtient un a posteriori (croyance mise à jour).

1

A priori × Vraisemblance = A posteriori

Théorème de Bayes : P(θ|données) ∝ P(données|θ) × P(θ)

2

Intervalles de crédibilité

Un intervalle de crédibilité à 95 % signifie « 95 % de probabilité que le paramètre se trouve ici ». Directement interprétable.

Chercheur

Choisir les A Priori

1

Non informatif (vague)

Normal(0, 10000) ou uniforme. Laisse les données dominer. Reproduit les résultats fréquentistes.

2

Faiblement informatif

Normal(0, 1) pour le log-OR. Régularise les estimations extrêmes tout en restant flexible.

3

Informatif

Basé sur des preuves antérieures. Puissant mais controversé. Doit être pré-spécifié.

4

Half-Cauchy pour τ

Recommandé pour l'hétérogénéité. Half-Cauchy(0, 0.5) permet des τ grands mais concentre la masse près de zéro.

Chercheur

Échantillonnage MCMC

La plupart des modèles bayésiens ne peuvent pas être résolus analytiquement. On utilise les chaînes de Markov Monte Carlo (MCMC) pour tirer des échantillons de la distribution a posteriori. Outils : JAGS, Stan, brms (R), PyMC (Python).

Chaînes

Plusieurs chaînes indépendantes (typiquement 4)

R̂

Convergence : R̂ < 1.01 (strict ; anciens textes utilisent < 1.1)

ESS

Bulk-ESS > 400 pour les moyennes ; tail-ESS > 400 pour les IC

Méthodologiste

Pondération Bayésienne de Modèles

Au lieu de choisir entre modèles à effet fixe et à effets aléatoires, la pondération bayésienne de modèles (BMA) pondère chaque modèle par sa probabilité a posteriori. Cela prend en compte l'incertitude du modèle dans l'estimation finale.

BF

Facteurs de Bayes

BF₁₀ > 10 = preuve forte pour H₁. BF₁₀ < 1/10 = preuve forte pour H₀.

Interactif : Visualiseur de Postérieure

Ajustez la force de l'a priori pour voir comment elle affecte la postérieure. Observez comment plus de données submergent l'a priori.

Force de l'a priori : Vague

Moyenne a priori (log-OR) : 0.00

L'Histoire de STAMPEDE

STAMPEDE a été lancé en 2005 avec 5 bras de recherche comparant des traitements pour le cancer avancé de la prostate. En 2016, l'essai avait ajouté l'abiratérone et démontré une réduction de 37 % de la mortalité (HR 0.63, IC 95 % 0.52–0.76).

Le design de plateforme incarne la pensée adaptative bayésienne : les analyses intermédiaires guident la sélection des soutiens-gorge, de nouveaux bras peuvent entrer au fur et à mesure que des traitements émergent, et les bras futiles sont abandonnés tôt—épargnant aux patients des thérapies inefficaces.

STAMPEDE a recruté plus de 10 000 patients dans plus de 100 centres et a fondamentalement transformé la prise en charge du cancer de la prostate. L'état d'esprit bayésien a permis aux preuves de s'accumuler et d'éclairer les décisions en temps réel.

Arbre de Décision : Quand Passer au Bayésien ?

Méta-analyse fréquentiste vs bayésienne

Choisir le bayésien quand : (1) vous disposez d'informations a priori genuines, (2) vous avez besoin d'énoncés probabilistes (« 80 % de chance que l'effet > 0 »), (3) peu d'études rendent les propriétés fréquentistes peu fiables, ou (4) vous souhaitez faire de la pondération de modèles.

Bayésien avec a priori faiblement informatif

Meilleur choix par défaut pour la plupart des méta-analyses bayésiennes. Régularise sans dominer.

Bayésien avec a priori informatif

Uniquement quand les preuves antérieures sont solides et pré-spécifiées. Analyse de sensibilité obligatoire.

Rester fréquentiste

Plus simple, bien compris. Préféré quand k est grand et qu'il n'y a pas d'information a priori.

Vous souvenez-vous du Module 1 ?

CAST à Travers le Prisme Bayésien

Si une analyse bayésienne de CAST avait utilisé un a priori informatif basé sur la science fondamentale (les antiarythmiques suppriment les ESV), la postérieure aurait quand même fortement basculé vers le danger. Avec suffisamment de données, même un a priori fort cède devant la vraisemblance. La leçon : les méthodes bayésiennes ne protègent pas contre les mauvais a priori—mais elles rendent les hypothèses transparentes.

Quiz du Module 13

Q1. Que signifie un intervalle de crédibilité bayésien à 95 % ?

A. 95 % des expériences répétées produiraient des intervalles contenant la vraie valeur

B. Il y a 95 % de probabilité que le vrai paramètre se trouve dans cet intervalle

C. L'intervalle a 95 % de chances d'être correct

D. 95 % des données futures tomberont dans cet intervalle

Q2. Quel est l'a priori recommandé pour l'hétérogénéité inter-études (τ) ?

A. Uniforme (0, 100)

B. Normale(0, 1)

C. Demi-Cauchy (0, 0,5)

D. Fixé à 0.5

Module 13 Terminé

« Le tournant bayésien n'est pas une question de mathématiques. C'est une question d'honnêteté—rendre nos hypothèses visibles. »

Tout signal n'est pas vérité.

Module 14 : Le Réseau

Les méthodes protègent les patients de notre assurance.

Module 14 : Le Réseau

🎯 Objectifs d'apprentissage

Expliquer pourquoi les comparaisons par paires sont insuffisantes quand de nombreux traitements existent
Interpréter la géométrie du réseau (nœuds, arêtes, épaisseur)
Comprendre la transitivité, la cohérence et le rôle des preuves indirectes
Interpréter les classements SUCRA et les tableaux de ligue
Reconnaître quand les hypothèses de la NMA sont violées

Un clinicien fait face à un patient

dépressif. Quel médicament ?

Il existe 21 antidépresseurs couramment prescrits. La plupart des essais comparatifs ne comparent que 2 ou 3 molécules. Cipriani et coll. (2018, Lancet) ont connecté 522 essais et 116 477 patients dans un seul réseau.

La Logique de la Méta-Analyse en Réseau

1

Preuve directe

Les essais comparant directement A vs B donnent l'estimation la plus fiable.

2

Preuve indirecte

Si A vs C et B vs C existent, on peut inférer A vs B. C'est l'hypothèse de « transitivité ».

3

Preuve mixte

La NMA combine les deux, pondérées par la précision, pour classer tous les traitements simultanément.

Interactif : Graphe de Réseau

Chaque nœud est un traitement. L'épaisseur des arêtes représente le nombre d'études comparant ces deux traitements.

Chercheur

Transitivité & Cohérence

Transitivité : L'estimation indirecte (via un comparateur commun) devrait approximer l'estimation directe. Cela exige que les modificateurs d'effet soient distribués de manière similaire entre les comparaisons.

Cohérence : Test statistique comparant les preuves directes et indirectes. Les tests globaux (interaction design-traitement) et locaux (node-splitting) aident à identifier les boucles d'incohérence.

Chercheur

SUCRA & P-scores

SUCRA

Surface Under Cumulative Ranking. 100 % = toujours le meilleur, 0 % = toujours le pire.

Score P

Analogue fréquentiste. Degré moyen de certitude qu'un traitement est supérieur à un autre.

Attention : Le classement est séduisant mais trompeur quand les différences entre traitements sont faibles ou incertaines. Toujours rapporter les intervalles de crédibilité/confiance avec les rangs.

Méthodologiste

NMA par Composantes

Quand les interventions sont complexes (ex. comportementale + pharmacologique), la NMA par composantes décompose les traitements multi-composantes pour estimer la contribution individuelle de chaque composante. Utilise des modèles additifs : effet(A+B) = effet(A) + effet(B) + interaction.

Le Réseau de Cipriani

L'analyse du Lancet de 2018 a montré que les 21 antidépresseurs étaient tous plus efficaces que le placebo. L'amitriptyline, la mirtazapine et la venlafaxine étaient les mieux classées pour l'efficacité. L'agomélatine, la fluoxétine et l'escitalopram étaient les mieux classées pour l'acceptabilité (moins d'abandons).

Aucun médicament n'a « gagné » sur tous les critères. Le réseau a révélé des compromis invisibles à l'analyse par paires.

Arbre de Décision : La NMA Est-elle Appropriée ?

Vérification de faisabilité de la NMA

Vous avez 15 ECR comparant 6 statines différentes. Certaines paires ont des preuves directes, d'autres non.

Vérifier la transitivité, puis ajuster la NMA

Vérifier que les populations et les designs d'étude sont suffisamment similaires entre les comparaisons.

Ignorer les preuves indirectes

Perte de puissance statistique et lacunes dans la base de preuves.

Tout regrouper en une comparaison par paires

Viole la structure des preuves. Les statines sont des médicaments différents.

Quiz du Module 14

Q1. Quelle hypothèse doit être vérifiée pour que les preuves indirectes soient valides en NMA ?

A. Transitivité — les modificateurs d'effet sont équilibrés entre les comparaisons

B. Homogénéité — I² doit être inférieur à 25 %

C. Toutes les études doivent avoir des tailles d'échantillon similaires

D. Toutes les études doivent être en double aveugle

Module 14 Terminé

« Le réseau voit ce que les comparaisons par paires ne peuvent pas : le paysage complet des choix thérapeutiques. »

Tout signal n'est pas vérité.

Module 15 : L'Individu

Qu'est-ce qui était caché en pleine vue ?

Module 15 : L'Individu

🎯 Objectifs d'apprentissage

Expliquer pourquoi les données agrégées peuvent masquer les interactions traitement–covariable
Distinguer les modèles IPD en une étape et en deux étapes
Reconnaître le biais écologique dans la méta-analyse agrégée
Comprendre les défis pratiques de la collecte de DPI
Interpréter les graphiques d'interaction traitement–covariable

Pendant des décennies, les essais sur le cancer du sein

publiaient des curriculum vitae. Pas des patients.

L'Early Breast Cancer Trialists' Collaborative Group (EBCTCG) a collecté les dossiers individuels de plus de 100 000 femmes à travers des centaines d'essais. Leurs méta-analyses sur DPI ont montré que les bénéfices du tamoxifène dépendent fortement du statut des récepteurs aux œstrogènes—quelque chose d'invisible dans les données agrégées.

Ce Que les Résumés Cachaient

Chaque essai publié sur le tamoxifène rapportait un résultat global. À travers des centaines d'études, le tamoxifène semblait offrir un bénéfice modeste. Mais ce « bénéfice modeste » était une moyenne qui dissimulait une vérité profonde.

La Division Cachée en Sous-groupes

RR 0.59

Sous-groupe ER-positif : réduction de 41 % des récidives

RR 0.97

Sous-groupe ER-négatif : essentiellement aucun bénéfice

L'effet combiné global—mélangeant patientes réceptives et non réceptives—était une fiction statistique. Une moyenne « modeste » qui surestimait le bénéfice pour un groupe et impliquait un bénéfice inexistant pour l'autre.

Données Agrégées vs Données Individuelles de Patients

DA

Agrégées : effet publié + IC uniquement

DPI

Individuelles : données brutes au niveau du patient

Les DPI permettent : (1) des définitions correspondantes des critères de jugement, (2) des analyses en sous-groupes par caractéristiques des patients, (3) la modélisation du délai avant événement, (4) la vérification du biais écologique. C'est le gold standard pour explorer la modification de l'effet du traitement.

Chercheur

DPI en Une Étape vs Deux Étapes

1

Deux étapes

Analyser chaque étude séparément, puis combiner les estimations (comme la MA standard). Simple mais perte d'information.

2

Une étape

Ajuster un seul modèle mixte à toutes les données patients simultanément. Plus puissant pour les interactions et les événements rares.

Clé : Les deux doivent tenir compte du regroupement par étude. Ne jamais regrouper les DPI comme s'il s'agissait d'un méga-essai—cela introduit un facteur de confusion (paradoxe de Simpson).

Méthodologiste

Biais Écologique

Une méta-régression utilisant l'âge moyen au niveau de l'étude pourrait montrer que les patients plus étendus bénéficieraient davantage. Mais cela pourrait être un biais écologique—l'association au niveau de l'étude ne reflète pas la vérité au niveau du patient. Seules les DPI peuvent séparer les effets intra-étude des effets inter-études.

Quand le Tout Ment Sur Ses Parties

Le paradoxe de Simpson : une tendance qui apparaît dans les données agrégées s'inverse lorsque les données sont regroupées par une variable de confusion.

Le Paradoxe en Pratique

Une analyse de type méga-essai a trouvé le Traitement X bénéfique globalement. Mais au sein de chaque étude, il était nocif. Comment ? Les différences de risque de base entre études créaient une illusion—les populations plus malades recevaient davantage de traitement, gonflant le bénéfice agrégé.

Cates (2002, BMJ) a montré que combiner les études sans tenir compte du regroupement peut inverser la direction apparente de l'effet.

C'est pourquoi les modèles DPI à une étape incluent l'étude comme variable de regroupement—pour empêcher la confusion inter-études de se faire passer pour un effet du traitement.

L'Héritage de l'EBCTCG

Les méta-analyses sur DPI de l'EBCTCG ont défini le traitement du cancer du sein pendant 40 ans. Leur analyse de 2005 du tamoxifène versus pas de traitement a montré un bénéfice clair dans les tumeurs ER-positives (RR 0.59) mais aucun bénéfice dans les tumeurs ER-négatives (RR 0.97).

Sans les DPI, l'effet global agrégé aurait été poolé entre les deux groupes— diluant le bénéfice et privant potentiellement les patientes ER-positives de l'ampleur de leur gain.

Arbre de Décision : Quand les DPI Valent-elles la Peine ?

Soupçonnez-vous des interactions traitement–covariable ?

Oui →

Pouvez-vous obtenir les DPI de >80 % des essais ?

Oui → Méta-analyse DPI à une étape avec termes d'interaction

Non → Approche à deux étapes : demander les DPI disponibles + agrégées pour le reste

Non →

Le biais écologique est-il une préoccupation ?

Oui → DPI préférées même sans interactions

Non → La méta-analyse de données agrégées peut suffire

L'EBCTCG a collecté des données de centaines d'essais sur 40 ans. La plupart des méta-analyses sur DPI portent sur 5–20 essais. La décision dépend de la question, pas de l'ambition.

Méthodologiste

Le Schéma Se Répète

Souvenez-vous du Module 3 ? Le THS semblait bénéfique dans les études observationnelles mais nocif dans les ECR. Le même masquage par l'agrégation se produisait : le bénéfice global cachait un préjudice dans certains sous-groupes.

L'analyse sur DPI de la Women’s Health Initiative a ensuite montré que le moment importait—les femmes commençant le THS dans les 10 ans suivant la ménopause avaient des résultats différents de celles commençant plus tard. L'« hypothèse du timing » était invisible dans les résumés agrégés publiés.

La leçon se répète : les données agrégées peuvent masquer des interactions traitement–covariable critiques. Que ce soit le statut ER dans le cancer du sein ou le timing dans le THS, les données individuelles révèlent ce que les résumés dissimulent.

Quiz du Module 15

Q1. Quel est le principal avantage des DPI par rapport à la méta-analyse sur données agrégées ?

A. Elles incluent toujours plus d'études

B. C'est moins cher et plus rapide

C. Elles permettent d'explorer les interactions traitement–covariable sans biais écologique

D. Elles éliminent le besoin de modèles à effets aléatoires

Module 15 Terminé

« Derrière chaque estimation poolée se trouvent des individus dont les histoires ne peuvent être racontées par l'agrégat. »

L'hétérogénéité est un message, pas du bruit.

Module 16 : La Dose

L'hétérogénéité est un message, pas du bruit.

Module 16 : La Dose

🎯 Objectifs d'apprentissage

Expliquer pourquoi les simples comparaisons par paires ne capturent pas les relations dose–réponse
Distinguer les modèles dose–réponse linéaires, quadratiques et par splines
Interpréter les splines cubiques restreintes avec nœuds
Identifier les effets de seuil et les courbes en J/U
Comprendre la comparaison de modèles avec AIC/BIC

Pendant des décennies, la consommation modérée d'alcool

semblait protéger le cœur.

La « courbe en J » montrait que les non-buveurs avaient une mortalité cardiovasculaire plus élevée que les buveurs modérés. Mais Stockwell et al. (2016) ont démontré que la courbe en J était un artefact dû à la classification erronée d'anciens buveurs (ayant arrêté pour cause de maladie) comme « abstinents ».

Un Consensus Scientifique Bâti sur du Sable

En 2010, plus de 100 études observationnelles avaient confirmé la courbe en J. Les manuels médicaux l'enseignaient. Les cardiologues la citaient. Les lobbyistes de l'industrie vinicole finançaient des conférences autour d'elle.

100+

Études observationnelles confirmant la courbe en J

15–25 %

Mortalité cardiovasculaire inférieure chez les buveurs modérés vs abstinents

Les preuves semblaient accablantes. Mais que se passait-il si le groupe de comparaison—les « abstinents »—était contaminé ?

Le Malade Qui Arrête

Un Facteur de Confusion Caché

Le Problème

Les personnes qui arrêtent de boire le font souvent parce qu'elles sont déjà malades—maladie hépatique, interactions médicamenteuses, diagnostic de cancer. Ces « anciens buveurs » étaient classés comme « abstinents » dans la plupart des études.

L'effet : Le groupe de référence (abstinents) semblait moins en bonne santé—non pas parce que l'abstinence était nocive, mais parce que des personnes malades l'avaient rejoint.

Quand Stockwell et al. (2016, J Stud Alcool Drogues) ont exclu les anciens buveurs et appliqué les corrections de qualité d'étude adéquates : la courbe en J a disparu. L'effet protecteur était un fantôme.

Méta-Analyse Dose–Réponse

La méta-analyse standard demande : « Le traitement X fonctionne-t-il ? » La méta-analyse dose–réponse demande : « À quelle dose le traitement X fonctionne-t-il le mieux ? » Elle modélise la relation entre le niveau de dose et le critère de jugement à travers plusieurs études.

Linéaire

Le plus simple : log(RR) = β × dose

Spline

Flexible : polynômes par morceaux avec nœuds

Fractionnaire

Polynomial : dose^p1 + dose^p2

Chercheur

Splines Cubiques Restreintes

Les RCS placent des nœuds à des points de dose pré-spécifiés et ajustent des polynômes lisses entre eux. Typiquement 3–5 nœuds aux quantiles de la distribution des doses. Linéaire au-delà des nœuds aux bornes. Les tests de non-linéarité comparent le modèle par spline à un modèle linéaire plus simple.

AIC

Comparaison de modèles

AIC/BIC comparent l'ajustement linéaire vs par spline. Plus bas = meilleur. Tester aussi l'écart à la linéarité (p-value pour les termes de spline).

Interactif : Constructeur Dose–Réponse

Comparez les ajustements linéaire, quadratique et par spline. Observez comment la forme du modèle change selon les hypothèses.

La Courbe en J de l'Alcool Démystifiée

La ré-analyse de Stockwell en 2016 a montré que lorsque les anciens buveurs étaient correctement exclus du groupe de référence « abstinents », l'effet protecteur de la consommation modérée disparaissait. La courbe en J était due au biais du « malade qui arrête ».

La méta-analyse dose–réponse a révélé la vérité : la forme de la courbe dépend de manière critique de la façon dont on définit la « dose zéro ». La mauvaise catégorie de référence a créé un bénéfice fantôme.

Quand les Courbes Façonnent les Politiques

La courbe en J fantôme a influencé les recommandations sur l'alcool dans le monde entier :

UK

Recommandations du NHS (jusqu'en 2016)

« La consommation modérée peut protéger le cœur » figurait dans les recommandations officielles. Après la correction de Stockwell, le Royaume-Uni a révisé ses limites à 14 unités/semaine pour tous les buveurs (auparavant 21 pour les hommes). Aucune quantité n'a été déclarée « sûre ».

US

Comité Consultatif des Dietary Guidelines

Les études sur la courbe en J ont été citées jusqu'en 2015. Le comité de 2020 a recommandé de réduire les limites à 1 verre/jour pour les hommes, reconnaissant le biais du groupe de référence.

AU

Recommandations Australiennes

Les limites de consommation sûre ont été retardées par la recherche financée par l'industrie promouvant une consommation modérée « cardioprotectrice ».

Arbre de Décision : L'Analyse Dose–Réponse Est-elle Appropriée ?

Avez-vous ≥3 niveaux d'exposition (pas seulement exposé vs non exposé) ?

Oui →

La relation est-elle plausiblement non linéaire ?

Oui → Splines cubiques restreintes (3–5 nœuds). Comparer AIC avec le modèle linéaire.

Non → La méta-régression dose–réponse linéaire peut suffire

Non →

Méta-analyse par paires standard (pas d'analyse dose–réponse possible avec seulement deux niveaux)

Attention : Vérifiez toujours—votre catégorie de référence est-elle propre ? La leçon de la courbe en J : un groupe de référence contaminé crée une non-linéarité fantôme.

Quiz du Module 16

Q1. Qu'est-ce qui rend les splines cubiques restreintes utiles en méta-analyse dose–réponse ?

A. Elles produisent toujours une ligne droite

B. Elles capturent de manière flexible les courbes dose–réponse non linéaires

C. Elles réduisent le nombre d'études nécessaires

D. Elles simplifient le modèle en réduisant les paramètres

Module 16 Terminé

« La dose fait le poison. Et la forme de la courbe révèle si le poison est réel. »

L'absence de preuve n'est pas la preuve de l'absence.

Module 17 : La Fragilité

L'absence de preuve n'est pas la preuve de l'absence.

Module 17 : La Fragilité

🎯 Objectifs d'apprentissage

Calculer et interpréter l'indice de fragilité
Utiliser les graphiques GOSH pour identifier les études influentes et les effets de sous-groupes
Interpréter les funnel plots à contours améliorés
Appliquer les modèles de sélection de Copas et PET-PEESE pour le biais de publication
Comprendre comment les analyses de sensibilité renforcent les conclusions méta-analytiques

Les gouvernements ont stocké des milliards

sur la base de preuves qu'ils ne pouvaient pas voir.

Après le H1N1, les gouvernements ont dépensé des milliards pour constituer des stocks d'oseltamivir (Tamiflu). L'équipe Cochrane (Jefferson et al. 2014) a lutté pendant des années pour accéder aux données non publiées. Quand ils y sont finalement parvenus, les preuves de prévention des complications se sont évaporées.

L'Indice de Fragilité

L'indice de fragilité demande : « Combien de patients devraient changer de résultat pour faire basculer un résultat statistiquement significatif en non significatif ? » Il ajoute itérativement des événements (convertit des non-événements en événements) dans le groupe avec le moins d'événements jusqu'à ce que p > 0.05.

IF = 1

Extrêmement fragile. Le changement d'un seul patient modifie la conclusion.

IF > 8

Raisonnablement robuste. Moins sensible aux résultats individuels.

Interactif : Calculateur de Fragilité

Entrez un tableau 2×2 pour calculer l'indice de fragilité. Observez les événements se déplacer jusqu'à ce que la significativité bascule.

Événements

Nombre total

Traitement

Contrôle

Chercheur

Graphiques GOSH

Aperçu graphique de l'étude Hétérogénéité (GOSH) ajuste des modèles de méta-analyse à tous les sous-ensembles possibles d'études. Chaque point représente l'effet poolé vs I² pour un sous-ensemble. Les clusters suggèrent des sous-groupes distincts ; les nuages aberrants suggèrent qu'une étude conduit l'hétérogénéité.

Pour k études, il y a 2^k−1 sous-ensembles. Pour k > 15, un échantillonnage aléatoire est utilisé.

Chercheur

Diagramme en entonnoirs à Contours Améliorés

Les funnel plots standard montrent la taille d'effet vs l'erreur standard. Les versions à contours améliorés ajoutent des zones ombrées pour p < 0.01, p < 0.05 et p < 0.10. Si les études manquantes se situent dans les zones non significatives, un biais de publication est probable. Si elles se situent dans les zones significatives, d'autres causes (ex. qualité des études) peuvent expliquer l'asymétrie.

Méthodologiste

Sélection de Copas & PET-PEESE

1

Modèle de sélection de Copas

Modélise la probabilité de publication d'une étude en fonction de son erreur standard et de sa taille d'effet. Estime conjointement le vrai effet et le mécanisme de sélection.

2

ANIMAUX DE COMPAGNIE

Test d'effet par la précision (PET) : régresse les effets sur l'ES. Si l'ordonnée à l'origine = 0, pas de vrai effet. PEESE utilise ES² pour de meilleures performances quand un vrai effet existe.

La Saga de l'Oseltamivir

La méta-analyse originale financée par Roche (Kaiser 2003) montrait que l'oseltamivir réduisait les complications grippales de 67 %. Mais 8 des 10 essais n'avaient jamais été publiés. Après que Cochrane a obtenu les rapports d'étude clinique, le bénéfice pour les complications est tombé à 11 %, non significatif.

La fragilité n'était pas seulement statistique—elle était informationnelle. La base de preuves elle-même manquait la plupart des données.

Arbre de Décision : Interpréter Vos Résultats de Fragilité

Vous avez calculé l'Indice de Fragilité. Que signifie le nombre ?

IF ≤ 3

Très fragile. Une poignée d'événements différents inverserait la conclusion. À interpréter avec une extrême prudence.

IF 4–8

Modérément fragile. Sensible à de petites perturbations. Y a-t-il des essais non publiés qui pourraient faire basculer le résultat ?

IF > 8

Relativement robuste. Mais n'oubliez pas : la fragilité n'est qu'une dimension. Le biais de publication peut saper même des résultats robustes.

Walsh et coll. (2014, J Clin Epidemiol) ont trouvé que dans 399 ECR publiés dans des revues prestigieuses, l'indice de fragilité médian n'était que de 8. Plus de 25 % avaient un IF ≤ 3. Des essais majeurs influençant la pratique clinique ne tenaient souvent qu'à un fil statistique.

Méthodologiste

Au-delà de l'Indice : La Fragilité Structurelle

La saga de l'oseltamivir a révélé trois types de fragilité—et l'Indice de Fragilité ne capture que le premier.

1

Fragilité Statistique (IF)

Combien d'événements font basculer la p-value ? C'est ce que mesure l'Indice de Fragilité. Il quantifie la sensibilité aux résultats de patients individuels.

2

Fragilité Informationnelle

Quelle proportion des preuves est cachée ? Huit des dix essais de Roche sur l'oseltamivir n'étaient pas publiés. La base de preuves était structurellement incomplète.

3

Fragilité Analytique

Combien de degrés de liberté du chercheur pourraient changer la conclusion ? Définitions différentes des critères de jugement, populations d'analyse ou méthodes statistiques.

Rappel du Module 10 (la paroxétine) : La ré-analyse avec des définitions de critères de jugement différentes a complètement inversé la conclusion. C'était de la fragilité analytique—l'IF n'a jamais été calculé car le critère de jugement lui-même était contesté. Une évaluation complète de la robustesse examine les trois dimensions.

Quiz du Module 17

Q1. Un essai comporte 200 patients par bras, 12 événements dans le traitement, 25 dans le contrôle (p=0,03). L'indice de fragilité est 3. Qu'est-ce que cela signifie ?

A. La taille d'effet est exactement 3

B. Changer seulement 3 résultats de patients feraient basculer le résultat en non significatif

C. Le résultat est très robuste avec 3 études de confirmation

D. Au moins 3 patients sont nécessaires pour l'étude

Module 17 Terminé

« Le nombre qui survit à chaque tentative de le briser est le nombre digne de confiance. »

Tout signal n'est pas vérité.

Module 18 : L'Équité

La certitude doit être méritée, pas présumée.

Module 18 : L'Équité

🎯 Objectifs d'apprentissage

Identifier comment les critères d'exclusion des essais créent des lacunes dans les preuves
Appliquer le cadre PROGRESS-Plus pour évaluer l'équité dans les preuves
Utiliser les directives de rapport PRISMA-Equity
Comprendre la transportabilité : quand les résultats d'essais échouent en pratique
Concevoir des stratégies de recherche et de synthèse sensibles à l'équité

SPRINT a prouvé qu'un contrôle strict de la pression artérielle

sauve des vies. Mais les vies de qui ?

L'essai phare SPRINT excluait les patients diabétiques, ceux ayant eu un AVC antérieur et ceux en insuffisance cardiaque. Plus de 75 % des patients hypertendus américains n'auraient pas été éligibles. Les preuves étaient solides mais l'applicabilité était restreinte.

L'Essai Qui Excluait la Majorité de Ses Patients

SPRINT a inclus 9 361 patients et a prouvé que le contrôle intensif de la pression artérielle (cible <120 mmHg) réduisait les événements cardiaques de 25 % (HR 0,75, IC 95 % 0,64–0,89). Mais les critères d'inclusion racontaient une autre histoire.

Qui était exclu :

Diabète — 35 % des adultes américains hypertendus
AVC antérieur — 8 % de la population hypertendue
Insuffisance cardiaque symptomatique — 6 % des adultes hypertendus
Survie attendue <3 ans — les patients les plus fragiles
Résidents en maison de retraite — exclus entièrement
DFG <20 mL/min — insuffisance rénale avancée

Résultat : Plus de 75 % des adultes américains hypertendus n'auraient PAS été éligibles. Les preuves étaient solides. Mais pour qui ?

D'Où Viennent les Preuves

78 %

des participants aux méga-essais cardiovasculaires provenaient de pays à revenu élevé (2000–2020).

6 %

d'Afrique subsaharienne — là où les maladies cardiovasculaires progressent le plus rapidement.

Essais polypill : 4 sur 5 ont été menés dans des populations avec un IMC moyen <25. L'IMC moyen aux États-Unis est de 30. Le métabolisme, les profils de comorbidités, l'accès aux soins et la variation génétique diffèrent selon les populations. L'efficacité dans une population ne garantit pas l'efficacité dans une autre.

Référence : Essais multinationaux et le fossé PROGRESS-Plus

Le Cadre PROGRESS-Plus

P

Lieu de résidence

R

Race / ethnicité

O

Profession

G

Genre / sexe

R

Religion

E

Éducation

S

SSE (statut socio-économique)

S

Capital social

Plus : Âge, handicap, orientation sexuelle, autres groupes vulnérables.

Chercheur

PRISMA-Equity & Transportabilité

PRISMA-Actions étend PRISMA en exigeant le rapport de la manière dont l'équité a été prise en compte dans la revue : caractéristiques des populations, analyses en sous-groupes par désavantage, et évaluation de l'applicabilité aux populations défavorisées.

Transportabilité : L'efficacité en essai ne correspond pas à l'efficacité en conditions réelles. Des méthodes existent pour repondérer les données d'essai afin de correspondre à la distribution de la population cible.

Diapositive C : La Question de la Transportabilité

Chercheur

De l'Essai au Monde Réel : La Transportabilité

Transportabilité = Les résultats de la population X de l'essai peuvent-ils s'appliquer à la population cible Y ? Ce n'est pas une question philosophique—il existe des méthodes formelles.

1

Pondération Inverse par la Probabilité de Participation (IPPW)

Repondère les participants de l'essai pour qu'ils ressemblent à la population cible sur les covariables clés.

2

Indice de Généralisabilité

Quantifie la similarité entre l'échantillon de l'essai et la population cible sur les caractéristiques observées.

Stuart et coll. (2015, Stat Med) : Lorsque les résultats de SPRINT ont été repondérés pour correspondre à la population américaine hypertendue, le bénéfice estimé était atténué — HR 0,82 (vs 0,75 dans l'essai). Le traitement fonctionne toujours. Mais l'ampleur change quand la population change.

SPRINT et la Majorité Manquante

SPRINT un essai était bien conçu de 9 361 patients. Son résultat (HR 0.75 pour le contrôle intensif vs standard de la PA) a changé les recommandations mondiales. Mais des analyses ultérieures ont montré que le bénéfice était le plus fort dans le sous-groupe le plus similaire à la population de l'essai—et incertain pour les groupes exclus.

L'équité dans la synthèse des preuves signifie demander non seulement « Est-ce que ça marche ? » mais « Pour qui est-ce que ça marche ? »

Arbre de Décision : Évaluation de l'Équité de Votre Revue

RACINE : Les preuves de votre revue proviennent-elles de populations similaires à votre cible ?

OUI → Bien. Mais vérifiez : Les sous-groupes (âge, sexe, ethnicité, SSE) sont-ils rapportés séparément ?

Oui : Utilisez les effets par sous-groupe pour des recommandations spécifiques à la population
Non : Signalez comme limitation — lacune d'équité dans le rapport

NON → L'analyse PROGRESS-Plus révèle-t-elle des effets différentiels ?

Oui : Des recommandations spécifiques à la population sont nécessaires. Envisagez une repondération de transportabilité.
Non : Généralisation prudente avec déclaration explicite d'équité dans la discussion

Méthodologiste

Le Rappel : La Leçon du THS

Souvenez-vous du Module 3 ? L'histoire du THS montrait que le biais de l'utilisateur en bonne santé rendait un traitement nocif apparemment bénéfique. SPRINT peut avoir le problème inverse — l'effet « volontaire en bonne santé » peut rendre un traitement efficace plus efficace qu'il ne le serait dans le monde réel.

Chaque méta-analyse devrait demander : Qui était inclus ? Qui était exclu ? Et est-ce que cela compte ?

Quiz du Module 18

Q1. Qu'est-ce que le cadre PROGRESS-Plus aide les réviseurs à évaluer ?

A. L'hétérogénéité statistique

B. L'équité et l'applicabilité aux populations défavorisées

C. La validité interne des études incluses

D. La certitude globale des preuves

Module 18 Terminé

« Les preuves qui excluent les vulnérables ne peuvent prétendre les servir. »

Tout signal n'est pas vérité.

Module 19 : La Machine

Le nombre sans provenance n'est pas un nombre.

Module 19 : La Machine

🎯 Objectifs d'apprentissage

Décrire comment l'IA/ML est utilisée dans le criblage des revues systématiques
Expliquer l'apprentissage actif et les flux de travail avec l'humain dans la boucle
Évaluer la validation de l'automatisation : rappel, économies de charge de travail et risques
Reconnaître les limites et biais du criblage algorithmique
Appliquer des cadres pour l'utilisation responsable de l'IA dans la synthèse des preuves

Quand la COVID-19 a frappé,

les articles arrivaient plus vite que les humains ne pouvaient lire.

En 2021, plus de 300 000 articles sur la COVID existaient. Cochrane a utilisé des classifieurs d'apprentissage automatique pour trier les études pour leurs revues rapides—réduisant la charge de criblage jusqu'à 70 % tout en maintenant un rappel >95 %.

Le Déluge

En avril 2020, 4 000 prépublications COVID apparaissaient chaque semaine.

PubMed indexait 500 nouveaux articles COVID par jour.

La file d'attente de criblage de Cochrane atteignait 10 000 titres non examinés.

🔍 Les Mathématiques de l'Impossible

Une paire de réviseurs examine environ 200 titres par jour.

À 500 nouveaux articles/jour, ils prenaient du retard à chaque heure.

La revue vivante mourait avant de pouvoir vivre.

Les Premières Tentatives

L'idée n'était pas nouvelle. Cohen et al. (2006, JAMIA) ont montré pour la première fois que l'apprentissage automatique pouvait réduire la charge de criblage de 50 %—avec moins de 5 % de perte de rappel.

📅

2006 : Cohen et al. — Classifieurs SVM pour les revues de classes médicamenteuses. Preuve de concept.

📅

2016 : RobotReviewer (Marshall et al., JMLR) — ML pour l'évaluation du risque de biais. Fiabilité inter-évaluateurs comparable aux réviseurs humains.

📅

2021 : ASReview (van de Schoot et al., Nature Machine Intelligence) — Apprentissage actif simulant une réduction de 95 % de la charge de travail.

Mais la simulation n'est pas la réalité. La COVID allait être le premier vrai test à grande échelle.

L'IA dans les Revues Systématiques

1

Priorisation du criblage

L'apprentissage actif classe les références par pertinence. Les réviseurs examinent d'abord les plus probablement pertinentes.

2

Aide à l'extraction de données

Le TAL extrait les éléments PICO, les critères de jugement et les résultats. Nécessite toujours une vérification humaine.

3

Évaluation du risque de biais

Les classifieurs ML prédisent les domaines RoB. Expérimental—le jugement humain reste le gold standard.

Chercheur

Valider l'Automatisation

Rappel

>95 % requis. Manquer 1 étude peut changer les conclusions.

WSS@95%

Travail économisé par rapport à l'échantillonnage à 95 % de rappel.

Arrêt

Quand arrêter le criblage ? Seuil de références non pertinentes consécutives.

La tension fondamentale : L'automatisation fait gagner du temps mais introduit une nouvelle source d'erreur. Toujours rapporter l'outil, la version, les données d'entraînement et les critères d'arrêt.

🔍 Le Paradoxe de la Validation

Pour savoir si la machine a manqué une étude pertinente, il faut qu'un humain examine tout.

Mais si les humains examinent tout, pourquoi utiliser la machine ?

La solution : la validation prospective sur échantillon réservé.

Échantillon aléatoire de 10 % examiné par l'humain et la machine
Comparer : la machine a-t-elle manqué ce que l'humain a trouvé ?
Si le rappel tombe sous 95 %, réentraîner et élargir le criblage humain

Faire confiance, mais vérifier. La machine gagne son rôle—elle n'en hérite pas.

La Réponse COVID de Cochrane

Cochrane a construit le Registre d'Études COVID-19 en utilisant des classifieurs d'apprentissage automatique entraînés sur des millions de références. Le système a atteint 99 % de sensibilité tout en réduisant le criblage manuel de semaines à jours.

Mais la machine était un outil, pas un remplacement. Chaque étude incluse était encore vérifiée par des réviseurs humains. La leçon : l'IA augmente le réviseur, elle ne le remplace pas.

L'Étude Qui a Failli Ne Pas Être Trouvée

En juin 2020, l'essai RECOVERY a publié ses résultats sur la dexaméthasone—le premier traitement prouvé pour réduire la mortalité COVID (mortalité à 28 jours : 22,9 % vs 25,7 %, RR 0,83).

La prépublication est apparue sur medRxiv avec un titre non standard. Des scénarios comme celui-ci se sont répétés tout au long de la pandémie : les classifieurs ML, entraînés sur la terminologie existante, classaient bas les formulations inhabituelles.

Dans plusieurs revues vivantes, des réviseurs humains examinant les titres signalés ont reconnu les noms de médicaments clés et ont escaladé des études que les classifieurs avaient dépriorisées.

Sans ces humains, des découvertes thérapeutiques majeures auraient pu attendre des semaines avant d'entrer dans la revue vivante.

La machine lit plus vite. L'humain lit plus profondément. Ni l'un ni l'autre ne suffit seul.

Arbre de Décision : Quand Utiliser l'IA ?

Votre revue va cribler plus de 5 000 titres ?

Oui → Envisager le criblage assisté par IA

Priorisation par apprentissage actif. Double criblage sur 10 % réservé aléatoire. Arrêt quand 3 lots consécutifs donnent 0 étude pertinente.

Rapporter : type de classifieur, données d'entraînement, rappel sur l'échantillon réservé, règle d'arrêt.

Non → Le criblage manuel est faisable

Pour <5 000 titres, le double criblage humain reste le gold standard. L'IA ajoute de la complexité sans bénéfice proportionnel.

Est-ce une revue vivante ou rapide ?

Si oui → L'IA est particulièrement précieuse. Réentraînement continu du classifieur sur les nouvelles preuves. Mais : ne laissez jamais la machine prendre la décision finale d'inclusion.

Méthodologiste

Le Schéma Se Répète

Souvenez-vous du Module 6 ? Poldermans a fabriqué les données DECREASE qui ont guidé les recommandations sur les bêta-bloquants périopératoires pendant une décennie.

L'IA peut désormais détecter automatiquement les anomalies statistiques :

Test GRIM : Les moyennes rapportées sont-elles cohérentes avec des tailles d'échantillon entières ?
SPRITE : Les statistiques résumées rapportées peuvent-elles être reconstruites à partir de données individuelles plausibles ?
Statcheck : Les p-values rapportées correspondent-elles aux statistiques de test ?

Ces outils ont trouvé des anomalies dans des centaines d'articles publiés—plus rapidement que tout auditeur humain.

Mais la machine signale. L'humain juge. La décision de rétracter reste profondément humaine.

Quiz du Module 19

Q1. Quel est le rappel minimum acceptable pour le criblage assisté par IA dans les revues systématiques ?

A. 80 %

B. 90 %

C. >95 %

D. 100 %

Module 19 Terminé

« La machine lit plus vite. L'humain lit plus profondément. Ensemble, ils lisent la vérité. »

Tout signal n'est pas vérité.

Module 20 : Le Qualitatif

Les méthodes protègent les patients de notre assurance.

Module 20 : Le Qualitatif

🎯 Objectifs d'apprentissage

Expliquer pourquoi certaines questions nécessitent une synthèse de preuves qualitatives
Décrire la méta-ethnographie (Noblit & Hare) et la synthèse thématique
Appliquer le cadre CERQual pour évaluer la confiance dans les résultats qualitatifs
Comprendre les approches de synthèse à méthodes mixtes
Reconnaître quand les preuves qualitatives changent la pratique

L'OMS a posé une question

à laquelle aucun ECR ne pouvait répondre.

Pourquoi les femmes du monde entier subissent-elles irrespect et maltraitance pendant l'accouchement ? Bohren et al. (2015) ont synthétisé 65 études qualitatives de 34 pays en un cadre de sept domaines de maltraitance.

Une Question Au-delà de la Randomisation

En 2014, l'OMS a convoqué un panel pour faire face à une crise mondiale : des femmes étaient physiquement maltraitées, verbalement humiliées et privées de soins pendant l'accouchement. Ce n'était pas un événement rare — des rapports provenaient de 34 pays.

Ils devaient comprendre POURQUOI. Qu'est-ce qui motive l'irrespect et la maltraitance dans les soins de maternité ?

Aucun ECR ne pouvait y répondre. On ne peut pas randomiser les femmes vers des soins abusifs versus respectueux. On ne peut pas mettre les accompagnantes en aveugle. On ne peut pas mesurer la « dignité » sur une échelle de Likert. Les preuves devaient être qualitatives.

Méta-Ethnographie

Développée par Noblit & Hare (1988), la méta-ethnographie traduit des concepts entre études plutôt que d'agréger des nombres. Elle produit de nouveaux cadres interprétatifs (construits de troisième ordre) à partir de données de premier ordre (citations des participants) et de deuxième ordre (interprétations des auteurs).

Réciproque

Les études se confirment mutuellement

Réfutationnelle

Les études se contredisent

Ligne
d'argument

Les études construisent une nouvelle théorie

Ce Que Bohren a Trouvé : Une Taxonomie de la Maltraitance

1. Violence physique

Frapper, pincer, gifler pendant le travail

2. Violence sexuelle

Touchers inappropriés, procédures non consenties

3. Violence verbale

Cris, menaces, commentaires dégradants

4. Stigmatisation & discrimination

Basées sur le statut VIH, l'origine ethnique, l'âge, la pauvreté

5. Non-respect des normes professionnelles

Négligence, absence de consentement éclairé

6. Mauvaise relation soignant-soigné

Communication déficiente, mépris

7. Conditions du système de santé

Surpeuplement, sous-effectif, manque de fournitures

65 études. 34 pays. Les mêmes schémas se répétaient à travers les langues, les cultures et les systèmes de santé. Ce n'était pas de l'anecdote. C'était des preuves synthétisées.

Chercheur

CERQual : Confiance dans les Preuves Qualitatives

CERQual évalue la confiance dans les résultats de revues qualitatives à travers quatre composantes :

1

Limites méthodologiques

Qualité des études contributrices.

2

Cohérence

Dans quelle mesure les données soutiennent le résultat.

3

Adéquation

Richesse des données (pas seulement le nombre d'études).

4

Pertinence

Applicabilité au contexte de la question de la revue.

Quand les Preuves Qualitatives Changent la Pratique

La synthèse de Bohren a informé les Recommandations de l'OMS 2018 sur les soins intrapartum pour une expérience positive de l'accouchement. Changements spécifiques fondés sur des preuves qualitatives :

Rec. 15

Accompagnement pendant le travail

Rec. 1

Soins maternels respectueux

Rec. 3

Communication efficace

Rec. 12

Soutien émotionnel

Ces recommandations — fondées sur des preuves qualitatives — guident désormais les soins maternels dans 194 États membres de l'OMS. Aucune parcelle forestière n'aurait pu les produire. Aucune statistique I² n'aurait pu les révéler.

Le Cadre de Maltraitance de Bohren

La synthèse qualitative de 2015 a identifié sept domaines : violence physique, violence sexuelle, violence verbale, stigmatisation et discrimination, non-respect des standards professionnels, mauvais rapport soignant-soigné, et conditions du système de santé. Ce cadre a informé les Recommandations de l'OMS sur les soins intrapartum (2018).

Aucune p-value ne pouvait capturer l'expérience d'être frappée pendant le travail. La synthèse qualitative a donné voix à ce que les chiffres ne pouvaient pas exprimer.

Arbre de Décision : Quand la Synthèse Qualitative Est-elle Appropriée ?

RACINE : Votre question de recherche porte-t-elle sur les expériences, perceptions, obstacles ou facilitateurs ?

OUI → Votre question porte-t-elle sur le COMMENT ou POURQUOI, et pas seulement le SI ?

Oui : Synthèse de preuves qualitatives (méta-ethnographie, synthèse thématique ou synthèse de cadres)
Non : Envisagez les méthodes mixtes : quantitatif pour l'effet + qualitatif pour le mécanisme

NON → Votre question porte-t-elle sur l'efficacité ?

Oui : Méta-analyse quantitative
Mais : Complétez par une revue qualitative des obstacles à la mise en oeuvre (évaluée par CERQual)

Point clé : Les revues systématiques les plus solides répondent AUX DEUX : Est-ce que ça marche ? (quantitatif) ET Pourquoi est-ce que ça marche ou échoue ? (qualitatif)

Quiz du Module 20

Q1. Qu'est-ce qui distingue la méta-ethnographie de la méta-analyse quantitative ?

A. Elle n'inclut que 3–5 études

B. Elle traduit des concepts entre études plutôt que de combiner des nombres

C. Elle ne nécessite pas de recherche systématique

D. Elle est moins rigoureuse que la synthèse quantitative

Module 20 Terminé

« Tout ce qui compte ne peut pas être compté. Tout ce qui est compté ne compte pas. »

L'hétérogénéité est un message, pas du bruit.

Module 21 : Le Multivarié

L'hétérogénéité est un message, pas du bruit.

Module 21 : Le Multivarié

🎯 Objectifs d'apprentissage

Reconnaître quand les critères de jugement au sein d'une étude sont corrélés
Expliquer les modèles multivariés à effets aléatoires
Appliquer l'estimation robuste de la variance (RVE) pour les tailles d'effet dépendantes
Comprendre les modèles à trois niveaux pour les données emboîtées
Choisir entre les approches multivariées selon la structure des données

Les essais cardiovasculaires rapportent

mortalité, IDM, AVC et plus encore.

Ces critères de jugement sont corrélés au sein des patients. Un patient qui décède ne peut pas avoir un critère IDM. La méta-analyse standard traite chaque critère déterminé—ignorant la dépendance et supposant double les preuves.

L'Hypothèse Que Personne Ne Remet en Question

Ouvrez n'importe quel manuel standard de méta-analyse. Les modèles supposent que chaque étude contribue une taille d'effet indépendante. Mais la réalité est différente.

Un seul essai cardiovasculaire rapporte mortalité, infarctus du myocarde, AVC et revascularisation. Une seule étude de psychothérapie rapporte dépression, anxiété et qualité de vie à 3, 6 et 12 mois.

30 essais

× 4 critères de jugement

= 120

tailles d'effet

La plupart des analystes : (a) traitent les 120 comme indépendants (gonflant la précision d'un facteur √4), ou (b) choisissent un critère et abandonnent les autres. Les deux approches sont fausses.

Le Problème de la Dépendance

En méta-analyse standard par paires, chaque étude contribue une taille d'effet. Mais de nombreuses études rapportent plusieurs critères, sous-groupes, points temporels ou bras—créant des tailles d'effet dépendantes. Ignorer cela gonfle la précision et fausse l'inférence.

RVE

Estimation Robuste de la Variance. Estimateur sandwich gère la corrélation inconnue.

3 niveaux

Étude → Critère de jugement emboîté modélisé explicitement.

Chercheur

Estimation Robuste de la Variance

La RVE (Hedges, Tipton & Johnson, 2010) utilise un estimateur de type sandwich qui fournit des erreurs standard valides quelle que soit la vraie corrélation entre les effets dépendants. Pas besoin de connaître ou d'estimer la corrélation intra-étude. Idéal pour ≥20 études.

Correction pour petits échantillons : Tipton & Pustejovsky (2015) ont développé des corrections pour petits échantillons (CR2) pour la RVE, utilisant les degrés de liberté de Satterthwaite quand le nombre de clusters est faible.

Chercheur

Ce Que la Dépendance Fait à Vos Intervalles de Confiance

Si 4 critères de jugement d'une même étude ont une corrélation intra-étude ρ = 0,5 :

Traités comme indépendants

Largeur IC = X

En tenant compte de la dépendance

Largeur IC = 1,58X

Votre intervalle de confiance devrait être 58 % plus large. Chaque méta-analyse qui a ignoré cela a publié des résultats faussement précis.

RVE (Hedges, Tipton & Johnson, 2010) : Utilise un estimateur de variance « sandwich » qui produit des erreurs standard correctes sans avoir besoin de connaître la corrélation exacte intra-étude.

Chercheur

Modèles à Trois Niveaux : Rendre la Structure Explicite

1

Niveau 1 : Variance d'échantillonnage

Erreur de mesure au sein de chaque estimation de taille d'effet.

2

Niveau 2 : Variance intra-étude

Les critères de jugement et points temporels varient au sein d'une même étude.

3

Niveau 3 : Variance inter-études

Les études diffèrent entre elles par les populations, les contextes et les méthodes.

Exemple : Dans une méta-analyse de psychothérapie pour la dépression (k=50 études, 180 tailles d'effet), 35 % de la variance était intra-étude (différents critères) et 65 % inter-études (différentes thérapies, populations). Cette décomposition révèle combien d'hétérogénéité est intra- vs inter-études.

Méthodologiste

Modèles à Trois Niveaux : Cadre Formel

Quand les effets sont emboîtés (ex. plusieurs critères au sein d'études, ou études au sein de groupes de recherche), un modèle à trois niveaux décompose la variance en : (1) variance d'échantillonnage (niveau 1), (2) variance intra-étude (niveau 2), et (3) variance inter-études (niveau 3). Cela maintient une inférence correcte tout en empruntant de la force entre les niveaux.

Le Défi Cardiovasculaire

Une méta-analyse des statines pourrait inclure 30 essais, chacun rapportant mortalité, IDM, AVC et revascularisation. Soit 120 tailles d'effet de 30 clusters. Les traiter comme 120 estimations indépendantes gonfle la précision d'un facteur lié à la corrélation intra-étude.

La RVE ou les modèles multivariés gèrent cela correctement—produisant des intervalles de confiance plus larges et honnêtes.

Arbre de Décision : Quelle Approche pour les Tailles d'Effet Dépendantes ?

RACINE : Votre méta-analyse a-t-elle plusieurs effets par étude ?

OUI → Connaissez-vous (ou pouvez-vous estimer) les corrélations intra-étude ?

Oui : Modèle multivarié à effets aléatoires (le plus efficient)
Non : RVE avec correction pour petits échantillons (robuste aux corrélations inconnues)

NON → Modèle univarié standard à effets aléatoires

Sous-question : Vos effets multiples proviennent-ils de critères de jugement différents, de points temporels, ou de sous-groupes ?

Différents critères de jugement → Modèle à trois niveaux ou RVE avec regroupement
Différents points temporels → Réseau de points temporels avec corrélation temporelle
Différents sous-groupes → Considérez si les sous-groupes sont significatifs ou doivent être moyennés

Quiz du Module 21

Q1. Quel problème l'Estimation Robuste de la Variance (RVE) résout-elle ?

A. Le biais de publication

B. La dépendance entre plusieurs tailles d'effet de la même étude

C. L'hétérogénéité inter-études

D. Les effets des petites études

Module 21 Terminé

« Quand les critères sont enchevêtrés, prétendre qu'ils sont indépendants est un mensonge de commodité. »

Le nombre sans provenance n'est pas un nombre.

Module 22 : La Preuve

Le nombre sans provenance n'est pas un nombre.

Module 22 : La Preuve

🎯 Objectifs d'apprentissage

Comprendre comment les erreurs de calcul se propagent dans les politiques publiques
Définir la reproductibilité et la distinguer de la réplicabilité
Appliquer le hachage de preuves et les nombres porteurs de preuve
Utiliser des listes de vérification de reproductibilité pour la méta-analyse
Reconnaître le rôle du pré-enregistrement et des données ouvertes

Un étudiant en master a ouvert un tableur

et a découvert que l'ère d'austérité reposait sur une erreur.

En 2010, Reinhart et Rogoff affirmaient que les pays avec un ratio dette/PIB >90 % avaient une croissance négative. Cela a influencé les politiques d'austérité à travers l'Europe. En 2013, Thomas Herndon a découvert une erreur Excel qui excluait 5 pays de la moyenne. Le résultat corrigé : une croissance positive modérée, pas un effondrement.

Reproductibilité vs Réplicabilité

Reproductible

Mêmes données + même code = même résultat

Réplicable

Nouvelles données + mêmes méthodes = résultat cohérent

La reproductibilité est le standard minimum. Si d'autres ne peuvent pas reproduire votre estimation poolée à partir de vos données rapportées, l'analyse ne peut pas être vérifiée. Les méta-analyses doivent partager : données extraites, scripts d'analyse, versions logicielles et graines aléatoires.

Chercheur

Nombres Porteurs de Preuve

Chaque nombre dans une méta-analyse devrait porter sa provenance : d'où il vient, comment il a été transformé, et quel code l'a produit. Le hachage de preuves crée une empreinte cryptographique des entrées de sorte que tout changement (accidentel ou délibéré) soit détectable.

SHA

Hash d'entrée

Hash SHA-256 des données extraites. Si une cellule change, le hash change. Chaîne de provenance : données → code → résultat → hash.

Interactif : Liste de Vérification de Reproductibilité

Cochez chaque élément pour évaluer la reproductibilité d'une méta-analyse. Quel est le score de votre revue ?

L'Erreur Excel Qui a Changé des Économies

L'article de Reinhart-Rogoff « Growth in a Time of Debt » a été cité dans des auditions au Congrès, des rapports de la Commission européenne et des notes de politique du FMI. L'erreur Excel (les lignes 30–34 étaient exclues d'une formule AVERAGE) signifiait que cinq pays—Australie, Autriche, Belgique, Canada et Danemark—étaient simplement manquants.

La moyenne corrigée est passée de −0.1 % à +2.2 %. Les politiques d'austérité ont affecté des millions de personnes. La reproductibilité n'est pas du perfectionnisme académique—c'est une protection contre la catastrophe.

Vous souvenez-vous du Module 5 ?

DECREASE à Travers le Prisme de la Reproductibilité

Les essais DECREASE de Don Poldermans ont été rétractés pour données fabriquées. Si les nombres porteurs de preuve avaient existé—entrées hachées, chaînes de provenance, calculs vérifiés—la fabrication aurait été détectable avant que les preuves n'entrent dans les méta-analyses et ne changent les recommandations chirurgicales.

Quiz du Module 22

Q1. Quelle était l'erreur de Reinhart-Rogoff ?

A. Ils ont utilisé un échantillon trop petit

B. Une formule Excel excluait 5 pays, inversant la conclusion

C. Ils ont étudié la mauvaise période temporelle

D. Ils ont utilisé le mauvais test statistique

Module 22 Terminé

« Le nombre sans provenance n'est pas un nombre. L'analyse sans reproductibilité n'est pas une preuve. »

La certitude doit être méritée, pas présumée.

Module 23 : Votre Premier Méta-Sprint

La certitude doit être gagnée et non assumée.

Module 23 : Votre premier méta-sprint

🎯 Learning Objectives

Comprendre le flux de travail d'examen systématique de 40 jours
Mappez les sept principes en phases de pratique réelle
Reconnaître les portes de la définition du fait (DoD) comme points de contrôle de qualité
Comprenez pourquoi la structure empêche les échecs que vous avez étudiés
Le diplômé est prêt à mener (pas seulement à comprendre) une méta-analyse

Le voyage est terminé

Vous avez appris les histoires.

Maintenant, vous devez parcourir le chemin.

Chaque inversion des preuves que vous avez étudiées s'est produite parce que les équipes savait ont appliqué les méthodes mais ne l'ont pas fait suivre them systematically.

Le cadre META-SPRINT

Un flux de travail structuré de 40 jours avec 5 portes de phase. Chaque porte est un point de contrôle de définition du fait (DoD) qui vous empêche d'avancer jusqu'à ce que la qualité soit assurée.

40

Jours jusqu'à la fin

5

Portes de phase DoD

Day 34

Hard Freeze

Why 40 days? Assez long pour la rigueur, suffisamment court pour éviter toute dérive de la portée. Les signaux cardiaques de la rosiglitazone ont été enterrés pendant des années parce qu'il n'y avait pas de date limite imposant la transparence.

Les cinq portes

Les cinq portes de phase

A

DoD-A : verrouillage du protocole (jours 1-3)

PICOS défini, règles de point temporel définies, choix de modèles prédéfinis. Aucune cible mobile.

B

DoD-B : verrouillage de recherche (jours 6 à 10)

Toutes les bases de données ont été consultées, la littérature grise vérifiée, validée par PRESS. Non masqué études.

C

DoD-C : Verrouillage d'extraction (jours 10 à 28)

Double extraction, liée à la provenance, RoB évalué. Aucun chiffre fabriqué.

Les cinq portes de phase (suite)

D

DoD-D : Analysis Lock (jours 21-33)

Parcelles forestières générées, analyses de sensibilité effectuées, hétérogénéité explorée. No cherry-picking.

E

DoD-E : verrouillage des soumissions (jours 33-40)

GRADE avec certitude, résumé clinique rédigé, manuscrit finalisé. No overconfidence.

Day 34 Freeze: Aucune nouvelle étude ne peut être ajoutée après le jour 34. Cela évite la « dérive de la portée militaire » qui a tourmenté les méta-analyses BMP sur la chirurgie de la colonne vertébrale, où l'industrie a continué à « trouver » des études favorables.

Les sept principes en pratique

Chaque principe que vous avez appris correspond à une porte de phase spécifique :

DoD-A "Tous les signaux ne sont pas véridiques" — Pré-préciser ce qui compte comme preuve

DoD-B "Qu'est-ce qui était caché à la vue de tous ?" — Search comprehensively

DoD-C "Le numéro sans provenance n'est pas un numéro" — Reliez chaque point de données

DoD-D "L'hétérogénéité est un message, pas bruit" — Enquêtez, n'ignorez pas

DoD-E "La certitude doit être acquise, et non supposée" — GRADE everything

Le principe de l'équipe rouge

Votre propre équipe essaie d'interrompre votre travail.

Chaque jour, deux membres de l'équipe en rotation passent 12 minutes à vérifier la qualité des données en tant qu'adversaires. C'est ainsi que la fraude de Boldt a été détectée, non pas par un examen amical, mais par une vérification sceptique qui a révélé des taux de recrutement impossibles.

CondGO : Quand les choses évoluent Mauvais

Que se passe-t-il lorsque vous découvrez un problème critique à mi-sprint ?

CondGO = Aller conditionnel

Un protocole de sauvetage limité. Vous avez exactement 72 heures pour résoudre le problème en utilisant uniquement les actions autorisées. Si vous ne parvenez pas à résoudre le problème, vous devez arrêter l'examen.

📖 La leçon Avandia : GSK a détecté des signaux cardiovasculaires en 2000, mais n'a imposé aucun délai. Ils ont « regardé et attendu » pendant 7 ans. Des dizaines de milliers de personnes ont été blessées. CondGO existe parce que "nous finirons par nous en occuper" tue des gens.

Vous avez commencé ce cours avec des histoires.

Vous le terminez prêt pour la pratique.

Le flux de travail META-SPRINT prend tout ce que vous avez appris et le structure dans un système de 40 jours qui évite les échecs. vous avez étudié.

Lorsque vous êtes prêt à mener une véritable revue systématique, ouvrez l'application META-SPRINT. Les histoires que vous avez apprises ici vous guideront et apparaîtront comme des rappels à chaque étape.

Module 23 Quiz

1. Quel est le but du "hard freeze" du Jour 34 dans META-SPRINT ?

A. Pour accorder du temps à l'examen par les pairs

B. Pour éviter que des études ajoutées tardivement ne manipulent les résultats

C. Pour accélérer la publication

D. Se coordonner avec les délais du journal

2. Le protocole CondGO donne aux équipes combien de temps pour résoudre les problèmes critiques ?

A. 24 heures

B. 48 heures

C. 72 heures

D. 1 semaine

3. Le contrôle qualité contradictoire de l'équipe rouge a détecté la fraude de Joachim Boldt en remarquant :

A. Des taux de recrutement de patients impossibles

B. p-piratage dans les tests statistiques

C. Tailles d'effet incohérentes

D. Whistleblower testimony

Les histoires que vous avez apprises ne font pas partie de l'histoire.

Ce sont des avertissements qui protègent votre travail futur.

Lorsque vous effectuez votre première méta-analyse,
rappelez-vous CAST avant de faire confiance à un signal,
souvenez-vous de Poldermans avant de sauter la provenance,
rappelez-vous Reboxetine avant d'ignorer l'entonnoir.

Vous êtes maintenant prêt. Optez pour la structure. Allez-y avec humilité. Suivez les Sept Principes.

Tous les signaux ne sont pas vrais.

Module 24 : Examen final

La certitude doit être méritée, pas supposée.

Examen Final

Examen Final : Partie 1 sur 2

Testez votre maîtrise des principes de la méta-analyse. Chaque question aborde un concept clé du cours.

Q1. Un chercheur souhaite étudier « les effets de l'exercice sur la santé ». Quel est le problème PRINCIPAL de cette question de recherche ?

A. Elle manque de randomisation

B. La taille de l'échantillon est trop petite

C. Elle n'est pas formulable — elle manque d'éléments PICO spécifiques

D. Elle manque d'approbation éthique

Q2. Un funnel plot montre une asymétrie prononcée avec des études manquantes dans la région Inférieure gauche. Que cela suggère-t-il ?

A. Les grandes études ont des estimations plus précises

B. Les petites études négatives sont probablement non publiées

C. Le vrai effet est plus fort que celui estimé

D. Erreur d'échantillonnage aléatoire

Q3. Une méta-analyse rapporte I² = 85 % et τ² = 0,42. Quelle est l'interprétation la PLUS appropriée ?

A. Il y a 85 % de chances d'un vrai effet

B. La taille de l'effet est très grande

C. Une variance inter-études substantielle existe ; investiguer les sources

D. Les résultats sont cliniquement importants

Q4. Dans GRADE, quel est le niveau de certitude initial pour un corpus de preuves provenant d'essais contrôlés randomisés ?

A. Élevée

B. Modérée

C. Faible

D. Très faible

Q5. Dans RoB 2.0, quel domaine évalue si les évaluateurs des critères de jugement connaissaient l'allocation du traitement ?

A. D1 : Processus de randomisation

B. D2 : Déviations par rapport aux interventions prévues

C. D3 : Données manquantes sur les critères de jugement

D. D4 : Mesure du critère de jugement

Examen Final : Partie 2 sur 2

Q6. L'essai CAST a montré que les antiarythmiques augmentaient la mortalité malgré la suppression des arythmies. Ceci est un exemple de :

A. Erreur d'échantillonnage aléatoire

B. Échec du critère de substitution

C. Confusion par indication

D. Causalité inverse

Q7. Quand doit-on préférer un modèle à effets aléatoires plutôt qu'un modèle à effet fixe ?

A. Quand les tailles d'échantillon sont grandes

B. Quand les critères de jugement sont binaires

C. Quand une hétérogénéité inter-études est attendue

D. Quand un biais de publication est suspecté

Q8. Selon les critères ICEMAN, qu'est-ce qui rend une analyse en sous-groupes PLUS crédible ?

A. Hypothèse spécifiée a priori

B. Grand nombre de sous-groupes testés

C. Pas de justification biologique

D. Effets incohérents entre les essais au sein du sous-groupe

Q9. Quelle hypothèse doit être vérifiée dans une méta-analyse en réseau pour assurer la validité des comparaisons indirectes ?

A. Toutes les études ont des tailles d'échantillon égales

B. Toutes les études mesurent le même critère de jugement

C. Transitivité (cohérence des modificateurs d'effet)

D. Double aveugle dans tous les essais

Q10. Dans l'analyse séquentielle des essais (TSA), que signifie le franchissement de la frontière de futilité ?

A. Le traitement cause un préjudice

B. Des études supplémentaires ont peu de chances de montrer un effet significatif

C. Les preuves sont concluantes en faveur d'un bénéfice

D. La méta-analyse manque de puissance

Partie 2 : Questions du module avancé (Q11-Q20)

Examen Final : Partie 2 sur 2 (Avancé)

Les questions 11 à 20 couvrent les Modules 13–22 (Bayésien, NMA, DPI, Dose-Réponse, Fragilité, Équité, IA, Qualitatif, Multivarié, Reproductibilité).

Q11. Dans une méta-analyse bayésienne, que se passe-t-il lorsqu'on utilise un a priori vague avec de nombreuses études ?

A. La distribution a posteriori correspond étroitement au résultat fréquentiste

B. L'a priori domine la distribution a posteriori

C. L'intervalle de crédibilité devient infiniment large

D. Le modèle ne converge pas

Q12. Dans la NMA des antidépresseurs de Cipriani, pourquoi aucun médicament unique n'a-t-il été déclaré « le gagnant » ?

A. Trop peu d'études

B. Différents médicaments se classaient en tête sur différents critères

C. Aucune preuve indirecte n'était disponible

D. Le SUCRA ne pouvait pas être calculé

Q13. Pourquoi ne devrait-on jamais combiner les DPI comme si elles provenaient d'un méga-essai unique ?

A. Les DPI ont toujours moins d'études que les données agrégées

B. Cela ignore le regroupement par étude et introduit de la confusion

C. Cela ne peut pas gérer les données de survie

D. Les critères binaires ne peuvent pas être combinés

Q14. Qu'est-ce qui a fait disparaître la « courbe en J » de l'alcool dans la réanalyse de Stockwell ?

A. De nouvelles études ont été ajoutées ne montrant aucun bénéfice

B. Les anciens buveurs ont été correctement retirés du groupe de référence abstinent

C. La taille de l'échantillon a été augmentée

D. Un meilleur ajustement pour les facteurs de confusion

Q15. Dans la saga de l'oseltamivir, qu'a découvert Cochrane en accédant aux rapports d'études cliniques non publiés ?

A. Le médicament était complètement inefficace

B. L'effet était plus important que ce qui était initialement pensé

C. Le bénéfice sur les complications a largement disparu

D. Les effets secondaires étaient plus fréquents que rapporté

Q16. Quel pourcentage de patients hypertendus américains n'auraient PAS été éligibles pour l'essai SPRINT ?

A. Environ 25 %

B. Environ 50 %

C. Plus de 75 %

D. Presque 100 %

Q17. Pourquoi l'IA est-elle considérée comme un « augmentateur » plutôt qu'un « remplaçant » dans les revues systématiques ?

A. L'IA est plus lente que les évaluateurs humains

B. L'IA a un rappel parfait

C. L'IA crible rapidement mais ne peut pas porter de jugements contextuels au niveau humain

D. L'IA est trop coûteuse pour la plupart des revues

Q18. Que évalue la composante « adéquation » de CERQual ?

A. Le nombre d'études uniquement

B. La richesse et la quantité des données soutenant la conclusion

C. La cohérence des résultats entre les études

D. La généralisabilité à d'autres populations

Q19. Une méta-analyse inclut 30 essais de statines, chacun rapportant 4 critères corrélés (120 tailles d'effet). Quelle approche est correcte ?

A. Traiter les 120 comme des tailles d'effet indépendantes

B. Utiliser la RVE avec correction pour petits échantillons

C. Choisir un seul critère par étude

D. Moyenner les 4 critères au sein de chaque étude

Q20. Dans l'erreur de Reinhart-Rogoff, quel était le taux de croissance moyen corrigé pour les pays à dette élevée ?

A. −0,1 % (identique à ce qui était affirmé)

B. +2,2 %

C. 0 %

D. +5 %

Note de passage : 15/20 sur les deux parties

Révisez les questions manquées en retournant au module correspondant. Chaque question teste un concept fondamental.

Tout signal n'est pas vérité.

Les méthodes protègent les patients de notre assurance.

Félicitations

Vous avez terminé Renversement des Preuves : Un Cours de Méta-Analyse.

Que votre synthèse soit guidée par la vérité, votre combinaison par la sagesse,
et vos conclusions par l'humilité.

Les Sept Principes :

« Tout signal n'est pas vérité. »

« Les méthodes protègent les patients de notre assurance. »

« Qu'est-ce qui était caché en pleine vue ? »

« Le nombre sans provenance n'est pas un nombre. »

« L'hétérogénéité est un message, pas du bruit. »

« L'absence de preuve n'est pas preuve d'absence. »

« La certitude doit être méritée, pas supposée. »

« Guide-nous vers le Droit Chemin... »

Votre Progression

Les sept principes

Badges obtenus

S?rie d'apprentissage

Module 0 : L'ouverture

🎯 Learning Objectives

Qu'est-ce que la méta-analyse ?

Pourquoi le pool Études ?

Augmentation de la puissance statistique

Improve Precision

Resolve Disagreement

Explore Heterogeneity

Quand NE PAS regrouper

La hiérarchie des preuves

Les sept principes

Quiz du module 0

1. Pourquoi ne devriez-vous parfois PAS regrouper les études dans une méta-analyse ?

2. Où se situent les revues systématiques des ECR dans la hiérarchie des preuves ?

Module 1 : La question

🎯 Learning Objectives

L'observation

La Réponse

La logique qui a convaincu tout le monde

CAST : Essai sur la suppression de l'arythmie cardiaque

Les résultats : avril 1989

Le coût humain

La logique - revisitée

Ce qui n'a pas fonctionné : le piège des substituts

Le framework PICO

Exercice d'enquête : les preuves avant CAST

Avant : logique d'observation

Après : CAST ECR (1989)

Les leçons pour la synthèse des preuves

La plausibilité biologique n'est pas une preuve

Les paramètres de substitution peuvent induire en erreur

Only randomized trials establish causation

Le consensus n'est pas une preuve

Quiz du module 1

1. Quelle était l'erreur fondamentale dans la logique antiarythmique ?

2. Dans PICO, que signifie le « O » et pourquoi est-ce important ?

Module 2 : Le Protocole

🎯 Learning Objectives

L'étude sur la santé des infirmières

Le biais caché

WHI : La santé des femmes Initiative

Les résultats : juillet 2002

DONNÉES RÉELLES

PROSPERO Registration

Inscrivez-vous avant de rechercher

Verrouillez vos décisions

Document Amendments

Prevent Duplication

Quiz du module 2

1. Pourquoi l'étude sur la santé des infirmières a-t-elle montré un bénéfice du THS que WHI n'a pas démontré ?

2. Quel est l'objectif principal de l'enregistrement PROSPERO ?

Module 3 : La recherche

🎯 Learning Objectives

Les preuves publiées (avant 2007)

Découverte de Nissan : mai 2007

Les résultats de la méta-analyse

Le comité consultatif de la FDA : juillet 2007

Le Conséquences

Ce qu'exige une recherche complète

La check-list PRESSE

Traduction de la recherche Question

Booléen et proximité Opérateurs

Subject Headings

Text Words

Liste de contrôle de PRESSE (suite)

Orthographe, syntaxe, numéros de ligne

Limites et filtres

Database Translation

Quiz du module 3

1. Quel type de source de preuves a révélé le signal cardiovasculaire de la rosiglitazone ?

2. Que vaut PRESS pour ?

Module 4 : La projection

🎯 Learning Objectives

La montée du Vioxx

L'essai VIGOR (2000)

Ce que VIGOR a publié