==================== モジュール 1: 詐欺 (Theranos) ====================
その女性の話を聞いたことがありませんか
who promised to 一滴の血で世界を変える ,
who raised billions on a test that never worked ?
Palo Alto, 2003
STANFORD UNIVERSITY
19 歳の少年は、一滴の滴から何百もの血液検査を受けるというビジョンを抱いて中退しました。
Investors believed. Walgreens believed. The Pentagon believed.
They gave her $9 billion.
しかし、テストでは間違った結果が得られました。患者は、HIVに感染していないにもかかわらず、HIVに感染していると告げられました。患者は、自分の血液は正常だったと言われました。 dying .
Carreyrou J. Bad Blood. 2018
欺瞞の決定木
What Theranos Did vs. What Should Happen
↓
SHOULD DO
Validate Against Gold Standard
↓
Publish TP/FP/FN/TN
↓
FDA Approval
THERANOS DID
Skip Validation
↓
Hide Failures
↓
Harm Patients
「そしてテストは嘘をつきました、
そしてその嘘は確実性を帯びていた、
そして誰も 2×2 テーブルを要求しませんでした。"
これが、私たちが診断テストの精度を研究する理由です。
==================== モジュール 2: 4 つの結果 ====================
When a test speaks,
あるだけです four possible truths .
二つは祝福です。 2つは呪いです。
システマティックレビューがすべての研究を同等に信頼するとどうなるでしょうか?
REAL DATA
DTA の系統的レビューにおける感度分析は、バイアスのリスクが高い研究を除外するとプールされた推定値が変化することを一貫して示しています。マンモグラフィースクリーニングでは、盲検読影を行わない症例対照デザインは感度を高める傾向があります。一般原則は十分に文書化されています。QUADAS-2 品質評価では、プールされた感度を次のように変更できます。 10-15 percentage points 偏った研究が除去されるとき。
レビューチームは 15 件のマンモグラフィー DTA 研究をプールしています。 5人は、症例対照設計と盲検解釈によるバイアスのリスクが高い。
パス A: すべての研究をプールする
Include all 15 studies regardless of quality
↓
Biased 2x2 tables inflate TP counts, producing a pooled sensitivity of 87%
OUTCOME: Overconfidence in screening accuracy
PATH B: Apply Quality Assessment
Exclude high risk-of-bias studies using QUADAS-2
↓
Remaining 10 low-RoB studies yield sensitivity of approximately 75%
OUTCOME: Honest numbers guide honest decisions
THE REVELATION
4 つの結果 (TP、FP、FN、TN) は、それらを導き出した研究が信頼できる場合にのみ信頼できます。偏った研究は 2x2 テーブル全体を汚染します。
結果のツリー
Every Test Result Has a Reality Behind It
↓
神聖な 2x2 テーブル
HIV Rapid Test Example (Real Data)
HIV+ HIV- Total
Test + 98 3 101
Test - 2 895 897
Total 100 898 998
この表からすべての真実が得られます
Sensitivity = 98/100 = 98%
Specificity = 895/898 = 99.7%
"Two outcomes save. Two outcomes harm.
TP、TN: テストは真実でした。
FP、FN: 検査は嘘だった。
Know them by name, for they determine fate."
==================== モジュール 3: HIV ウィンドウ期間 ====================
血液検査のことを聞いたことがありませんか?
found clean ,
そして何千人もの人に与えられました—
while death swam within it ?
血液供給危機、1985 年
UNITED STATES
When HIV testing began, doctors celebrated: they could now screen the blood supply.
しかし、テストには window period —ウイルスが存在していた感染後数週間ですが、 undetectable .
血液検査が行われました。血液検査は「陰性」だった。輸血された。
8,000-12,000 Americans より良い検査が可能になる前に、輸血によって感染したのです。
CDC. MMWR. 1987;36(49):833-840
The Window Period Decision Tree
Why False Negatives Are Deadly
↓
< 2 weeks
Test NEGATIVEVirus present!
↓
Blood DonatedOthers infected
> 4 weeks
Test POSITIVECorrectly detected
↓
Blood DiscardedSupply safe
時間の経過とともに感度が変化する
~50%
Day 14 Seroconversion
99.9%
Day 45+ Window closed
THE LESSON
感度は固定ではありません。 It depends on when you test.
A "99% sensitive" test may be 0% sensitive in early infection.
「そしてテストでは『クリーン』と出ました。
なぜなら、ウイルスはまだその姿を現していなかったからだ。
そして血は分かち合った、
そして感染は罪のない人々に広がった。」
=================== モジュール 4: DES 悲劇====================
母親に与えられた錠剤について聞いたことがありますか?
to protect their pregnancies ,
that planted cancer in their daughters
twenty years before it bloomed?
1938 年から 1971 年の DES の悲劇
UNITED STATES & EUROPE
Diethylstilbestrol (DES) was given to millions of pregnant women to prevent miscarriage.
No proper clinical trial was ever conducted. Doctors assumed it worked
because it seemed reasonable.
Decades later, their daughters developed a rare cancer: clear cell adenocarcinoma
of the vagina . A cancer so rare it was a diagnostic signal in itself.
5-10 million women の被害が暴露されました。
Herbst AL et al. N Engl J Med. 1971;284:878-881
検証デシジョンツリー
What Should Have Happened
↓
YES
Randomized Trial
↓
Long-term Follow-up
↓
Know True Effects利益と害
NO (DES)
Assumption Only
↓
Widespread Use
↓
Hidden HarmDiscovered too late
診断信号
希少性が高まったとき証拠
膣の明細胞腺癌は若い女性では非常にまれであったため、
7 cases in one hospital triggered an investigation.
クラスター自体が診断検査となった。
Sensitivity to DES exposure: nearly 100%
この年齢でこの癌を患っていれば、ほぼ確実に感染していることになる。
1:1000
Risk of clear cell cancer in DES daughters
5-10M
Women exposed worldwide
そして母親たちは錠剤を服用した。希望、
そして娘たちは影の中で成長しました
そして 20 年後、癌が開花しました—
a diagnosis that indicted a generation of medicine."
=================== モジュール 5: 感度と特異性====================
A test has two virtues and two vices.
Sensitivity : 病気の人を見つけることはできますか?
Specificity :健康な人を救うことができるでしょうか?
現実世界でテストが使用される場合、研究室からの感度数値を信頼できますか?
REAL DATA
The BinaxNOW COVID-19 rapid antigen test reported sensitivity of approximately 84-97% in symptomatic individuals in manufacturer studies. However, real-world evaluations found sensitivity as low as 35-64% ウイルス量とタイミングに応じて、無症状の人でも感染します。迅速抗原検査に関するコクランのレビュー (Dinnes 2022) では、平均感度が次のとおりであることが確認されました。 73% 症候性でのみ 55% 100を超える研究評価にわたる無症候性集団における。
A university plans to screen asymptomatic students weekly before allowing campus access. They read the manufacturer's claim of high sensitivity.
PATH A: Trust Lab Sensitivity
Rely on manufacturer's high sensitivity figure
↓
ウイルス量が少ない無症候性キャリアが検査で陰性となり授業に出席し、ウイルスを拡散させる
OUTCOME: False sense of safety; campus outbreaks
パス B: 現実世界のデータを要求する
実際の対象集団(無症状の学生)を対象とした研究を模索する
↓
Discover sensitivity is roughly 55% in asymptomatic people; add serial testing and other safeguards
OUTCOME: Layered safety catches more cases
THE REVELATION
感度はテストの固定特性ではありません。それは人口、病気の段階、環境によって変化します。常に尋ねてください: 感度 whom ?
感受性: ハンター
Worked Example: COVID PCR Test
Given: 200 infected patients tested
TP = 196 (correctly positive), FN = 4 (missed)
Sensitivity = 196 / (196 + 4) = 196/200 = 98%
Interpretation: Test catches 98 of every 100 infected people
特異性: ガーディアン
Worked Example: Same COVID PCR Test
Given: 1000 uninfected people tested
TN = 999 (correctly negative), FP = 1 (false alarm)
Specificity = 999 / (999 + 1) = 999/1000 = 99.9%
Interpretation: Test correctly clears 999 of every 1000 healthy people
記憶のルール
When to Use Which Test
RULE OUT disease
Use HIGH SENSITIVITY
↓
SnNoutSensitive Negative = OUT
RULE IN disease
Use HIGH SPECIFICITY
↓
SpPinSpecific Positive = IN
「敏感さが病人を捕まえる。
特異性があれば問題はありません。
But no test masters both perfectly—
これが我々が負う重荷だ。」
==================== モジュール 6: 基本レートの誤り ====================
医師の診察を受けなかったのですか
who saw 99% accurate
and believed a positive result meant 99% certainty ?
これは医療における最も致命的な間違いです。
基本料金の誤謬
THE PUZZLE
A disease affects 1 in 1000 people.
検査の感度は 99%、特異度は 99% です。
A patient tests positive.
彼らが病気に罹患している確率はどれくらいでしょうか?
Most doctors say ~99%. 本当の答えは約9%です。
明らかになった数学
Testing 100,000 People (Prevalence 1/1000)
Step 1: 100 have disease, 99,900 healthy
Step 2: Of 100 sick: 99 test positive (TP), 1 negative (FN)
Step 3: Of 99,900 healthy: 999 test positive (FP), 98,901 negative (TN)
Step 4: Total positives = 99 + 999 = 1,098
PPV = TP / All Positives = 99 / 1,098 = 9%
陽性結果の 91% は偽陽性です。
Interactive Base Rate Calculator
See How Prevalence Changes PPV
9%
Positive Predictive Value (PPV)
陽性の 91% は誤りアラーム
有病率の決定木
Same Test, Different Settings
↓
General Pop 0.1%
PPV = 9%91% false +
High-Risk 10%
PPV = 92%8% false +
Confirmatory 50%
PPV = 99%1% false +
「そして医師は『99%正確です』と言いました。」
すると患者は「99%確実だ」と聞きました。
そして二人とも騙された――
なぜなら彼らは、「この病気はどれくらい珍しいのですか?」と尋ねるのを忘れていたからです。」
マシン
that could find TB in two hours,
のことを聞いたことがありますか? revolutionary —
と呼ばれていましたが、 drug-resistant strains?
南アフリカの GeneXpert Story
CAPE TOWN, 2010
を見逃していました。1 世紀にわたり、結核の診断には数週間かけて細菌を増殖させる必要がありました。次に GeneXpert が登場しました。結果は 2 hours .
South Africa deployed it nationwide. The WHO endorsed it.
でしたが、患者の場合は low bacterial loads —often HIV co-infected—
sensitivity dropped to 67% . One in three cases missed.
、リファンピシン耐性を検出するために、耐性症例の 5% を見逃していました。それらの患者は間違った治療を受けました。耐性結核が蔓延しています。
Steingart KR et al. Cochrane Database Syst Rev. 2014;1:CD009593
TB Diagnosis Decision Tree
GeneXpert が不十分な場合
↓
↓
Negative
↓
HIV+ or High Suspicion?
Sensitivity by Patient Type
98%
Smear-positive (high bacterial load)
67%
Smear-negative (low bacterial load)
61%
HIV co-infected (immune suppressed)
THE LESSON
臨床試験での検査の感度は、患者の感度と一致しない可能性があります。
あなたの集団を知りましょう。
そして機械は言いました。 「陰性」
そして医師は機械を信じた
そして患者は肺に結核を抱えて帰宅し、
咳を我慢して外へ出た。"
====================モジュール 8: PSA 論争 ====================
男性向けのテストについて聞いたことはありませんか
癌が発見された never kill ,
そして、それが治療法につながりました。 destroyed lives ?
PSAスクリーニングの悲劇
UNITED STATES, 1990s-2010s
PSA (Prostate-Specific Antigen) could detect prostate cancer early.
医師たちは何百万人もの男性を検査しました。がんが見つかった。前立腺を切除した。
しかし、これらの「がん」の多くは症状を引き起こすことはありませんでした。手術が原因で インポテンスと失禁 in men who
would have died of old age, not cancer .
Moyer VA. Ann Intern Med. 2012;157:120-134
60歳の男性がPSAスクリーニングについて医師に尋ねます。 4.0 ng/mL カットオフでの PSA の感度は高悪性度がんに対して約 21% ですが、多くの低進行性がんも検出します。
PATH A: Screen All Men
50歳以上の男性全員を対象とした定期PSA検査
↓
13年間に検査を受けた1,000人当たり:1~2人の死亡は防がれたが、100人以上の誤報があり、30~40人の男性が低進行性がんの治療により無力または失禁したままになった
OUTCOME: Net harm exceeds benefit at population level
PATH B: Shared Decision-Making
害と利益について話し合います。危険因子、平均余命、患者の価値観に合わせて個別化する
↓
High-risk men can choose screening; low-risk men can decline; active surveillance replaces immediate surgery for low-grade findings
OUTCOME: Fewer unnecessary treatments; patient autonomy preserved
THE REVELATION
検出率が高いテストでは、検出する必要のない状態が検出されると、良い影響よりも有害な結果が生じる可能性があります。過剰診断は、低進行性疾患における高い感度の隠れたコストです。
害の数
1
~から救われた命 prostate cancer per 1000 screened
30-40
Men made impotent or incontinent per 1000 screened
100+
False positives (biopsies, anxiety) per 1000 screened
THE REVERSAL
In 2012, the US Preventive Services Task Force recommended against
定期的なPSA検査。テストでは、見つける必要のないものが多すぎました。
Patient Decision Aid: PSA Screening
55 ~ 69 歳の男性 1,000 人が 13 年間検査を受けた場合
Deaths from prostate cancer prevented
1-2 men
Men who will have false positive requiring biopsy
100-120 men
決して害を及ぼすことのない癌と診断された男性
20-50 men
Men left impotent or incontinent from treatment
30-40 men
このトレードオフはあなたに受け入れられますか?
「そしてテストで影が見つかった、
そして外科医が切った、
そして男は生きていた――無力で失禁していた――
決して目覚めることのなかった癌からです。」
==================== モジュール 9: トロポニンと心臓発作====================
胸痛を患った男性
のことを聞いたことがありませんか?その男性の最初のトロポニンは normal ,
自宅に送られ、その後死亡しました
朝ですか?
トロポニンのタイミングの問題
EMERGENCY DEPARTMENTS WORLDWIDE
トロポニンは心臓発作診断のゴールドスタンダードです。しかし、それには時間がかかります 3-6 hours to rise after myocardial injury.
A patient arrives one hour after chest pain begins.
Troponin is tested: normal .
"You're fine. Go home."
心臓は瀕死の状態でした。タンパク質はまだ漏れていませんでした。
Studies show 2-5% of MI patients sent home from ED die within 30 days.
Pope JH et al. N Engl J Med. 2000;342:1163-1170
Serial Testing Decision Tree
2 トロポニン プロトコル
↓
↓
Normal
↓
When Did Pain Start?
<6 hrs
Wait 3 hrsRepeat troponin
>6 hrs
Low riskConsider d/c
High-Sensitivity Troponin
~70%
Conventional troponin sensitivity at 0 hrs
~95%
hs-Troponin sensitivity at 0 hrs
99%
hs-Troponin at 3 hrs serial
THE TRADE-OFF
High-sensitivity troponin catches more heart attacks early.
But it also has more false positives—elevated in kidney disease,
heart failure, sepsis, and marathon runners.
「そして、検査では「正常」と判定されました。
、心臓はちょうど死に始めていたからです。
そして患者は安心してください、
and went home to finish dying."
=================== モジュール 10: 可能性の比率 ====================
感度はテストを表します。
特異性はテストを説明します。
しかし、患者はこう尋ねます。
"I tested positive. What are MY chances?"
公表されている検定の感度が真実よりも高く、したがって計算した尤度比が間違っている場合はどうなるでしょうか?
REAL DATA
Rapid strep tests (RADT) showed pooled sensitivity of approximately 86% コクランレビューに含まれる出版された研究で。しかし、未公開のメーカーデータを含む FDA 510(k) 規制当局への提出では、感度推定値はわずか 70-75% 。感度が高く公表された研究は、出版のために提出される可能性が高くなります。これは、見かけの精度を誇張する出版バイアスの典型的なケースです。
臨床医は、子供の喉の痛みを治療するかどうかを決定するために、公開されたデータから LR+ を計算します (感度 86%、特異度 95%)。しかし、実際の感度は 70% にすぎない可能性があります。
PATH A: Trust Published Meta-Analysis
公開データの LR+ を使用 (86/5 = 17.2)
↓
LR+ を過大評価すると、陰性の結果に対する過信につながります。溶連菌に感染した子供たちは抗生物質を投与されずに帰宅する
OUTCOME: Missed strep leads to rheumatic fever risk
パス B: 規制データを求める
FDA 提出の LR+ を使用し (70/5 = 14)、LR- の方が悪いことに注意してください (0.32 対 0.15)。
↓
Recognize a negative RADT cannot confidently exclude strep; back up with throat culture when clinical suspicion is high
OUTCOME: Appropriate caution protects children
THE REVELATION
尤度比は、それを生み出す感度と特異度ほど正確ではありません。出版バイアスにより正確さが増大し、LR+ は楽観的になりすぎ、LR- は安心感が強すぎます。常に質問してください: 未発表の研究が欠落していませんか?
フェイガンのノモグラム
テスト前からテスト後の確率まで
Pre-Test Probability
99%
50%
20%
5%
1%
Likelihood Ratio
100
10
1
0.1
0.01
Post-Test Probability
99%
80%
50%
20%
1%
Draw a line from pre-test through LR to find post-test probability
Interpreting Likelihood Ratios
「感受性は病人について語る。
特異性は井戸について語ります。
But the likelihood ratio answers:
この結果はこの患者にとって何を意味するのでしょうか? "
=================== モジュール 11:マラリア RDT ====================
村で熱を出している子供を見かけませんでしたか?
と言う迅速検査 negative ,
and the Plasmodium それは増え続けましたか?
マラリアRDT問題
SUB-SAHARAN AFRICA
Malaria kills 600,000 people yearly, mostly children under 5.
Rapid Diagnostic Tests were meant to guide treatment in remote areas
without microscopes or laboratories.
But when parasitemia is low—RDT はケースを見逃します .
And when P. falciparum HRP2遺伝子を削除します—
the RDT sees nothing at all .
WHO. Malaria RDT Performance. 2022
臨床意思決定ツリー
Child with Fever in Malaria-Endemic Area
↓
↓
RDT Negative
↓
High
Treat Anywayor Microscopy
Sensitivity Varies by Parasitemia
95%
High parasitemia (>200/μL)
75%
Low parasitemia (100-200/μL)
臨床レッスン
A negative RDT does not rule out malaria in endemic areas.
Clinical judgment must override the test when suspicion is high.
「そして検査結果は『陰性』でした」
そして子供は家に帰されました、
そして寄生虫は暗闇の中で増殖し、
そして朝までに子供は目を覚ますことができませんでした。"
==================== モジュール 12: 新型コロナウイルス迅速検査 ====================
疫病の年に、
世界は fast .
というテストを必要としていましたが、速いということは accurate .
高感度の新世代の検査が登場すると、自動的に検査の精度も向上しますか?
REAL DATA
高感度トロポニン (hs-cTn) アッセイにより、急性心筋梗塞の感度がおよそ 70% (従来のトロポニンhs-cTn は、MI 以外の多くの原因 (心不全、敗血症、腎疾患、肺塞栓症) による心筋損傷を検出するため、 95% . But specificity dropped from approximately 95% to around 80% を超えます。正味の臨床効果を得るには、トレードオフを理解するために複数の研究にわたる HSROC モデリングが必要でした。
An emergency department adopts hs-troponin. More patients now test positive, but many do not have acute MI.
PATH A: Adopt Based on Sensitivity Alone
心筋梗塞の検出率が 70% から 95% 以上に跳ね上がったことを祝う
↓
偽陽性の増加により、不必要なカテーテル挿入、入院、患者の不安が生じます。非心筋トロポニン上昇
OUTCOME: Overdiagnosis and wasted resources
パス B: トレードオフのモデル化
Use serial measurements (0h/1h or 0h/3h protocols) and clinical context to maintain specificity
↓
Rapid rule-out algorithms safely discharge low-risk patients; sensitivity remains high while managing the false positive rate
OUTCOME: Faster, safer triage of chest pain
THE REVELATION
感度と特異度は相互にトレードオフします。感度を高めた新しいテスト世代は、多くの場合、特異性を低下させます。 HSROC 曲線は、正味のトレードオフが患者に役立つか害を及ぼすかを明らかにするツールです。
と同じではありません。コクラン評決
COVID-19 Rapid Antigen Tests (Dinnes 2022 Cochrane Review)
Population Sensitivity Missed
Symptomatic 73% 27%
Asymptomatic 55% 45%
First 7 days 80% 20%
Dinnes J et al. Cochrane Database Syst Rev. 2022;7:CD013705
The False Security Decision Tree
Thanksgiving 2020: What Happened
Family Member Tests Negative
↓
55% if asymptomatic
True NegativeSafe to gather
45% if asymptomatic
FALSE NegativeInfectious!
↓
家族と集まりGrandparents infected
「そして検査結果は『陰性』でした」
家族は抱き合い、
そして冬の終わりまでに
祖父は「
癌を発見した検査
のことを聞いたことがありますか? would never kill ,
そして、それが治療法につながりました。 caused more harm than the disease ?
Can you trust a DTA meta-analysis done in a spreadsheet?
REAL DATA
DTA メタ分析には二変量モデルまたは HSROC が必要です。どちらも、相関する感度と特異度をロジット スケールで最尤推定する必要があります。 Excel の手動計算では頻繁にエラーが発生することが調査で文書化されています。Reinhart & Rogoff による画期的な研究 (2010 年、経済学) では、単純なスプレッドシートのエラーが世界的な政策変更にどのようにつながったかを実証しました。 DTA では、手動でロジット変換を適用し、感度/特異度を Excel で個別にプールすると、それらの間の相関関係が無視され、ソフトウェアで検証された二変量モデル (R mada/reitsma、Stata metandi、SAS NLMIXED) とは大きく異なるプールされた推定値が生成される可能性があります。
研究チームはプールする必要があるDTA の系統的レビューの感度と特異度。彼らは12の研究を行っています。チーム メンバーの 1 人が Excel モデルを構築します。もう 1 つは R の mada パッケージを使用します。
パス A: スプレッドシートを使用します
Pool sensitivity and specificity separately in Excel using simple averages or fixed-effect formulas
↓
感度と特異度の間の相関関係を無視します。ロジット変換エラーはさらに複雑になります。プールされた感度は約 12 パーセント ポイントオフです
OUTCOME: Wrong numbers published; clinical guidelines misled
PATH B: Use Validated Software
二変量モデルで R (mada/reitsma)、Stata (metandi)、または SAS (NLMIXED) を使用します
↓
適切な二変量 GLMM が感度と特異性のトレードオフを考慮し、有効な信頼領域を生成し、研究間の処理を行います異質性
OUTCOME: Reproducible, auditable, correct results
THE REVELATION
DTA メタ分析は単純なプーリングではありません。データの二変量の性質 (感度と特異度のペア) には、特殊な統計ソフトウェアが必要です。スプレッドシートのエラーは単に不便であるだけでなく、臨床現場を変える可能性があります。
過剰診断問題
3-4
Lives saved per 10,000 screened
50-130
Overdiagnosed (treated unnecessarily)
~500
False alarms (anxiety, biopsies)
THE QUESTION
3~4人の命を救うために、推定50~130人の女性が、本来なら害を及ぼすことのなかったがんに対して手術、放射線、または化学療法を受けています。
このトレードオフは価値がありますか?
Patient Decision Aid: Mammography
の場合50~69歳の女性10,000人が10年間スクリーニング検査を受ける
Deaths from breast cancer prevented
3-4 women
Women called back for false alarms
~500 women
Unnecessary biopsies
~200 women
女性に悪影響を及ぼさないがんの治療を受ける
~15 women
スクリーニング検査はあなたに適していますか?
The Screening Cascade Decision Tree
10年間にわたり1万人の女性を検査
↓
~1,000 RecalledAbnormal
↓
~15 Would Never KillOverdiagnosed
「そしてテストで影が見つかった、
し、それをガンと呼びました
そして女性は切られ火傷を負いました—
彼女の日々を決して暗くすることのなかった影のために。」
=================== モジュール 14:アルツハイマー病のアミロイド ====================
脳内のプラークを見つけるスキャン
について聞いたことがありますか?
しかし、それを伝えることはできません
心はこうなる fade ?
アミロイドパラドックス
ALZHEIMER'S RESEARCH, 2010s-2020s
PET scans can now detect amyloid plaques—the hallmark of Alzheimer's.
But 30% of cognitively normal elderly have amyloid plaques.
They may never develop dementia.
And 認知症患者の10~20% have no amyloid.
検査ではプラークが見つかるが、プラークは病気ではない。
我々は代用者を検査しているのだ。結果。
Jack CR et al. Lancet Neurol. 2018;17:760-773
Surrogate vs. Outcome Decision Tree
実際に検査するのは何ですか?
↓
Outcome itself
Direct Diagnosis例: がんの生検
↓
High clinical value
Surrogate marker
Indirect Signal例: 認知症のアミロイド
↓
Validated link?
"そして、スキャンでプラークが見つかりました。
医師はこれをアルツハイマー病と名付けました
そして患者は恐怖の中で暮らしました—
of a forgetting that might never come."
=================== モジュール 15: QUADAS-2 の品質====================
すべての研究が平等に作成されるわけではありません。
Some are biased .
Some are poorly designed .
一部の研究は、そうではありません trusted .
小麦をもみ殻から分離するにはどうすればよいですか?
もしほとんどのDTA研究が、自分の健康状態を判断するのに十分な情報さえ報告していないとしたらどうなるでしょうか。品質?
REAL DATA
STARD イニシアチブが 2003 年に発表される前、体系的な評価では、インデックス テストの解釈が盲検化されているかどうかを報告した DTA 研究は half 未満であり、参照規格の説明がしばしば不十分であることが判明しました。 STARD 以降、報告は改善されました。複数のメタ疫学評価では、フロー図や不確定な結果の処理などの重要な項目については依然として不十分であるにもかかわらず、複数のメタ疫学評価で STARD 項目の順守が大幅に上昇していることがわかりました。
チームは新しいポイントオブケアテストの DTA 研究を完了します。彼らは早く出版したいと考えています。彼らは 2x2 データを持っていますが、盲検化、患者の流れ、または不確定な結果を文書化していません。
PATH A: Publish Quickly
STARD フロー図または方法の完全なレポートなしで提出してください
↓
読者は盲検化、患者のスペクトル、または検証を評価できません。 QUADAS-2 評価では、すべてのドメインが「不明瞭」と評価されます。この研究は将来の系統的レビューから除外されるか、最悪の場合、加重値が膨らんだまま含まれる可能性があります。
OUTCOME: Waste of research; uninterpretable results
PATH B: Follow STARD Guidelines
STARD チェックリストを完了し、患者フロー図を作成し、不確定な結果を報告し、盲検化について説明します
↓
レビュー担当者は品質を完全に評価できます。 QUADAS-2 ドメインは応答可能です。この研究は系統的レビューと臨床ガイドラインに有意義に貢献しています。
結果: ケアを進歩させる信頼できる証拠
THE REVELATION
研究で方法が報告されていない場合、質を評価することはできません。 STARD は、DTA 研究が QUADAS-2 によって判定されるのに十分なほど完全であることを保証します。不完全なレポートは中立ではなく、偏見を隠します。
QUADAS-2: 品質チェックリスト
Four Domains of Risk of Bias
1
Patient Selection
連続サンプルまたはランダムサンプルが登録されましたか?ケースコントロール設計は避けられましたか?
2
Index Test
参照標準についての知識なしにテストが解釈されましたか?しきい値は事前に指定されていましたか?
3
Reference Standard
参照標準は状態を正しく分類する可能性がありますか?盲目的に解釈されたのでしょうか?
4
流れとタイミング
テスト間に適切な間隔がありましたか?すべての患者に同じ参照標準が投与されましたか?
QUADAS-2 Decision Tree
この研究を信じるべきですか?
↓
All Low Risk
High QualityTrust results
Some Unclear
Moderate慎重に使用してください
Any High Risk
Low Quality結果に偏りがある可能性がある
DTA 研究によくある偏見
!
Verification Bias
Only positive tests get the reference standard → inflates sensitivity
!
Spectrum Bias
研究対象集団が臨床現実と異なる → 結果は一般化しない
!
Incorporation Bias
Index test is part of reference standard → artificially high accuracy
!
Review Bias
Index test interpreted knowing reference result → inflates both metrics
「数字を信じる前に、
ask: How were they gathered?
偏った研究は自信を持って語ります—
but its confidence is a lie."
==================== モジュール 16: メタ分析と SROC ====================
ある研究では、欺瞞します。
1 つの研究はお世辞かもしれません。
でも集まると すべての証拠 —
the truth becomes harder to hide.
異なる研究で同じテストに対して異なる閾値が使用され、それらをプールしようとするとどうなりますか?
REAL DATA
D-dimer testing for pulmonary embolism (PE) traditionally used a fixed cutoff of 500 µg/L 。 ADJUST-PE試験(Righiniら、JAMA 2014)では、年齢調整カットオフ(age × 10 µg/L 50歳以上の患者の場合)により、 ~6% to ~30% によるDダイマー結果が陰性となった高齢患者の割合が増加し、年齢調整陰性群における3か月VTEリスクはわずか0.3%であることが示された。 D ダイマー研究の DTA メタ分析では、二変量モデルを使用する必要があります。これは、しきい値が異なると SROC 曲線に見られる感度と特異性のトレードオフが生じるためです。
高齢の患者 (75 歳) が PE の可能性を抱えて救急外来を受診しました。 D-ダイマーは 620 μg/L です。固定カットオフを使用すると、これは正になります。年齢調整カットオフ (750 µg/L) を使用すると、これは陰性になります。
PATH A: Use Fixed Cutoff (500 µg/L)
Apply one threshold to all patients regardless of age
↓
高齢患者は、ほぼ常に 500 µg/L を超えます。 80 歳を超えると特異度は 10% 未満に低下します。ほぼすべての高齢患者が、造影剤、放射線、付随的所見を伴う CT 肺血管造影検査を受けます。
OUTCOME: D-dimer becomes useless in the elderly
PATH B: Use Bivariate Model with Threshold Covariate
年齢調整されたカットオフを適用します。メタ分析におけるモデルの閾値変動
↓
SROC 曲線は、年齢調整された閾値が曲線に沿って移動し、少量の感度と引き換えに特異性を大幅に向上させていることを示しています。 30% 多い高齢患者が CT 画像検査を安全に回避しています。
OUTCOME: Fewer unnecessary scans; no missed PEs
THE REVELATION
閾値の変動が、DTA メタ分析に二変量モデルを必要とする理由です。研究ごとに異なるカットオフが使用されるため、感度と特異度の間にトレードオフが生じます。 SROC 曲線は、そのトレードオフのマップです。
Why DTA Meta-Analysis Is Different
THE PROBLEM
感度と特異度は correlated .
When one goes up, the other tends to go down.
治療効果のように別々にプールすることはできません。必要なのは bivariate model .
SROC 曲線
Summary Receiver Operating Characteristic
Sensitivity
1 - Specificity (False Positive Rate)
SROC の読み取り
曲線は何を教えてくれますか?
↓
Top-Left Corner
Excellent TestHigh sens + spec
Near Diagonal
Useless TestNo better than chance
Points Scattered
High HeterogeneityInvestigate sources
「1 つの研究では騙される可能性があります。
多くの研究を比較検討一緒に、
真実の道筋、
テストで実際に何ができるかを明らかにする SROC 曲線を追跡します。"
しかし、もし研究が disagree ?
One says sensitivity is 95%.
Another says 60%.
あなたはどの真実を信じますか?
検査が一般集団では良好に機能するが、最も検査を必要とする患者では失敗した場合はどうなりますか?
REAL DATA
HRP2-based malaria rapid diagnostic tests (RDTs) achieve sensitivity of approximately 95% in the general population in endemic areas. However, in pregnant women, sensitivity can drop to as low as 56-76% 寄生虫の胎盤隔離が原因で、寄生虫は胎盤に隠れ、末梢血寄生虫血症を低く抑え、RDT 検出閾値未満に保ちます。マラリア RDT のコクラン レビューでは、妊娠、5 歳未満の子供、HIV の同時感染を含む人口サブグループによって引き起こされる実質的な不均一性 (I2 が 80% を超えることが多い) を発見しました。
メタ分析では、25 件のマラリア RDT 研究をプールし、プールされた感度を報告しています。 93%。産前クリニックの臨床医は、これを使用して RDT が陰性の妊婦を安心させます。
PATH A: Trust the Overall Pooled Estimate
一般母集団メタ分析からの 93% の感度を適用します
↓
妊婦の場合、真の感度は 56 ~ 76% と低い可能性があります。感染した妊婦のかなりの割合が誤って安心している。妊娠中にマラリアを治療しないと、母体の重度の貧血、低出生体重、死産が引き起こされます。
OUTCOME: Preventable maternal and neonatal deaths
PATH B: Investigate Heterogeneity by Subgroup
妊婦のサブグループメタ分析を実施します。 I² と変動源を探索する
↓
妊娠が異質性の主な原因であることを発見してください。風土病地域で RDT が陰性のすべての妊婦に顕微鏡検査による確認を推奨します。
OUTCOME: Targeted protocols save mothers and babies
THE REVELATION
不均一性は単なる統計上のノイズではありません。これは、母集団が異なるとテストのパフォーマンスが異なることを示すことがよくあります。 I² を無視してすべてをプールすることは、脆弱なサブグループにとって致命的となる可能性があります。
Sources of Heterogeneity
なぜ研究結果が一致しないのか
ThresholdDifferent cutoffs
SettingPrimary vs specialist
Measuring Disagreement: I²
I² < 25%
Low Studies agree
I² 25-75%
Moderate Some variation
I² > 75%
High Major disagreement
THE WARNING
When I² > 75%, the pooled estimate may be meaningless .
Explain the disagreement before averaging.
「研究結果が一致しないときは、
反対意見を黙らせないでください。
Ask: Why do they see differently?
意見の相違自体が教えてくれます。」
==================== モジュール 18: ツールキット ====================
DTA ツールキット
重要な対策とそれをいつ使用するか
AI が医師よりも診断が優れていると主張する場合、全体的な AUC を信頼すべきですか?
REAL DATA
Deep learning models for skin cancer detection have reported AUC values as high as 0.91-0.94 in development datasets. However, external validation revealed alarming disparities: Daneshjou et al. (2022 、Nature Medicine) は、市販の AI 皮膚科ツールが、AUC が低く、色の濃い肌 (フィッツパトリック V ~ VI 型) ではほぼ偶然のレベルで機能することを発見しました。 0.50-0.57 のように - 基本的にランダム。トレーニング データセットは明るい肌の色に大きく偏っていました。これは、2x2 テーブルがすべての人口に対して適切に埋められることがなかったことを意味します。
ある病院は、都市部の多様な人口を対象とする皮膚科クリニックに AI 皮膚がんスクリーニング ツールの導入を検討しています。メーカーは、AUC 0.94 を報告しています。
PATH A: Deploy Based on Overall AUC
見出しの AUC 0.94 を信頼し、すべての患者に展開してください
↓
色の濃い皮膚の黒色腫は見逃される率が高くなります。全体的な感度の数値には危険なギャップが隠されています。診断が遅れて死亡率が最も高い患者は、AI が最も失敗する患者です。
OUTCOME: Health disparity amplified by technology
PATH B: Demand Fairness-Stratified Evaluation
肌の色調 (フィッツパトリックスケール)、年齢、病変の位置によって分類された感度と特異度が必要です
↓
パフォーマンスのギャップを発見します。多様なデータセットでの再トレーニングを要求するか、検証済みの母集団に使用を制限します。 AI と過小評価グループに対する皮膚科医の監視を組み合わせます。
OUTCOME: Equitable deployment; no one left behind
THE REVELATION
単一の AUC 数値によって、危険な格差が隠蔽される可能性があります。新しい AI ベースの診断ツールは、他の診断テストと同じ厳密さで評価する必要があります。母集団ごとに層別化し、外部で検証し、STARD および QUADAS-2 標準に準拠する必要があります。
The Checklist
✓
Was there a valid reference standard?
Gold standard applied to ALL patients?
✓
通訳者は盲目だったのでしょうか?
Test readers unaware of diagnosis?
✓
スペクトルは適切でしたか?
母集団と類似した患者?
✓
しきい値は事前に指定されていましたか?
それとも結果を最大化するために選択されましたか?
When Results Don't Match Suspicion
The Clinical Override Decision Tree
Test Negative, High Suspicion
↓
LR- < 0.1
Strong rule-outAccept negative
LR- 0.1-0.5
Repeat testOr different test
LR- > 0.5
Trust judgmentTest is weak
Sequential Testing Decision Tree
When One Test Isn't Enough
↓
Positive
↓
Confirmatory TestHigh specificity
↓
Negative
↓
Likely negativeIf high sens screen
"Armed with sensitivity, specificity, likelihood,
SROCと合意手段で武装し、
テストの嘘を見破ることができる――
そしてその真実を自分で判断してください。」
==================== モジュール 19: 輸血エラー ====================
患者さんのこと聞いてないんですか?
誰が受け取ったのか wrong blood ,
テストが間違っていたからではなく、
but because no one performed it ?
行われなかったテスト
HOSPITALS WORLDWIDE
ABO blood typing is nearly 100% accurate when performed.
Yet transfusion reactions still kill —テストの失敗によるものではなく、 human failure :
• Wrong blood drawn from wrong patient
• ラボでのラベルの切り替え
• Bedside check skipped in emergency
In the UK, 1 in 13,000 transfusions 間違った患者のところに行ってしまいます。テストはうまくいきました。システムが失敗しました。
Bolton-Maggs PHB. Transfus Med. 2016;26:303-311
Test vs. System Decision Tree
Where Can Things Go Wrong?
↓
Test itself
Analytical ErrorSens/Spec issue
↓
Better test needed
Pre-analytical
Wrong sampleID error
↓
System fix needed
Post-analytical
Wrong actionReporting error
↓
Process fix needed
"The perfect test means nothing
間違った血液が採取された場合、
間違ったラベルが適用されている場合、
間違ったバッグが掛けられています。」
DTA 研究ではテストの精度を測定します。システムの精度は測定されません。
==================== モジュール 20: クイズと参考資料====================
References
Key Sources
Carreyrou J. Bad Blood. Knopf, 2018. [Theranos]
CDC. MMWR. 1987;36(49):833-840. [HIV blood supply]
Herbst AL et al. N Engl J Med. 1971;284:878-881. [DES]
Moyer VA. Ann Intern Med. 2012;157:120-134. [PSA]
Pope JH et al. N Engl J Med. 2000;342:1163-1170. [Troponin]
Steingart KR et al. Cochrane 2014;1:CD009593. [GeneXpert]
Dinnes J et al. Cochrane 2022;7:CD013705. [COVID RAT]
UK Panel. Lancet. 2012;380:1778-1786. [Mammography]
Jack CR et al. Lancet Neurol. 2018;17:760-773. [Amyloid]
WHO. Malaria RDT Performance. 2022.
Reitsma JB et al. J Clin Epidemiol. 2005;58:982-990. [Bivariate]
Whiting PF et al. Ann Intern Med. 2011;155:529-536. [QUADAS-2]
Bolton-Maggs PHB. Transfus Med. 2016;26:303-311.
テストは 99% の感度と 99% の特異性を持っています。病気の有病率は1/1000です。患者が検査で陽性反応を示した。彼らが病気に罹患している確率はどれくらいでしょうか?
What does "SnNout" mean?
A highly Sensitive test, when Negative, rules OUT disease
A highly Specific test, when Negative, rules OUT disease
Sensitivity should be used for screening
Specificity should be above 90%
検査にもかかわらず血液供給がHIVに汚染されたのはなぜですか?
The tests had low specificity
Tests had a window period with zero sensitivity in early infection
検査は正しく実施されませんでした
検査は費用が高すぎました
どの QUADAS-2 ドメインが、テストが理解されずに解釈されたかどうかを評価します。診断?
Patient Selection
Index Test
Reference Standard
流れとタイミング
✔
Course Complete
「これで 4 つの結果がわかりました。
テストの 2 つの美徳
根拠の誤りレート、
証拠を集める技術
そして真実を隠す偏見。
次の試練があなたに課せられたとき—
分かるでしょう。 "