When The Test Lies: 究極の DTA コース (V4)

その女性の話を聞いたことがありませんか
who promised to 一滴の血で世界を変える,
who raised billions on a test that never worked?

Palo Alto, 2003

STANFORD UNIVERSITY

19 歳の少年は、一滴の滴から何百もの血液検査を受けるというビジョンを抱いて中退しました。

Investors believed. Walgreens believed. The Pentagon believed.

They gave her $9 billion.

しかし、テストでは間違った結果が得られました。患者は、HIVに感染していないにもかかわらず、HIVに感染していると告げられました。患者は、自分の血液は正常だったと言われました。 dying.

Carreyrou J. Bad Blood. 2018

欺瞞の決定木

What Theranos Did vs. What Should Happen

New Diagnostic Test

↓

SHOULD DO

Validate Against Gold Standard

↓

Publish TP/FP/FN/TN

↓

FDA Approval

THERANOS DID

Skip Validation

↓

Hide Failures

↓

Harm Patients

「そしてテストは嘘をつきました、
そしてその嘘は確実性を帯びていた、
そして誰も 2×2 テーブルを要求しませんでした。"

これが、私たちが診断テストの精度を研究する理由です。

When a test speaks,
あるだけです four possible truths.

二つは祝福です。 2つは呪いです。

システマティックレビューがすべての研究を同等に信頼するとどうなるでしょうか?

REAL DATA

DTA の系統的レビューにおける感度分析は、バイアスのリスクが高い研究を除外するとプールされた推定値が変化することを一貫して示しています。マンモグラフィースクリーニングでは、盲検読影を行わない症例対照デザインは感度を高める傾向があります。一般原則は十分に文書化されています。QUADAS-2 品質評価では、プールされた感度を次のように変更できます。 10-15 percentage points 偏った研究が除去されるとき。

QUADAS-2 マンモグラフィ検査

レビューチームは 15 件のマンモグラフィー DTA 研究をプールしています。 5人は、症例対照設計と盲検解釈によるバイアスのリスクが高い。

パス A: すべての研究をプールする

Include all 15 studies regardless of quality

↓

Biased 2x2 tables inflate TP counts, producing a pooled sensitivity of 87%

OUTCOME: Overconfidence in screening accuracy

PATH B: Apply Quality Assessment

Exclude high risk-of-bias studies using QUADAS-2

↓

Remaining 10 low-RoB studies yield sensitivity of approximately 75%

OUTCOME: Honest numbers guide honest decisions

THE REVELATION

4 つの結果 (TP、FP、FN、TN) は、それらを導き出した研究が信頼できる場合にのみ信頼できます。偏った研究は 2x2 テーブル全体を汚染します。

結果のツリー

Every Test Result Has a Reality Behind It

Patient Tested

↓

真実とは何でしょうか？

Has Disease

D+

↓

TPTest +

FNTest -

No Disease

D-

↓

FPTest +

TNTest -

神聖な 2x2 テーブル

HIV Rapid Test Example (Real Data)

	HIV+	HIV-	Total
Test +	98	3	101
Test -	2	895	897
Total	100	898	998

この表からすべての真実が得られます

Sensitivity = 98/100 = 98%
Specificity = 895/898 = 99.7%

"Two outcomes save. Two outcomes harm.
TP、TN: テストは真実でした。
FP、FN: 検査は嘘だった。
Know them by name, for they determine fate."

血液検査のことを聞いたことがありませんか?
found clean,
そして何千人もの人に与えられました—
while death swam within it?

血液供給危機、1985 年

UNITED STATES

When HIV testing began, doctors celebrated: they could now screen the blood supply.

しかし、テストには window period—ウイルスが存在していた感染後数週間ですが、 undetectable.

血液検査が行われました。血液検査は「陰性」だった。輸血された。

8,000-12,000 Americans より良い検査が可能になる前に、輸血によって感染したのです。

CDC. MMWR. 1987;36(49):833-840

The Window Period Decision Tree

Why False Negatives Are Deadly

Person Recently Infected

↓

Time Since Infection?

< 2 weeks

Test NEGATIVEVirus present!

↓

Blood DonatedOthers infected

> 4 weeks

Test POSITIVECorrectly detected

↓

Blood DiscardedSupply safe

時間の経過とともに感度が変化する

0%

Day 1-7
Eclipse period

~50%

Day 14
Seroconversion

~95%

Day 21
Most detected

99.9%

Day 45+
Window closed

THE LESSON

感度は固定ではありません。 It depends on when you test. A "99% sensitive" test may be 0% sensitive in early infection.

「そしてテストでは『クリーン』と出ました。
なぜなら、ウイルスはまだその姿を現していなかったからだ。
そして血は分かち合った、
そして感染は罪のない人々に広がった。」

母親に与えられた錠剤について聞いたことがありますか?
to protect their pregnancies,
that planted cancer in their daughters
twenty years before it bloomed?

1938 年から 1971 年の DES の悲劇

UNITED STATES & EUROPE

Diethylstilbestrol (DES) was given to millions of pregnant women to prevent miscarriage.

No proper clinical trial was ever conducted. Doctors assumed it worked because it seemed reasonable.

Decades later, their daughters developed a rare cancer: clear cell adenocarcinoma of the vagina. A cancer so rare it was a diagnostic signal in itself.

5-10 million women の被害が暴露されました。

Herbst AL et al. N Engl J Med. 1971;284:878-881

検証デシジョンツリー

What Should Have Happened

New Medical Intervention

↓

適切にテストされましたか?

YES

Randomized Trial

↓

Long-term Follow-up

↓

Know True Effects利益と害

NO (DES)

Assumption Only

↓

Widespread Use

↓

Hidden HarmDiscovered too late

診断信号

希少性が高まったとき証拠

膣の明細胞腺癌は若い女性では非常にまれであったため、 7 cases in one hospital triggered an investigation.

クラスター自体が診断検査となった。
Sensitivity to DES exposure: nearly 100%
この年齢でこの癌を患っていれば、ほぼ確実に感染していることになる。

1:1000

Risk of clear cell
cancer in DES daughters

5-10M

Women exposed
worldwide

そして母親たちは錠剤を服用した。希望、
そして娘たちは影の中で成長しました
そして 20 年後、癌が開花しました—
a diagnosis that indicted a generation of medicine."

A test has two virtues and two vices.

Sensitivity: 病気の人を見つけることはできますか?

Specificity：健康な人を救うことができるでしょうか？

現実世界でテストが使用される場合、研究室からの感度数値を信頼できますか?

REAL DATA

The BinaxNOW COVID-19 rapid antigen test reported sensitivity of approximately 84-97% in symptomatic individuals in manufacturer studies. However, real-world evaluations found sensitivity as low as 35-64% ウイルス量とタイミングに応じて、無症状の人でも感染します。迅速抗原検査に関するコクランのレビュー (Dinnes 2022) では、平均感度が次のとおりであることが確認されました。 73% 症候性でのみ 55% 100を超える研究評価にわたる無症候性集団における。

The COVID Rapid Test Paradox: 2020-2021

A university plans to screen asymptomatic students weekly before allowing campus access. They read the manufacturer's claim of high sensitivity.

PATH A: Trust Lab Sensitivity

Rely on manufacturer's high sensitivity figure

↓

ウイルス量が少ない無症候性キャリアが検査で陰性となり授業に出席し、ウイルスを拡散させる

OUTCOME: False sense of safety; campus outbreaks

パス B: 現実世界のデータを要求する

実際の対象集団（無症状の学生）を対象とした研究を模索する

↓

Discover sensitivity is roughly 55% in asymptomatic people; add serial testing and other safeguards

OUTCOME: Layered safety catches more cases

THE REVELATION

感度はテストの固定特性ではありません。それは人口、病気の段階、環境によって変化します。常に尋ねてください: 感度 whom?

感受性: ハンター

THE FORMULA

Sensitivity = TP / (TP + FN)

"Of all the sick, how many did we catch?"

Worked Example: COVID PCR Test

Given: 200 infected patients tested

TP = 196 (correctly positive), FN = 4 (missed)

Sensitivity = 196 / (196 + 4) = 196/200 = 98%

Interpretation: Test catches 98 of every 100 infected people

特異性: ガーディアン

THE FORMULA

Specificity = TN / (TN + FP)

"Of all the healthy, how many did we spare?"

Worked Example: Same COVID PCR Test

Given: 1000 uninfected people tested

TN = 999 (correctly negative), FP = 1 (false alarm)

Specificity = 999 / (999 + 1) = 999/1000 = 99.9%

Interpretation: Test correctly clears 999 of every 1000 healthy people

記憶のルール

When to Use Which Test

あなたは何が必要ですか？

RULE OUT disease

Use HIGH SENSITIVITY

↓

SnNoutSensitive Negative = OUT

RULE IN disease

Use HIGH SPECIFICITY

↓

SpPinSpecific Positive = IN

「敏感さが病人を捕まえる。
特異性があれば問題はありません。
But no test masters both perfectly—
これが我々が負う重荷だ。」

医師の診察を受けなかったのですか
who saw 99% accurate
and believed a positive result meant 99% certainty?

これは医療における最も致命的な間違いです。

基本料金の誤謬

THE PUZZLE

A disease affects 1 in 1000 people.
検査の感度は 99%、特異度は 99% です。
A patient tests positive.

彼らが病気に罹患している確率はどれくらいでしょうか?

Most doctors say ~99%. 本当の答えは約9％です。

明らかになった数学

Testing 100,000 People (Prevalence 1/1000)

Step 1: 100 have disease, 99,900 healthy

Step 2: Of 100 sick: 99 test positive (TP), 1 negative (FN)

Step 3: Of 99,900 healthy: 999 test positive (FP), 98,901 negative (TN)

Step 4: Total positives = 99 + 999 = 1,098

PPV = TP / All Positives = 99 / 1,098 = 9%

陽性結果の 91% は偽陽性です。

Interactive Base Rate Calculator

See How Prevalence Changes PPV

Prevalence:

1%

Sensitivity:

99%

Specificity:

99%

9%

Positive Predictive Value (PPV)

陽性の 91% は誤りアラーム

有病率の決定木

Same Test, Different Settings

Test: 99% Sens, 99% Spec

↓

Where Is Testing Done?

General Pop
0.1%

PPV = 9%91% false +

High-Risk
10%

PPV = 92%8% false +

Confirmatory
50%

PPV = 99%1% false +

「そして医師は『99％正確です』と言いました。」
すると患者は「99％確実だ」と聞きました。
そして二人とも騙された――
なぜなら彼らは、「この病気はどれくらい珍しいのですか？」と尋ねるのを忘れていたからです。」

マシン
that could find TB in two hours,
のことを聞いたことがありますか? revolutionary—
と呼ばれていましたが、 drug-resistant strains?

南アフリカの GeneXpert Story

CAPE TOWN, 2010

を見逃していました。1 世紀にわたり、結核の診断には数週間かけて細菌を増殖させる必要がありました。次に GeneXpert が登場しました。結果は 2 hours.

South Africa deployed it nationwide. The WHO endorsed it.

でしたが、患者の場合は low bacterial loads—often HIV co-infected— sensitivity dropped to 67%. One in three cases missed.

、リファンピシン耐性を検出するために、耐性症例の 5% を見逃していました。それらの患者は間違った治療を受けました。耐性結核が蔓延しています。

Steingart KR et al. Cochrane Database Syst Rev. 2014;1:CD009593

TB Diagnosis Decision Tree

GeneXpert が不十分な場合

Suspected TB Patient

↓

GeneXpert Test

↓

Positive

↓

Rifampicin?

SensitiveStandard Tx

ResistantMDR-TB Tx

Negative

↓

HIV+ or High Suspicion?

YesCulture needed

NoLikely negative

Sensitivity by Patient Type

98%

Smear-positive
(high bacterial load)

67%

Smear-negative
(low bacterial load)

61%

HIV co-infected
(immune suppressed)

THE LESSON

臨床試験での検査の感度は、患者の感度と一致しない可能性があります。 あなたの集団を知りましょう。

そして機械は言いました。「陰性」
そして医師は機械を信じた
そして患者は肺に結核を抱えて帰宅し、
咳を我慢して外へ出た。"

男性向けのテストについて聞いたことはありませんか
癌が発見された never kill,
そして、それが治療法につながりました。 destroyed lives?

PSAスクリーニングの悲劇

UNITED STATES, 1990s-2010s

PSA (Prostate-Specific Antigen) could detect prostate cancer early.

医師たちは何百万人もの男性を検査しました。がんが見つかった。前立腺を切除した。

しかし、これらの「がん」の多くは症状を引き起こすことはありませんでした。手術が原因で インポテンスと失禁 in men who would have died of old age, not cancer.

Moyer VA. Ann Intern Med. 2012;157:120-134

PSA スクリーニングのジレンマ: 2012

60歳の男性がPSAスクリーニングについて医師に尋ねます。 4.0 ng/mL カットオフでの PSA の感度は高悪性度がんに対して約 21% ですが、多くの低進行性がんも検出します。

PATH A: Screen All Men

50歳以上の男性全員を対象とした定期PSA検査

↓

13年間に検査を受けた1,000人当たり：1～2人の死亡は防がれたが、100人以上の誤報があり、30～40人の男性が低進行性がんの治療により無力または失禁したままになった

OUTCOME: Net harm exceeds benefit at population level

PATH B: Shared Decision-Making

害と利益について話し合います。危険因子、平均余命、患者の価値観に合わせて個別化する

↓

High-risk men can choose screening; low-risk men can decline; active surveillance replaces immediate surgery for low-grade findings

OUTCOME: Fewer unnecessary treatments; patient autonomy preserved

THE REVELATION

検出率が高いテストでは、検出する必要のない状態が検出されると、良い影響よりも有害な結果が生じる可能性があります。過剰診断は、低進行性疾患における高い感度の隠れたコストです。

害の数

1

～から救われた命
prostate cancer
per 1000 screened

30-40

Men made impotent
or incontinent
per 1000 screened

100+

False positives
(biopsies, anxiety)
per 1000 screened

THE REVERSAL

In 2012, the US Preventive Services Task Force recommended against 定期的なPSA検査。テストでは、見つける必要のないものが多すぎました。

Patient Decision Aid: PSA Screening

55 ～ 69 歳の男性 1,000 人が 13 年間検査を受けた場合

Deaths from prostate cancer prevented

1-2 men

Men who will have false positive requiring biopsy

100-120 men

決して害を及ぼすことのない癌と診断された男性

20-50 men

Men left impotent or incontinent from treatment

30-40 men

このトレードオフはあなたに受け入れられますか?

「そしてテストで影が見つかった、
そして外科医が切った、
そして男は生きていた――無力で失禁していた――
決して目覚めることのなかった癌からです。」

胸痛を患った男性
のことを聞いたことがありませんか?その男性の最初のトロポニンは normal,
自宅に送られ、その後死亡しました
朝ですか?

トロポニンのタイミングの問題

EMERGENCY DEPARTMENTS WORLDWIDE

トロポニンは心臓発作診断のゴールドスタンダードです。しかし、それには時間がかかります 3-6 hours to rise after myocardial injury.

A patient arrives one hour after chest pain begins. Troponin is tested: normal. "You're fine. Go home."

心臓は瀕死の状態でした。タンパク質はまだ漏れていませんでした。

Studies show 2-5% of MI patients sent home from ED die within 30 days.

Pope JH et al. N Engl J Med. 2000;342:1163-1170

Serial Testing Decision Tree

2 トロポニンプロトコル

Chest Pain Patient

↓

First Troponin

↓

Elevated

↓

Treat as MI

Normal

↓

When Did Pain Start?

<6 hrs

Wait 3 hrsRepeat troponin

>6 hrs

Low riskConsider d/c

High-Sensitivity Troponin

~70%

Conventional troponin
sensitivity at 0 hrs

~95%

hs-Troponin
sensitivity at 0 hrs

99%

hs-Troponin
at 3 hrs serial

THE TRADE-OFF

High-sensitivity troponin catches more heart attacks early. But it also has more false positives—elevated in kidney disease, heart failure, sepsis, and marathon runners.

「そして、検査では「正常」と判定されました。
、心臓はちょうど死に始めていたからです。
そして患者は安心してください、
and went home to finish dying."

感度はテストを表します。
特異性はテストを説明します。

しかし、患者はこう尋ねます。
"I tested positive. What are MY chances?"

公表されている検定の感度が真実よりも高く、したがって計算した尤度比が間違っている場合はどうなるでしょうか?

REAL DATA

Rapid strep tests (RADT) showed pooled sensitivity of approximately 86% コクランレビューに含まれる出版された研究で。しかし、未公開のメーカーデータを含む FDA 510(k) 規制当局への提出では、感度推定値はわずか 70-75%。感度が高く公表された研究は、出版のために提出される可能性が高くなります。これは、見かけの精度を誇張する出版バイアスの典型的なケースです。

The Rapid Strep Test Publication Gap

臨床医は、子供の喉の痛みを治療するかどうかを決定するために、公開されたデータから LR+ を計算します (感度 86%、特異度 95%)。しかし、実際の感度は 70% にすぎない可能性があります。

PATH A: Trust Published Meta-Analysis

公開データの LR+ を使用 (86/5 = 17.2)

↓

LR+ を過大評価すると、陰性の結果に対する過信につながります。溶連菌に感染した子供たちは抗生物質を投与されずに帰宅する

OUTCOME: Missed strep leads to rheumatic fever risk

パス B: 規制データを求める

FDA 提出の LR+ を使用し (70/5 = 14)、LR- の方が悪いことに注意してください (0.32 対 0.15)。

↓

Recognize a negative RADT cannot confidently exclude strep; back up with throat culture when clinical suspicion is high

OUTCOME: Appropriate caution protects children

THE REVELATION

尤度比は、それを生み出す感度と特異度ほど正確ではありません。出版バイアスにより正確さが増大し、LR+ は楽観的になりすぎ、LR- は安心感が強すぎます。常に質問してください: 未発表の研究が欠落していませんか?

Likelihood Ratios

POSITIVE LIKELIHOOD RATIO

LR+ = Sensitivity / (1 - Specificity)

How much more likely is a + result in sick vs healthy?

NEGATIVE LIKELIHOOD RATIO

LR- = (1 - Sensitivity) / Specificity

How much more likely is a - result in sick vs healthy?

フェイガンのノモグラム

テスト前からテスト後の確率まで

Pre-Test
Probability

99%

50%

20%

5%

1%

Likelihood
Ratio

100

10

1

0.1

0.01

Post-Test
Probability

99%

80%

50%

20%

1%

Draw a line from pre-test through LR to find post-test probability

Interpreting Likelihood Ratios

このテストはどれほど強力ですか?

LR+ Value?

LR+ > 10Strong rule-in

5-10Moderate

2-5Weak

1-2Useless

LR- Value?

< 0.1Strong rule-out

0.1-0.2Moderate

0.2-0.5Weak

0.5-1Useless

「感受性は病人について語る。
特異性は井戸について語ります。
But the likelihood ratio answers:
この結果はこの患者にとって何を意味するのでしょうか?"

村で熱を出している子供を見かけませんでしたか？
と言う迅速検査 negative,
and the Plasmodium それは増え続けましたか？

マラリアRDT問題

SUB-SAHARAN AFRICA

Malaria kills 600,000 people yearly, mostly children under 5.

Rapid Diagnostic Tests were meant to guide treatment in remote areas without microscopes or laboratories.

But when parasitemia is low—RDT はケースを見逃します. And when P. falciparum HRP2遺伝子を削除します— the RDT sees nothing at all.

WHO. Malaria RDT Performance. 2022

臨床意思決定ツリー

Child with Fever in Malaria-Endemic Area

Febrile Child

↓

Perform RDT

↓

RDT Positive

↓

マラリアの治療

RDT Negative

↓

Clinical Suspicion?

High

Treat Anywayor Microscopy

Low

Look forOther Cause

Sensitivity Varies by Parasitemia

95%

High parasitemia
(>200/μL)

75%

Low parasitemia
(100-200/μL)

50%

Very low
(<100/μL)

臨床レッスン

A negative RDT does not rule out malaria in endemic areas. Clinical judgment must override the test when suspicion is high.

「そして検査結果は『陰性』でした」
そして子供は家に帰されました、
そして寄生虫は暗闇の中で増殖し、
そして朝までに子供は目を覚ますことができませんでした。"

疫病の年に、
世界は fast.

というテストを必要としていましたが、速いということは accurate.

高感度の新世代の検査が登場すると、自動的に検査の精度も向上しますか?

REAL DATA

高感度トロポニン (hs-cTn) アッセイにより、急性心筋梗塞の感度がおよそ 70% (従来のトロポニンhs-cTn は、MI 以外の多くの原因 (心不全、敗血症、腎疾患、肺塞栓症) による心筋損傷を検出するため、 95%. But specificity dropped from approximately 95% to around 80% を超えます。正味の臨床効果を得るには、トレードオフを理解するために複数の研究にわたる HSROC モデリングが必要でした。

トロポニン生成シフト: 2010 年代

An emergency department adopts hs-troponin. More patients now test positive, but many do not have acute MI.

PATH A: Adopt Based on Sensitivity Alone

心筋梗塞の検出率が 70% から 95% 以上に跳ね上がったことを祝う

↓

偽陽性の増加により、不必要なカテーテル挿入、入院、患者の不安が生じます。非心筋トロポニン上昇

OUTCOME: Overdiagnosis and wasted resources

パス B: トレードオフのモデル化

Use serial measurements (0h/1h or 0h/3h protocols) and clinical context to maintain specificity

↓

Rapid rule-out algorithms safely discharge low-risk patients; sensitivity remains high while managing the false positive rate

OUTCOME: Faster, safer triage of chest pain

THE REVELATION

感度と特異度は相互にトレードオフします。感度を高めた新しいテスト世代は、多くの場合、特異性を低下させます。 HSROC 曲線は、正味のトレードオフが患者に役立つか害を及ぼすかを明らかにするツールです。

と同じではありません。コクラン評決

COVID-19 Rapid Antigen Tests (Dinnes 2022 Cochrane Review)

Population	Sensitivity	Missed
Symptomatic	73%	27%
Asymptomatic	55%	45%
First 7 days	80%	20%

Dinnes J et al. Cochrane Database Syst Rev. 2022;7:CD013705

The False Security Decision Tree

Thanksgiving 2020: What Happened

Family Member Tests Negative

↓

Truly Negative?

55% if asymptomatic

True NegativeSafe to gather

45% if asymptomatic

FALSE NegativeInfectious!

↓

家族と集まりGrandparents infected

「そして検査結果は『陰性』でした」
家族は抱き合い、
そして冬の終わりまでに
祖父は「

癌を発見した検査
のことを聞いたことがありますか? would never kill,
そして、それが治療法につながりました。 caused more harm than the disease?

Can you trust a DTA meta-analysis done in a spreadsheet?

REAL DATA

DTA メタ分析には二変量モデルまたは HSROC が必要です。どちらも、相関する感度と特異度をロジットスケールで最尤推定する必要があります。 Excel の手動計算では頻繁にエラーが発生することが調査で文書化されています。Reinhart & Rogoff による画期的な研究 (2010 年、経済学) では、単純なスプレッドシートのエラーが世界的な政策変更にどのようにつながったかを実証しました。 DTA では、手動でロジット変換を適用し、感度/特異度を Excel で個別にプールすると、それらの間の相関関係が無視され、ソフトウェアで検証された二変量モデル (R mada/reitsma、Stata metandi、SAS NLMIXED) とは大きく異なるプールされた推定値が生成される可能性があります。

QUADAS Excel エラー

研究チームはプールする必要があるDTA の系統的レビューの感度と特異度。彼らは12の研究を行っています。チームメンバーの 1 人が Excel モデルを構築します。もう 1 つは R の mada パッケージを使用します。

パス A: スプレッドシートを使用します

Pool sensitivity and specificity separately in Excel using simple averages or fixed-effect formulas

↓

感度と特異度の間の相関関係を無視します。ロジット変換エラーはさらに複雑になります。プールされた感度は約 12 パーセントポイントオフです

OUTCOME: Wrong numbers published; clinical guidelines misled

PATH B: Use Validated Software

二変量モデルで R (mada/reitsma)、Stata (metandi)、または SAS (NLMIXED) を使用します

↓

適切な二変量 GLMM が感度と特異性のトレードオフを考慮し、有効な信頼領域を生成し、研究間の処理を行います異質性

OUTCOME: Reproducible, auditable, correct results

THE REVELATION

DTA メタ分析は単純なプーリングではありません。データの二変量の性質 (感度と特異度のペア) には、特殊な統計ソフトウェアが必要です。スプレッドシートのエラーは単に不便であるだけでなく、臨床現場を変える可能性があります。

過剰診断問題

3-4

Lives saved
per 10,000 screened

50-130

Overdiagnosed
(treated unnecessarily)

~500

False alarms
(anxiety, biopsies)

THE QUESTION

3～4人の命を救うために、推定50～130人の女性が、本来なら害を及ぼすことのなかったがんに対して手術、放射線、または化学療法を受けています。

このトレードオフは価値がありますか?

Patient Decision Aid: Mammography

の場合50～69歳の女性10,000人が10年間スクリーニング検査を受ける

Deaths from breast cancer prevented

3-4 women

Women called back for false alarms

~500 women

Unnecessary biopsies

~200 women

女性に悪影響を及ぼさないがんの治療を受ける

~15 women

スクリーニング検査はあなたに適していますか?

The Screening Cascade Decision Tree

10年間にわたり1万人の女性を検査

10,000 Women

↓

~1,000 RecalledAbnormal

↓

~500 False
Alarm

~500 Biopsy
~50 cancer

~9,000 Cleared

Of ~50 Cancers Found

~35 Would Kill3-4 saved

~15 Would Never KillOverdiagnosed

「そしてテストで影が見つかった、
し、それをガンと呼びました
そして女性は切られ火傷を負いました—
彼女の日々を決して暗くすることのなかった影のために。」

脳内のプラークを見つけるスキャン
について聞いたことがありますか?
しかし、それを伝えることはできません
心はこうなる fade?

アミロイドパラドックス

ALZHEIMER'S RESEARCH, 2010s-2020s

PET scans can now detect amyloid plaques—the hallmark of Alzheimer's.

But 30% of cognitively normal elderly have amyloid plaques. They may never develop dementia.

And 認知症患者の10～20% have no amyloid.

検査ではプラークが見つかるが、プラークは病気ではない。 我々は代用者を検査しているのだ。結果。

Jack CR et al. Lancet Neurol. 2018;17:760-773

Surrogate vs. Outcome Decision Tree

実際に検査するのは何ですか?

Diagnostic Test

↓

What Does It Detect?

Outcome itself

Direct Diagnosis例: がんの生検

↓

High clinical value

Surrogate marker

Indirect Signal例: 認知症のアミロイド

↓

Validated link?

YesUse cautiously

NoLimited value

"そして、スキャンでプラークが見つかりました。
医師はこれをアルツハイマー病と名付けました
そして患者は恐怖の中で暮らしました—
of a forgetting that might never come."

すべての研究が平等に作成されるわけではありません。

Some are biased.
Some are poorly designed.
一部の研究は、そうではありません trusted.

小麦をもみ殻から分離するにはどうすればよいですか?

もしほとんどのDTA研究が、自分の健康状態を判断するのに十分な情報さえ報告していないとしたらどうなるでしょうか。品質?

REAL DATA

STARD イニシアチブが 2003 年に発表される前、体系的な評価では、インデックステストの解釈が盲検化されているかどうかを報告した DTA 研究は half 未満であり、参照規格の説明がしばしば不十分であることが判明しました。 STARD 以降、報告は改善されました。複数のメタ疫学評価では、フロー図や不確定な結果の処理などの重要な項目については依然として不十分であるにもかかわらず、複数のメタ疫学評価で STARD 項目の順守が大幅に上昇していることがわかりました。

STARD 革命: 2003

チームは新しいポイントオブケアテストの DTA 研究を完了します。彼らは早く出版したいと考えています。彼らは 2x2 データを持っていますが、盲検化、患者の流れ、または不確定な結果を文書化していません。

PATH A: Publish Quickly

STARD フロー図または方法の完全なレポートなしで提出してください

↓

読者は盲検化、患者のスペクトル、または検証を評価できません。 QUADAS-2 評価では、すべてのドメインが「不明瞭」と評価されます。この研究は将来の系統的レビューから除外されるか、最悪の場合、加重値が膨らんだまま含まれる可能性があります。

OUTCOME: Waste of research; uninterpretable results

PATH B: Follow STARD Guidelines

STARD チェックリストを完了し、患者フロー図を作成し、不確定な結果を報告し、盲検化について説明します

↓

レビュー担当者は品質を完全に評価できます。 QUADAS-2 ドメインは応答可能です。この研究は系統的レビューと臨床ガイドラインに有意義に貢献しています。

結果: ケアを進歩させる信頼できる証拠

THE REVELATION

研究で方法が報告されていない場合、質を評価することはできません。 STARD は、DTA 研究が QUADAS-2 によって判定されるのに十分なほど完全であることを保証します。不完全なレポートは中立ではなく、偏見を隠します。

QUADAS-2: 品質チェックリスト

Four Domains of Risk of Bias

1

Patient Selection

連続サンプルまたはランダムサンプルが登録されましたか?ケースコントロール設計は避けられましたか?

2

Index Test

参照標準についての知識なしにテストが解釈されましたか?しきい値は事前に指定されていましたか?

3

Reference Standard

参照標準は状態を正しく分類する可能性がありますか?盲目的に解釈されたのでしょうか？

4

流れとタイミング

テスト間に適切な間隔がありましたか?すべての患者に同じ参照標準が投与されましたか?

QUADAS-2 Decision Tree

この研究を信じるべきですか?

DTA Study

↓

Check All 4 Domains

All Low Risk

High QualityTrust results

Some Unclear

Moderate慎重に使用してください

Any High Risk

Low Quality結果に偏りがある可能性がある

DTA 研究によくある偏見

!

Verification Bias

Only positive tests get the reference standard → inflates sensitivity

!

Spectrum Bias

研究対象集団が臨床現実と異なる → 結果は一般化しない

!

Incorporation Bias

Index test is part of reference standard → artificially high accuracy

!

Review Bias

Index test interpreted knowing reference result → inflates both metrics

「数字を信じる前に、
ask: How were they gathered?
偏った研究は自信を持って語ります—
but its confidence is a lie."

ある研究では、欺瞞します。
1 つの研究はお世辞かもしれません。

でも集まると すべての証拠—
the truth becomes harder to hide.

異なる研究で同じテストに対して異なる閾値が使用され、それらをプールしようとするとどうなりますか?

REAL DATA

D-dimer testing for pulmonary embolism (PE) traditionally used a fixed cutoff of 500 µg/L。 ADJUST-PE試験（Righiniら、JAMA 2014）では、年齢調整カットオフ（age × 10 µg/L 50歳以上の患者の場合）により、 ~6% to ~30%によるDダイマー結果が陰性となった高齢患者の割合が増加し、年齢調整陰性群における3か月VTEリスクはわずか0.3％であることが示された。 D ダイマー研究の DTA メタ分析では、二変量モデルを使用する必要があります。これは、しきい値が異なると SROC 曲線に見られる感度と特異性のトレードオフが生じるためです。

The D-dimer Threshold Dilemma: ADJUST-PE 2014

高齢の患者 (75 歳) が PE の可能性を抱えて救急外来を受診しました。 D-ダイマーは 620 μg/L です。固定カットオフを使用すると、これは正になります。年齢調整カットオフ (750 µg/L) を使用すると、これは陰性になります。

PATH A: Use Fixed Cutoff (500 µg/L)

Apply one threshold to all patients regardless of age

↓

高齢患者は、ほぼ常に 500 µg/L を超えます。 80 歳を超えると特異度は 10% 未満に低下します。ほぼすべての高齢患者が、造影剤、放射線、付随的所見を伴う CT 肺血管造影検査を受けます。

OUTCOME: D-dimer becomes useless in the elderly

PATH B: Use Bivariate Model with Threshold Covariate

年齢調整されたカットオフを適用します。メタ分析におけるモデルの閾値変動

↓

SROC 曲線は、年齢調整された閾値が曲線に沿って移動し、少量の感度と引き換えに特異性を大幅に向上させていることを示しています。 30% 多い高齢患者が CT 画像検査を安全に回避しています。

OUTCOME: Fewer unnecessary scans; no missed PEs

THE REVELATION

閾値の変動が、DTA メタ分析に二変量モデルを必要とする理由です。研究ごとに異なるカットオフが使用されるため、感度と特異度の間にトレードオフが生じます。 SROC 曲線は、そのトレードオフのマップです。

Why DTA Meta-Analysis Is Different

THE PROBLEM

感度と特異度は correlated. When one goes up, the other tends to go down.

治療効果のように別々にプールすることはできません。必要なのは bivariate model.

SROC 曲線

Summary Receiver Operating Characteristic

Sensitivity

1 - Specificity (False Positive Rate)

Individual studies

Summary estimate

SROC の読み取り

曲線は何を教えてくれますか?

SROC Curve Position

↓

Top-Left Corner

Excellent TestHigh sens + spec

Near Diagonal

Useless TestNo better than chance

Points Scattered

High HeterogeneityInvestigate sources

「1 つの研究では騙される可能性があります。
多くの研究を比較検討一緒に、
真実の道筋、
テストで実際に何ができるかを明らかにする SROC 曲線を追跡します。"

しかし、もし研究が disagree?

One says sensitivity is 95%.
Another says 60%.

あなたはどの真実を信じますか？

検査が一般集団では良好に機能するが、最も検査を必要とする患者では失敗した場合はどうなりますか?

REAL DATA

HRP2-based malaria rapid diagnostic tests (RDTs) achieve sensitivity of approximately 95% in the general population in endemic areas. However, in pregnant women, sensitivity can drop to as low as 56-76% 寄生虫の胎盤隔離が原因で、寄生虫は胎盤に隠れ、末梢血寄生虫血症を低く抑え、RDT 検出閾値未満に保ちます。マラリア RDT のコクランレビューでは、妊娠、5 歳未満の子供、HIV の同時感染を含む人口サブグループによって引き起こされる実質的な不均一性 (I2 が 80% を超えることが多い) を発見しました。

妊娠におけるマラリア RDT

メタ分析では、25 件のマラリア RDT 研究をプールし、プールされた感度を報告しています。 93%。産前クリニックの臨床医は、これを使用して RDT が陰性の妊婦を安心させます。

PATH A: Trust the Overall Pooled Estimate

一般母集団メタ分析からの 93% の感度を適用します

↓

妊婦の場合、真の感度は 56 ～ 76% と低い可能性があります。感染した妊婦のかなりの割合が誤って安心している。妊娠中にマラリアを治療しないと、母体の重度の貧血、低出生体重、死産が引き起こされます。

OUTCOME: Preventable maternal and neonatal deaths

PATH B: Investigate Heterogeneity by Subgroup

妊婦のサブグループメタ分析を実施します。 I² と変動源を探索する

↓

妊娠が異質性の主な原因であることを発見してください。風土病地域で RDT が陰性のすべての妊婦に顕微鏡検査による確認を推奨します。

OUTCOME: Targeted protocols save mothers and babies

THE REVELATION

不均一性は単なる統計上のノイズではありません。これは、母集団が異なるとテストのパフォーマンスが異なることを示すことがよくあります。 I² を無視してすべてをプールすることは、脆弱なサブグループにとって致命的となる可能性があります。

Sources of Heterogeneity

なぜ研究結果が一致しないのか

同じテストでも結果は異なりますか?

ThresholdDifferent cutoffs

PopulationSeverity, age

SettingPrimary vs specialist

QualityBias, blinding

Measuring Disagreement: I²

I² < 25%

Low
Studies agree

I² 25-75%

Moderate
Some variation

I² > 75%

High
Major disagreement

THE WARNING

When I² > 75%, the pooled estimate may be meaningless. Explain the disagreement before averaging.

「研究結果が一致しないときは、
反対意見を黙らせないでください。
Ask: Why do they see differently?
意見の相違自体が教えてくれます。」

DTA ツールキット

重要な対策とそれをいつ使用するか

AI が医師よりも診断が優れていると主張する場合、全体的な AUC を信頼すべきですか?

REAL DATA

Deep learning models for skin cancer detection have reported AUC values as high as 0.91-0.94 in development datasets. However, external validation revealed alarming disparities: Daneshjou et al. (2022、Nature Medicine) は、市販の AI 皮膚科ツールが、AUC が低く、色の濃い肌 (フィッツパトリック V ～ VI 型) ではほぼ偶然のレベルで機能することを発見しました。 0.50-0.57 のように - 基本的にランダム。トレーニングデータセットは明るい肌の色に大きく偏っていました。これは、2x2 テーブルがすべての人口に対して適切に埋められることがなかったことを意味します。

AI 皮膚科の約束: 2020 年代

ある病院は、都市部の多様な人口を対象とする皮膚科クリニックに AI 皮膚がんスクリーニングツールの導入を検討しています。メーカーは、AUC 0.94 を報告しています。

PATH A: Deploy Based on Overall AUC

見出しの AUC 0.94 を信頼し、すべての患者に展開してください

↓

色の濃い皮膚の黒色腫は見逃される率が高くなります。全体的な感度の数値には危険なギャップが隠されています。診断が遅れて死亡率が最も高い患者は、AI が最も失敗する患者です。

OUTCOME: Health disparity amplified by technology

PATH B: Demand Fairness-Stratified Evaluation

肌の色調 (フィッツパトリックスケール)、年齢、病変の位置によって分類された感度と特異度が必要です

↓

パフォーマンスのギャップを発見します。多様なデータセットでの再トレーニングを要求するか、検証済みの母集団に使用を制限します。 AI と過小評価グループに対する皮膚科医の監視を組み合わせます。

OUTCOME: Equitable deployment; no one left behind

THE REVELATION

単一の AUC 数値によって、危険な格差が隠蔽される可能性があります。新しい AI ベースの診断ツールは、他の診断テストと同じ厳密さで評価する必要があります。母集団ごとに層別化し、外部で検証し、STARD および QUADAS-2 標準に準拠する必要があります。

The Checklist

✓

Was there a valid reference standard?

Gold standard applied to ALL patients?

✓

通訳者は盲目だったのでしょうか？

Test readers unaware of diagnosis?

✓

スペクトルは適切でしたか?

母集団と類似した患者?

✓

しきい値は事前に指定されていましたか?

それとも結果を最大化するために選択されましたか?

When Results Don't Match Suspicion

The Clinical Override Decision Tree

Test Negative, High Suspicion

↓

What Is the LR-?

LR- < 0.1

Strong rule-outAccept negative

LR- 0.1-0.5

Repeat testOr different test

LR- > 0.5

Trust judgmentTest is weak

Sequential Testing Decision Tree

When One Test Isn't Enough

Initial Screening Test

↓

Positive

↓

Confirmatory TestHigh specificity

↓

PositiveDiagnose

NegativeFalse alarm

Negative

↓

Likely negativeIf high sens screen

"Armed with sensitivity, specificity, likelihood,
SROCと合意手段で武装し、
テストの嘘を見破ることができる――
そしてその真実を自分で判断してください。」

患者さんのこと聞いてないんですか？
誰が受け取ったのか wrong blood,
テストが間違っていたからではなく、
but because no one performed it?

行われなかったテスト

HOSPITALS WORLDWIDE

ABO blood typing is nearly 100% accurate when performed.

Yet transfusion reactions still kill—テストの失敗によるものではなく、 human failure:

• Wrong blood drawn from wrong patient
• ラボでのラベルの切り替え
• Bedside check skipped in emergency

In the UK, 1 in 13,000 transfusions 間違った患者のところに行ってしまいます。テストはうまくいきました。システムが失敗しました。

Bolton-Maggs PHB. Transfus Med. 2016;26:303-311

Test vs. System Decision Tree

Where Can Things Go Wrong?

Diagnostic Process

↓

Error Source?

Test itself

Analytical ErrorSens/Spec issue

↓

Better test needed

Pre-analytical

Wrong sampleID error

↓

System fix needed

Post-analytical

Wrong actionReporting error

↓

Process fix needed

"The perfect test means nothing
間違った血液が採取された場合、
間違ったラベルが適用されている場合、
間違ったバッグが掛けられています。」

DTA 研究ではテストの精度を測定します。システムの精度は測定されません。

References

Key Sources

Carreyrou J. Bad Blood. Knopf, 2018. [Theranos]
CDC. MMWR. 1987;36(49):833-840. [HIV blood supply]
Herbst AL et al. N Engl J Med. 1971;284:878-881. [DES]
Moyer VA. Ann Intern Med. 2012;157:120-134. [PSA]
Pope JH et al. N Engl J Med. 2000;342:1163-1170. [Troponin]
Steingart KR et al. Cochrane 2014;1:CD009593. [GeneXpert]
Dinnes J et al. Cochrane 2022;7:CD013705. [COVID RAT]
UK Panel. Lancet. 2012;380:1778-1786. [Mammography]
Jack CR et al. Lancet Neurol. 2018;17:760-773. [Amyloid]
WHO. Malaria RDT Performance. 2022.
Reitsma JB et al. J Clin Epidemiol. 2005;58:982-990. [Bivariate]
Whiting PF et al. Ann Intern Med. 2011;155:529-536. [QUADAS-2]
Bolton-Maggs PHB. Transfus Med. 2016;26:303-311.

テストは 99% の感度と 99% の特異性を持っています。病気の有病率は1/1000です。患者が検査で陽性反応を示した。彼らが病気に罹患している確率はどれくらいでしょうか?

99%

90%

About 9%

50%

What does "SnNout" mean?

A highly Sensitive test, when Negative, rules OUT disease

A highly Specific test, when Negative, rules OUT disease

Sensitivity should be used for screening

Specificity should be above 90%

検査にもかかわらず血液供給がHIVに汚染されたのはなぜですか?

The tests had low specificity

Tests had a window period with zero sensitivity in early infection

検査は正しく実施されませんでした

検査は費用が高すぎました

どの QUADAS-2 ドメインが、テストが理解されずに解釈されたかどうかを評価します。診断?

Patient Selection

Index Test

Reference Standard

流れとタイミング

✔

Course Complete

「これで 4 つの結果がわかりました。
テストの 2 つの美徳
根拠の誤りレート、
証拠を集める技術
そして真実を隠す偏見。

次の試練があなたに課せられたとき—
分かるでしょう。"

What Theranos Did vs. What Should Happen

REAL DATA

Every Test Result Has a Reality Behind It

HIV Rapid Test Example (Real Data)

Why False Negatives Are Deadly

What Should Have Happened

REAL DATA

Worked Example: COVID PCR Test

Worked Example: Same COVID PCR Test

When to Use Which Test

Testing 100,000 People (Prevalence 1/1000)

See How Prevalence Changes PPV

Same Test, Different Settings

GeneXpert が不十分な場合

55 ～ 69 歳の男性 1,000 人が 13 年間検査を受けた場合

2 トロポニン プロトコル

REAL DATA

テスト前からテスト後の確率まで

このテストはどれほど強力ですか?

Child with Fever in Malaria-Endemic Area

REAL DATA

COVID-19 Rapid Antigen Tests (Dinnes 2022 Cochrane Review)

Thanksgiving 2020: What Happened

REAL DATA

の場合50～69歳の女性10,000人が10年間スクリーニング検査を受ける

10年間にわたり1万人の女性を検査

実際に検査するのは何ですか?

REAL DATA

Four Domains of Risk of Bias

Patient Selection

Index Test

Reference Standard

流れとタイミング

この研究を信じるべきですか?

Verification Bias

Spectrum Bias

Incorporation Bias

Review Bias

REAL DATA

Summary Receiver Operating Characteristic

曲線は何を教えてくれますか?

REAL DATA

なぜ研究結果が一致しないのか

REAL DATA

Was there a valid reference standard?

通訳者は盲目だったのでしょうか？

スペクトルは適切でしたか?

しきい値は事前に指定されていましたか?

The Clinical Override Decision Tree

When One Test Isn't Enough

Where Can Things Go Wrong?

Key Sources

2 トロポニンプロトコル