『その採血、本当に必要?』AIが入院患者の検査を仕分ける研究

当ページのリンクには広告が含まれています。
目次

ひとことで言うと

入院患者の検査結果が「正常か異常か」を、オーダーされる前にAIで予測する仕組みを作った研究です。

結果がほぼ予測できる検査は、やる意味が薄い。だったら先回りして「この検査、たぶん正常ですよ」と医師に伝えれば、無駄な採血を減らせるのでは。そんな発想です。

検査室との関係

「また同じ検査…」あの違和感を思い出してください

朝の採血で、昨日も一昨日もNaが正常だった患者から、今日もBMP(電解質パネル)の依頼が入る。Hbも3日連続で正常値です。

頭の片隅で「これ本当に必要かな」と思ったことはありませんか。私はあります。でも医師のオーダーがある以上、結果を返すしかない。

この論文は、その違和感を「上位20検査だけで24時間以内の重複オーダーが79万件超」という数字で裏付けました。やはり現場の感覚は間違っていなかったわけです。

研究がやったこと

3病院・19万人分のカルテをAIに学ばせた

スタンフォード大学・ミシガン大学・UCSFの3病院で、計19万人の入院患者のデータを使った研究です。

研究チームが知りたかったのはシンプルでした。「検査をオーダーする時点で、結果が正常か異常か当てられるか?」という1点です。

使ったのは、その時点までにカルテに入っている情報だけ。患者の年齢・性別・直近の検査値・バイタル・診療科などを材料に、Na・Hb・クレアチニン・血液培養といった代表的な検査の結果を先読みできるか試しました。

結果

Hb・クレアチニンは「ほぼ確実に」言い当てられた

主要な検査での予測精度(AUROC=陽性と陰性を正しく見分ける力)は次のとおりでした。

  • クレアチニン:0.96
  • ヘモグロビン:0.94
  • ナトリウム:0.92
  • LDH:0.93、トロポニンI:0.92
  • 血液培養(好気+嫌気):0.66

クレアチニンやHbは、オーダー前から「ほぼ確実に正常」と言い当てられるレベルでした。一方で血液培養は0.66どまり。これは予測が外れやすい、つまり「ちゃんとオーダーすべき検査」だったということです。

結果が見えている検査と、ふたを開けてみないとわからない検査。AIがその線引きをしてくれた、という見方もできます。

私の視点

「技師の仕事を奪うAI」ではなく「本当に必要な検査を浮かび上がらせるAI」

この論文を読んで、私が一番好きだと感じたのは、血液培養がうまく予測できなかった点です。

現場で「発熱した患者からはとりあえず培養を出す」という判断が残るのは、まさに結果が読めないからこそ。AIも「これは予測できません」と正直に答えています。検査室の感覚と、AIの出した数字が一致していたわけです。

「結果が予測できる検査=減らしてよい検査」「予測できない検査=出すべき検査」という発想は、検査室の業務改善にすぐ使えるヒントだと思います。重複オーダーのデータを集計するだけでも、自分の施設の79万件相当が見えてくるかもしれません。

もっと詳しく:AI手法・特徴量・施設間の比較

使われたAI手法

研究チームは8種類のAIを比較しました。最も精度が高かったのは「ランダムフォレスト」と「XGBoost」の2つです。

  • ランダムフォレスト:たくさんの判定員(決定木)が多数決で答えを出す仕組み
  • XGBoost:判定員が間違いを学び直しながら、少しずつ強くなっていくタイプの多数決AI

どちらも「複数の弱い判定を束ねて強い予測を作る」考え方で、医療データのように項目数が多いケースで安定して高精度が出やすい手法です。

特徴量(AIに渡した情報)

スタンフォードでは875種類の情報をAIに渡し、そこから精度に貢献する43項目に絞り込みました。中身はこんな顔ぶれです。

  • 患者の年齢・性別
  • 直近の同じ検査の値・正常/異常
  • 過去24時間以内の検査回数
  • Charlson併存疾患指数(合併症の重さ)
  • 担当診療科(内科系・外科系など)
  • 入院からの経過時間、検査の時刻
  • 直近のバイタル、その他の検査値の要約統計量

「直近で同じ検査が正常だったか」という当たり前の情報が、やはり強く効いていました。

施設をまたぐと精度はどう変わるか

スタンフォードで学習したモデルを、ミシガンとUCSFで評価する実験も行われています。例えばアルブミンの予測精度は、スタンフォード(自施設)でAUROC 0.92、ミシガン(他施設)でAUROC 0.73まで下がりました。

とはいえ大半の検査では他施設でもAUROC 0.85以上を維持しており、まったく使い物にならないわけではありません。施設ごとに患者層やオーダー文化が違うため、各施設で再学習するのが現実的、というのが研究チームの結論です。

参考文献

Xu S, Hom J, Balasubramanian S, et al. Prevalence and Predictability of Low-Yield Inpatient Laboratory Diagnostic Tests. JAMA Network Open. 2019;2(9):e1910967.

DOI: 10.1001/jamanetworkopen.2019.10967

よかったらシェアしてね!
目次