ひとことで言うと
11項目の生化学検査値の変化を機械学習でまとめて見ることで、検体取り違え(WBIT)をかなりの精度で検出できた、という研究を解説します。

検査室との関係
「前回値とぜんぜん違う。これ、本当にこの患者さんの検体だろうか?」
ルーチン結果を眺めていて、たまにこんな違和感を覚えることがあります。デルタチェックでフラグが立ったとき、患者さんの病態による変動なのか、それともラベリングミスなのか。判断に迷う場面、現場では珍しくないはずです。
検体取り違え(Wrong Blood in Tube:WBIT)は、ある患者さんの採血管に別の患者さんのラベルが貼られてしまうエラーです。報告によっては165検体に1件発生するとも言われています。誤った結果がそのまま臨床判断に使われれば、患者さんの不利益に直結します。
技師は、結果報告の前にこのエラーを見つけ出す最後の砦になりがちです。ただ、従来の単項目デルタチェック(前回値との差を見る)では、感度と特異度の両立が難しいことが知られていました。今回の論文は、そこに機械学習で切り込んだ研究です。
研究がやったこと
舞台はマサチューセッツ総合病院(約900床)の入院患者データです。日常的に測定される生化学11項目を使い、WBITをAIで検出できるかを検証しました。
使った11項目はこちらです。
- Ca、Mg、BUN、Cr、グルコース、リン、アニオンギャップ
- Cl、K、HCO3、Na
研究チームはまず、本物の検査結果をシミュレーションでわざと取り違えました。患者さんAの結果セットを、別の患者さんBの結果セットに丸ごと入れ替えるイメージです。これを「WBITが起きた検体」として、AIに見分けさせます。
比較したモデルは大きく2種類です。1つは従来通りの単項目デルタチェック。もう1つは、11項目すべての変化をまとめて見る機械学習モデル(ロジスティック回帰とSVM)です。SVMは「複数の特徴を組み合わせて、いい感じに境界線を引いてくれるAI」と思ってもらえれば大丈夫です。
結果
結論から言うと、多項目をまとめて見るAIは、単項目デルタチェックを大きく引き離しました。
単項目で一番強かったのはBUNとクレアチニンです。陽性と陰性を正しく見分ける力(AUC)はおよそ0.84。8割強の見分けですね。これはこれで悪くない数字に見えますが、実用面では物足りません。
一方、11項目をまとめて見るSVMモデルはAUC 0.97。ほぼ確実に見分けられるレベルまで到達しました。
ここで重要なのが「特異度」と「PPV(陽性的中率)」です。WBITは滅多に起こらないエラーなので、特異度が低いと「フラグが立ってもほとんど空振り」というアラート疲れの状態になります。
感度80%時の特異度を比べると、BUN単独で66%、多項目SVMで96%。WBIT発生率を1%と仮定したPPVは、単項目最良で13%、多項目SVMで52%でした。
つまり単項目だと「フラグ7件中6件は空振り」、多項目SVMだと「フラグ2件に1件は本物」。実用レベルかどうかが分かれる差です。
私の視点
単項目デルタチェックの限界は現場でも実感する
デルタチェックでフラグが立っても、結局は技師の経験で「これは病態だな」「これは怪しい」と判断している場面、私の現場でもよくあります。BUNやCrが急に動いたときは、AKIや透析で説明がつくケースがほとんど。論文のPPV 13%という数字は、肌感覚と一致します。
11項目を横断的に見られるなら、判断材料はぐっと増えます。Na・K・Cl・HCO3が同時に「いつもの患者さんらしくない動き」をしていたら、これは病態だけでは説明しづらい。AIでそのパターンをまとめて検出してくれるなら、確かに助かります。
11項目そろう前提が現場ではネック
ただ、このモデルは11項目すべて測定されている検体しか判定できません。入院患者の電解質パネルなら揃いますが、外来や救急では一部だけのことも多いはずです。
論文のディスカッションでも「欠損値への対応は今後の課題」と書かれていました。実装するなら、項目のサブセットごとに別モデルを用意するか、欠損値補完を組み合わせる必要がありそうです。
詳細(AI手法・特徴量・追加実験)
使ったAI手法と特徴量の中身、それから実データに当てはめた追加実験の話です。
使ったAI手法
- ロジスティック回帰:複数の入力から「WBITらしさ」の確率を計算するシンプルなモデル
- SVM(サポートベクターマシン):項目を高次元空間にマッピングして、一番うまく分ける境界線を引いてくれるAI
特徴量(モデルへの入力)
- 絶対変化:今回値と前回値の差の絶対値
- 変化速度:絶対変化を時間で割った値
- 実測値:前回値そのもの
最良モデルは「11項目すべての絶対変化+実測値」を使ったSVMでした。学習データと検証データでAUCがほぼ同じだったため、過学習も最小限に抑えられています。
シミュレーションの設計
WBIT発生率を10%・25%・50%と意図的に高く設定しています。これは学習に十分なエラー例を確保するためで、実際の発生率(おそらく0.1%前後)とは別の話です。AUCは発生率の影響を受けにくい指標なので、この設定でも結果の信頼性は保たれています。
実データに当てはめてみたら
研究チームは最後に、シミュレーションなしの実データ(9,839検体)に学習済みSVMを適用しました。感度80%設定で217件(約2%)がフラグとなり、うち23件のカルテをレビュー。透析、AKI、大手術後など、臨床的な変動で説明できるケースが大半でした。
逆に言えば、このモデルは「検体取り違えの検出」だけでなく「臨床的に重要な変化の検知」にも使える可能性がある、ということ。現場での副次的なメリットになりそうです。
参考文献
Rosenbaum MW, Baron JM. Using Machine Learning-Based Multianalyte Delta Checks to Detect Wrong Blood in Tube Errors. Am J Clin Pathol. 2018.
https://doi.org/10.1093/ajcp/aqy085
