生化学検査の自動承認（オートベリフィケーション）にAIは使えるのか？

ひとことで言うと

生化学検査の報告書承認（オートベリフィケーション）にAIを導入したところ、通過率89.6%・偽陰性率0.095‰を達成しました。さらに、従来のルールベースエンジンが苦手としていた入院患者の報告書で、通過率を34.8%から85.3%へと大幅に改善しています。

検査室との関係

ルールベースの限界

現在広く使われているオートベリフィケーションは、「クリティカル値を超えたら手動確認」「前回値との乖離が大きければ保留」といったルールを積み重ねた仕組みです。CLSIからAUTO10-AやAUTO15というガイドラインも出ており、一定の実績はあります。

ただ、このルールベースには弱点があります。入院患者のように検査項目数が多く、病態が複雑なケースになると、どうしてもルールに引っかかる件数が増えます。結果として「手動確認が必要」と判定される報告書が増え、せっかくの自動化の恩恵が薄れてしまいます。今回紹介する研究は、この課題をAIで解決しようとしたものです。

研究がやったこと

山東大学附属病院の検査部門が、2018年6月〜2019年8月の14ヶ月間で収集した生化学検査データを使いました。対象は52の検査項目に加え、患者の年齢・性別・外来か入院かといった情報です。

まず熟練した技師3名が「この報告書はリリースしていいか」を1件ずつ手動でラベル付けしました。その判定結果を正解データとして、AIに「リリース可」か「手動確認が必要」かを学習させています。学習に使ったデータは8割、残り2割で性能を評価するという流れです。

従来のルールベースエンジンとのダブルブラインドテストも行い、2万件超の報告書で実際の精度を比較しています。

結果

全体では通過率89.6%、見逃しはほぼゼロ

2万1,063件のダブルブラインドテストで、AIシステムの通過率は89.6%でした。つまり10件のうち約9件は、技師の目を通さず自動リリースできます。偽陰性率は0.095‰（1,000件に0.095件）。実際に見逃した件数はわずか2件です。

この2件はどちらも特殊なケースでした。1件は生後4ヶ月の乳児、もう1件は92歳の高齢者です。極端な年齢では基準値の解釈が難しく、AIだけでなく経験豊富な技師でも判断に迷うケースです。

入院患者で差が開いた

最も注目すべき結果は、入院患者の報告書での通過率の差です。従来のルールベースエンジンは34.8%しか通過できませんでした。一方、AIシステムは85.3%を通過させています。

34.8%というのは、入院患者の報告書の3件に2件以上を技師が手動確認しなければならないということです。それがAIでは7件に6件近くを自動リリースできるようになりました。外来患者でも同様の傾向があり、ルールベースの69.1%に対してAIは94.7%を達成しています。

私の視点

入院患者でルールが崩れる理由

ルールベースが入院患者に弱い理由は、現場でも実感できます。入院患者は検査項目数が多く、複数の異常値が同時に出やすいです。その組み合わせがルールの閾値を次々と超えてしまい、結果として「全部手動確認」になりがちです。

AIは「この患者の検査パターン全体を見たとき、本当に異常か」を総合的に判断できます。個別のルールではなく、52項目の組み合わせから判定するので、複雑な病態にも対応しやすいのだと思います。E資格の勉強でランダムフォレストやXGBoostを学んだとき、「多数の木が多数決する」というイメージが印象的でした。それが生化学の承認業務にこれほど効くとは、正直驚きです。

導入のハードルはどこにあるか

一方で、すぐに「うちの検査室にも導入しよう」とはならないと思います。AIはなぜその判定をしたのか説明が難しく、ISO 15189の精度管理や監査への対応が課題になります。また、このモデルは中国の特定の病院のデータで作られており、異なる施設・患者層にそのまま適用できるかは不明です。

それでも、方向性は正しいと感じます。「技師の判断をAIが補助する」という構造は、将来的な検査室の姿として現実的です。今後、施設ごとのデータで再学習できる仕組みが整えば、実用化が一気に進む可能性があります。

詳細：AI手法と技術的な背景

使ったAI手法

今回のAIシステムには、4種類のアルゴリズムが候補として試されました。その中で最終的に上位3つを組み合わせた「アンサンブルモデル」を採用しています。

ランダムフォレスト：たくさんの判定員が多数決する仕組み
XGBoost：多数決の判定員たちが前の失敗を参考にしながら精度を上げていく仕組み
ナイーブベイズ・KNN：今回は上記2つより性能が劣り、最終モデルには含まれず

ツリー系のアルゴリズム（ランダムフォレスト・XGBoost）が特に成績がよく、生化学データのような非線形な関係を持つデータに向いていることが確認されました。

モデル作成の工夫

生化学の承認業務では「リリースOK」の報告書が圧倒的に多く、「手動確認が必要」なケースは少数です。AIはこの偏りに引きずられ、「全部OKにすれば正解率が高い」という学習をしてしまいがちです。これを防ぐためにSMOTEやADASYNという「少数データを人工的に増やす」手法を使っています。

また、モデルの評価指標を1回目（AUC重視）から2回目（偽陰性率重視）に変更しました。見逃し（偽陰性）を減らすことを最優先にした結果、偽陰性率が1回目の0.67%から最終的な0.095‰まで改善しています。

52項目のデータ構成

学習データに使った52の生化学検査項目には、グルコース・電解質・肝機能・腎機能・脂質・炎症マーカーなど日常的な検査が網羅されています。これに年齢・性別・外来／入院の区別を加えた55次元のデータセットで学習しています。

参考文献

Wang H, et al. Using machine learning to develop an autoverification system in a clinical biochemistry laboratory. Clin Chem Lab Med. 2021;59(5):883–891. https://doi.org/10.1515/cclm-2020-0716

よかったらシェアしてね！