AIが抗菌薬選びを支援？広域抗菌薬を減らす論文

ひとことで言うと

電子カルテのデータからAIが患者ごとに「効きそうな抗菌薬」を予測し、バンコマイシン+ピペラシリン/タゾバクタムの併用処方を69%まで単剤に絞り込めた、という研究です。

広域抗菌薬の使い過ぎを減らせる可能性を示した、empiric therapy支援の最新形です。

検査室との関係

「全体平均」と「目の前の患者」のギャップ

毎年作っているアンチバイオグラム、現場でこんな違和感はありませんか？

「うちの大腸菌のセフトリアキソン感受性は89%」と出ても、目の前の患者がその89%に入るのか11%に入るのかは分からない。年1回の集計では、個別判断には粗すぎるんですよね。

empiric therapyの段階では、医師は「外したくない」気持ちから広めの抗菌薬を選びがちです。培養結果が出るまでの2〜3日、いつも悩ましい時間帯です。

この論文がやろうとしたこと

患者ごとの電子カルテ情報をフル活用して、「この人にはこの抗菌薬が効きそう」をAIが予測する。年1回の病院全体の集計ではなく、患者一人ひとり用のアンチバイオグラムをAIが作る、という試みです。

研究がやったこと

スタンフォード大学とハーバード（MGH+ブリガム）の研究チームが、2つの病院のデータでAIモデルを作っています。

スタンフォード救急外来：感染症 8,342件（2009〜2019年）
ボストン2病院：単純性尿路感染症 15,806件(2007〜2016年)

電子カルテに残っている過去の診断、検査オーダー、培養結果、薬剤、バイタルをまとめてAIに学習させ、「この患者にはこの抗菌薬が効くか？」を抗菌薬ごとに予測させました。スタンフォードでは12種類、ボストンでは4種類のモデルを作っています。

そのうえで線形計画法という最適化手法を使い、「全体の処方枠は変えずに、患者ごとに最適な抗菌薬を再配分するとどうなるか」を検証しました。

結果

AIと医師、どちらが当てた？

カバレッジ率（選んだ抗菌薬が実際に効いた割合）はこうなりました。

スタンフォード：AI 85.9% vs 医師 84.3%（統計的に差はなし）
ボストン：AI 90.4% vs 医師 88.1%（AIのほうが統計的に有意に高い）

ざっくり言うと、AIは医師と同じかちょっと上くらいの精度で抗菌薬を当てられた、ということです。

一番のインパクトは「広域抗菌薬を絞り込めた」こと

個人的におっと思ったのはここです。

スタンフォードのデータで、VCM+PIPC/TAZの併用処方の69%を、PIPC/TAZ単剤に置き換えても効く割合は維持できると示されました。

10件のVCM+PIPC/TAZ併用のうち、7件はPIPC/TAZ単剤で十分だった、という話です。バンコマイシンを温存できれば、TDMの負担も腎機能への影響も減ります。

ボストンでも、シプロフロキサシン処方の48%をST合剤に置き換えられる、という結果でした。

私の視点

「年1回の統計」から「患者ごと予測」へ

E資格を取って医療AIを勉強してきた立場として、これはアンチバイオグラムの考え方そのものを変える研究だと感じました。

私たちが毎年集計しているアンチバイオグラムは、言ってしまえば「平均値」です。全体の傾向は分かっても、目の前の人に当てはまるかは別問題。AIなら、年齢、性別、過去の感染歴、抗菌薬使用歴を全部使って「この人専用のアンチバイオグラム」を作れます。

技師として気になったポイント

特徴量に「過去の培養結果」がしっかり入っている点に注目しました。私たちが日々積み上げている感受性データが、AIの予測精度を支える材料になっているということです。

逆に言うと、入力データが乱れていればAIの精度も下がる。CLSIの判定基準が変わったタイミングで過去データをどう扱うか、感受性ディスクのロット差をどう吸収するか、こういう地味なQCが今まで以上に重要になりそうです。

限界もちゃんと見ておく

retrospective(後ろ向き)の研究なので、実際に医師がAIの提案を見て処方した場合に同じ結果が出るかは別の話です。施設ごとの耐性パターンが違えば、モデルも作り直しになります。

それでも、技師が日々作っているデータの価値を改めて感じる論文でした。アンチバイオグラムを作って配って終わり、ではない時代に入ったのかもしれません。

詳細（AI手法・特徴量・統計）

使われたAI手法

4種類のモデルを試して比較しています。

L1(Lasso)/L2(Ridge)ロジスティック回帰：線形でシンプルなモデル
ランダムフォレスト：たくさんの判定員が多数決する仕組み
勾配ブースティング決定木(GBDT、LightGBM)：弱いモデルを重ねて精度を上げる仕組み

抗菌薬ごとにバリデーションセットでAUROC(陽性と陰性を正しく見分ける力)が一番高いモデルを採用しました。

特徴量

スタンフォードでは43,220次元のスパース行列を作っています。

診断コード(ICD-9/10)：全医療歴を遡る
検査・画像オーダー、薬剤オーダー：直近1年
検査値、バイタル：直近14日(10分位でビン化)
過去の培養結果と感受性パターン
人口統計、保険情報、施設

線形計画法による最適配分

「同じ抗菌薬の総処方数は変えない」という制約のもとで、患者ごとに最も効きそうな抗菌薬を割り当てる最適化問題を解いています(PuLP+CBCソルバー)。これで全体のバランスを保ったまま、個人ごとの最適化ができます。

感度分析

培養陰性の患者をどう扱うかも検討されていました。ルールベースの電子表現型で「真に感染なし」を判定し、逆確率重み付けで実運用時の性能を推定しています。

参考文献

Corbin CK, Sung L, Chattopadhyay A, et al. Personalized antibiograms for machine learning driven antibiotic selection. Communications Medicine. 2022;2:38.

DOI: 10.1038/s43856-022-00094-8

よかったらシェアしてね！