グラム染色の全視野画像をAIが判定、技師の見落としも拾えるか

ひとことで言うと

ChatGPTを支えるのと同じ「Transformer」というAI技術を、血液培養のグラム染色画像に応用した研究です。475枚のホールスライド画像でAUC 0.95を達成し、技師が当初誤判定した11枚のうち8枚をAIが正しく分類できたと報告されています。

「菌の位置」を人間が一つ一つ印付けする作業が要らない点が、従来のAIとの決定的な違いです。

検査室との関係

血液培養が夜中に陽転して、塗抹を作って鏡検した経験はないでしょうか。グラム染色は迅速分子診断と組み合わせる重要な一次情報ですが、判定結果は技師の経験値に依存します。

論文中では、施設によってグラム染色の誤差率が0.4〜2.7%あると引用されています。菌が少ない検体、染色の薄い検体、疲労時の鏡検。現場で誤判定が起こりうる場面は思い当たります。

もしAIが「この標本、もう一度見てください」と教えてくれたら、見落としの拾い直しに使えるかもしれません。グラム染色という技師の本丸領域に、AIがどこまで踏み込めるのかを確かめた研究です。

研究がやったこと

米Dartmouth-Hitchcock Medical Centerで2023年8月〜2024年7月に集めた、血液培養由来のグラム染色スライド475枚をスキャナで丸ごとデジタル画像化しました。これを5カテゴリに分類するAI（GramViTと命名）を作っています。

GPC（クラスター）：184枚
GPC（双球菌・連鎖）：68枚
GPR：37枚
GNR：122枚
菌が見えない：64枚

使ったAIはVision Transformer（ChatGPT系のTransformer技術を画像に応用したもの）です。従来のCNN（画像の特徴を自動で見つけるAI）では、技師が画像内の菌の位置を一つ一つ手作業でラベリングする必要がありました。GramViTでは「このスライドはGNR」というスライド全体のラベルだけで学習でき、菌の位置はAIが自動で見つけます。

性能評価には、Stanford Health（27枚）とハイデルベルク大学Mannheim（1,000画像）の外部データセットも使い、別施設の標本でも通用するかを確認しました。

結果：技師の見落とし11枚中8枚をAIが救った

5カテゴリ分類の全体精度は0.857（85.7%）、AUC（陽性と陰性を見分ける力）は0.952でした。AUC 0.95はほぼ確実に見分けられるレベルです。

カテゴリ別の感度では、GPC（クラスター）94.5%、GNR 91.7%と頻度の多い形態は高精度でした。一方、データが37枚しかなかったGPRは54%と落ちています。AIの精度は、学習に使えたデータ量にかなり左右されることが透けて見える結果です。

従来のCNN系モデル（Deepslide）と直接比較すると、精度0.857 vs 0.771でGramViTが上回りました。外部のStanfordデータでも、AUC 0.87 vs 0.68と差が広がっています。「他の施設の染色でも通用するか」という汎用性で、Transformer型の強みが出ています。

そして一番のポイント。475枚の中に「技師が初回判定で間違えて、後から訂正された」スライドが11枚ありました。GramViTはそのうち8枚を最初から正しく分類できていたのです。技師の判定ミスをAIが拾い直せる可能性を示した、現場感覚として刺さる結果です。

私の視点：技師の役割は減らない、むしろ「最終判定者」になる

この論文を読んで考えたのは、AIが入っても技師の仕事はなくならないどころか、立ち位置がはっきりしてくるという実感です。

GramViTがGPRで精度を落としたのは、訓練データが37枚しかなかったからです。希少な菌、混合感染、酵母、典型的でない染色。現場で技師が引っかかる難しい標本ほど、AIにとっても難しい。「AIが正解を出す」のではなく「AIが一次スクリーニングをかけ、技師が最終判定する」流れが現実的だと思います。

11枚中8枚を救った数字の裏返しは、3枚は救えなかったということ。AIに任せきりにすれば見落としの代わりに新しい誤判定が生まれます。AIの判定根拠を読み解き、必要なら鏡検で覆せる目を持つ技師がいないと、運用は成り立ちません。

個人的にはこの研究で一番興味深いのが、Transformerが「菌の位置のラベル付け」なしで学習できる点です。CNN時代は技師がアノテーション作業に追われましたが、その負担が消える。

注目すべきは、別施設のStanford（AUC 0.87）とハイデルベルク大（AUC 0.95）のデータでも、追加学習なしで精度を保てていた点です。染色や撮影条件の違う他施設の標本にも通用するなら、現場導入の現実味が一段と増します。

詳細：手法と統計

モデル構造：LongViTというTransformer型基盤モデル（がん組織画像で事前学習済み）を、グラム染色用にfine-tuningした。スライドから4,096×4,096ピクセルの大きな領域をランダム抽出して訓練し、推論時は全領域を体系的にサンプリングして平均プールする方式。

領域サイズの検証（ablation）：1,024×1,024 vs 4,096×4,096、20倍 vs 40倍の組合せで比較。最終的に4,096×4,096・40倍が最も高精度（精度0.865, AUC 0.964）。Gram染色は細胞単位の細かい違いが効くため、解像度を下げると精度が落ちる。

外部データ汎化性：Stanford 27枚（GP/GN二値分類）でAUC 0.8651（CNN系Deepslideは0.675）。MHU（Mannheim）1,000画像のpatchレベルでAUC 0.9507（Deepslideは0.528）。スキャナや染色プロトコルが異なる外部標本にも追加学習なしで通用した。

カテゴリ別F1：GPC clusters 0.906、GPC pairs/chains 0.774、GPR 0.539、GNR 0.925、no bacteria 0.827。データの偏り（GPR 37枚 vs GPC clusters 184枚）が直接精度に反映された。

限界：DHMC単一施設のデータで訓練しているため染色プロトコルの違いに対する評価は限定的。yeast、グラム陰性球菌、混合感染は除外されている。GPC pairs/chainsとGPRの判別は形態が似るため、解像度を上げないと混同が起こる。

参考文献

McMahon J, Tomita N, Tatishev ES, et al. A novel framework for the automated characterization of Gram-stained blood culture slides using a large-scale vision transformer. J Clin Microbiol. 2025;63(3):e01514-24.
https://doi.org/10.1128/jcm.01514-24

よかったらシェアしてね！