AIの判定根拠は教科書通り？末梢血塗抹のMDS鑑別

ひとことで言うと

順天堂大学とシスメックスが組んで、末梢血塗抹からMDS（骨髄異形成症候群）と再生不良性貧血（AA）を鑑別するAIを開発した研究です。69万枚以上の細胞画像で学習させ、MDS vs AAの鑑別で感度96.2%・特異度100%・AUC 0.99を達成しました。

注目したいのは、AIが鑑別の決め手にした所見が、教科書通りの「偽Pelger-Huet核異常」「好中球の脱顆粒」「巨大血小板」だった点です。

検査室との関係

汎血球減少の依頼で塗抹を作って鏡検したとき、MDSとAAの判別に頭を悩ませた経験はないでしょうか。どちらも血球が減っていますが、形態異常細胞が見えるかどうかが鑑別の重要な手がかりになります。

ただし形態判定は時間がかかり、判定者の経験に大きく依存します。骨髄検査が確定診断ではあるものの、塗抹の段階で「これはMDSが疑わしい」と一次的にスクリーニングできれば、診療側にも検査側にも価値があります。

この研究は、まさにその「塗抹レベルでの一次スクリーニングをAIに任せられるか」という問いに答えようとしたものです。

研究がやったこと

順天堂大学病院で2017〜2018年に作成した末梢血塗抹3,261件から、69万5,030枚の細胞画像を抽出しました。Sysmex SP-10で標本を作製し、DI-60で画像化したMay-Giemsa染色標本です。

システムは2段構えになっています。前段はCNN（画像の特徴を自動で見つけるAI）で、17種類の細胞分類と97種類の形態異常を同時に判定。後段はXGBoost（複数の判定器が多数決で答えを出すAI）で、前段の結果を集約してMDSかAAかを判定する仕組みです。

学習には認定血液技師2名と血液病理医1名が、CLSI H20-A2ガイドラインとWHO分類に沿って画像をラベル付け。検証データのラベル付けは別の認定技師2名と病理医1名が担当し、訓練側と検証側の判定者を分けています。MDS 75例とAA 36例を診断システムの訓練に使い、別の症例群でテストしました。

結果：細胞分類は90%超、MDS鑑別はAUC 0.99

まず細胞分類の性能から。17細胞種すべてで感度93.5〜99.8%、特異度96.0〜100%を達成しました。10個の細胞があれば9〜9.5個は正しく分類できる水準です。形態異常の検出も、ほとんどの項目で感度80〜98%でした。

同社の従来機種DI-60と比較すると、感度・特異度ともに新しいCNNシステムが上回りました。大粒子の中で巨大血小板だけは感度61.5%にとどまりましたが、これは血小板凝集との区別が難しい現実を反映しています。

本命のMDS vs AA鑑別では、感度96.2%・特異度100%・AUC 0.990。AUC 0.99はほぼ確実に見分けられるレベルで、特異度100%は「AAをMDSと誤判定した症例がゼロ」という意味です。

さらに研究者たちは、AIが「どの形態所見を根拠にMDSと判定したか」をSHAP値という指標で可視化しました。MDS群で重視されていたのは、好中球の異常顆粒、偽Pelger-Huet核異常、巨大血小板。技師が普段の鏡検で着目する所見と、AIが重視する所見が見事に一致しました。

私の視点：AIの判定根拠が「教科書通り」だった意味

この研究で個人的に一番効いたのが、SHAP値の可視化結果です。AIが「ブラックボックスで何となく当てている」のではなく、技師が普段の鏡検で見ているのと同じ所見を根拠にしていた。これは現場の信頼感に直結します。

裏を返せば、AIが正しい判定をするには、技師がCLSIに沿って細かくラベル付けした学習データが必要だったということです。69万枚の画像に対し、認定技師と病理医がチームで判定を付けています。AIの精度は、技師の経験値そのものをデータ化して移したものとも言えます。

限界も明示されています。順天堂単施設のデータで、症例数も限定的です。骨髄検査・フローサイトメトリ・遺伝子検査が確定診断には必須なので、現状はあくまで補助的な位置づけ。それでも塗抹の段階で「MDSの可能性が高い」と一次フラグが立てば、優先度を上げて骨髄検査を回す判断材料になります。

形態判定はAIで全自動化されるのではなく、「技師がラベル付けで教える→AIが回数をこなす→技師が最終確認する」という循環で精度が上がっていく構造です。AIに置き換えられる仕事ではなく、AIを育てる仕事として塗抹判定が再評価されていく流れだと、私は読みました。

詳細：手法と統計

標本準備：Sysmex SP-10（自動塗抹標本作製装置）でMay-Grünwald-Giemsa染色。DI-60自動デジタル細胞画像解析装置で画像化。順天堂大学病院（2017〜2018年）から3,261標本、703,970枚の細胞画像を取得。

CNN構造：8つの畳み込み層を含む独自アーキテクチャ。Separable Convolution、Batch Normalization、Activationを基本ブロックとし、後段にはResidual Network（飽和を避けるための迂回路）を組み込んでいる。t-SNEによる可視化で、芽球を中心に顆粒球系・リンパ球系・単球系がクラスタ状に配置される様子が確認できた。

形態異常の検出性能：好中球の中毒性顆粒（AUC 0.992）、巨大好中球（AUC 0.977）、芽球の異常核形態（AUC 0.975）など、多くの項目でAUC 0.9以上。一方、巨大血小板（AUC 0.801）と赤芽球の不整形（AUC 0.878）は性能が低く、血小板凝集との混同や赤芽球画像の質が課題として残った。

XGBoost入力：CNN出力から114個の画像パターンパラメータを抽出し、XGBoostに入力。SHAP値で各特徴量の寄与度を可視化した結果、MDS群でリンパ球・好塩基球・好酸球・前骨髄球の異常はAA鑑別に有用ではなく、骨髄像のMDS診断特徴と一致した。

限界：(1) 単一施設・小規模データセット、(2) DLS/CNN/XGBoostの組合せが1パターンのみ、(3) 感染症の影響を考慮していない（中毒性顆粒・Döhle小体などはMDSと混同しうる）、(4) 確定診断には骨髄検査・遺伝子検査が必須なため補助的位置づけにとどまる。

参考文献

Kimura K, Tabe Y, Ai T, et al. A novel automated image analysis system using deep convolutional neural networks can assist to differentiate MDS and AA. Sci Rep. 2019;9:13385.
https://doi.org/10.1038/s41598-019-49942-z

よかったらシェアしてね！