AIが末梢血の8種血球を分類、誤りはたった2枚

ひとことで言うと

末梢血の8種類の血球（好中球・好酸球・好塩基球・リンパ球・単球・未熟顆粒球・赤芽球・血小板）を、CNN（画像の特徴を自動で見つけるAI）で分類した研究です。17,092枚の細胞画像で精度99.91%を達成しました。

17,092枚中、誤分類はたった2枚。残った2枚は技師でも判定に迷う「好酸球と好塩基球」の混同でした。

検査室との関係

自動血球分析装置で異常フラグが立ったとき、塗抹を作って目視確認に回す場面はないでしょうか。最終判定は人間の目に頼るのが現状で、判定者の経験差や疲労が結果を左右します。

分類装置がさらに精度を上げれば、目視確認に回る件数を減らせる可能性があります。技師の時間を、判断が難しい標本に集中させることもできます。

この研究は、画像認識AIが末梢血の血球分類でどこまで精度を出せるかを真正面から検証したものです。技師の業務の根っこに関わる話なので、結果は気になります。

研究がやったこと

バルセロナ病院がCellaVision DM96で撮影した、健常者の末梢血細胞画像17,092枚を使っています。臨床病理医がラベル付けした8カテゴリで構成された公開データセット（PBC dataset normal DIB）です。

好中球：3,329枚
好酸球：3,117枚
未熟顆粒球（前骨髄球・骨髄球・後骨髄球）：2,895枚
血小板：2,348枚
赤芽球：1,551枚
単球：1,420枚
好塩基球：1,218枚
リンパ球：1,214枚

まず既存の代表的なCNN 8種類（VGG16、VGG19、ResNet-50、ResNet-101、ResNet-152、InceptionV3、MobileNetV2、DenseNet201）を転移学習（既に学習済みのAIを別タスクに流用する手法）で評価しました。精度は91.4〜94.7%にとどまり、満足する水準には届かなかったそうです。

そこで研究者たちは独自のCNNを設計しました。7つの畳み込みブロックと5つの全結合層からなる22層構造で、過学習を防ぐためのドロップアウト（ニューロンをランダムに無効化する仕組み）を組み込んでいます。

結果：17,092枚中の誤分類はたった2枚

既存CNNの結果は概ね91〜94%でした。一番良かったResNet-50で94.72%、一番低かったResNet-152で91.375%。100枚以上の誤分類が出るケースもあり、現場で「全自動」と呼ぶには物足りない水準です。

提案された独自CNNは精度99.91%を達成。17,092枚中、誤分類はわずか2枚でした。

1枚：好酸球を赤芽球と誤判定
1枚：好塩基球を好酸球と誤判定

リンパ球、単球、好中球、未熟顆粒球、赤芽球、血小板の6クラスはすべて100%の正答率でした。論文では、最後に残った誤分類は「形態や大きさが似ているクラス同士」だと分析しています。

これは現場の感覚と一致します。好酸球と好塩基球は粒度や色調が紛らわしく、塗抹の状態によっては技師でも一瞬迷う組合せです。AIが最後に間違える場所が、技師でも難所なのは興味深い結果です。

私の視点：AIの「最後の壁」が技師の「鏡検の腕の見せどころ」

この論文を読んで一番響いたのは、AIが最後に苦戦する場所が、技師の経験値が最も生きる場所と重なっていた点です。

好酸球と好塩基球の鑑別は、教科書通りなら粒度・色調・核分葉で分かれます。しかし実検体では、染色の濃淡、細胞の重なり、潰れた細胞でアタリが付きにくいことがあります。経験を積んだ技師はそういう場面で「他の細胞の傾向」「採血状況」「過去データ」を総合して判断します。

AIは画像1枚だけを見ています。だから「典型的でない好酸球」が「典型的な好塩基球の特徴を一部持つ」と、AIは迷う。17,092枚で2枚しか間違わないAIでも、その2枚は技師が最後に頼られる場面そのものなのです。

もう一つ重要なのは、健常者の画像セットで99.91%という数字だということです。本物の臨床検体には異形リンパ球、変性細胞、感染症由来の中毒性顆粒、白血病細胞など、「教科書外」の画像が混じります。本研究のAIをそのまま現場に持ち込んだら、精度はもっと落ちるはずです。

「健常者で99.91%、では病的検体ではどうなるか」──ここから先の検証が、検査室にAIを導入する判断には欠かせません。AIに分類を任せられる細胞と、技師の目で必ず確認すべき細胞を線引きする発想が、現場運用では現実的だと思います。

詳細：手法と統計

データセット：PBC dataset normal DIB。バルセロナ病院がCellaVision DM96で撮影した健常者由来の末梢血細胞画像17,092枚。8カテゴリ（好中球、好酸球、好塩基球、リンパ球、単球、未熟顆粒球、赤芽球、血小板）。画像サイズ360×363ピクセル、JPG形式。臨床病理医がラベル付け。

提案CNN構造：22層。7つの畳み込みブロック（各ブロック：Conv 3×3＋ReLU＋MaxPool 2×2＋Dropout 0.25）＋5つの全結合層＋出力層。フィルタ数は32→64→64→128→256→256と段階的に増加。入力サイズ100×100×3ch。損失関数はsparse categorical cross-entropy、最適化はAdam、学習率0.001、150 epochs。

既存CNN比較：VGG16（92.8%）、VGG19（91.8%）、ResNet-50（94.72%）、ResNet-101（93.7%）、ResNet-152（91.375%）、InceptionV3（93.125%）、MobileNetV2（92.01%）、DenseNet201（94.262%）。いずれもImageNet事前学習済みの重みを利用し、最終層のみ転移学習で再訓練。

提案CNN性能：訓練精度0.993（144 epoch時点）、検証精度0.985、最終的なcross-entropy loss 0.026。クラス別F1スコアは好酸球99.3%、好塩基球98.0%、その他6クラスすべて100%。

限界：(1) 健常者由来の画像のみで、病的所見（異形リンパ球、中毒性顆粒、白血病細胞など）は含まれない、(2) 単一施設・単一装置（CellaVision DM96）由来のデータで他施設汎化性は未検証、(3) ロット・染色プロトコル・装置メーカーが変わったときの安定性は不明。

参考文献

Asghar R, Kumar S, Mahfooz A. Classification of Blood Cells Using Deep Learning Models. arXiv preprint. 2023.
https://arxiv.org/abs/2308.06300

よかったらシェアしてね！