白血病をAIで診断・分類 ─ フローサイトメトリーを用いた自動解析の新手法

ひとことで言うと

フローサイトメトリーのデータだけを材料にして、AML(急性骨髄性白血病)の診断はもちろん、染色体異常や遺伝子変異まで自動で予測してしまう深層学習AIの研究です。1820症例のデータで検証されています。

しかも結果が出るまで数分。染色体検査の結果を待たずに、治療方針のヒントが得られる可能性が見えてきました。

検査室との関係

白血病パネルのフロー解析、正直なところ属人的じゃないですか?コンペンセーション、ゲーティング、最後の解釈まで、熟練者の目に頼っている部分が大きいですよね。

さらに困るのが、染色体検査や遺伝子検査の結果待ちです。AMLが疑われた症例で、染色体異常の結果が出るまで数日かかるあいだ、現場では「とりあえず標準療法で待つしかない」状況が続きます。

もしフローのデータを流した瞬間に、染色体・遺伝子レベルの情報まで予測できたら?治療開始がかなり早まるはずです。

研究がやったこと

米国のBrigham and Women’s Hospitalで、2019〜2022年に集められた血液・骨髄のフロー検体1820例を使った研究です。普段の臨床で使っている2チューブ10色の白血病パネルのデータが対象です。

AIにやらせた仕事は3つあります。

急性白血病があるか・ないかの判定
急性白血病があるとして、AMLかALLか
AMLだったとして、9種類の染色体異常と32種類の遺伝子変異それぞれの有無

使われたAIは「ABMILM」と呼ばれる仕組みです。難しそうな名前ですが、ざっくり言うと「フローの何万個もある細胞の中から、診断に重要な細胞だけを自動で選んで判定するAI」です。技師さんがゲーティングで「ここのblastを見るぞ」と決めるあの作業を、AIが自分で学習する感じです。

面白いのは、コンペンセーションもゲーティングもダブレット除去も一切やらずに、生のFCSデータをそのままAIに渡している点です。前処理の属人性まで丸ごと吹っ飛ばす設計になっています。

結果

診断の精度はほぼ確実レベル

急性白血病かどうかの判定では、陽性と陰性を正しく見分ける力がAUROC 0.961。AMLとALLの判別も0.965でした。どちらもほぼ確実に見分けられるレベルです。

さらにAML/ALL判別では、AIが「これは絶対AMLだ」と95%以上の確信を持った症例では正答率97.9%、99.9%以上の超高確信症例では254件中わずか1件のミスにとどまりました。難しい症例で迷ったときの「ダブルチェック役」として十分使えそうな数字です。

染色体異常・遺伝子変異まで予測できた

ここが一番のハイライトです。フローのデータだけで染色体異常や遺伝子変異の有無を予測したところ、こんな数字が出ました。

t(15;17)(PML::RARA)…AUROC 0.929(APL=急性前骨髄球性白血病)
t(8;21)(RUNX1::RUNX1T1)…AUROC 0.814
NPM1変異…AUROC 0.807

特にAPLの予測精度はかなり高いです。APLは早期にATRA投与を始めるかどうかで予後が大きく変わるので、フローの段階で疑える意義は大きいです。

AIは人間と違うマーカーを見ていた

個人的に一番びっくりしたのがここです。APLの判定でAIが重視していたのはCD123・CD10・CD38で、私たちが教科書通りに見ているCD34・HLA-DRはほとんど使われていなかったのです。

これは「AIが既存の診断ロジックをコピーした」のではなく、人間が気づいていなかった新しいマーカーの組み合わせを学習で見つけ出したことを意味します。研究者たちはこの発見を「APL診断における新しい免疫表現型の関連性」として報告しています。

私の視点

E資格を持ちつつ現場で検体を扱う立場から見ると、この研究で一番評価したいのは「どの細胞・どのマーカーを見て判定したかを可視化できる(attention可視化)」仕組みです。

ブラックボックスのままだと、いくら数字が良くても現場で使えません。「このAIはここのblastに注目してt(15;17)を疑っている」と病理医や技師に見せられるなら、判断の根拠を共有できる本物のアシスタントになります。

一方で、現場に降りてくるまでには課題も残っています。施設ごとにフローパネル(マーカー構成や蛍光色素)が違うので、そのままうちの病院で動かしても同じ精度は出ない可能性が高いです。再発例やMRD(微小残存病変)の評価も今回は対象外でした。

とはいえ、フローのデータが手元に来た瞬間に「APLの可能性が98%」と出てくる未来は、もうそこまで来ています。私たち技師の仕事は、そのときAIの結果をどう読み解いて臨床に橋渡しするか、というところに移っていくのかもしれません。

詳細(AI手法・データ・補足)

ABMILMの正体
ABMILMは「attention-based multi-instance learning model」の略です。1症例の中にある何万個ものイベント(細胞)を「インスタンス」として扱い、それぞれに「診断にどれくらい重要か」というattention(注意)の重みをAI自身が学習します。重要な細胞ほど大きな重みがつき、最終的な判定に強く効きます。技師がblastに注目するのと同じ感覚を、AIが自分で身につけるイメージです。

前処理を最小化した設計
通常のフロー解析で必須のコンペンセーション・ゲーティング・ダブレット除去はすべて省略。FCSファイルから読み込んだ生データを、平均0・標準偏差1に正規化しただけでAIに投入しています。事前学習にはSCARFという自己教師あり学習を使い、ラベルなしデータで特徴抽出を鍛えています。

マーカー重要度の出し方(PPS)
各マーカーがどれくらい判定に効いたかは、Predictive Power Score(PPS)で評価しています。これは相関係数のように2変数の関係を0〜1で表す非線形指標で、attention値とマーカー発現量の関係から「このマーカーは何%の症例で意味のある寄与をしたか」を定量化できます。

変異モデルの性能分布
合計41種類の染色体異常・遺伝子変異モデルのうち、AUROC>0.7が9モデル、AUROC>0.6が32モデルでした。症例数が少ない変異でも一定の予測力が出ており、サンプルサイズが増えればさらに精度が上がる見込みです。

使用機器とソフト
BD Biosciences FACSCanto IIで取得したFCSデータを、Python 3.8.10とPyTorch 2.0.1で処理。GPUはTesla V100×4基の構成です。

参考文献

Lewis JE, Cooper LAD, Jaye DL, Pozdnyakova O. Automated Deep Learning-Based Diagnosis and Molecular Characterization of Acute Myeloid Leukemia Using Flow Cytometry. Mod Pathol. 2024;37(1):100373.
https://doi.org/10.1016/j.modpat.2023.100373

よかったらシェアしてね！