乳腺エコーをAIが鑑別、熟練医と並ぶ精度をリアルタイムで

当ページのリンクには広告が含まれています。
目次

ひとことで言うと

乳腺エコーの良性/悪性鑑別を、従来型のradiomics(画像から数値特徴を抽出する手法)とオートエンコーダ(教師なしで画像の特徴を学習するAI)を組み合わせて行った研究です。1,619枚の画像で訓練し、AUC 0.90を達成しました。

注目したいのは、熟練放射線科医(AUC 0.83)とジュニア医(0.82)のいずれとも、AIに統計的な差がなかった点です。しかも判定はリアルタイムで返せます。

検査室との関係

エコー検査は、操作者と読影者の経験で結果が大きく変わる検査です。乳腺はその代表で、同じ病変を撮っても撮り手によって描出が違い、判定する側の経験値で診断が分かれます。

もしリアルタイムでAIが「良性/悪性」のヒントを出してくれたら、検査中に追加スキャンの判断ができます。検査後の読影でも、ジュニア医の判断を支える保険として機能します。

乳腺エコーは超音波検査士の領域ですが、「操作者依存をAIで埋める」という発想は、心臓・腹部・血管エコーなど他の検査領域にも応用できます。一般技師にとっても、業務の方向性を考える上で読んでおきたい研究です。

研究がやったこと

ドイツ・アーヘン大学病院と4つの公開データセット(スペイン、タイ、エジプト、イラン由来)を統合し、1,619枚の乳腺Bモードエコー画像を集めました。すべて病理または2年経過観察で良悪性が確定された病変です。

処理は2段階です。前段ではnnU-Net(医用画像セグメンテーション専用のAI)が病変位置を自動検出。後段では、検出した領域から2種類の方法で特徴量を抽出し、機械学習に渡して良悪性を判定します。

  • 古典的radiomics:ヒストグラム、テクスチャ、ウェーブレットなど人間が設計した画像特徴
  • オートエンコーダ:AIが教師なしで「画像を圧縮して復元する」過程で学んだ特徴
  • Mixed:上の2つを混ぜたもの

5種類のROI(病変セグメント・バウンディングボックス・全画像など)と3種類の特徴量で計15通りのモデルを比較し、最も性能の良い組合せを探しました。

結果:AIが熟練医と並ぶ、ただし判定の「論理」は別物

最良モデルは、放射線科医が引いたバウンディングボックスから抽出した23個のmixed特徴量を使ったもの。AUC 0.90、感度81%(57例中46例)、特異度87%(45例中39例)でした。AUC 0.90はほぼ確実に見分けられるレベルです。

熟練放射線科医(AUC 0.83)、ジュニア医(0.82)と比較しても、統計的な差はありませんでした(P=0.55、P=0.45)。AIが熟練医と肩を並べた結果です。

ただし興味深いのは、AIと医師の判定の内訳がほとんど一致していなかったことです。Cohenのκ係数(判定の一致度を示す指標)は0.15と0.24。これは「ほぼ一致していない」レベルの数字です。

AIと医師は、違う論理で同じ正解にたどり着いていた可能性があります。医師がBI-RADSの所見で判断する一方、AIは画像の数値的特徴の組合せで判断している。同じ「悪性」と答えても、根拠が違うわけです。

外部検証(50例)では、AIのAUCは0.70まで下がりました。それでも熟練医(0.72)・ジュニア医(0.73)と統計的な差はなく、汎用性はある程度確保されています。リアルタイム動作も実機で確認しています。

私の視点:AIと医師が「違う論理」で並ぶ意味

この論文で一番考えさせられたのは、Cohenのκが0.15だったという数字です。AUCで見れば医師と同等なのに、症例ごとの判定はかなり食い違っている。

これは見方によっては強みです。AIが医師と違う論理で判断するなら、医師が見落とした症例をAIが拾い、AIが外す症例を医師が拾う、という補完関係が成立します。診断精度の平均ではなく、両者を組み合わせた「最大カバー」が現場では効きます。

一方で危ういのは、「AIも医師も同意した」場合の安心感です。論理が違う2者が一致したから安全ではなく、両方が同じ理由で間違えるパターンも残ります。AIの判定根拠をどう可視化するかが、現場運用では次のテーマになります。

もう一つ気になるのは、外部データセットでAUCが0.70まで下がった点です。5つの国・5つの装置でデータを集めたうえでこの結果なので、もっと違う条件の施設では更に落ちる可能性があります。「うちの装置・うちのプロトコルで使えるか」は、別途検証が必要です。

「Radiomics+オートエンコーダ」という考え方自体は、塗抹画像のAI判定や、心電図の波形解析など他の検査領域にも応用できます。人間が設計した特徴と、AIが自己学習で得た特徴を混ぜれば精度が上がる──覚えておきたい設計思想です。

詳細:手法と統計

データセット:合計1,619件のBモードエコー画像。アーヘン病院(ACBL)287枚+公開4データセット(UIDAT 163、Rodtook 220、BUSI 410、QAMEBI 207、外部検証50)。良性はBI-RADS 2-4で病理または2年経過観察、悪性はBI-RADS 4-6で病理確定。

セグメンテーション:nnU-Net(2D版)を5-fold cross-validationで訓練。Dice score中央値0.90(IQR 0.84-0.93、データセット1テスト)、0.89(データセット2)。speckle noiseを加えた再現性テストもパス。

特徴抽出:5種類のROI(放射線科医セグメント、放射線科医bbox、nnU-Netセグメント、nnU-Net bbox、全画像)× 3種類の特徴(classic radiomics、autoencoder、mixed)。合計15個のradiomics signatureを生成。中央値の特徴量数は53個(IQR 46-68)。

性能比較:放射線科医bbox + mixed特徴量がAUC 0.90で最高。nnU-Net bboxでもAUC 0.85。Whole image + classic radiomicsは0.64と低く、ROIの取り方と特徴量の組合せが性能を決める。

統計:DeLong test(AUC比較)、Bonferroni補正(多重比較)、Cohen’s kappa(読影者間一致度)、equivalence test(再現性)。1,000回ブートストラップで95% CIを算出。

リアルタイム検証:良性・悪性各1例のエコー動画を実機解析。フレームごとに悪性確率を計算し、BI-RADSスコアに変換して再構成動画に表示する仕組みを試作した。

限界:(1) 後ろ向き解析、(2) 外部検証データセットが50例と小規模でAUC 0.70まで低下、(3) 装置メーカー間の互換性は限定的、(4) リアルタイム検証は2例のみで臨床ワークフロー全体での評価は今後の課題。

参考文献

Magnuska ZA, Roy R, Palmowski M, et al. Combining Radiomics and Autoencoders to Distinguish Benign and Malignant Breast Tumors on US Images. Radiology. 2024;312(3):e232554.
https://doi.org/10.1148/radiol.232554

よかったらシェアしてね!
目次