乳腺エコーをAIが鑑別、熟練医と並ぶ精度をリアルタイムで

ひとことで言うと

乳腺エコーの良性／悪性鑑別を、従来型のradiomics（画像から数値特徴を抽出する手法）とオートエンコーダ（教師なしで画像の特徴を学習するAI）を組み合わせて行った研究です。1,619枚の画像で訓練し、AUC 0.90を達成しました。

注目したいのは、熟練放射線科医（AUC 0.83）とジュニア医（0.82）のいずれとも、AIに統計的な差がなかった点です。しかも判定はリアルタイムで返せます。

検査室との関係

エコー検査は、操作者と読影者の経験で結果が大きく変わる検査です。乳腺はその代表で、同じ病変を撮っても撮り手によって描出が違い、判定する側の経験値で診断が分かれます。

もしリアルタイムでAIが「良性／悪性」のヒントを出してくれたら、検査中に追加スキャンの判断ができます。検査後の読影でも、ジュニア医の判断を支える保険として機能します。

乳腺エコーは超音波検査士の領域ですが、「操作者依存をAIで埋める」という発想は、心臓・腹部・血管エコーなど他の検査領域にも応用できます。一般技師にとっても、業務の方向性を考える上で読んでおきたい研究です。

研究がやったこと

ドイツ・アーヘン大学病院と4つの公開データセット（スペイン、タイ、エジプト、イラン由来）を統合し、1,619枚の乳腺Bモードエコー画像を集めました。すべて病理または2年経過観察で良悪性が確定された病変です。

処理は2段階です。前段ではnnU-Net（医用画像セグメンテーション専用のAI）が病変位置を自動検出。後段では、検出した領域から2種類の方法で特徴量を抽出し、機械学習に渡して良悪性を判定します。

古典的radiomics：ヒストグラム、テクスチャ、ウェーブレットなど人間が設計した画像特徴
オートエンコーダ：AIが教師なしで「画像を圧縮して復元する」過程で学んだ特徴
Mixed：上の2つを混ぜたもの

5種類のROI（病変セグメント・バウンディングボックス・全画像など）と3種類の特徴量で計15通りのモデルを比較し、最も性能の良い組合せを探しました。

結果：AIが熟練医と並ぶ、ただし判定の「論理」は別物

最良モデルは、放射線科医が引いたバウンディングボックスから抽出した23個のmixed特徴量を使ったもの。AUC 0.90、感度81%（57例中46例）、特異度87%（45例中39例）でした。AUC 0.90はほぼ確実に見分けられるレベルです。

熟練放射線科医（AUC 0.83）、ジュニア医（0.82）と比較しても、統計的な差はありませんでした（P=0.55、P=0.45）。AIが熟練医と肩を並べた結果です。

ただし興味深いのは、AIと医師の判定の内訳がほとんど一致していなかったことです。Cohenのκ係数（判定の一致度を示す指標）は0.15と0.24。これは「ほぼ一致していない」レベルの数字です。

AIと医師は、違う論理で同じ正解にたどり着いていた可能性があります。医師がBI-RADSの所見で判断する一方、AIは画像の数値的特徴の組合せで判断している。同じ「悪性」と答えても、根拠が違うわけです。

外部検証（50例）では、AIのAUCは0.70まで下がりました。それでも熟練医（0.72）・ジュニア医（0.73）と統計的な差はなく、汎用性はある程度確保されています。リアルタイム動作も実機で確認しています。

私の視点：AIと医師が「違う論理」で並ぶ意味

この論文で一番考えさせられたのは、Cohenのκが0.15だったという数字です。AUCで見れば医師と同等なのに、症例ごとの判定はかなり食い違っている。

これは見方によっては強みです。AIが医師と違う論理で判断するなら、医師が見落とした症例をAIが拾い、AIが外す症例を医師が拾う、という補完関係が成立します。診断精度の平均ではなく、両者を組み合わせた「最大カバー」が現場では効きます。

一方で危ういのは、「AIも医師も同意した」場合の安心感です。論理が違う2者が一致したから安全ではなく、両方が同じ理由で間違えるパターンも残ります。AIの判定根拠をどう可視化するかが、現場運用では次のテーマになります。

もう一つ気になるのは、外部データセットでAUCが0.70まで下がった点です。5つの国・5つの装置でデータを集めたうえでこの結果なので、もっと違う条件の施設では更に落ちる可能性があります。「うちの装置・うちのプロトコルで使えるか」は、別途検証が必要です。

「Radiomics＋オートエンコーダ」という考え方自体は、塗抹画像のAI判定や、心電図の波形解析など他の検査領域にも応用できます。人間が設計した特徴と、AIが自己学習で得た特徴を混ぜれば精度が上がる──覚えておきたい設計思想です。

詳細：手法と統計

データセット：合計1,619件のBモードエコー画像。アーヘン病院（ACBL）287枚＋公開4データセット（UIDAT 163、Rodtook 220、BUSI 410、QAMEBI 207、外部検証50）。良性はBI-RADS 2-4で病理または2年経過観察、悪性はBI-RADS 4-6で病理確定。

セグメンテーション：nnU-Net（2D版）を5-fold cross-validationで訓練。Dice score中央値0.90（IQR 0.84-0.93、データセット1テスト）、0.89（データセット2）。speckle noiseを加えた再現性テストもパス。

特徴抽出：5種類のROI（放射線科医セグメント、放射線科医bbox、nnU-Netセグメント、nnU-Net bbox、全画像）× 3種類の特徴（classic radiomics、autoencoder、mixed）。合計15個のradiomics signatureを生成。中央値の特徴量数は53個（IQR 46-68）。

性能比較：放射線科医bbox + mixed特徴量がAUC 0.90で最高。nnU-Net bboxでもAUC 0.85。Whole image + classic radiomicsは0.64と低く、ROIの取り方と特徴量の組合せが性能を決める。

統計：DeLong test（AUC比較）、Bonferroni補正（多重比較）、Cohen’s kappa（読影者間一致度）、equivalence test（再現性）。1,000回ブートストラップで95% CIを算出。

リアルタイム検証：良性・悪性各1例のエコー動画を実機解析。フレームごとに悪性確率を計算し、BI-RADSスコアに変換して再構成動画に表示する仕組みを試作した。

限界：(1) 後ろ向き解析、(2) 外部検証データセットが50例と小規模でAUC 0.70まで低下、(3) 装置メーカー間の互換性は限定的、(4) リアルタイム検証は2例のみで臨床ワークフロー全体での評価は今後の課題。

参考文献

Magnuska ZA, Roy R, Palmowski M, et al. Combining Radiomics and Autoencoders to Distinguish Benign and Malignant Breast Tumors on US Images. Radiology. 2024;312(3):e232554.
https://doi.org/10.1148/radiol.232554

よかったらシェアしてね！