AIが脂肪肝をエコーから自動判定、技師の介入は減るか。

ひとことで言うと

4種類の画像認識AI（Inception-ResNetV2、GoogleNet、AlexNet、ResNet101）を束ねて、腹部エコーから非アルコール性脂肪肝（NAFLD）を判定する研究です。AUCは0.9999、精度98.64%、特異度100%を達成しました。

注目したいのは、ROI（関心領域）を技師が指定する必要がない点です。操作者の介入なしで自動判定できる枠組みを目指したのが特徴です。

検査室との関係

腹部エコーで肝臓を観察するとき、脂肪肝の判定にROI（関心領域）の取り方や輝度の評価で迷った経験はないでしょうか。同じ標本でも操作者が変われば判定が揺れるのは、エコー検査の宿命です。

従来の脂肪肝判定アルゴリズムの多くは、技師がROIを設定する前提で設計されてきました。つまりAIを使っても、入口の判断は操作者依存のままだったわけです。

もし画像をそのまま入力するだけでAIが判定してくれるなら、操作者の経験差を縮められます。一般技師にとっても他人事ではなく、塗抹判定や心電図解析と同じ「機械が画像を整える→AIが判定する」流れの一例として読める研究です。

研究がやったこと

ポーランド・ワルシャワ医科大学が公開した、肥満症手術前の患者55名のエコー画像データセット（550枚）を使っています。1心拍につき10枚を取得し、肝生検で確定したステアトーシス5%以上を脂肪肝群、未満を正常群と定義（脂肪肝38名、正常17名）。

仕組みは2段階です。前段は4種類の事前学習済みCNN（画像の特徴を自動で見つけるAI）に画像を通し、それぞれが特徴量を1,000個ずつ出力。後段でこれら4,000個の特徴を結合してSVM（サポートベクターマシン：境界線で2クラスに分けるAI）にかけ、脂肪肝か正常かを分類します。

4つのCNNはそれぞれ得意とする特徴抽出が違うため、組み合わせることで「画像の見方」が多角的になります。比較のため、各CNNを単独で使った場合の性能も測定しています。

結果：単独より組合せが「ブレない」

提案アルゴリズム（4つのCNN組合せ＋SVM）はAUC 0.9999、精度98.64%、感度97.20%、特異度100%でした。AUC 0.99以上はほぼ確実に見分けられるレベルです。

単独のCNNと比較した結果がこちらです。

ResNet101単独：AUC 0.9998、精度99.32%
AlexNet単独：AUC 0.9963、精度99.32%
GoogleNet単独：AUC 0.9960、精度94.6%
Inception-ResNetV2単独：AUC 0.9757、精度81.08%
提案アルゴリズム：AUC 0.9999、精度98.64%

ResNet101単独でも精度99.32%が出ているので、組合せのメリットは精度だけでは測れません。注目すべきは10-fold cross-validationの誤差です。単独CNNの誤差が3.5×10⁻²前後だったのに対し、提案アルゴリズムは3.4×10⁻³。誤差が約10分の1で、データを切り分けても結果がブレにくい安定性が示されました。

少ないデータで訓練と検証を繰り返したときに、結果が安定しているかどうかは現場導入を考える上で重要です。「平均精度は高いが症例によって大ハズレする」AIは使えません。

私の視点：アンサンブルの強みは「精度」より「安定性」

この論文を読んで一番考えたのは、AIモデル選びは「精度ランキング」だけでは決まらないということです。

ResNet101単独でも精度99.32%出ています。提案アルゴリズムは精度98.64%とむしろ少し下がっている。それでも組合せに価値があるのは、cross-validationで見たときの誤差が桁違いに小さい点です。これは「どんなデータで切り分けても安定して当てる」という意味で、現場のばらつきに強いことを示します。

もう一つの注目点は、ROI設定が不要なこと。従来の脂肪肝判定AIは、技師が肝実質に関心領域を引く前提でした。操作者が変われば結果が変わる弱点が残っていたわけです。本研究では画像全体を入力する設計なので、操作者依存を減らせる可能性があります。

ただし55例（脂肪肝38例＋正常17例）という小規模データで、しかも肥満症手術前の特殊なコホートです。一般外来の脂肪肝スクリーニングにそのまま持ち込めるかは別問題です。AUCの数字に飛びつかず、母集団の偏りに目を向ける目線が必要だと感じます。

とはいえ「複数のAIを束ねれば安定性が上がる」という考え方自体は、エコーに限らず塗抹判定や心電図解析にも応用できます。一般技師としては、AIアンサンブルという発想を頭に入れておく価値のある研究です。

詳細：手法と統計

データセット：Byraら（2018）が公開した、ワルシャワ医科大学の肥満症手術前の患者55名（平均40歳、男性20%、平均BMI 45.9）のエコー画像。1心拍あたり10枚を取得し、計550枚（脂肪肝380枚＋正常170枚）。肝生検でステアトーシス5%以上を脂肪肝、未満を正常とした（Kleinerら2005のスコアリング準拠）。画像サイズは434×636ピクセル、ピクセルサイズ0.373×0.373mm²。

クラス不均衡対策：正常群の画像数を脂肪肝群に揃えるため、各画像を反時計回りに2度回転させてデータ拡張（rotation augmentation）。新規画像を加えず統計的バランスのみ調整した。

CNN構造：いずれもImageNetで事前学習済み。Inception-ResNetV2（825層、計算量を削減するdropout構造）、GoogleNet、AlexNet（5畳み込み層＋3全結合層、ReLU活性化）、ResNet101（残差接続による深層化）。各CNNの出力（最終層1,000特徴）を結合し、4,000次元の特徴ベクトルをSVMに入力。

評価：10-fold cross-validation。各fold で75%訓練・25%テスト。posteriori probabilities からROC曲線を生成し、AUC・感度・特異度・精度を算出。

K-fold lossの比較：Inception-ResNetV2（4.22e-2）、GoogleNet（4.05e-2）、AlexNet（3.54e-2）、ResNet101（3.54e-2）に対し、提案アルゴリズムは3.40e-3で約10倍小さい。

限界：(1) 公開済みデータセットを利用したため著者が独自に検証していない、(2) 55例の小規模データで、肥満症手術前という特殊コホートに偏っている、(3) 線形SVMカーネルのみ評価、(4) 一般外来コホートや軽度脂肪肝への汎化性は未検証。

参考文献

Zamanian H, Mostaar A, Azadeh P, Ahmadi M. Implementation of Combinational Deep Learning Algorithm for Non-alcoholic Fatty Liver Classification in Ultrasound Images. J Biomed Phys Eng. 2021;11(1):73-84.
https://doi.org/10.31661/jbpe.v0i0.2009-1180

よかったらシェアしてね！