July, 16, 2024, Cambridge--人工知能モデルは、特にX線などの画像の分析に関して、医療診断において重要な役割を果たすことがよくある。しかし、研究によると、これらのモデルはすべての人口統計学的グループで常にうまく機能するとは限らず、通常、女性や有色人種ではより悪い結果になることがわかっている。
これらのモデルは、驚くべき能力を発達させることも示されている。2022年、マサチューセッツ工科大学(MIT)の研究者は、AIモデルが胸部X線写真から患者の人種を正確に予測できることを報告した。
この研究チームは、人口統計学的予測を行うのに最も正確なモデルが、最大の「公平性のギャップ」、つまり、異なる人種や性別の人々の画像を正確に診断する能力の不一致も示していることを発見した。この知見は、これらのモデルが診断評価を行う際に「人口統計学的近道」を使用している可能性を示唆しており、それが女性、黒人、その他のグループに対して誤った結果をもたらしている可能性があると研究チームは説明している。。
「大容量の機械学習モデルが、自己申告による人種や性別、年齢などの人間の人口統計の優れた予測因子であることはよく知られている。この論文は、その能力を再実証し、その能力を異なるグループ間のパフォーマンスの欠如に結びつけているが、これはこれまでにないことである」と、MITの電気工学およびコンピュータサイエンスの准教授、MITの医用工学科学研究所のメンバー、この研究の主任著者であるMarzyeh Ghassemiはコメントしている。
また、研究チームは、公平性を向上させる方法でモデルを再トレーニングできることも発見した。しかし、チームの「バイアス除去」へのアプローチは、同じ病院の患者など、トレーニングを受けたのと同じタイプの患者でモデルをテストした場合に最も効果的だった。これらのモデルを異なる病院の患者に適用すると、公平性のギャップが再び現れた。
「主なポイントは、まず、外部モデルを独自のデータで徹底的に評価する必要があるということだ。モデル開発者がトレーニングデータに提供する公平性の保証は、母集団には適用されない可能性があるからだ。第2に、十分なデータが得られる場合は、独自のデータでモデルをトレーニングする必要がある」と、MITの大学院生で、新しい論文の筆頭著者の1人であるHaoran Zhangは話している。MIT大学院生Yuzhe Yangも論文の筆頭著者で、Nature Medicineに掲載される。エモリー大学医学部の放射線学および画像科学の准教授であるJudy Gichoyaと、MITの電気工学およびコンピュータサイエンスのThuan and Nicole Pham教授であるDina Katabiも論文の著者。
バイアスの除去
2024年5月現在、FDAは882のAI対応医療機器を承認しており、そのうち671は放射線科で使用するように設計されている。2022年、Ghassemiらがこれらの診断モデルが人種を正確に予測できることを示して以来、彼らや他の研究者は、モデルが性別や年齢の予測に非常に優れていることを示した。
「多くの一般的な機械学習モデルには、超人的な人口統計学的予測能力がある。放射線科医は、胸部X線から自己申告の人種を検出することはできない。これらのモデルは病気の予測に長けているが、トレーニング中に望ましくない可能性のある他のことを予測することを学んでいる」(Ghassemi)。
この研究では、研究者たちは、これらのモデルが特定のグループでうまく機能しない理由を探ることに着手した。特に、モデルが人口統計学的なショートカットを使用して予測を行い、一部のグループでは精度が低下しているかどうかを確認したいと考えていた。これらのショートカットは、画像の他の特徴に頼るのではなく、人口統計属性を使用して病状が存在するかどうかを判断する場合に、AI モデルで発生する可能性がある。
研究チームは、ボストンのベス・イスラエル・ディーコネス・メディカル・センター(Beth Israel Deaconess Medical Center)で公開されている胸部X線データセットを用いて、患者が肺に体液が溜まる、肺が虚脱する、心臓が肥大する3つの異なる病状のいずれかにかかっているかどうかを予測するモデルを訓練した。次に、トレーニングデータから差し出されたX線でモデルをテストした。
全体として、モデルは良好に機能したが、ほとんどのモデルで「公平性のギャップ」、つまり男性と女性、白人と黒人の患者の正解率の差が見られた。
また、X線被写体の性別、人種、年齢を予測することもできた。さらに、人口統計学的予測を行う際の各モデルの精度と公平性のギャップの大きさとの間には有意な相関関係があった。このことは、モデルが疾病予測を行うための近道として人口統計学的分類を使用している可能性があることを示唆している。
その後、研究チームは、2種類の戦略を用いて公平性のギャップを縮めようとした。あるモデルセットについて、「サブグループの頑健性」を最適化するようにトレーニングし、パフォーマンスが最も低いサブグループでより良いパフォーマンスを発揮したモデルに報酬を与え、1つのグループのエラー率が他のグループのエラー率よりも高い場合にペナルティを課すようにした。
別のモデルでは、研究者は「集団敵対的」アプローチを使用して、画像から人口統計学的情報を削除するように強制した。研究チームによると、どちらの戦略もかなりうまくいった。
「配布中のデータについては、既存の最先端の方法を使用して、全体的なパフォーマンスに大きなトレードオフを行うことなく、公平性のギャップを減らすことができる。サブグループロバストネス手法は、モデルが特定のグループの誤予測に敏感になるように強制し、グループ敵対的手法はグループ情報を完全に削除しようとする」(Ghassemi)。
常に公平とは限らない
ただし、これらのアプローチが機能したのは、モデルがトレーニングされたのと同じタイプの患者のデータでテストされた場合のみだった (たとえば、Beth Israel Deaconess Medical Center データセットの患者のみ)。
研究者らは、BIDMCのデータを使用して「バイアスを除去」したモデルをテストし、他の5つの病院データセットから患者を分析すると、モデルの全体的な精度は高いままであることがわかったが、一部のモデルでは公平性に大きなギャップが見られた。
「ある患者セットでモデルのバイアスを外すと、別の場所にある別の病院から新しい患者グループに移動した際に、その公平性が必ずしも維持されるとは限らない」(Zhang)。
多くの場合、病院は他の病院のデータに基づいて開発されたモデルを使用しており、特に既製のモデルを購入した場合、これは気がかりなことである。
「われわれは、トレーニングセットと同様のデータで最適なパフォーマンスを発揮する最先端のモデルでさえ、新しい設定では最適ではない、つまり、全体的なパフォーマンスとサブグループパフォーマンスの間で最適なトレードオフを行わないことがわかった。残念なことに、これは実際にモデルが展開される可能性が高い方法である。ほとんどのモデルは、1 つの病院または 1 つのソースからのデータでトレーニングおよび検証され、広く展開される」(Ghassemi)。
研究チームは、敵対的集団アプローチを用いてバイアスを除去したモデルは、サブグループ頑健性法を用いてバイアスを除去したモデルよりも、新しい患者グループでテストした場合にわずかに公平性を示すことを発見した。チームは現在、新しいデータセットで公正な予測を行うために、より良い仕事をするモデルを作成できるかどうかを確認するために、追加の方法の開発とテストを試みることを計画している。
この知見は、この種のAIモデルを使用する病院は、使用を開始する前に当該病院独自の患者集団で評価し、特定のグループに対して不正確な結果を与えていないことを確認する必要があることを示唆している。
(詳細は、https://news.mit.edu/)