Science/Research 詳細

AIモデルGPT-4、眼病の正確な評価で医師を凌駕

May, 8, 2024, Lausanne--ある研究によると、AIモデルGPT-4は、専門外の医師が目の問題を評価し、アドバイスを提供する能力を大幅に上回っていることがわかった。

GPT-4の臨床知識と推論スキルは、専門の眼科医のレベルに近づいていることが、ケンブリッジ大学が主導する研究で明らかになった。

GPT-4(大規模言語モデル)は、専門外の若手医師、研修医、専門医など、キャリアの様々な段階にある医師を対象にテストされた。それぞれに、特定の眼の問題を含む87の患者シナリオが提示され、4つの選択肢から選択して診断を下すか、治療についてアドバイスするよう求められた。

GPT-4は、専門外の若手医師よりも有意に良いスコアを獲得し、専門医と同等の眼科知識のレベルを示した。

GPT-4は、研修医や専門の眼科医と同様のスコアを獲得したが、成績上位の医師のスコアは高くなっている。

研究チームによると、大規模言語モデルが医療従事者に取って代わる可能性は低いが、臨床ワークフローの一部として医療を改善する可能性がある。

GPT-4のような最先端の大規模言語モデルは、患者のトリアージや専門の医療専門家へのアクセスが限られているなど、適切に制御された状況で、目に関するアドバイス、診断、管理の提案を提供するのに役立つ可能性があるとチームは指摘している。

ケンブリッジ大学臨床医学部在学中に実施した研究の筆頭著者であるアDr Arun Thirunavukarasuは、「現実的に、われわれは、目の問題を抱える患者のトリアージにAIを導入して、どの症例が直ちに専門医の診察が必要で、どの症例が一般開業医(GP)の診察が必要で、どの症例が治療の必要がないかを判断することができる」と話している。

「このモデルは、すでに使用されている明確なアルゴリズムに従うことができ、GPT-4は、より複雑な疑問に答えるために、目の症状や兆候を処理することにおいて、専門の臨床医と同じくらい優れていることがわかった」。

「さらなる開発により、大規模言語モデルは、眼科医から迅速なアドバイスを得るのに苦労している開業医にもアドバイスを与えることができる。英国の人々は、かつてないほど長く眼科医療を待っている」。

これらのモデルの微調整と開発には大量の臨床テキストが必要であり、これを促進するための作業が世界中で進行中である。

研究チームは、今回の研究が類似の先行研究よりも優れているのは、AIの能力を一連の検査結果ではなく、開業医と比較したからだと話している。

「医師は、キャリア全体を通して、検査の復習をしているわけではない。公平な比較を提供するために、開業医(GP)の現場の知識や能力とAIが対峙した場合にどうなるかを確認したかった」と、Thirunavukarasuはコメントしている。同氏は、現在オックスフォード大学病院NHS財団トラストのアカデミック・ファウンデーション・ドクター。

さらに、「市販のモデルの機能と限界を特徴づける必要もある。患者はすでにインターネットではなく、アドバイスに使用している可能性がある」と同氏は付け加えた。

このテストには、極度の光過敏症、視力低下、病変、目のかゆみや痛みなど、様々な目の問題に関する質問が含まれ、眼科医の研修生をテストするために使用される教科書から取られた。この教科書はインターネット上で自由に入手できるわけではないため、その内容がGPT-4のトレーニングデータセットに含まれている可能性は低い。

研究成果は、学術誌「PLOS Digital Health」に掲載された。

「今後のAI活用を考えても、患者のケアは医師が担い続けると思う。最も重要なことは、患者がコンピュータシステムを関与させるかどうかを決定できるようにすること。それは、各患者が下す個々の決定である」(Thirunavukarasu)。

GPT-4 と GPT-3.5 (Generative Pre-trained Transformers) は、記事、書籍、その他のインターネット ソースからの数千億の単語を含むデータセットでトレーニングされる。これらは、大規模言語モデルの 2 つの例である。その他、Pathways Language Model 2 (PaLM 2) や Large Language Model Meta AI 2 (LLaMA 2) なども広く使用されている。

この研究では、GPT-3.5、PaLM2、LLaMAも同じ質問でテストされた。GPT-4は、それら全てよりも正確な応答を示した。

GPT-4 は、オンライン チャットボット ChatGPT を強化して、人間の質問にオーダーメイドの応答を提供する。ここ数か月、ChatGPT は、医学部の試験で合格レベルのパフォーマンスを達成し、患者の質問に対して人間の医師よりも正確で共感的なメッセージを提供することで、医学界で大きな注目を集めている。

人工知能大規模言語モデルの分野は、非常に急速に変化している。この研究が実施されて以来、より高度なモデルがリリースされており、これは専門の眼科医のレベルにさらに近い可能性がある。