Science/Research 詳細

EPFL、信頼できるデータなしの信頼できるAI

May, 9, 2025, Lausanne--EPFLの研究者は、より安全なAIの構築に役立つ画期的な新しいツールを開発した。

今日、ほとんどの人がAIについて聞いたことがあり、ChatGPTがメールを書いたり、医療診断に役立ったりと、世界中の何百万人もの人々がすでにAIを使用しているか、またはAIにさらされている。

AIは、その根底にあるアルゴリズム(数学的に厳密な命令のセット)を使用して、様々な高度機能を実行する方法や、事実を有用な情報に変換する方法をコンピュータに指示する。今日のますます強力化するAIを駆動する大規模言語モデル(LLMs)は、主に集中化された大規模なデータセットから学習する特殊な種類のアルゴリズムである。

しかし、これらの膨大なデータセットを一元化すると、セキュリティ、プライバシー、データの所有権に関する問題が生じる。実際、「データは新しい石油である」というフレーズは、データが重要なリソースとなり、今日のデジタル経済のイノベーションと成長を推進していることを示している。

これらの懸念に対抗するために、フェデレーテッドラーニング(連合学習)と呼ばれるアプローチが現在、AIに革命をもたらしている。巨大な一元化されたデータセットでAIモデルをトレーニングするのとは対照的に、フェデレーテッドラーニング(federated learning)では、これらのモデルが分散型デバイス(またはサーバ)のネットワーク全体で学習し、生データをソースに保持することができる。

信頼できないデータ

「フェデレーテッドラーニングで訓練された今日のAIは、インターネット、その他の大規模データベース、病院、スマートデバイスなど、世界中からデータを収集している。これらのシステムは非常に効果的であるが、同時にパラドックスもある。その効果の高さが、それらを『悪い』データから学習させることに対して非常に脆弱にしているのである」と、コンピュータ・コミュニケーション・サイエンス学部の分散コンピューティング研究所(DCL)の責任者Rachid Guerraoui教授は説明している。

データは様々な理由で悪影響を与える可能性がある。注意力の欠如や人為的なミスは、データベースに誤って入力されたことを意味するかも知れない、そもそもデータに間違いがあるかも知れない、おそらくセンサや他の機器が壊れているか誤動作している、不正確または危険なデータが悪意を持って記録されているかも知れない。時々、データは良好だが、それをホストしているマシンがハッキングされているか偽物の場合がある。いずれにせよ、このデータがAIのトレーニングに使用されると、システムの信頼性が低下し、安全性が低下する。

「これらすべてが1つの重要な問題を提起する。個々のデータソースを信頼することなく、信頼できるAIシステムを構築できるか」とGuerraouiは言う。この課題に取り組むために10年間にわたる理論的研究の後、同教授とチームは答えがイエスであると言う。最近の本は、彼らの主な調査結果をまとめている。

データセットの信頼
フランス国立デジタル科学技術研究所(National Institute for Research in Digital Science and Technology)と協力して、研究チームは現在、自分たちのアイデアを形にしている。チームは、敵対的な脅威、特定の不良データに対する連合学習モデルのベンチマークと改善を目的とした、Pythonプログラミング言語を使用したライブラリであるByzFLを開発した。

「われわれは、データの大部分は良好であると信じているが、どのデータセットが信頼できないかをどのように判断すればよいか」(Guerraoui)。
「われわれのByzFLライブラリは、システムが先験的な未知の攻撃に対して堅牢であるかどうかをテストし、そのシステムをより堅牢にする。具体的には、テスト用の不良データをエミュレートするソフトウェアをユーザに提供したり、堅牢性を確保するためのセキュリティフィルタを組み込んだりしている。不良データは、すぐには見えないように、微妙な方法で分散されることがよくある。

ByzFLは、良いデータと悪いデータを分離して特定するのではなく、堅牢な集約スキーム(中央値など)を使用して極端な入力を無視する。たとえば、3 つのセンサが 6 、7 、9℃の温度を記録し、別のセンサが -20 ℃を記録した場合、計算全体が台無しになる。ByzFLソフトウェアは、悪質なデータの影響を制限し、情報が集約されるように、極端なものを除外する。

次世代のAIを確実に機能させる
人工知能は、そう遠くない将来、われわれの生活のあらゆる部分に触れることが期待されている。Guerraouiは、今日、ほとんどの企業が非常に原始的な形のAIを使用していると主張している。たとえば、ストリーミングプラットフォームが映画を推奨したり、AIアシスタントがテキストを書くのを手伝ったりする。誰かがその映画を気に入らなかったり、推薦されたり、メールが完璧でなかったりしても、大したことではない。

今後、ガンの診断、自動車の運転、飛行機の制御など、ミッションクリティカルなアプリケーションには、安全なAIが不可欠である。「生成AI を病院や自動車、交通インフラに本格的に導入する日が来たら、データの悪さが原因で安全性が問題視されることがわかると思う。今の最大の課題は、私がアニマルサーカスと呼ぶものから、信頼できるものを手に入れて現実の世界に移行することである。重要なアプリケーションについては、安全性について心配するのをやめることができるところまではほど遠い。ByzFLの目標は、このギャップを埋めることである」(Guerraoui)。

(詳細は、https://actu.epfl.ch/news/trustworthy-ai-without-trusted-data/)