June, 17, 2025, Cambridge--シエラネバダ山脈の山火事を消火するために水を運ぶ自律型ドローンは、サンタアナの渦巻く風に遭遇し、コースから外れる恐れがあるかも知れない。飛行中のこれらの未知の外乱に迅速に適応することは、ドローンの飛行制御システムにとって大きな課題となる。
このようなドローンが目標に留まるのを助けるために、MITの研究者は、突風のような予測不可能な力に直面しても意図した軌道からの逸脱を最小限に抑えることができる、機械学習(ML)ベースの新しい適応制御アルゴリズムを開発した。
標準的なアプローチとは異なり、新しい手法では、自律型ドローンをプログラミングする人が、これらの不確実な擾乱の構造について事前に何も知る必要はない。それどころか、制御システムのAIモデルは、15分間の飛行時間から収集された少量の観測データから、知る必要のあるすべてを学習する。
重要なのは、この手法が、外乱に適応するためにどの最適化アルゴリズムを使用すべきかを自動的に決定し、追跡パフォーマンスを向上させることである。このドローンが直面している特定の擾乱のジオメトリに最も適したアルゴリズムを選択する。
研究チームは、メタラーニングと呼ばれる手法を使用して、制御システムが両方のことを同時に行うように訓練し、異なるタイプの外乱にどのように適応するかをシステムに教える。
これらの要素を組み合わせることで、適応制御システムは、シミュレーションのベースライン手法よりも軌道追跡誤差を50%削減し、トレーニング中には見られなかった新しい風速でより優れたパフォーマンスを発揮することができる。
将来的には、この適応制御システムにより、自律型ドローンが強風にもかかわらず重い荷物をより効率的に配達したり、国立公園の火災が発生しやすい地域を監視したりできるようになる可能性がある。
「これらの要素を同時に学習することが、われわれの方法に強みを与えている。メタラーニングを活用することで、コントローラは迅速な適応に最適な選択を自動的に行うことができる」と、MIT機械工学部およびデータ・システム・社会研究所(IDSS)のEsther and Harold E. Edgerton助教授、情報意思決定システム研究所(LIDS)の主任研究員であるNavid Azizanはコメントしている。また、同氏は、この制御システムに関する論文の上級著者である。
適切なアルゴリズムを見つける
通常、制御システムには、ドローンとその環境をモデル化する機能が組み込まれており、潜在的な外乱の構造に関する既存の情報が含まれている。しかし、不確実な状況に満ちた現実の世界では、この構造を事前に手作業で設計することは不可能な場合が多い。
多くの制御システムは、勾配降下法(gradient descent)と呼ばれる一般的な最適化アルゴリズムに基づく適応法を使用して、問題の未知の部分を推定し、飛行中にドローンを目標軌道にできるだけ近づける方法を決定する。ただし、勾配降下法は、ミラー降下法(mirror descent)と呼ばれる、選択可能なアルゴリズムのより大きなファミリーの 1 つのアルゴリズムにすぎない。
「ミラーディセントはアルゴリズムの一般的なファミリーであり、特定の問題に対して、これらのアルゴリズムの1つが他のアルゴリズムよりも適している可能性がある。ゲームの名前は、問題に適した特定のアルゴリズムを選択する方法である。われわれの方法では、この選択を自動化している」(Azizan)。
その制御システムでは、研究チームは、潜在的な擾乱の構造を含む関数を、データからそれらを近似することを学習するニューラルネットワークモデルに置き換えた。このように、このドローンが遭遇する可能性のある風速の先験的な構造を事前に持つ必要はない。
また、その手法では、ユーザがすでに理想的な関数を選択していると仮定するのではなく、データからニューラルネットワークモデルを学習しながら、適切なミラーディセント関数を自動的に選択するアルゴリズムも使用している。研究者は、このアルゴリズムに様々な関数から選択できるようにし、手元の問題に最も適したものを見つける。
「適切なミラーディセント適応を構築するための優れた距離生成関数を選択することは、追跡エラーを減らすための適切なアルゴリズムを得る上で非常に重要である」(Tang)。
適応を学習
ドローンが遭遇する可能性のある風速は飛行するたびに変化する可能性があるが、コントローラのニューラルネットワークとミラー機能は同じままで、毎回再計算する必要がないようにする必要がある。
コントローラの柔軟性を高めるために、研究者はメタラーニングを使用し、トレーニング中に様々な風速ファミリーを示すことで適応するようにコントローラーに教える。
「われわれの手法は、メタラーニングを使用することで、様々なシナリオを通じて共有表現をデータから効率的に学習できるため、多彩な目的に対処可能である」(Tang)。
最終的に、ユーザは制御システムに目標軌道を送り、ドローンが遭遇する不確実な擾乱に対応しながら、その軌道にできるだけ近づけるためにドローンがどのように推力を発生させるべきかをリアルタイムで継続的に再計算する。
シミュレーションと実際の実験の両方で、研究チームは、彼らの方法が、テストしたすべての風速でベースラインアプローチよりも軌道追跡エラーが大幅に少ないことを示した。
「風の擾乱が訓練中に見たよりもはるかに強くても、われわれの技術はそれらをうまく処理できることを示している」(Azizan)。
さらに、風速が強まるにつれて、彼らの方法がベースラインを上回るマージンが拡大し、困難な環境に適応できることを示した。
チームは現在、様々な風の状態やその他の擾乱がある実際のドローンで制御システムをテストするためのハードウェア実験を行っている。
また、複数のソースからの障害を一度に処理できるように、メソッドを拡張したいと考えている。たとえば、風速が変化すると、ドローンが運んでいる小包の重量が飛行中に移動する可能性がある。特に、ドローンが波浪するペイロードを運んでいる場合である。
また、ドローンがこれまでに見たデータを再訓練することなく、新たな外乱に適応できるように、継続的な学習を探求したいと考えている。
「Navidと同氏の共同研究者は、メタ学習と従来の適応制御を組み合わせてデータから非線形特徴を学習する画期的な研究を開発した。彼らのアプローチの鍵は、従来の技術ではできなかった方法で問題の根底にある幾何学を利用する鏡面降下技術の使用である。彼らの研究は、複雑で不確実な環境で動作する必要がある自律システムの設計に大きく貢献できる」と、Caltechの電気工学およびコンピューティングおよび数理科学のMose and Lillian S. Bohn教授、Babak Hassibiはコメントしている。