Science/Research 詳細

MIT、数秒でロボットの操作問題を解決する新システム

August, 28, 2025, Cambridge--MITの研究者たちは、ロボットが「先を見越して」、何千もの潜在的な運動計画を同時に検討できるようにするアルゴリズムを開発した。

人間と違い、ロボットにとっては、多くの行動、制約、機械的な能力について同時に考えなければならない非常に複雑な計画上の課題である。効果的な解決策を見つけるとしても、ロボットには非常に長い時間がかかる可能性がある。

マサチューセッツ工科大学(MIT)とNVIDIA Researchの研究者は、ロボットの計画プロセスを劇的にスピードアップする新しいアルゴリズムを開発した。チームのアプローチにより、ロボットは、何千もの可能なソリューションを並行して評価し、ロボットとその環境の制約を満たすために最適なソリューションを改善することで、「先を考える」ことができる。

この新しい方法は、多くの既存のアプローチのように、一度に1つずつ潜在的なアクションをテストするのではなく、何千ものアクションを同時に考慮し、数秒でマルチステップの操作問題を解決する。

研究チームは、グラフィックスプロセッシングユニット(GPU)と呼ばれる特殊なプロセッサの膨大な計算能力を利用して、この高速化を実現している。

この技術により工場や倉庫では、ロボットは狭い空間であっても、さまざまな形や大きさの品物を傷つけたり、倒したり、障害物に衝突したりすることなく、どのように操作してしっかりと梱包するかを迅速に判断できるようになる。

「これは、時間が本当に重要で、可能な限り素早く効果的な解決策を見つける必要がある産業環境で非常に役立つ。アルゴリズムが計画を見つけるのに数秒ではなく数分かかると、ビジネスコストがかかる」と、この手法に関する論文の筆頭著者MITの大学院生William Shenは述べている。

同氏の論文には、NVIDIA ResearchのシニアリサーチサイエンティストCaelan Garrettが参加している。この研究は、Robotics: Science and Systems Conferenceで発表される。

並行して計画する
研究者のアルゴリズムは、タスクとモーションプランニング(TAMP)と呼ばれるもののために設計されている。TAMPアルゴリズムの目標は、ロボットのタスクプラン(ハイレベルのアクションシーケンス)と、そのハイレベルのプランを完了するジョイント位置やグリッパーの向きなどの低レベルのアクションパラメータを含むモーションプランを作成することである。

箱に商品を詰める計画を立てるためには、ロボットは、詰められた物体が箱内に収まるように最終的な向きを考えるだけでなく、アームとグリッパを使用してそれらを持ち上げて操作する方法など、多くの変数について推論する必要がある。

これは、衝突を回避する方法や、アイテムを梱包する特定の順序など、ユーザー指定の制約を実現する方法を決定する際に行う必要がある。

非常に多くの潜在的なアクションのシーケンスがあるため、可能な解決策をランダムにサンプリングし、一度に1つずつ試すには、非常に長い時間がかかる可能性がある。

「これは非常に大きな探索空間であり、その空間でロボットが行う多くの行動は、実際には生産的な成果を上げていない」(Garrett)。

それどころか、研究者のアルゴリズムであるcuTAMPは、CUDAと呼ばれる並列コンピューティングプラットフォームを使用して高速化され、何千ものソリューションを並行してシミュレートし、改良する。これは、サンプリングと最適化の2つの手法を組み合わせることで実現する。

サンプリングには、試すソリューションを選択することが含まれる。ただし、cuTAMPは、解をランダムにサンプリングするのではなく、問題の制約を満たす可能性が最も高い解に潜在的な解の範囲を制限する。この変更されたサンプリング手順により、cuTAMPはサンプリングスペースを絞り込みながら、潜在的な解決策を幅広く探索できる。

「これらのサンプルの出力を組み合わせると、ランダムにサンプリングした場合よりもはるかに優れた開始点が得られる。これにより、最適化中により迅速に解決策を見つけることができる」(Shen)。

cuTAMPは、そのサンプルのセットを生成すると、各サンプルが衝突をどの程度回避し、ロボットの運動制約、およびユーザー定義の目標を満たすかに対応するコストを計算する並列最適化手順を実行する。

サンプルを並行して更新し、最適な候補を選択し、成功したソリューションに絞り込むまでプロセスを繰り返す。

アクセラレーテッドコンピューティングの活用
研究チームは、汎用CPUよりも並列計算とワークロードにはるかに強力な専用プロセッサであるGPUを活用して、サンプリングと最適化を同時に行うことができるソリューションの数を増やしている。これにより、アルゴリズムのパフォーマンスが最大化された。

「GPUを使用すると、1つのソリューションを最適化するための計算コストは、数百または数千のソリューションを最適化するのと同等である」(Shen)。

シミュレーションでTetrisのようなパッキングの課題に対するアプローチをテストしたところ、cuTAMPはわずか数秒で、シーケンシャルプランニングアプローチでは解決にはるかに時間がかかる可能性のある、衝突のない成功したプランを見つけた。

また、実際のロボットアームに展開すると、アルゴリズムは常に30秒以内に解決策を見つけた。

このシステムはロボット間で機能し、MITのロボットアームとNVIDIAのヒューマノイドロボットでテストされている。cuTAMPは機械学習アルゴリズムではないため、学習データを必要とせず、多くの状況で容易に展開できる可能性がある。

「まったく新しい問題を与えることができれば、それは証明可能な形で解決する」(Garrett)。

このアルゴリズムは、ロボットがツールを使用するなど、梱包以外の状況にも一般化可能のである。ユーザーは、様々なスキルタイプをシステムに組み込むことで、ロボットの機能を自動的に拡張できる。

将来的には、研究チームは、cuTAMP内で大規模言語モデルと視覚言語モデルを活用し、ロボットがユーザーからの音声コマンドに基づいて特定の目標を達成する計画を策定および実行できるようにしたいと考えている。