Science/Research 詳細

より効果的な多目的ロボットのための技術

July, 24, 2024, Cambridge--研究者は生成AIモデルを使って、様々なソースからのロボットデータを組み合わせて、ロボットの学習を改善した。たとえば、ロボットをトレーニングして、工具の使い方を理解させ、ハンマー、レンチ、ドライバーを使って家の周りの修理をすぐに学べるようにしたいとする。そのためには、ツールの使用を示す膨大な量のデータが必要になる。

既存のロボットデータセットはモダリティが大きく異なり、例えばカラー画像を含むものもあれば、触覚インプリントで構成されるものもある。データは、シミュレーションや人体によるデモなど、様々な領域で収集することも可能だ。また、各データセットは、固有のタスクと環境をキャプチャできる。

非常に多くのソースからのデータを1つの機械学習モデルに効率的に組み込むことは難しいため、多くの方法では1種類のデータのみを使用してロボットをトレーニングする。しかし、この方法で訓練されたロボットは、タスク固有のデータが比較的少ないため、不慣れな環境で新しいタスクを実行できないことがよくある。

マサチューセッツ工科大学(MIT)の研究チームは、より優れた多目的ロボットを訓練するために、拡散モデルと呼ばれる一種の生成AIを使用して、ドメイン、モダリティ、タスク間で複数のデータソースを組み合わせる技術を開発した。

チームは、1つの特定のデータセットを使用して1つのタスクを完了するための戦略またはポリシーを学習するために、別の拡散モデルをトレーニングする。次に、拡散モデルによって学習された方策を組み合わせて、ロボットが多様な設定で複数のタスクを実行できるようにする一般的な方策を作成。

シミュレーションや実際の実験では、このトレーニングアプローチにより、ロボットは複数のツール使用タスクを実行し、トレーニング中には見られなかった新しいタスクに適応できるようになった。Policy Composition(PoCo)として知られるこの手法は、ベースライン手法と比較して、タスクのパフォーマンスを20%向上させた。

「ロボットデータセットの異質性に対処することは、鶏と卵の問題のようなものだ。大量のデータを使用して一般的なロボットポリシーをトレーニングする場合、まず、このすべてのデータを取得するためにデプロイ可能なロボットが必要になる。研究者がChatGPTで行ったことと同様に、利用可能なすべての異種データを活用することは、ロボット工学分野にとって重要なステップだと考えられる」と、電気工学およびコンピューターサイエンス(EECS)の大学院生、PoCoに関する論文の筆頭著者、Lirui Wangは説明している。

異なるデータセットの結合
ロボットポリシーは、入力を受け取り、それらを使用してアクションを実行する機械学習モデルである。ポリシーを戦略として考える方法の1つがある。ロボットアームの場合、その戦略は軌道、またはアームを動かしてハンマーを拾い上げ、それを使って釘を打つ一連のポーズである可能性がある。

ロボットポリシーの学習に使用されるデータセットは、通常、小規模で、倉庫内の箱にアイテムを梱包するなど、特定のタスクと環境に焦点を当てている。

「すべてのロボット倉庫はテラバイト単位のデータを生成しているが、それはそれらのパッケージで動作する特定のロボット設備にのみ属している。これらすべてのデータを使用して一般的なマシンをトレーニングするのは理想的ではない」(Wang)。

MITの研究者は、多くのロボット倉庫から収集されたデータセットなど、一連の小さなデータセットを取得し、それぞれから個別のポリシーを学習し、ロボットが多くのタスクに一般化できるようにポリシーを組み合わせることができる技術を開発した。

拡散モデルと呼ばれる一種の生成AIモデルを用いて各ポリシーを表現する。画像生成によく使用される拡散モデルは、出力を繰り返し調整することで、トレーニングデータセット内のサンプルに似た新しいデータサンプルを作成する方法を学習する。

しかし、研究チームは、拡散モデルに画像を生成するように教えるのではなく、ロボットの軌跡を生成するように教えている。これは、トレーニングデータセットの軌跡にノイズを追加することによって行われる。拡散モデルは、ノイズを徐々に除去し、その出力を軌道に洗練させる。

拡散政策として知られるこの手法は、MIT、コロンビア大学(Columbia University)、トヨタ・リサーチ・インスティテュート(Toyota Research Institute)の研究者によって以前に導入された。PoCoは、この拡散政策の成果を土台としている。

研究チームは、各拡散モデルを、人間のビデオによるデモンストレーションや、ロボットアームの遠隔操作から収集したデータセットなど、異なるタイプのデータセットでトレーニングする。

次に、チームは、すべての拡散モデルによって学習された個々のポリシーの重み付けされた組み合わせを実行し、組み合わせたポリシーが個々のポリシーの目的を満たすように出力を繰り返し改良する。

その部分の合計よりも大きい
「このアプローチの利点の1つは、ポリシーを組み合わせて両方の長所を活かすことができること。たとえば、実世界のデータでトレーニングされたポリシーは、より器用さを達成できる可能性があるが、シミュレーションでトレーニングされたポリシーは、より一般化を達成できる可能性がある」(Wang)。

ポリシーは個別に学習されるため、拡散ポリシーを組み合わせて、特定のタスクに対してより良い結果を得ることができる。また、ユーザは、プロセス全体をゼロから開始するのではなく、そのデータセットで追加の拡散ポリシーをトレーニングすることにより、新しいモダリティまたはドメインにデータを追加することもできる。

研究チームは、シミュレーションと、ハンマーを使って釘を叩いたり、ヘラで物体をひっくり返したりするなど、様々なツールタスクを実行する実際のロボットアームでPoCoをテストした。PoCoは、ベースラインの方法と比較して、タスクのパフォーマンスを20%向上させた。

「印象的だったのは、チューニングを終えて視覚化すると、構成された軌跡が、どちらか一方よりもはるかに良く見えることがはっきりとわかることだ」(Wang)。

研究者らは、将来的には、ロボットが1つのツールを手に取り、それを使用し、別のツールに切り替えるという長期的なタスクに、この技術を適用したいと考えている。また、パフォーマンスを向上させるために、より大きなロボットデータセットを組み込みたいと考えている。

「ロボティクスを成功させるには、インターネットデータ、シミュレーションデータ、リアルのロボットデータという3種類のデータが必要だ。それらをどのように効果的に組み合わせるかは、難しい問題だ。PoCoは正しい方向への確かな一歩である」と、NVIDIAのシニアリサーチサイエンティストでAI Agents InitiativeリーダーのJim Fanはコメントしている。同氏は、この作業には関与していない。

この研究は、アマゾン、シンガポール国防科学技術庁、米国国立科学財団、トヨタ研究所から一部資金提供を受けている。