May, 29, 2024, Everstone--ノースウェスタン大学(Northwestern University)エンジニアは、スマートロボティクス専用に設計された新しい人工知能(AI)アルゴリズムを開発した。
この新しい手法は、ロボットが複雑なスキルを迅速かつ確実に習得できるようにすることで、自動運転車、配送用ドローン、家事手伝い、自動化など、様々なアプリケーションでロボットの実用性と安全性を大幅に向上させる可能性がある。
Maximum Diffusion Reinforcement Learning(MaxDiff RL)と呼ばれるこのアルゴリズムの成功は、ロボットが多様な経験を得るために、できるだけランダムに環境を探索するように促す能力にある。この「設計ランダム性」により、ロボットが収集する周囲の環境に関するデータの品質が向上する。また、より高品質のデータを使用することで、シミュレーションロボットはより速く、より効率的な学習を実証し、全体的な信頼性とパフォーマンスを向上させた。
他のAIプラットフォームとテストしたところ、ノースウェスタンの新アルゴリズムを使用したシミュレーションロボットは、常に最先端のモデルを上回っていた。実際、新しいアルゴリズムは非常にうまく機能し、ロボットは新しいタスクを学習し、1回の試行でそれらを正常に実行し、最初から正しく実行した。これは、試行錯誤によってゆっくりとした学習を可能にする現在のAIモデルとは対照的である。
研究成果は、学術誌「Nature Machine Intelligence」に掲載された。
「他のAIフレームワークは、やや信頼性に欠ける場合がある」と、この研究を主導したノースウェスタン大学Thomas Berruetaはコメントしている。「タスクを完全にこなすこともあれば、完全に失敗することもある。私われわれのフレームワークでは、ロボットがタスクを解決できる限り、ロボットの電源を入れるたびに、ロボットが要求されたことを正確に実行することが期待できる。これにより、ロボットの成功と失敗の解釈が容易になり、AIへの依存度が高まる世界では非常に重要である。」
Berruetaは、同大学のプレジデンシャルフェロー、McCormick 機械工学のPh.D候補。マコーミック大学の機械工学の教授で、同氏のアドバイザーでもあるロボット工学の専門家、&Todd Murpheyが論文の主任著者。BerruetaとMurpheyは、Murpheyの研究室の博士課程に在籍するAllison Pinoskyと共同執筆した。
肉体を失った断絶
機械学習アルゴリズムをトレーニングするために、研究者や開発者は大量のビッグデータを使用し、人間が慎重にフィルタリングしてキュレーション(監督)する。AIは、この学習データから試行錯誤を繰り返しながら学習し、最適な結果にたどり着く。このプロセスは、ChatGPT や Google Gemini (旧 Bard) などの非実体化されたシステムではうまく機能するが、ロボットなどの具体化された AI システムでは機能しない。一方、ロボットは、人間のキュレータのようなラグジャリーなしで、自分でデータを収集する。
「従来のアルゴリズムは、2つの異なる点でロボット工学と互換性がない。第一に、肉体を持たないシステムは、物理法則が適用されない世界を利用することができる。第二に、個々の失敗は結果をもたらさない。コンピュータサイエンスのアプリケーションにとって重要なのは、ほとんどの場合、成功するかどうかだけである。ロボット工学では、1つの故障が大惨事になりかねない」(Murphey)。
この断絶を解決するために、Berrueta、Murphey、Pinoskyは、ロボットが外出先で高品質のデータを収集できるようにする新しいアルゴリズムの開発を目指した。MaxDiff RLは、ロボットの環境に関する綿密で多様なデータを収集するために、よりランダムに動くようにロボットに命令する。ロボットは、自分でキュレーションしたランダムな体験を通じて学習することで、有用なタスクを遂行するために必要なスキルを習得する。
最初から正しく理解する
新しいアルゴリズムをテストするために、研究チームは現在の最先端のモデルと比較した。チームは、コンピュータシミュレーションを用いて、模擬ロボットに一連の標準的なタスクを実行させた。全体的に、MaxDiff RLを使用したロボットは、他のモデルよりも速く学習した。また、それらは他のものよりもはるかに一貫して確実にタスクを正しく実行した。
さらに印象的だったのは、MaxDiff RL法を用いたロボットが、1回の試行でタスクを正しく実行することに成功していることである。さらに、それはそれらが何の知識も持たずに始めたときでさえ成功した。
「われわれのロボットは、より速く、より機敏でした。学習した内容を効果的に一般化し、新しい状況に適用することができた。ロボットが試行錯誤に無限の時間を費やす余裕がない現実世界のアプリケーションにとって、これは大きなメリットである」(Berrueta)。
MaxDiff RLは汎用的なアルゴリズムであるため、様々なアプリケーションに使用できる。研究チームは、この分野を阻む根本的な問題を解決し、最終的にはスマートロボティクスにおける信頼性の高い意思決定への道を開くことを期待している。
「これは、動き回るロボット車両だけに使う必要はない。また、食器洗い機の装填方法を学習するキッチンのロボットアームなど、固定ロボットにも使用できる。タスクや物理的環境がより複雑になるにつれて、学習プロセス中に身体化の役割を考慮することがさらに重要になる。これは、より複雑で興味深いタスクを実行する実際のシステムに向けた重要なステップである」と、Pinoskyはコメントしている。
この研究は、米国陸軍研究局(助成金番号W911NF-19-1-0233)と米国海軍研究局(助成金番号N00014-21-1-2706)の支援を受けた。
(詳細は、https://news.northwestern.edu/)