November, 27, 2025, Ann Arbor--デジタルの音声制御の手は、ゲームやアプリのハンズフリー使用を可能にすることで、仮想現実と拡張現実の利便性とアクセシビリティを向上させる可能性がある。プロトタイプソフトウェアは、ミシガン大学のコンピュータ科学者によって開発された。
HandProxyと呼ばれる研究者のソフトウェアを使用すると、VRおよびARユーザは、実体のない手を命令することでデジタル空間と対話できる。ユーザは、仮想オブジェクトをつかんで移動したり、ウィンドウをドラッグしてサイズを変更したり、親指を立てるなどのジェスチャーを手に要求したりできる。ChatGPTの背後にあるAIモデルであるGPT-4oの解釈力のおかげで、その間のすべてのステップを指示されることなく、「テーブルを片付ける」などの複雑なタスクを管理することもできる。
複雑なタスクをその場で独立して解析できるハンドの機能により、メニューの開いたりスクロールしたり、アプリやゲーム内の事前定義されたコマンドなどの単純なシステムレベルのタスクに限定された現在のVR音声コマンド機能よりも柔軟になる。
「モバイルデバイスは、SiriのようなAIを活用したタスクアシスタントを含む、代替入力モードと自動ユーザインタフェイス制御を可能にする支援技術をサポートしている。しかし、そのような機能は、VRやARの手の相互作用にはほとんどない」と、Morris Wellman学部開発のコンピュータサイエンス/エンジニアリング助教授Anhong Guoは話している。
「HandProxyは、ユーザがコントローラ、手のジェスチャー、音声など、仮想現実と拡張現実における複数の対話モード間を流動的に移行できるようにする試みである」と、Guoは話している。同氏は、インタラクティブ、モバイル、ウェアラブル、ユビキタステクノロジーに関するACMプロシーディングに掲載されたソフトウェアを説明する研究の責任著者でもある。
愛好家はVRの没入感を賞賛している。ユーザは、仮想空間を外部から見るだけでなく、仮想空間の中にいたいと考えている。彼らの主張によると、そのメリットは、ゲームをよりエキサイティングにすることから、命を危険にさらすことなく医師や外科医を訓練することまで多岐にわたる。
物理的なリアリズムを最大限に高めることが、不信感を止める鍵となるため、業界はハンドトラッキングカメラと手袋による触覚制御に移行している。しかし、本物そっくりの手の動きに焦点を当てることは、特定の人や状況にとって理想的な方法ではない。狭いスペースにいるVRユーザには複雑なジェスチャーを行う余地がない可能性があり、ARユーザは料理や掃除で手一杯のときに小さなディスプレイを操作したいと思うかもしれない。
手のジェスチャーに厳密に依存することは、運動障害やその他の障害のあるユーザにとってさらに面倒になる。筋ジストロフィーや脳性麻痺の人はVRの使用が困難であるとScientific American誌が報じている。触覚的な動きは、慢性疾患を持つ一部のユーザがVRを試すことを思いとどまらせることさえある。あるRedditユーザは、慢性疾患のせいでスイング動作を繰り返すゲームを楽しむことができず、VRが自分に適しているかどうか懐疑的であると話した。HandProxyは、VRをより快適で親しみやすいものにするのに役立つ。
「ほとんどのゲームやVRアプリに当てはまる組み込みの物理学がある場合、HandProxyはそれと対話できる」と、UMのコンピュータサイエンスとエンジニアリングの博士課程の学生、この研究の筆頭著者Chen Liangは話している。「われわれのバーチャルハンド(手)はユーザの手と同じデジタル信号を発するため、開発者はシステムのためだけに意図的にプログラムに何かを追加する必要はない。」
一部のトライアルユーザは、すでにこのツールの可能性に熱狂している。この研究では、20人の参加者にデモビデオからタスクを複製するよう求められ、10分間HandProxyの機能を自由に探索した。参加者の中には、「普通に直感的に話せる」仮想代役がいることに興奮している人もいた。しかし、研究チームが驚いたことに、他の参加者は、「物理世界に限定されない」、より抽象的なタスクを実行するというアイデアにもっと興奮していた。
「エージェントのように機能し、ユーザが『ワークスペースを整理する』などの高レベルのコマンドを出し、開いているすべてのウィンドウを並べ替えて閉じる方法を見つけることができる」とLiangは言う。導入の障壁の1つは、手がユーザのコマンドを誤って解釈することがあることである。
HandProxyは、調査中に781のタスクを実行するように求められ、1〜4回の試行でほとんどのタスクを正しく実行したが、64で失敗した。たとえば、ソフトウェアは、あるユーザが「茶色の物体」と言ったときにデジタルバスケットを指していることに気づかず、「写真に「いいね!」を求められたときにハートのボタンを押すことを知らなかった。
研究チームは現在、ソフトウェアがあまり自由にやり過ぎず、あいまいな音声を解釈できるようにする方法に取り組んでいる。ある研究参加者は、手が質問したり答えたりできるようにするという潜在的な解決策を提供した。
チームはイノベーションパートナーシップの支援を受けて特許保護を申請しており、この技術を市場に投入するパートナーを探している。