October, 11, 2023, Raleigh--写真は2次元(3D)だが、自動運転車やその他の技術は3次元(3D)の世界をナビゲートする必要がある。研究者は、人工知能(AI)が2D画像から3D情報を抽出するのに役立つ新しい方法を開発し、カメラをこれらの新技術にとってより有用なツールにした。
「2D画像から3D情報を抽出するための既存技術は優れてい.が、十分ではない。MonoXiverと呼ばれるわれわれの新しい方法は、既存の技術と組み合わせて使用することができ、それらを大幅に正確にする」と、この研究に関する論文の共著者、NC Stateの電気・コンピュータ工学准教授、TianfuWuはコメントしている。
この研究は、自動運転車などのアプリケーションに特に有用である。距離を測定するためにレーザに依存するLIDARなど、3D空間をナビゲートするために使用される他のツールよりもカメラが安価だからである。カメラはこれらの他の技術よりも手頃な価格であるため、自動運転車の設計者は複数のカメラを設置して、システムに冗長性を組み込むことができる。しかし、これは、自動運転車のAIがカメラで撮影した2D画像から3Dナビゲーション情報を抽出できる場合にのみ有用である。ここがMonoXiverの出番である。
Wuらが開発したMonoCon技術など、2D画像から3Dデータを抽出する既存の手法は、「バウンディングボックス」(境界ボックス)を利用している。具体的には、これらの手法は、2D画像をスキャンし、道路上の個々の車輌など、2D画像内のオブジェクトの周囲に3Dバウンディングボックスを配置するようにAIをトレーニングする。これらのボックスは直方体で、8つのポイントがある–靴箱の角を参照。バウンディングボックスは、AIが画像内のオブジェクトの寸法と、各オブジェクトが他のオブジェクトとの関係でどこにあるかを推定するのに役立つ。言い換えれば、バウンディングボックスは、AIが車の大きさと、道路上の他の車との関係でどこにあるかを判断するのに役立つ。
ただし、既存のプログラムのバウンディングボックスは不完全であり、2D画像に現れる車両やその他のオブジェクトの一部が含まれていないことがよくある。
新しい MonoXiver 法では、各境界ボックスを開始点、つまりアンカーとして使用し、AI に各境界ボックスの周囲の領域の 第二分析を実行させる。この 2 番目の解析により、プログラムはアンカーを囲む多数の追加の境界ボックスを生成する。
これらのセカンダリ(第二)ボックスのどれがオブジェクトの「欠落」部分を最もよくキャプチャしたかを判断するために、AIは2つの比較を行う。1 つの比較では、各セカンダリ ボックスの “ジオメトリ” を調べて、アンカー ボックス内の形状と一致する図形が含まれているかどうかを見る。もう一方の比較では、各セカンダリボックスの「外観」を調べて、アンカーボックス内にあるものの視覚的特性に似た色やその他の視覚的特性が含まれているかどうかを確認する。
「ここでの大きな進歩の1つは、MonoXiverにより、このトップダウンサンプリング技術(セカンダリバウンディングボックスの作成と分析)を非常に効率的に実行できること」(Wu)。
MonoXiver法の精度を測定するために、研究チームは、定評のあるKITTIデータセットと、より挑戦的で大規模なWaymoデータセットの2D画像データセットを使用してテストした。
「MonoXiver法を MonoCon と、2D 画像から 3D データを抽出するように設計された他の 2つの既存プログラムと組み合わせて使用したが、MonoXiver は 3つのプログラムすべてのパフォーマンスを大幅に上回った。MonoXiver を MonoCon と組み合わせて使用した場合、最高のパフォーマンスが得られた」(Wu)。
「この改善には、比較的小さ計算オーバーヘッドであることに留意することも重要である。たとえば、MonoCon は単独では 55fpsで実行できる。MonoXiver方式を組み込むと、40fpsに減速するが、それでも実用的な利用には十分な速度である」とWuは話している。
「われわれは、自動運転車やその他のアプリケーションで使用するために評価と微調整を続けていく」(Wu)。
(詳細は、https://news.ncsu.edu/)