June, 7, 2024, Zurich--人工知能(AI)とバイオインスパイアードカメラを組み合わせることで、現在の車載カメラの100倍の速さで歩行者や障害物を検知することができる。
University of Zurich (UZH)の研究者が達成したコンピュータビジョンとAIのこの重要なステップは、自動車システムと自動運転車の安全性を大幅に向上させることができる。
歩行者がどこからともなく車の前に出てきて、ブレーキをかけたりハンドルを切ったりして最悪の事態を回避するのにほんの一瞬しか残っていないのは、すべてのドライバーにとって悪夢である。一部の車には、ドライバーに警告したり、緊急ブレーキを作動させたりできるカメラシステムが搭載されている。しかし、これらのシステムはまだ十分な速度や信頼性を備えておらず、ハンドルを握って人間がいない自律走行車で使用するには、劇的な改善が必要である。
少ない計算能力でより迅速な検出を実現
今回、チューリッヒ大学(UZH)情報学部のDaniel GehrigとDavide Scaramuzzaは、バイオインスパイアされた新しいカメラとAIを組み合わせて、現在のシステムよりもはるかに速く、より少ない計算能力で車周辺の障害物を検出できるシステムを開発した。この研究成果は、Natureに掲載されている。
現在のほとんどのカメラはフレームベースで、一定の間隔でスナップショットを撮る。現在、自動車の運転支援に使用されているものは、通常、毎秒30〜50フレームをキャプチャし、人工ニューラルネットワークをトレーニングして、画像内のオブジェクト(歩行者、自転車、その他の車)を認識することができる。「しかし、2つのスナップショットの間の20〜30msの間に何かが起こった場合、カメラがそれを見るのが遅すぎる可能性がある。解決策はフレームレートを上げることだが、それはリアルタイム処理に必要なデータが増え、計算能力が向上することを意味する」と、論文の筆頭著者、Daniel Gehrigは説明している。
2種類のカメラとAIの長所を融合
イベントカメラは、異なる原理に基づく最近のイノベーションである。一定のフレームレートの代わりに、速い動きを検出するたびに情報を記録するスマートピクセルを備えている。「こうすることで、フレーム間に死角がなくなり、障害物をより迅速に検出できるようになる。人間の目が画像を認識する方法を模倣するため、ニューロモルフィックカメラとも呼ばれている」と、Robotics and Perception Group責任者、Davide Scaramuzzaは説明している。しかし、動きの遅いものを見逃す可能性があり、画像がAIアルゴリズムのトレーニングに使用される種類のデータに簡単に変換されないという欠点がある。
GehrigとScaramuzzaは、両者の長所を組み合わせたハイブリッドシステムを考案し、毎秒20枚の画像を収集する標準カメラを搭載し、現在使用されているカメラに比べて比較的低いフレームレートを実現した。その画像は、畳み込みニューラルネットワーク(CNN)と呼ばれるAIシステムによって処理され、車や歩行者を認識するようにトレーニングされている。イベントカメラからのデータは、非同期グラフニューラルネットワークと呼ばれる別のタイプのAIシステムに結合され、時間の経過とともに変化する3Dデータの分析に特に適している。イベントカメラからの検出は、標準カメラによる検出を予測し、そのパフォーマンスを向上させるために使用される。「その結果、毎秒5,000枚の画像を撮影する標準的なカメラと同じくらいの速さで物体を検出できる視覚検出器ができあがったが、標準的な50fpsのカメラと同じ帯域幅が必要だ」(Daniel Gehrig)。
少ないデータで100倍高速な検出
チームは、現在自動車市場に出回っている最高のカメラとビジュアルアルゴリズムに対してシステムをテストした。カメラと車載コンピュータ間で送信する必要があるデータ量と、精度に影響を与えることなく画像を処理するために必要な計算能力を削減しながら、検出が100倍高速化されることを確認した。重要なのは、このシステムは、標準カメラの後続の2つのフレームの間に視野に入る車や歩行者を効果的に検出し、ドライバーと交通参加者の両方にさらなる安全性を提供することである。
研究者によると、この手法は、自動運転車に使用されているようなLiDARセンサとカメラを統合することで、将来的にさらに強力になる可能性がある。「このようなハイブリッドシステムは、自動運転を可能にするために不可欠であり、データや計算能力の大幅な増加につながることなく安全性を保証することができる」とDavide Scaramuzzaは話している。