April, 7, 2017, Durham--カーネギーメロン大学(CMU)の研究チームによると、大衆の中に顔を見つけること、あるいは大きな画像内の小さな、または離れた物体を認識することは、コンピュータビジョンシステムにとって大きな課題である。微小な物体を見つけるカギは、それに関連するより大きなものを探すことである。
ロボティクス准教授、Deva RamananとPhD学生Peiyun Huは画像の重要コンテクストが、小さな顔を検出する上で大きな前進であることを実証することができた。これは、コーディングの改良法である。
顔のベンチマークデータセットに適用すると、その方法はエラーを2倍低下させ、その方法を使用した顔認識の81%が実際の顔であることが証明された。以前の方法では、29~64%であった。
わずか数ピクセルサイズの顔を見つけるには、まず、より大きな画像内に身体を見つけること、あるいは画像が一群の人々を含んでいることに気づくことが役に立つ。
微小な顔を見つけることには、群衆の規模を計算するために人数をカウントするようなアプリケーションがある。自動運転車両のスピードが速くなり、遠くの交通状況をモニタして評価しなければならなくなると、小さな項目一般を検出することはますます重要になる。
コンテクストが対象検出に役立つと言う考えは、Ramananによると、新しいものではない。とは言え、最近まで、この直観を実用的なシステムで説明することは難しかった。コンテクストのエンコーディングは通常、「高次元デスクリプタ」に関わるものであり、これは多くの情報を包含しているが、取り扱いが面倒だからできる。
研究チームが開発した方法は、「中心デスクリプタ」を使って、人の視覚が構造化されるのと同じ方法でコンテクストをエンコードする。人の視界の中心が、視力が最も高い網膜中心窩に集束するように、中心デスクリプタは画像の小さなパッチで細部を鮮明にするが、周辺部はぼやけさせている。
周辺画像をぼやけさせることで、中心デスクリプタは、ハイフォーカスのパッチの理解に役立つ十分なコンテクストを提供するが、コンピュータが圧倒されるほどではない。これにより、研究チームのシステムは、微小な顔を含んでいるかどうかを判断する際にパッチから相対的に遠く離れたピクセルを利用する。
同様に、単に画像の解像度を上げることは、微小な対象を見つけ出すためのソリューションにはならない可能性がある。高解像度は、「ウォーリを探せ“Where’s Waldo” 」問題になる、つまり対象のピクセルはたくさんあるが、ピクセルの海で迷子になってしまう。この場合、コンテクストはシステムの注意を、最も顔を含んでいそうな領域に向けることが有効である。
コンテクスト推理に加えて、研究チームは個別のディテクタを多様なスケールの対象向けにトレーニングすることで微小な対象の検出能力を改善した。
わずか数ピクセルの顔を見つけようとしているディテクタは、そのサイズの鼻に何度も出遭うと混乱する、と研究チームは説明している。