Science/Research 詳細

MIT CSAIL、機械に3Dで見ることを教える

January, 18, 2019, Cambridge--MIT CSAILの研究者によると、人間は、1つの方向から見るだけで3D対象を理解する驚くべき能力を持っている。われわれは、ハイウエイで、一瞥するだけで鹿の形状をイメージでき、家具の周りの向こう側に壁が続いていることを理解でき、垂直にしか見ていないのにソファ全体を感知できる。これらすべては、われわれが住んでいる複雑な世界をわれわれがナビゲートするのに役立っている。
 コンピュータには、遠近法、対称性、物理学のように、ものを理解する能力は本来備わっていない。コンピュータは、それを教わる必要がある。一般に、機械は、特殊なものを理解できるように膨大なデータを与えられるが、それ以上のことはできない。例えば、システムを椅子でトレーニングし、テーブルでそれをテストすると、うまくいかない。
 MITのコンピュータ科学と人工知能研究所(CSAIL)が発表した論文で、研究チームは機械がモノを知覚する方法が、より人間に近いと報告している。これは、単純な2D像から完全3D形状を作り出せるアルゴリズムを開発することによって可能になった。
 2D像からモノの完全3D形状を知覚することは、基本的にあいまい問題である。2D像は第3の次元を「失って」いるからである。これを解決するために、チームは、あまり知られていない次元(no, not Platform 9 and ¾)、“2.5-D”と言われるものを利用することで情報を収集した。
 2Dと違い、表示面の2.5D描写によりわれわれは深さや輪郭についてより多くの情報が得られる。2.5-Dは、最初、故MIT教授、David Marrが考えついた。同氏は、像を3段階で見た。
 最初に「原始スケッチ」がある。これは、対象物の一般的輪郭を描く。次に2.5-Dスケッチがある。これは、2Dよりも深さと面について、より多くの情報を供給する。最後に、完全3D形状がある、人が対象物を知覚する仕方と全く同じプロセスである。
 2Dと3Dのギャップをブリッジし、2.5-Dスケッチから見えない対象物の不可視部分を仕上げることによってシステムは機能する。これには、以前に機械が学習した対称性や他の外観についての一般的知識を利用する。これは、新しい種類の対象物に適用可能な2Dから3Dを知覚する一般的な方法を学習するアルゴリズムに役立つ。
 テスト中、自動車、椅子を見た、またトレーニング中に航空機を見たシステムは、単一像から、ソファなどの見たことがない形状、人間までも再構成することができた。
 しかし、システムは、代表視点が少ない対象物を再構成することは難しかった。この場合、像に全く見えない対象物の部分について判断する必要がある。対象物を後ろから見ながら、その前面を再構成しようとしている場合を考えてみればいい。像のもっと簡単な見え方を使うと、当然、誤りは少なかった。例えば、テーブルの3つの部分が見えると、脚が除外されているテーブルを上から見下ろすよりも完全な3D形状をより正確に知覚できる。
 将来的には、チームはそのシステムを改善して、生地のようなより詳細なニュアンスを捉えられるようにすることを考えている。現状は、対象物の形だけに焦点を当てている。もっと細部が分かる対象物の色や特異性は含まれない。システムは、CGI物体の描写された像に基づいて学習している。その対象の本当の形状が分かっているので評価が容易であるという理由で、これは役立つ。しかし、実際の世界は、はるかに複雑である。
 「ディープラーニングは、コンピュータビジョンに大きな影響を与え、多くのデータから見える外観を記憶することは非常に得意である。しかし、概念化や抽象など、もっと人間的な能力の達成は、依然として課題になっている。つまり、新しい対象や状況に適用できるレベルで世界を理解することは、まだ難しい。この研究は、コンピュータビジョンにとって意味のある一歩である。真に一般的な方法で世界と相互作用するロボットは、これまでに見たことがないものに反応する必要があるからである」とコーネル大学コンピュータサイエンス、准教授、Noah Snavelyはコメントしている。