Science/Research 詳細

マシンビジョンによる増強LOENアーキテクチャ

August, 26, 2022, Beijin--近年、膨大な処理能力と最新のGPUsの並列処理により、畳み込みニューラルネットワーク(CNN)ベースのディープラーニングが急発展し、人工知能アプリケーションにおける様々な問題の効果的なソリューションにつながっている。しかし、視覚処理に関わる膨大なデータ量が、ポータブル、パワー効率の優れた、計算効率の良いオンサイト・データ処理にCNNsの適用を制約している。

電気ニューラルネットワークの課題克服のために光コピューティング分野で複数の研究が行われている。光コンピューティングは、魅力的な利点が多い、光並列処理は計算速度を大幅に向上させる。また光受動性は、エネルギーコスト低減し、遅延を最小化する。光ニューラルネットワーク(ONNs)は、コンピューティング速度向上、電気ユニットの帯域ボトルネック克服の方法を提供する。しかし、ONNsは計算用の光源としてコヒレントレーザを必要とする、また自然光シーンでは成熟したマシンビジョンシステムとの組合せがほとんどできない。したがって、フロントエンドが光、バックエンドが電気の光電ハイブリッドニューラルネットワークが提案されている。これらのレンズベースシステムは、自律走行車など、エッジデバイスでは利用の難しさが増す。

Light Science & Applicationに発表された論文で、精華大学電子工学部、情報科学・技術北京国立研究センタ(BNRist)研究チームのHongwei Chenをリーダーとするチームは、コンピュータビジョンタスク向けにレンズレスオプト-エレクトロニックニューラルネットワーク(LOEN)アーキテクチャを開発した。これは、光フィールドで畳み込み操作を実行するためにイメージング光パスに挿入されたパッシブマスクを利用し、自然シーンで、インコヒレント、ブロードバンド光信号の処理課題に対処する。加えて、光リンク、画像信号処理、バックエンドネットワークは滑らかに統合されて、特殊なタスクのために共同最適化を達成し、パイプライン全体で計算労力とエネルギー消費を低減する。

従来のマシンビジョンにおけるハードウエアアーキテクチャと比較して、この論文では、イメージングセンサに近い光学マスクがレンズの置き替えとして提案されている。光は直線伝播するという幾何光学理論によると、シーンは、一連の点光源と見なせる。また、光信号は、マスクにより空間変調され、画像センサ上でシフトと重ね合わせの畳み込み演算を実現する。光学マスクが、光ドメインで機能抽出のためのニューラルネットワークの畳み込みレイヤの置き換え可能性が検証された。

手書き数字認識などの対象分類タスクには、リアルタイム認識のための計量ネットワークを構築して、アーキテクチャにおける光学畳み込みの性能を検証する。単一のコンボルーションカーネルを使うと、認識の正確さ93.47%が達成可能。マスクで、マルチカーネルをアレンジすることで多チャネル・コンボルーション演算を実行すると、分類の正確さは、97.21%に改善される。従来のマシンビジョンリンクと比較して、約50%のエネルギー消費削減ができる。

さらに、光マスクのサイズを拡大することで画像は、光ドメインに畳み込まれ、センサが人の眼では認識できないエイリアス画像を捉える。これは、計算なしで、自然にプライベート情報を暗号化できる。光暗号化のパフォーマンスは、顔認証タスクで検証されている。ランダムMLSパタンと比べて、エンド・ツー・エンドネットワークで共同最適化されたマスクの認識精度は、6%以上改善された。プラバシー保護暗号化と同時にそれは、基本的にエンクリプションがない方法として同じ認識精度パフォーマンスを達成した。

この研究は、マシンビジョンタスクに非常に簡素化されたシステムを提案している。それは、自然なシーンで光電子ニューラルネットワーク計算を実現するだけでなく、全体的なオプトエレクトロニックリンクを開き、特殊ビジョンタスクのための最高成果を達成するために共同最適化を完了する。非線形材料と組み合わせることで、全自然光ニューラルネットワークが達成される。その新しいアーキテクチャは、自動運転車、スマートホーム、スマートセキュリティなど、多くの実用的なシナリオに潜在的アプリケーションがたくさんある。
(詳細は、https://www.eurekalert.org)