July, 21, 2020, 東京--7月17日(金)、精密工学会・画像応用技術専門委員会(委員長:野口稔氏〈日立ハイテクソリューションズ〉:写真)主催による2020年度第2回定例研究会がオンラインで開催された。テーマは各方面から注目を集める「人工知能・データサイエンス」だ。
第4次産業革命の進展がその国の命運を握ると言われる昨今、画像応用技術に深く関連する深層学習を始めとした人工知能やデータサイエンスの実利用と社会への浸透は本格化、今やあらゆる分野への適用が進んでいる。そして、その研究開発は今後ますます進展して行くと期待されている。今回の研究会では、さらなる適用範囲拡大に寄与する新規の学習手法に関する講演2件と、人工知能分野とは切っても切り離せないロボット応用の研究事例1件が紹介された。
画像応用技術専門委員会
画像応用技術専門委員会(IAIP:Technical Committee on Industrial Application of Image Processing)は1983年、故・小田原豪太郎・東大教授と梶谷誠・電通大教授、斎藤之男・電機大教授を中心に発足した「生産自動化のための画像処理技術研究分科会」が、そのルーツとなっている。
1986年9月にはこの分科会を発展させるかたちで同委員会が設立され、1992年コンピュータ活用による画像技術を工場内の検査や計測、制御に適用しようという趣旨のもと、現在の中核イベントの一つでもある「外観検査の自動化ワークショップ」がスタートした。その後、画像技術は確立した独自の産業領域へと成長を遂げ、それに伴い同委員会はその対象を工場だけではなく、広く社会へと拡げていった。
同委員会では、今回の定例研究会(年5回開催)の他にも、ViEW(Vision Engineering Workshop:ビジョン技術の実利用ワークショップ)やDIA(Dynamic Image processing for real Application:動的画像処理実利用化ワークショップ)、サマーセミナーなど、数多くのイベントを実施するなど、活発な活動を展開しており、現在では148名の個人会員と35社の法人会員が在籍する。
委員長の野口氏は、同委員会のホームページで次のように述べている。「『連携』が『オープンイノベーション』に、『実利用』が『社会実装』に、『工場の現場』が『社会の現場』に変わっていっても、IAIPの根底には、『現場の課題を解決する』という考え方が流れています。IAIPは今後もこの立ち位置を堅持し活動を継続して行くことを強く意識しています。また、多様な切り口・分野でそれぞれ活躍されている多くの組織とも有機的に連携しています。これもIAIPの良さの一つであり、『潮流の先端と現場を結ぶ』つながりを引き続き大切にしていきたいと思っています。・・・IAIPの力は人です」。
各講演の概要
◆知識転移グラフによる複数ネットワークの共同学習:中部大・工学部ロボット理工学科 藤吉弘亘氏
教育分野では、良い教師の存在が生徒の学習効果を向上させ、また生徒同士が適切に情報交換を行いながら学習すれば学習効率が向上するということが知られている。ニューラルネットワークを学習させる際にも、同じことが言える。通常の教師あり学習では、教師ラベルのみで単一のネットワークを使用して学習を行うが、ネットワーク単体よりも互いの知識を転移させながら学習した方が精度は向上する。
知識転移手法には、一方向性のKnowledge Distillation(KD)と双方向性のDeep Mutual Learning(DML)がある。KDはパラメータ数が大きく優秀な事前学習済みネットワークを用いて、パラメータ数の小さなネットワークを学習する。一方のDMLは、学習済みの教師ネットワークを用いずに、未学習の生徒ネットワーク同士のみで相互学習を行う。パラメータ数の大きなネットワークと小さなネットワークの組合せだけでなく、同一構造のネットワーク同士でも精度を向上させることができ、三つ以上のモデルの学習も同時にできる。汎化能力が高い。
ところが、DMLは学習初期におけるネットワーク出力がランダムに近いため、生徒同士お互いに学習の進行を妨げる可能性が大きいという問題を抱えていた。そこで提案されたのが、ゲートを導入して知識転移を制御するGradual Sampling Gateだ。Stochasticに知識転移することで、蒸留しつつ性能を向上させることができる。
藤吉氏は、KDやDMLを内包した、より一般的な知識転移手法をグラフ表現する共同学習を提案した。この共同学習では、ハイパーパラメータサーチによって最適な知識転移グラフを探索することができ、さらにモデル間を流れる情報を制御するためにThrough Gate、Cutoff Gate、Linear Gate、Correct Gateという4種類のゲート構造を導入、モデルには学習済みのネットワークや異なるサイズのネットワークを候補として、最適化対象モデルの性能が最大化するようASHA(Asynchronous Successive Algorithm)を使用して最適化を行った。そして、CIFAR100(動植物や乗り物など100種類の「物体カラー写真」の画像データセット。一般物体認識のベンチマークとしてよく使用される)を用い最適な知識転移グラフ構造を探索、その結果、従来法を超える精度を達成した(ノード数2の時:72.88%、3の時:73.46%、4の時:74.34%、5の時:74.54%)。
藤吉氏は今後、大規模並列分散GPU環境での実験や、知識転移グラフの拡張(アンサンブル学習、Few-Shot学習など)に関する研究を行いたいと述べ、講演を終えた。
◆限られたデータからの学習法:東工大・情報理工学院 井上中順氏
深層学習技術の進展に伴い、近年様々な分野への人工知能の導入・応用が進められている。特に、大量の教師付きデータを用いて学習された画像認識モデルは、インターネット上における情報検索の他、実世界でのセキュリティ強化や各種産業の高効率化ならびに異常の検知に至るまで、多種多様な用途が創出されている。
教師付きデータの「教師付き」とは、画像や映像にラベルが与えられているということを指す。一方で、詳細なラベルを大量に準備するには多くのコストが必要とされ、異常検出など応用によってはラベルを付与するためのデータ収集そのものが難しい場合も多い。
そこで注目を浴びているのが、「限られたデータ」からの高精度なニューラルネットワーク学習を実現する、Few-Shot学習(Few-Shot Learning)、Zero-Shot学習(Zero-Shot Learning)、弱教師付き学習(Weakly Supervised Learning)、自己教師付き学習(Self-Supervised Learning)、半教師付き学習(Semi-Supervised Learning)などの技術だ。
ちなみに、Few-Shot学習は学習サンプルが少ない場合の学習方式。Zero-Shot学習は直接的な学習サンプルがない場合の学習方式。弱教師付き学習は不完全なラベルが与えられている場合の学習方式。自己教師付き学習は教師無しデータから生成したラベルを用いる学習方式。半教師付き学習は一部のデータにのみラベルが与えられている場合の学習方式だ(応用の問題設定ごとに若干定義に違いがあるとのこと)。
井上氏の研究室では、Few-Shot学習の研究例として、メタ学習(Meta Learning)に基づいたアルゴリズムで少数サンプルからの学習を実現するMAML(Model Agnostic Meta Learning)と、大量データを用いた教師付き学習Many-shot学習と言語情報などの外部データを用いたZero-Shot学習を統一的に定式化する方法Few-Shot Adaptation、さらに入力摂動に対し出力に一貫性を持たせるという考えに基づいた正則化手法であるCR(Consistency Regularization)をImage to Image変換に応用して、半教師付き学習の正則化を他の問題にも適用できるACCR(Augmented Cyclic Consistency Regularization)などの研究に取り組んでいる。
井上氏は、将来的にはすべてが教師無し学習に集約されるのではないかと考えているとしたが、(現時点で実現は程遠く)それには多種多様なデータの統一的学習が必要であり、そのための研究をJSTのACT-Xプログラム(若手研究者の発掘・育成プログラム)「数理・情報のフロンティア」で行っていると述べた。
◆深層学習を用いた不定形物の把持位置認識:三菱電機・先端技術総合研究所センサ情報処理システム技術部 大島彩佳里氏、奥田晴久氏
近年、食品製造業における労働力不足が深刻な問題となっている。中でも弁当工場のラインで各作業員が食材を順々に盛り付けていく食材の盛り付け作業は、取り扱う食品の個々の形状にばらつきがある不定形物のため、自動化が遅れている分野の一つと指摘されている。
講演では、個々で形状が異なる食品などの不定形物がバラ積みされたシーンでの深層学習を用いた把持位置認識手法が報告された。さらに、2019年12月東京ビッグサイトで開催された「国際ロボット展」に出展した際に展示された本技術による実機デモも紹介され、ばら積みされた食品サンプルを整列させるタスク実現の様子が披露された。
大島氏等は、食材の盛り付け作業の自動化に向けた足掛かりとして、ばら積みされた不定形物体の認識を実用可能な短い時間で可能とする手法を開発した。具体的には、11層の畳み込み層と4層のプーリング層、9層の全結合層から構成される把持位置検出ネットワーク(GRN :Grasp Recognition Network)と、画像の入力サイズを50×50 としたコンパクトなニューラルネットワークを用いるとともに、実用可能な短い時間でデータセットの作成を行うため、不揃いな形状の物体を再現する3Dモデル生成手法によるシミュレーションを採用。これにより約1200 秒という短時間での学習を実現した。
展示会においては、本技術を用いたロボットシステムのデモを構築、唐揚げと人参の食品サンプルの把持認識を行ったところ、唐揚げで92%、ニンジンで83%という高い把持成功率の実現に成功した。なお、失敗の原因はハンド形状による滑りなどが多かったという。
大島氏は、把持成功率を向上させるために、不定形物体に適したネットワークの改良や適用ハンドの拡大に向けた検討を進めていくと述べた。
次回研究会
委員会では、定例研究会の今年の年間テーマを「持続可能な社会を創る画像応用技術」と定めている。次回(第3回)研究会は9月18日(金)、「3次元計測」をテーマにオンライン開催される予定だ。委員会の実施するサマーセミナー、ViEW、DIA、QCAV、外観アルゴリズムコンテストなどを含め、最新情報は下記ホームページで参照されたい。
http://www.tc-iaip.org/research/
(川尻 多加志)