October, 28, 2020, 東京--東京工業大学 情報理工学院 情報工学系の小池英樹教授の研究グループは、手首装着型小型カメラで撮影した手の甲のカラー画像を深層学習ネットワークで学習することで、手指のジェスチャーを認識する技術を開発した。
従来の手指認識は、固定したカメラで撮影するか、手袋型デバイスを使用する必要があり、前者は手指の稼働範囲が制限され、後者は手袋着用の手間があった。
カメラが撮影した手の甲のカラー画像と、そのカラー画像を2値化処理した白黒画像の過去数フレームを、それぞれ深層学習ネットワークResNet18に入力し、両方の出力を全結合層(FC)、長短期記憶層(LSTM)、カルマンフィルタ層(KF)、全結合層(FC)で処理することにより、指関節の3次元座標が出力される。これを手指の3次元姿勢再構成モデルで処理することで、3次元手指姿勢を推定する。
今回の成果によって、認識範囲の制限がなくなり、例えば、手指のジェスチャーだけでスマートフォンのアプリケーションを起動する、音量を変える、といった操作ができるようになる。具体的な使用デバイスとしては、小型カメラ搭載のスマートウォッチなどを想定している。
今回の成果は、東京工業大学の他、米国カーネギーメロン大学ロボティクスインスティテュートのKris M. Kitani教授、オーストラリア New South Wales大学のAaron Quigley教授らとの共同研究によるもので、国際会議「The 33rd Annual ACM Symposium on User Interface Software and Technology (UIST 2020)」で10月23日(現地時間)に発表された。
(詳細は、https://www.titech.ac.jp)