空間的情報と動き情報の共起学習によるハンドジェスチャー認識

OVERVIEW

専攻科における研究、以下に簡単な背景と実験結果、考察を述べる また本研究は産業応用工学会全国大会2022とProceedings of the Joint Symposium of AROB-ISBC-SWARM 2023にて発表され、産業応用工学会では優秀論文発表賞を受賞した。

背景

近年、監視カメラによる人間の行動認識や、車載カメラを用いた自動運転技術など、様々な分野で動画認識技術が応用され始めている。動画認識とは、行動分類や行動検出を代表とする、動画情報を入力とするタスクのことを指し、近年では画像認識と同様に畳み込みニューラルネットワーク(CNN)やVisionTransformerを用いた手法が主流となっている。しかし、従来の方法の多くは、より大きな計算資源を必要とし、エッジデバイスのような豊富な資源を持たないデバイスへの実装が困難であった。そのため、映像認識を活用する場合、豊富な計算資源を持つマシンを導入する必要があり、コストがかかり、手軽に利用することが難しい。本論文では、CNNのための空間情報と運動情報の共起学習を提案する。提案手法は、単一のストリーム(単一のCNNモデル)で空間情報と運動情報の共起学習が可能であり、計算コストが削減できるため、エッジデバイスへの実装が可能である。

ハンドジェスチャー認識への応用

近年,新型コロナウイルスによる感染拡大が社会問題となる中,衛生上の問題からキーボードやタッチパネルといったような接触型のインターフェースではなく,非接触型のインターフェースが求められている。そこで音声操作やハンドジェスチャ操作などといった新しいインターフェースが注目されている。その中でもハンドジェスチャはミュニケーション手段の一つとして使用されていることから,非接触型のインターフェースとして非常に有効であると考えられる。そこで、提案手法をハンドジェスチャー認識に適用し、認識精度や推論速度を検証する。また、その実験結果に対して、Grad-CAMを用いて共起画像と静止画像の特徴を比較を行った。

関連研究

HOF(Histogram of Optical Flow)、MBH(Motion Boundary Histogram)、Dense Trajectoriesは、CNNのような深層学習を用いず、ハンドクラフト特徴量を用いて動画を認識する手法である。HOFは時空間グリッドにおけるオプティカルフローのヒストグラムであり,MBH は HOG(Histograms of Oriented Gradients)と同様の手法でオプティカルフローをヒストグラム化する。Dense Trajectoriesは、フレーム間のオプティカルフローを計算し、その結果を時系列に連結することで特徴点の軌跡を生成する。そして、各軌跡の周囲からHOG、HOF、MBH、軌跡形状特徴を取得する。その後、得られた特徴量をフィッシャーベクトルで符号化し、特徴ベクトルを生成し、行動認識に利用する。しかし、Dense Trajectoriesは、アクションのスピードや撮影条件の違いによって、抽出される特徴が大きく変わってしまうというデメリットがある。

深層学習を用いた映像認識手法として、two-stream CNN(two-tream Convolutional Neural Networks)が提案されています。Spatial CNNには静止画像を入力し、Temporal CNNでは水平方向と垂直方向のオプティカルフローを入力とする。このように空間的情報と動き情報の2つを情報を利用することで高精度の動画認識が可能となる。Dense TrajectoriesやTwo Stream CNNではオプティカルフローを動き情報として用いており、オプティカルフローは動画認識において非常に有用な要素であると考えられる。しかし、オプティカルフローは計算量が多く、エッジデバイスのような計算資源の乏しいマシンではリアルタイムにオプティカルフローを計算し、映像認識を行うことは困難である。CNNを用いた映像認識手法としては、他に3D CNNなどが提案されている。2ストリームCNNのように2つの異なるモデルを用いて認識を行うのではなく、1つのモデルを用いて認識を行う。3D CNNは、空間情報(2D)と時間情報(1D)を組み合わせ、3次元畳み込み演算を行うことで、時空間情報に基づく映像認識を行うものである。3D CNNは高い精度で映像認識を行うことができるが、2次元畳み込み演算に比べて計算コストが増大し、2次元CNNよりも豊富な計算資源が必要になる。

提案手法では、オプティカルフローの代わりに運動履歴画像を用いて運動情報を抽出し、単一のCNNモデルを用いて映像認識を行うため、上記の手法に比べて計算量が少なくて済むという大きな利点があります。

Two Stream Convolutional Neural Network

Two-stream CNNsは、2つのCNNモデルを用いた映像認識手法である。空間情報に基づくSpatial Stream ConvNet (Spatial CNN)と、運動情報に基づくTemporal Stream ConvNet (Temporal CNN)の2つのCNNモデルを用いた手法です。下図にその構造を示す。Spatial CNNの入力は、入力映像から抽出された1枚の画像である。Temporal CNNは、x軸方向とy軸方向のオプティカルフローをそれぞれ20フレームずつ積み重ねたものを入力として受け取る。そして、各CNNの最終層でソフトマックス関数から出力されるスコアを加算またはサポートベクターマシンを用いて融合することで、入力映像を認識する。しかし、2つのCNNモデルとオプティカルフローを入力として用いるため、計算コストが高く、エッジデバイスでのリアルタイム動作が困難である。

提案手法

Motion History Image

オプティカルフローは、動き情報を抽出するのに有効な手法である。しかし、オプティカルフローはピクセル単位で動きベクトルを計算するため、解像度が高くなるほど計算量が増え、エッジデバイスでの実行には不向きである。そこで提案手法では、オプティカルフローではなく計算量が少ないMotion History Image(MHI)を用いて動き情報を取得する。MHI は,1枚の画像に運動履歴を重畳して表示する運動表現手法である.オプティカルフローと異なり,画素単位のベクトル計算を行わず、単純なフレーム間差分で生成するため,計算量が少ないという利点がある。MHIは以下の式で表すことができる。

空間的情報と動き情報の共起学習

Two Stream CNN では,空間的情報と時間的情報を別で 学習しているため,空間的情報と動きのような時間的情 報を同時に学習することができない。そこで本稿では, 静止画(RGB 画像)に MHI を合成し,上記の 2 つの情報が 共起した画像を学習する手法を提案する。提案手法より生成した共起画像を 図 に示す。共起画像により間的情報と動き情報が共起した状態で学習・認識を行う ことができる。 提案手法では Two Stream CNN のように 2 種類のモデ ルで計算をする必要がなく,単一の CNN で認識をことができる。そのため,Two Stream CNN と比較し計算量が少なく,エッジデバイス上でも高速に推論を行うことが可能であると考えられる。

認識実験

実験条件

Spatial Stream ConvNet (Spatial CNN),Temporal Stream ConvNet (Temporal CNN),Two Stream,共起画像での学習 及び認識実験を行い,性能を評価する。使用するモデル は軽量でエッジデバイス上でも動作可能な MobileNetV2 とする。学習時の条件として,バッチサイズは 16 とし, 最適化手法には Adam (Adaptive Moment Estimation)を用 いる。学習率は 0.001 と設定した。 実験用データセットには 20BN-Jeste データセットから 6 クラス分のデータを使用し,MHI・共起画像に変換して 実験用データセットを構築した。Temporal CNN には連続した5 枚の MHI を入力とし,Two Stream での認識結果 は Spatial 及び Temporal CNN での各クラスの出力スコア を加算し平均したものとする。 本実験では,提案手法及び既存手法の推論速度検証用 エッジデバイスに Jetson Nano を用いる。

実験結果

表に各 CNN での認識率と推論速度を示す。RGB 画像を用いて学習したモデルの場合,認識率は 51.14%, 推論速度は 15fps となった.MHI を用いて学習したモデ ルの場合,認識率は 44.53%,推論速度は 8fps となり,こ れらを統合した Two Stream での認識率は55.99%,推論 速度は 5fps となった。提案手法である共起画像を用いて 学習したモデルでは認識率は 66.01%,推論速度は 11fps となった。以上の結果より Two Stream CNN と比較して 提案手法によるハンドジェスチャ認識精度の向上, エッジデバイス上での推論速度向上を確認した。 推論速度が Spatial CNN より 4fps 低い結果となったの は,推論時にエッジデバイス上で MHI を算出し,RGB画像との合成を行っている。そのため計算量が増加し、推論速度が低下したと考えられる。

Spatial CNN、Temporal CNN、我々のモデルについて、Grad-CAMの出力を比較する。Grad-CAMは、入力画像の中で予測に寄与した注目領域をヒートマップで可視化し、ネットワークモデルが画像のどの部分に着目して認識したかを確認できる手法である。各モデルに対するGrad-CAMによる解析結果を図に示す。は一番新しいフレームのMHIにヒートマップを合成したものである。 Spatial CNNの注意は手の領域のみであり、Temporal CNNの注意は局所的な運動履歴にある。一方、我々のモデルは、手の領域や運動履歴を含む、よりグローバルな領域に関するものです。これは共起学習の効果であり、我々のモデルは共起学習によって空間情報と運動情報の関係を表す特徴量を学習していると考えられる。


次に提案手法による識別実験において誤識別した例を図に示す。これらのジェスチャーの真のラベルは "2本の指を右にスライドさせる "ですが、我々のモデルは "右にスライドさせる "と誤識別した。 これは、フレーム間の移動距離が短い場合、新旧の履歴の輝度差がうまく表現されず 、動き情報が表示されないことが原因であると考えられる。

まとめ

本論文では,単一画像から合成された共起画像とMHIを用いた空間・運動情報の共認識学習に基づく映像認識手法を提案した.提案手法をハンドジェスチャ認識に適用したところ、2ストリームCNNを用いた認識と比較して、認識精度の向上と推論速度の高速化を達成しました。この結果から、ジェスチャーの速度が遅いため、MHIにおける過去と現在の運動履歴の輝度差が小さくなり、運動情報の抽出が困難になったことが誤認識を引き起こした可能性があることがわかりました。今後の課題としては、クラス数を6クラスから増やし、ジェスチャーの遅さによる動作履歴の輝度差の影響を軽減するためにMHIにRGBカラーを追加するとともに、本モデルの精度や推論速度の検証を行うことです。