2021/05/16 Updated by

Deep Learning

Video Pose 3D


[Up] Japanese English

3D human pose estimation in video with temporal convolutions and semi-supervised training

abstract

この作業では、ビデオの3Dポーズが、2Dキーポイント上の拡張された時間的畳み込みに基づく完全畳み込みモデルを使用して効果的に推定できることを示します。 また、ラベルのないビデオデータを活用するシンプルで効果的な半教師ありトレーニング方法である逆投影も紹介します。 ラベルのないビデオの予測された2Dキーポイントから始め、次に3Dポーズを推定し、最後に入力2Dキーポイントに逆投影します。 監視された設定では、完全畳み込みモデルは、Human3.6Mでの平均関節あたりの位置誤差が6 mmで、これまでの文献の最良の結果を11%削減し、HumanEvaでも大幅な改善が見られます。 -私。 さらに、逆投影を使用した実験では、ラベル付けされたデータが不足している半教師あり設定で、以前の最先端の結果を快適に上回っていることを示しています。 コードとモデルはhttps://github.com/facebookresearch/VideoPose3Dで入手できます。

Instroduction

私たちの仕事は、ビデオでの3D人間の姿勢推定に焦点を当てています。 問題を2Dキーポイント検出とそれに続く3Dポーズ推定として定式化する最先端の方法のアプローチに基づいています[41、52、34、50、10、40、56、33]。 問題を分割すると、間違いなくタスクの難易度が下がりますが、複数の3Dポーズを同じ2Dキーポイントにマッピングできるため、本質的にあいまいです。 以前の研究では、リカレントニューラルネットワークを使用して時間情報をモデル化することにより、このあいまいさに取り組んでいました[16、27]。 一方、畳み込みネットワークは、ニューラル機械翻訳[11]、言語モデリング[7]、音声生成[55]、音声認識[6]など、従来RNNで取り組まれていたタスクの時間情報のモデリングに非常に成功しています。 ]。 畳み込みモデルは、リカレントネットワークでは不可能な複数のフレームの並列処理を可能にします。

この論文では、ビデオの正確な3Dポーズ予測のために、2Dキーポイント上で時間畳み込みを実行する完全畳み込みアーキテクチャを紹介します(図1を参照)。 私たちのアプローチは、任意の2Dキーポイント検出器と互換性があり、拡張畳み込みを介して大規模なコンテキストを効果的に処理できます。 RNNに依存するアプローチ[16、27]と比較して、計算の複雑さとパラメーターの数の両方の点で、より高い精度、単純さ、および効率を提供します(3)。 非常に正確で効率的なアーキテクチャを備えており、ラベル付きトレーニングデータが不足している設定に目を向け、ラベルなしビデオデータを半教師ありトレーニングに活用する新しいスキームを導入します。 低リソース設定は、大量のラベル付きトレーニングデータを必要とするニューラルネットワークモデルにとって特に困難であり、3D人間の姿勢推定のためにラベルを収集するには、高価なモーションキャプチャセットアップと長時間の記録セッションが必要です。 私たちの方法は、監視されていない機械翻訳のサイクルの一貫性に触発されています。中間言語への往復翻訳と元の言語への往復翻訳は、恒等関数に近いはずです[46、26、9]。 具体的には、既製の2Dキーポイント検出器を使用してラベルのないビデオの2Dキーポイントを予測し、3Dポーズを予測してから、これらを2D空間にマッピングし直します(4)。

要約すると、このペーパーは2つの主要な貢献を提供します。 最初に、2Dキーポイント軌道上の拡張された時間畳み込みに基づくビデオでの3D人間の姿勢推定のためのシンプルで効率的なアプローチを提示します。 計算の複雑さとモデルパラメータの数の両方の点で、同じレベルの精度で、モデルがRNNベースのモデルよりも効率的であることを示します。 次に、ラベルのないビデオを活用する半教師ありアプローチを紹介します。これは、ラベルの付いたデータが不足している場合に効果的です。 以前の半教師ありアプローチと比較して、必要なのは、グラウンドトゥルース2Dアノテーションや、外部カメラパラメーターを使用したマルチビュー画像ではなく、カメラ固有パラメーターのみです。 最先端技術と比較して、私たちのアプローチは、監視ありと半監視ありの両方の設定で、これまで最高のパフォーマンスを発揮した方法よりも優れています。 教師ありモデルは、トレーニングのために追加のラベル付きデータを利用する場合でも、他のモデルよりもパフォーマンスが優れています。

2. 関連研究

ディープラーニングが成功する前は、3Dポーズ推定へのほとんどのアプローチは、骨格と関節の可動性に関する機能エンジニアリングと仮定に基づいていました[48、42、20、18]。 畳み込みニューラルネットワーク(CNN)を使用した最初のニューラル手法は、中間の監視なしにRGB画像から3Dポーズを直接推定することにより、エンドツーエンドの再構成に焦点を合わせました[28、53、51、41]。

2段階のポーズ推定。

3Dポーズ推定器の新しいファミリは、最初に画像空間(キーポイント)内の2D関節位置を予測し、その後3Dに持ち上げることによって2Dポーズ推定器の上に構築されます[21、34、41、52、4、16]。 これらのアプローチは、中間的な監督の恩恵を受けるため、エンドツーエンドのアプローチよりも優れています。 私たちはこのアプローチに従います。 最近の研究によると、3Dポーズの予測は、グラウンドトゥルースの2Dキーポイントを考えると比較的簡単であり、正確な2Dポーズを予測するのは困難です[34]。 初期のアプローチ[21、4]は、3Dポーズが利用可能な2Dキーポイントの大規模なセットに対して、予測された2Dキーポイントのセットに対して最近傍探索を実行し、対応する3Dポーズを出力するだけです。 一部のアプローチでは、画像の特徴と2Dグラウンドトゥルースポーズの両方を活用します[39、41、52]。 あるいは、3Dポーズは、深さを予測するだけで、特定の2Dキーポイントのセットから予測できます[58]。 いくつかの作品は、骨の長さと2Dグラウンドトゥルースとの投影の一貫性に関する事前情報を強制します[2]。 ビデオポーズの推定。 以前のほとんどの作業は単一フレーム設定で動作しますが、最近では、ビデオからの時間情報を利用して、より堅牢な予測を生成し、ノイズの影響を受けにくくする取り組みが行われています。 [53]時空間ボリュームのHoG特徴(方向付けられた勾配のヒストグラム)から3Dポーズを推測します。 LSTMは、単一の画像から予測された3Dポーズを洗練するために使用されてきました[30、24]。 ただし、最も成功したアプローチは、2Dキーポイントの軌跡から学習します。 私たちの仕事はこのカテゴリーに分類されます。 最近、ビデオからの2Dポーズのシーケンスを固定サイズのベクトルにエンコードし、次に3DポーズのシーケンスにデコードするLSTMシーケンス間学習モデルが提案されました[16]。 ただし、入力シーケンスと出力シーケンスはどちらも同じ長さであり、2Dポーズの決定論的変換ははるかに自然な選択です。 seq2seqモデルを使用した実験では、出力ポーズが長いシーケンスでドリフトする傾向があることが示されました。 [16]は、時間的な一貫性を犠牲にして、5フレームごとにエンコーダーを再初期化することでこの問題に取り組んでいます。 身体部分の接続性の優先順位を考慮したRNNアプローチに関する研究もあります[27]。

半教師ありトレーニング。

2Dおよび3Dの共同ポーズ推定[36、33]およびアクション認識[33]のためのマルチタスクネットワーク[3]に関する研究があります。 一部の作品は、2Dポーズ推定で学習した機能を3Dタスクに転送します[35]。 ラベルのないマルチビュー記録は、3Dポーズ推定の事前トレーニング表現に使用されています[45]が、これらの記録は、教師なし設定ではすぐに利用できません。 生成的敵対的ネットワーク(GAN)は、2D注釈のみが利用可能な2番目のデータセットで現実的なポーズと非現実的なポーズを区別できるため[56]、有用な形式の正則化を提供します。 [54] GANを使用して、対になっていない2D / 3Dデータセットから学習し、2D射影整合性項を含めます。 同様に、[8]は、生成された3Dポーズをランダムに2Dに投影した後、それらを識別します。 [40]は、通常の深度注釈に基づく弱く監視されたアプローチを提案します。これは、深度比較で拡張された2Dポーズデータセットを活用します。 「左足は右足の後ろにあります」。

3D形状回復。

この論文と議論された関連研究は正確な3Dポーズの再構築に焦点を合わせていますが、並行する研究は画像から人々の完全な3D形状を復元することを目的としています[1,23]。 これらのアプローチは通常、パラメータ化された3Dメッシュに基づいており、ポーズの精度はそれほど重要ではありません。

私たちの仕事。

[41、40]と比較して、ヒートマップを使用せず、代わりに検出されたキーポイント座標でポーズを記述します。 これにより、個々のヒートマップでの2D畳み込み(またはヒートマップシーケンスでの3D畳み込み)の代わりに、座標時系列での効率的な1D畳み込みを使用できます。 私たちのアプローチはまた、計算の複雑さをキーポイントの空間分解能とは無関係にします。 私たちのモデルは、より少ないパラメーターで高精度に到達でき、より高速なトレーニングと推論を可能にします。 [34]によって提案された単一フレームベースラインおよび[16]によって提案されたLSTMモデルと比較して、時間次元にわたって1D畳み込みを実行することによって時間情報を活用し、より低い再構成エラーをもたらすいくつかの最適化を提案します。 [16]とは異なり、seq2seqモデルの代わりに決定論的マッピングを学習します。 最後に、このセクションで説明した2ステップモデルのほとんど(2Dキーポイント検出に一般的なスタック砂時計ネットワーク[38]を使用)とは異なり、マスクR-CNN [12]とカスケードピラミッドネットワーク(CPN)[ 5]検出は、3D人間の姿勢推定に対してより堅牢です。

3.時間的拡張畳み込みモデル

私たちのモデルは、2Dポーズのシーケンスを入力として受け取り、時間的畳み込みによってそれらを変換する残余接続を備えた完全畳み込みアーキテクチャです。 畳み込みモデルでは、バッチと時間の両方の次元で並列化が可能ですが、RNNは時間の経過とともに並列化できません。 畳み込みモデルでは、出力と入力の間の勾配のパスは、シーケンスの長さに関係なく固定長であり、RNNに影響を与える勾配の消失と爆発を軽減します。 畳み込みアーキテクチャは、時間受容野の正確な制御も提供します。これは、3Dポーズ推定のタスクの時間依存性をモデル化するのに有益であることがわかりました。 さらに、拡張畳み込み[15]を使用して、効率を維持しながら長期的な依存関係をモデル化します。 拡張畳み込みを備えたアーキテクチャは、オーディオ生成[55]、セマンティックセグメンテーション[57]、および機械翻訳[22]で成功しています。 入力層は、各フレームのJジョイントの連結(x、y)座標を取得し、カーネルサイズWおよびC出力チャネルで時間畳み込みを適用します。 この後に、スキップ接続で囲まれたBResNetスタイルのブロックが続きます[13]。 各ブロックは、最初にカーネルサイズWおよび拡張係数D = WBで1D畳み込みを実行し、次にカーネルサイズ1で畳み込みを実行します。 畳み込み(最後の層を除く)の後に、バッチ正規化[17]、修正された線形ユニット[37]、およびドロップアウト[49]が続きます。 各ブロックは受容野をWの係数で指数関数的に増加させますが、パラメーターの数は直線的にのみ増加します。 フィルタハイパーパラメータWおよびDは、任意の出力フレームの受容野がすべての入力フレームをカバーするツリーを形成するように設定されます(1を参照)。 最後に、最後のレイヤーは、過去と未来の両方のデータを使用して時間情報を活用し、入力シーケンス内のすべてのフレームの3Dポーズの予測を出力します。 リアルタイムのシナリオを評価するために、因果的畳み込み、つまり過去のフレームにしかアクセスできない畳み込みも実験します。 付録A.1は、拡張畳み込みと因果畳み込みを示しています。 畳み込み画像モデルは通常、ゼロパディングを適用して入力と同じ数の出力を取得します。 ただし、初期の実験では、入力シーケンスを左右の境界フレームのレプリカでパディングしながら、パディングされていない畳み込みのみを実行すると、より良い結果が示されました(図9aの付録A.5を参照)。 図2は、B = 4ブロックの243フレームの受容野サイズに対するアーキテクチャのインスタンス化を示しています。 畳み込み層の場合、C = 1024の出力チャネルでW = 3に設定し、ドロップアウト率p = 0.25を使用します。

4.半教師ありアプローチ

ラベル付けされた3Dグラウンドトゥルースポーズデータの可用性が制限されている設定での精度を向上させるために、半教師ありトレーニング方法を導入します。 ラベルのないビデオを既製の2Dキーポイント検出器と組み合わせて活用し、逆投影損失項を使用して監視対象損失関数を拡張します。 ラベルのないデータの自動エンコードの問題を解決します。エンコーダー(ポーズ推定器)は2D関節座標から3Dポーズ推定を実行し、デコーダー(投影レイヤー)は3Dポーズを2D関節座標に投影します。 デコーダーからの2Dジョイント座標が元の入力から離れている場合、トレーニングはペナルティを課します。 図3は、監視ありコンポーネントと、正則化として機能する教師なしコンポーネントを組み合わせた方法を表しています。 2つの目的は共同で最適化され、ラベル付きデータがバッチの前半を占め、ラベルなしデータが後半を占めます。 ラベル付けされたデータについては、グラウンドトゥルースの3Dポーズをターゲットとして使用し、教師あり損失をトレーニングします。 ラベルのないデータは、予測された3Dポーズが2Dに投影され、入力との整合性がチェックされるオートエンコーダ損失を実装するために使用されます。 軌道モデル。 透視投影により、画面上の2Dポーズは、軌道(つまり、人間のルートジョイントのグローバル位置)と3Dポーズ(ルートジョイントに対するすべてのジョイントの位置)の両方に依存します。 グローバルな位置がないと、被写体は常に画面の中央に固定スケールで再投影されます。 したがって、人物の3D軌道も回帰し、2Dへの逆投影を正しく実行できるようにします。 この目的のために、カメラ空間のグローバル軌道を回帰する2番目のネットワークを最適化します。 後者は、2Dに投影する前にポーズに追加されます。 2つのネットワークのアーキテクチャは同じですが、マルチタスク方式でトレーニングすると相互に悪影響を与えることがわかったため、重みは共有されていません。 被写体がカメラからさらに離れている場合、正確な軌道を回帰することがますます困難になるため、軌道の加重平均関節ごとの位置誤差(WMPJPE)損失関数を最適化します。 E = 1yzkf(x)yk(1) つまり、カメラ空間のグラウンドトゥルース深度(yz)の逆数を使用して各サンプルに重みを付けます。 対応する2Dキーポイントは小さな領域に集中する傾向があるため、遠方の被写体の正確な軌道を回帰することも、私たちの目的には不要です。 骨の長さL2の損失。 入力をコピーするだけでなく、もっともらしい3Dポーズの予測を奨励したいと思います。 そのために、ラベルのないバッチの被験者の平均骨長をラベルの付いたバッチの被験者にほぼ一致させるソフト制約を追加することが効果的であることがわかりました(図3の「骨の長さL2損失」)。 6.2で示すように、この用語は自己監視において重要な役割を果たします。 討論。 私たちの方法は、商用カメラでよく利用できるカメラ固有のパラメータのみを必要とします。1このアプローチは、特定のネットワークアーキテクチャに結び付けられておらず、2Dキーポイントを入力として受け取る任意の3Dポーズ検出器に適用できます。 私たちの実験では、3で説明したアーキテクチャを使用して、2Dポーズを3Dにマッピングします。 3Dポーズを2Dに投影するには、線形パラメーター(焦点距離、主点)と非線形レンズ歪み係数(接線および放射状)を考慮した単純な投影レイヤーを使用します。 Human3.6Mで使用されているカメラのレンズの歪みは、ポーズ推定メトリックにほとんど影響を与えないことがわかりましたが、実際のカメラ投影のより正確なモデリングを常に提供するため、これらの用語を含めます。

5.実験のセットアップ

5.1データセットと評価

Human3.6M [20、19]とHumanEva-I [47]の2つのモーションキャプチャデータセットで評価します。 Human3.6Mには、11の被写体の360万のビデオフレームが含まれており、そのうち7つには3Dポーズの注釈が付けられています。 各被験者は、50Hzで4台の同期カメラを使用して記録された15のアクションを実行します。 前の作業[41、52、34、50、10、40、56、33]に続いて、17関節の骨格を採用し、5人の被験者(S1、S5、S6、S7、S8)でトレーニングし、2人の被験者でテストします。 (S9およびS11)。 すべてのアクションに対して単一のモデルをトレーニングします。 HumanEva-Iははるかに小さいデータセットであり、60Hzで3つのカメラビューから3つの被写体が記録されています。 [34、16]に続いて、アクションごとに異なるモデル(シングルアクション?SA)をトレーニングすることにより、3つのアクション(ウォーク、ジョグ、ボックス)を評価します。 [41、27]のように、すべてのアクション(マルチアクション?MA)に対して1つのモデルをトレーニングした場合の結果も報告します。 15ジョイントのスケルトンを採用し、提供されているトレイン/テストスプリットを使用します。 私たちの実験では、3つの評価プロトコルを検討します。プロトコル1は、ミリメートル単位の平均関節あたり位置誤差(MPJPE)であり、予測された関節位置とグラウンドトゥルース関節位置の間の平均ユークリッド距離であり、次のようになります[29、53、59、 34、41]。 プロトコル2は、平行移動、回転、およびスケール(P-MPJPE)のグラウンドトゥルースとの位置合わせ後のエラーを報告します[34、50、10、40、56、16]。 プロトコル3は、半教師あり実験の[45]に従って、予測されたポーズをスケールのみのグラウンドトゥルース(N-MPJPE)に合わせます。

5.2。 2Dポーズ推定の実装の詳細

これまでのほとんどの研究[34、58、52]は、グラウンドトゥルースバウンディングボックスから対象を抽出し、積み重ねられた砂時計検出器を適用して、グラウンドトゥルースバウンディングボックス内の2Dキーポイントの位置を予測します[38]。 私たちのアプローチ(3および4)は、特定の2Dキーポイント検出器に依存しません。 したがって、私たちは、実際のセットアップの使用を可能にするグラウンドトゥルースボックスに依存しないいくつかの2D検出器を調査します。 積み重ねられた砂時計検出器に加えて、ResNet-101-FPN [31]バックボーンを備えたMaskR-CNN [12]を、Detectronでのリファレンス実装と、 FPNの拡張。 CPNの実装では、境界ボックスを外部に提供する必要があります(この場合はMask R-CNNボックスを使用します)。 マスクR-CNNとCPNの両方について、COCOで事前トレーニングされたモデル[32]から始め、COCOのキーポイントがHuman3.6M [20]と異なるため、Human3.6Mの2D投影で検出器を微調整します。 アブレーションでは、Human3.6Mの3D関節を推定するために、事前にトレーニングされた2DCOCOキーポイントに3Dポーズ推定器を直接適用することも実験します。 Mask R-CNNには、「ストレッチ1x」スケジュールでトレーニングされたResNet-101バックボーンを採用します[12]。2Human3.6Mでモデルを微調整する場合、キーポイントネットワークの最後のレイヤーとデコンボを再初期化します。ヒートマップを回帰して新しいキーポイントのセットを学習するレイヤー。 4つのGPUで、段階的に減衰する学習率でトレーニングします。60k回の反復では1e-3、10k回の反復では1e-4、10k回の反復では1e-5です。 推論では、ヒートマップにソフトマックスを適用し、結果の2D分布の期待値(soft-argmax)を抽出します。 これにより、hard-argmax [33]よりもスムーズで正確な予測が可能になります。 CPNには、解像度384 x288のResNet-50バックボーンを使用します。 微調整するために、GlobalNetとRefineNetの両方の最終レイヤーを再初期化します(畳み込みの重みとバッチ正規化統計)。 次に、32枚の画像のバッチと段階的に減衰する学習率で1つのGPUでトレーニングします:6k回の反復で5e-5(初期値の1/10)、4k回の反復で5e-6、最後に5e- 2k回の反復では7。 微調整中は、バッチ正規化を有効のままにします。 グラウンドトゥルースバウンディングボックスを使用してトレーニングし、微調整されたマスクR-CNNモデルによって予測されたバウンディングボックスを使用してテストします。

5.3。 3Dポーズ推定の実装の詳細

他の作業[34、29、53、59、34、41]との一貫性を保つために、グローバル軌道を使用せずに、カメラの変換に従ってグラウンドトゥルースポーズを回転および変換することにより、カメラ空間の3Dポーズをトレーニングおよび評価します。 (半教師あり設定を除く、4)。 オプティマイザーとして、Amsgrad [43]を使用し、80エポックのトレーニングを行います。 Human3.6Mの場合、指数関数的に減衰する学習率スケジュールを採用します。これは、eta = 0.001から始まり、各エポックに縮小係数alpha = 0.95が適用されます。 すべての時間モデル、つまり受容野が1より大きいモデルは、ポーズシーケンス内のサンプルの相関に敏感です(3を参照)。 これにより、独立したサンプルを想定したバッチ正規化の統計に偏りが生じます[17]。 予備実験では、トレーニング中に多数の隣接フレームを予測すると、時間情報を利用しないモデル(バッチ内のサンプルが十分にランダム化されている)よりも悪い結果が得られることがわかりました。 さまざまなビデオセグメントからトレーニングクリップを選択することにより、トレーニングサンプルの相関を減らします。 クリップセットのサイズは、モデルがトレーニングクリップごとに1つの3Dポーズを予測するように、アーキテクチャの受容野の幅に設定されます。 これは一般化にとって重要であり、付録A.5で詳細に分析します。 ストライドが拡張係数になるように設定されているストライド畳み込みを拡張畳み込みに置き換えることで、この単一フレーム設定を大幅に最適化できます(付録A.6を参照)。 これにより、使用されることのない状態の計算が回避され、トレーニング中にのみこの最適化が適用されます。 推論では、シーケンス全体を処理し、他の3Dフレームの中間状態を再利用して、推論を高速化できます。 これが可能なのは、モデルが時間ディメンションでどのような形式のプーリングも使用していないためです。 有効な畳み込みによってフレームが失われるのを防ぐために、複製によってパディングしますが、シーケンスの入力境界でのみパディングします(付録A.5、図9aに図を示します)。 バッチ正規化のデフォルトのハイパーパラメータは、テストエラーの大きな変動(±1 mm)と、推論の実行中の推定値の変動につながることを確認しました。 より安定した実行統計を実現するために、バッチ正規化運動量ベータのスケジュールを使用します。ベータ= 0.1から開始し、指数関数的に減衰して、最後のエポックでベータ= 0.001に到達します。 最後に、列車とテスト時に水平フリップ増強を実行します。 この効果を付録A.4に示します。 HumanEvaの場合、N = 128、alpha = 0.996を使用し、27フレームの受容野を使用して1000エポックでトレーニングします。 HumanEvaの一部のフレームはセンサーのドロップアウトによって破損しており、破損したビデオを有効な連続したチャンクに分割し、それらを独立したビデオとして扱います。

6.結果

6.1。 時間拡張畳み込みモデル

表1は、両方の評価プロトコル(5)について、B = 4ブロックと243入力フレームの受容野を使用した畳み込みモデルの結果を示しています。 このモデルは、両方のプロトコルで他のすべてのアプローチよりも平均誤差が低く、他の多くのアプローチ(+)などの追加データに依存していません。 プロトコル1(表1a)では、モデルは以前の最良の結果[27]を平均6 mm上回り、11%のエラー削減に相当します。 特に、[27]はグラウンドトゥルースボックスを使用していますが、私たちのモデルは使用していません。 すべての畳み込みカーネルの幅をW = 1に設定した単一フレームのベースラインと比較して、プロトコル1のエラーは平均で約5 mm高いため、モデルは明らかに時間情報を利用しています。 「歩く」(6.7mm)や「一緒に歩く」(8.8mm)などの非常に動的なアクションの場合、ギャップは大きくなります。 因果的畳み込みのあるモデルのパフォーマンスは、単一フレームのベースラインとモデルの約中間です。因果畳み込みは、右端の入力フレームの3Dポーズを予測することにより、オンライン処理を可能にします。 興味深いことに、グラウンドトゥルースバウンディングボックスは、マスクR-CNNを使用した予測バウンディングボックスと同様のパフォーマンスをもたらします。これは、単一被験者のシナリオでは予測がほぼ完全であることを示しています。 図4は、予測された2Dキーポイントを含む予測されたポーズの例を示しており、補足資料(付録A.7)およびhttps://dariopavllo.github.io/VideoPose3Dにビデオイラストを含めました。 次に、2Dキーポイント検出器が最終結果に与える影響を評価します。 表3は、グラウンドトゥルース2Dポーズ、[34]からの砂時計ネットワーク予測(MPIIで事前トレーニング済み、Human3.6Mで微調整済み)、Detectron、CPN(COCOで事前トレーニング済み、 Human3.6Mで微調整)。 Mask R-CNNとCPNはどちらも、積み重ねられた砂時計ネットワークよりも優れたパフォーマンスを提供します。 改善は、より高いヒートマップ解像度、より強力な特徴の組み合わせ(Mask R-CNNの特徴ピラミッドネットワーク[31、44]およびCPNのRefineNet)、およびそれらが事前トレーニングされるより多様なデータセット、つまりCOCO [ 32]。 2Dグラウンドトゥルースポーズでトレーニングすると、モデルは[34]の下限を8.3 mm改善し、LeeらのLSTMベースのアプローチを改善します。 [27]プロトコル1の場合は1.2mm。 したがって、私たちの改善は、単に2D検出器の改善によるものではありません。 絶対位置誤差は、時間の経過に伴う予測の滑らかさを測定しません。これは、ビデオにとって重要です。 これを評価するために、3Dポーズシーケンスの一次導関数のMPJPEに対応する関節速度エラー(MPJVE)を測定します。 表2は、時間モデルが単一フレームベースラインのMPJVEを平均76%削減し、ポーズが非常にスムーズになることを示しています。 表4は、HumanEva-Iの結果と、モデルがより小さなデータセットに一般化されていることを示しています。結果は、事前にトレーニングされたマスクR-CNN2D検出に基づいています。 私たちのモデルは、以前の最先端技術を上回っています。 最後に、表5は、複雑さの観点から、畳み込みモデルを[16]のLSTMモデルと比較しています。 モデルパラメータの数と浮動小数点演算(FLOP)の推定値を報告して、推論時に1つのフレームを予測します(詳細は付録A.2を参照)。 後者の場合、行列の乗算のみを考慮し、無限の長さの仮想シーケンスでの償却コストを報告します(パディングを無視するため)。 MPJPEの結果は、テスト時間の拡張なしで、グラウンドトゥルースの2Dポーズでトレーニングされたモデルに基づいています。 私たちのモデルは、計算回数が半分になった場合でも、大幅に低いエラーを実現します。 受容野が243フレームの最大のモデルは、[16]とほぼ同じ複雑さですが、誤差が3.8mm低くなっています。 この表はまた、受容野に関して対数的にのみ複雑さを増す拡張畳み込みの有効性を強調しています。 私たちのモデルは畳み込みであるため、シーケンスの数と時間次元の両方で並列化できます。 これは、異なるシーケンスでのみ並列化できるRNNとは対照的であるため、バッチサイズが小さい場合は効率が大幅に低下します。 推論のために、2Dポーズがすでに利用可能であると仮定して、単一の長いシーケンス、つまりバッチサイズ1で単一のNVIDIA GP100GPUで約150kFPSを測定しました。 並列の時間処理により、速度はバッチサイズにほとんど依存しません。

6.2。半教師ありアプローチ

Human3.6Mトレーニングセットのさまざまなサブセットをラベル付きデータと見なし、残りのサンプルをラベルなしデータとして使用する[45]のセットアップを採用します。 また、これらのセットアップでは、通常、すべてのデータが10 FPS(50 FPSから)にダウンサンプリングされます。 ラベル付きサブセットは、最初にサブジェクトの数を減らし、次にサブジェクト1をダウンサンプリングすることによって作成されます。 データセットはダウンサンプリングされているため、アップサンプリングされた45フレームに相当する9フレームの受容野を使用します。 S1の1%と5%という非常に小さなサブセットの場合、3つのフレームを使用し、49フレームしか使用できないS1の0.1%に単一フレームモデルを使用します。 ラベル付きデータのみでCPNを微調整し、数エポック(?S1の場合は1エポック、小さいサブセットの場合は20エポック)のラベル付きデータのみを反復することでトレーニングをウォームアップしました。 図5aは、ラベル付けされたデータの量が減少するにつれて、半教師ありアプローチがより効果的になることを示しています。 ラベル付けされたフレームが5K未満の設定の場合、このアプローチでは、監視対象のベースラインよりも約9?10.4 mmNMPJPEの改善が達成されます。 監視対象のベースラインは[45]よりもはるかに強力であり、すべての結果を大幅に上回っています。 [45]はすべての実験で単一フレームモデルを使用していますが、私たちの調査結果はS1の0.1%を保持しています(ここでも単一フレームモデルを使用しています)。 図5bは、ダウンサンプリングされていないバージョンのデータセット(50 FPS)のより一般的なプロトコル1での方法の結果を示しています。 この設定は、ビデオ内の完全な時間情報を活用できるため、私たちのアプローチにより適しています。 ここでは、27フレームの受容野を使用します。ただし、9フレームを使用するS1の1%と、1フレームを使用するS1の0.1%を除きます。 半教師ありアプローチでは、教師ありベースラインを最大14.7 mmMPJPE上回ります。 図5cは、グラウンドトゥルース2DポーズのCPN 2Dキーポイントを切り替えて、より優れた2Dキーポイント検出器でパフォーマンスを向上できるかどうかを測定します。 この場合、最大22.6 mm MPJPE(S1の1%)の改善が可能であり、2D検出が改善されるとパフォーマンスが改善されることが確認されます。 同じグラフは、骨の長さの項が有効なポーズを予測するために重要であることを示しています。これは、モデルに運動学的制約を尊重させるためです(「半教師ありGT abl。」の行)。 この項を削除すると、半教師ありトレーニングの効果が大幅に低下します。S1の1%の場合、エラーは78.1mmから91.3mmに増加します。これは、教師ありベースラインの100.7mmと比較されます。

7.結論

ビデオでの3D人間の姿勢推定のための単純な完全畳み込みモデルを導入しました。 私たちのアーキテクチャは、2Dキーポイント軌道上の拡張畳み込みで時間情報を活用します。 この作業の2番目の貢献は、逆投影です。これは、ラベル付けされたデータが不足している場合にパフォーマンスを向上させるための半教師ありトレーニング方法です。 この方法は、ラベルのないビデオで機能し、固有のカメラパラメータのみを必要とするため、モーションキャプチャが難しいシナリオ(屋外スポーツなど)で実用的です。 私たちの完全畳み込みアーキテクチャは、人気のあるHuman3.6Mデータセットでの以前の最良の結果を6mmの平均ジョイントエラーで改善します。これは、11%の相対的な削減に相当し、HumanEva-Iの改善も示しています。 逆投影は、5K以下の注釈付きフレームが使用可能な場合、強力なベースラインよりも約10mm N-MPJPE(15mm MPJPE)だけ3Dポーズ推定精度を向上させることができます。