松下研究室

マルチモーダル特徴の共有表現によるマルチタスク学習

本研究では,画像認識分野における複数のタスクを単一のモデルを用いて推定する手法を提案する.マルチタスク学習は複数の画像認識タスクを同時に処理するための,効果的かつ効率的な手法であることが知られている.セマンティックセグメンテーションや深度推定をはじめとするシーン認識のタスクはモダリティ間のエンコーダ・デコーダ構造によって行われる.したがって多くの先行研究ではマルチタスク学習を行うためにマルチモーダルデータセットを用いている.しかし,それらの先行研究では単一の画像のみから目的となるモダリティを推定しているため,モダリティ間に共有される特徴を完全に抽出することができない.本研究ではこのようなマルチタスク学習におけるマルチモーダル間に共有される特徴を十分に活用するために,マルチモーダルネットワークを提案する.提案手法では,エンコーダ・デコーダのペア間で中間特徴を共有するほか,異なるエンコーダからデコーダに向かってスキップされる結合を共有する.これら2つの共有要素を組み合わせることで,トレーニングデータに存在する全てのモダリティ間に共有される特徴を効率的に学習することができる.

発表文献

  • R. Kuga, A. Kanezaki, M. Samejima, Y. Sugano and Y. Matsushita, “Multi-task Learning Using Multi-modal Encoder-Decoder Networks with Shared Skip Connections,” 2017 IEEE International Conference on Computer Vision Workshops (ICCVW), Venice, 2017, pp. 403-411.
↑ PAGE TOP
松下研究室