行为识别 review

任务简述

视频理解是目前计算机视觉领域非常热,也是极具挑战力的一个方向。视频理解方向包含众多的子研究方向,以CVPR组织的ACTIVITYNET为例,2017年总共有5个Task被提出。

  • Task1:未修剪视频分类(Untrimmed Video Classification)。这个有点类似于图像的分类,未修剪的视频中通常含有多个动作,而且视频很长。有许多动作或许都不是我们所关注的。所以这里提出的Task就是希望通过对输入的长视频进行全局分析,然后软分类到多个类别。
  • Task2:修剪视频识别(Trimmed Action Recognition)。这个在计算机视觉领域已经研究多年,给出一段只包含一个动作的修剪视频,要求给视频分类。
  • Task3:时序行为提名(Temporal Action Proposal)。这个同样类似于图像目标检测任务中的候选框提取。在一段长视频中通常含有很多动作,这个任务就是从视频中找出可能含有动作的视频段。
  • Task4:时序行为定位(Temporal Action Localization)。相比于上面的时序行为提名而言,时序行为定位于我们常说的目标检测一致。要求从视频中找到可能存在行为的视频段,并且给视频段分类。
  • Task5:密集行为描述(Dense-Captioning Events)。之所以称为密集行为描述,主要是因为该任务要求在时序行为定位(检测)的基础上进行视频行为描述。也就是说,该任务需要将一段未修剪的视频进行时序行为定位得到许多包含行为的视频段后,对该视频段进行行为描述。比如:man playing a piano

行为识别主要指的是Task 2。

阅读更多

CVPR2019 PaperReading(1)

  • [ ] On the Structural Sensitivity of Deep Convolutional Networks to the Directions of Fourier Basis Functions
  • [ ] Striking the Right Balance with Uncertainty
  • [x] NM-Net: Mining Reliable Neighbors for Robust Feature Correspondences
  • [x] C2AE: Class Conditioned Auto-Encoder for Open-set Recognition
  • [ ] Doodle to Search: Practical Zero-Shot Sketch-based Image Retrieval
  • [x] Zero-Shot Task Transfer
  • [ ] C-MIL: Continuation Multiple Instance Learning for Weakly Supervised Object Detection
  • [ ] Transferrable Prototypical Networks for Unsupervised Domain Adaptation

阅读更多