动作识别已成为研究界的主要关注领域,因为许多应用程序都可以从改进的建模中受益,例如视频检索、视频字幕、视频问答等。基于 Transformer 的方法最近展示了最先进的技术 在多个基准测试中的表现。 虽然与 ConvNet 相比,Transformer 模型需要数据来学习更好的视觉先验,但动作识别数据集的规模相对较小。 大型 Transformer 模型通常首先在图像数据集上进行训练,然后在目标动作识别数据集上进行微调。
虽然当前的预训练和微调动作识别范式很简单,并且表现出强大的经验结果,但它可能对构建通用动作识别模型过于严格。 与 ImageNet 等涵盖大量对象识别类别的数据集相比,Kinetics 和Something-Something-v2 (SSv2) 等动作识别数据集只涉及有限的主题。 例如,动力学包括以对象为中心的动作,如“悬崖跳水”和“攀冰”,而 SSv2 包含与对象无关的活动,如“假装将某物放在其他东西上”。因此,我们观察到适应动作识别模型的性能不佳 已经在一个数据集上微调到另一个不同的数据集。
数据集之间对象和视频背景的差异进一步加剧了学习通用动作识别分类模型。尽管视频数据集的大小可能会增加,但先前的工作表明,为了实现强大的性能,必须进行大量的数据扩充和正则化。后一种发现可能表明模型在目标数据集上很快过拟合,因此阻碍了其泛化到其他动作识别任务的能力。
在“Co-training Transformer with Videos and Images Improvements Action Recognition”中,我们提出了一种名为 CoVeR 的训练策略,它利用图像和视频数据共同学习一个通用的动作识别模型。我们的方法得到两个主要发现的支持。首先,不同的视频数据集涵盖了多种活动,并且在单个模型中将它们一起训练可能会导致模型在广泛的活动中表现出色。其次,视频是学习运动信息的完美来源,而图像则非常适合利用结构外观。利用图像示例的多样化分布可能有利于在视频模型中构建稳健的空间表示。具体来说,CoVeR 首先在图像数据集上预训练模型,在微调期间,它同时在多个视频和图像数据集上训练单个模型,为通用视频理解模型构建鲁棒的空间和时间表示。
架构和训练策略
我们将 CoVeR 方法应用于最近提出的称为 TimeSFormer 的时空视频转换器,它包含 24 层转换器块。每个块包含一个时间注意力、一个空间注意力和一个多层感知器 (MLP) 层。为了从多个视频和图像数据集中学习,我们采用了多任务学习范式,并为动作识别模型配备了多个分类头。我们在大规模 JFT 数据集上预训练所有非时间参数。在微调期间,从多个视频和图像数据集中抽取一批视频和图像。采样率与数据集的大小成正比。批次中的每个样本都由 TimeSFormer 处理,然后分发到相应的分类器以获取预测。
与标准训练策略相比,CoVeR 有两个优势。首先,由于模型是直接在多个数据集上训练的,因此学习到的视频表示更通用,可以直接在这些数据集上进行评估,而无需额外的微调。其次,基于 Transformer 的模型可能很容易过度拟合到较小的视频分布,从而降低了学习表示的泛化能力。在多个数据集上进行训练通过降低过度拟合的风险来缓解这一挑战。
基准测试结果
我们评估了在 Kinetics-400 (K400)、Kinetics-600 (K600)、Kinetics-700 (K700)、SomethingSomething-V2 (SSv2) 和 Moments-in-Time (MiT) 数据集上训练的 CoVeR 方法。 与 TimeSFormer、Video SwinTransformer、TokenLearner、ViViT、MoViNet、VATT、VidTr 和 OmniSource 等其他方法相比,CoVeR 在多个数据集上建立了新的最先进技术(如下所示)。 与以前为单个数据集训练专用模型的方法不同,由 CoVeR 训练的模型可以直接应用于多个数据集,无需进一步微调。
迁移学习
我们使用迁移学习来进一步验证视频动作识别性能,并与多个数据集上的协同训练进行比较,结果总结如下。 具体来说,我们在源数据集上进行训练,然后在目标数据集上进行微调和评估。
我们首先将 K400 视为目标数据集。 在 SSv2 和 MiT 上共同训练的 CoVeR 将 K400→K400(模型在 K400 上训练然后在 K400 上微调)上的 top-1 准确率提高了 1.3%,SSv2→K400 提高了 1.7%,MiT→K400 提高了 0.4%。 同样,我们观察到,通过转移到 SSv2,CoVeR 分别比 SSv2→SSv2、K400→SSv2 和 MiT→SSv2 提高了 2%、1.8% 和 1.1%。 K400 和 SSv2 上 1.2% 和 2% 的性能提升表明,在多个数据集上共同训练的 CoVeR 可以比标准训练范式学习更好的视觉表示,这对下游任务很有用。
结论
在这项工作中,我们提出了 CoVeR,这是一种训练范式,它在单个模型中联合学习动作识别和对象识别任务,以构建通用动作识别框架。 我们的分析表明,将许多视频数据集集成到一个多任务学习范式中可能是有益的。 我们强调在微调期间继续学习图像数据以保持稳健的空间表示的重要性。 我们的实证研究结果表明,CoVeR 可以学习一个通用的视频理解模型,该模型在许多动作识别数据集中实现了令人印象深刻的性能,而无需对每个下游应用程序进行额外的微调阶段。
本文转载自Bowen Zhang, Student Researcher and Jiahui Yu, Senior Research Scientist, Google Research, Brain Team,原文链接:https://ai.googleblog.com/2022/03/co-training-transformer-with-videos-and.html。