视频识别是计算机视觉中的一项核心任务,其应用范围从视频内容分析到动作识别。 然而,用于视频识别的训练模型通常需要手动注释未修剪的视频,这可能非常耗时。 为了减少收集带有注释的视频的工作量,从带有弱标签的视频中学习视觉知识,即注释是在没有人工干预的情况下自动生成的,由于大量易于访问的视频数据而引起了越来越多的研究兴趣 . 例如,通常通过使用关键字查询视频识别模型旨在分类的类别来获取未修剪的视频。 然后将一个关键字(我们称为弱标签)分配给获得的每个未修剪视频。
尽管带有弱标签的大规模视频更容易收集,但使用未经验证的弱标签进行训练是开发鲁棒模型的另一个挑战。 最近的研究表明,除了标签噪声(例如,未修剪视频上的不正确动作标签)之外,由于缺乏准确的时间动作定位,还存在时间噪声 – 即,未修剪的视频可能包含其他非目标内容或 可能只在一小部分视频中显示目标动作。
减少大规模弱监督预训练的噪声影响至关重要,但在实践中尤其具有挑战性。 最近的工作表明,查询短视频(例如,长度约为 1 分钟)以获得更准确的目标动作时间定位或应用教师模型进行过滤可以产生更好的结果。 然而,这种数据预处理方法会阻止模型充分利用可用的视频数据,尤其是内容更丰富的较长视频。
在“通过探索子概念学习弱标签网络视频”中,我们提出了解决这些问题的方法,即使用简单的学习框架对未修剪的视频进行有效的预训练。 这种方法不是简单地过滤潜在的时间噪声,而是通过创建一组新的有意义的“中间地带”伪标签来扩展原始弱标签空间,将这些“嘈杂”数据转换为有用的监督,我们称之为子伪标签的新概念 (SPL)。 该模型在这个更“细粒度”的空间上进行了预训练,然后在目标数据集上进行了微调。 我们的实验表明,学习到的表示比以前的方法要好得多。 此外,SPL 已被证明可有效提高 Google Cloud Video AI 的动作识别模型质量,这使内容制作者能够轻松搜索其海量视频资产库,以快速获取感兴趣的内容。
子伪标签
SPL 是一种改进师生培训框架的简单技术,众所周知,它对自我培训和改进半监督学习很有效。 在教师-学生框架中,教师模型在高质量的标记数据上进行训练,然后将伪标签分配给未标记的数据。 学生模型在高质量标记数据和具有教师预测标签的未标记数据上进行训练。 虽然以前的方法已经提出了许多提高伪标签质量的方法,但 SPL 采用了一种新颖的方法,将来自弱标签(即用于获取数据的查询文本)和教师预测标签的知识结合起来,从而产生更好的伪标签 – 整体标签。 该方法专注于时间噪声具有挑战性的视频识别,但它可以轻松扩展到其他领域,如图像分类。
SPL 方法的动机是观察到在未修剪的视频中,“嘈杂”视频剪辑与目标动作(即弱标签类)具有语义关系,但也可能包括其他动作的基本视觉组件,例如教师模型 ——预测类。 我们的方法使用来自弱标签的外推 SPL 和蒸馏标签来捕获丰富的监督信号,鼓励在预训练期间学习更好的表示,以用于下游微调任务。
确定每个视频剪辑的 SPL 类很简单。 我们首先使用从目标数据集训练的教师模型对每个视频片段进行推理,以获得教师预测类。 每个剪辑也由未修剪的源视频的类(即查询文本)标记。 一个二维混淆矩阵用于总结教师模型推断和原始弱注释之间的对齐。 基于这个混淆矩阵,我们在教师模型预测和弱标签之间进行标签外推,以获得原始 SPL 标签空间。
SPL 的有效性
与应用于在 Kinetics-200 (K200) 上微调的 3D ResNet50 模型的不同预训练方法相比,我们评估了 SPL 的有效性。 一种预训练方法只是使用 ImageNet 初始化模型。 其他预训练方法使用从 147k 视频的内部数据集中采样的 670k 视频剪辑,按照类似于 Kinetics-200 描述的标准流程收集,涵盖了广泛的动作。 弱标签训练和教师预测训练分别使用视频上的弱标签或教师预测标签。 协议过滤仅使用弱标签和教师预测标签匹配的训练数据。 我们发现 SPL 优于这些方法中的每一种。 尽管用于说明 SPL 方法的数据集是为这项工作构建的,但原则上我们描述的方法适用于任何具有弱标签的数据集。
我们还证明,从给定数量的未修剪视频中采样更多视频剪辑有助于提高模型性能。 通过提供足够数量的视频剪辑,SPL 通过提供丰富的监督始终优于弱标签预训练。
我们通过在训练模型上应用 Grad-CAM 来可视化从 SPL 学习到的视觉概念和注意力可视化。 观察一些可以通过 SPL 学习的有意义的“中间地带”概念是很有趣的。
结论
我们证明 SPL 可以为预训练提供丰富的监督。 SPL 不会增加培训的复杂性,并且可以被视为一种现成的技术,可以与基于师生的培训框架集成。 我们相信这是一个很有前途的方向,可以通过连接弱标签和从教师模型中提取的知识来发现有意义的视觉概念。 SPL 还展示了对图像识别领域的有希望的泛化,我们期待未来的扩展适用于标签中有噪声的任务。 我们已成功将 SPL 应用于 Google Cloud Video AI,它提高了动作识别模型的准确性,帮助用户更好地理解、搜索和货币化他们的视频内容库。
本文转载自 Zizhao Zhang and Guanhang Wu, Software Engineers, Google Research, Cloud AI Team,原文链接:https://ai.googleblog.com/2022/03/learning-from-weakly-labeled-videos-via.html。