视频异常检测领域论文综述

小包子2024-05-102025-01-25

Abstract

Video anomaly detection is an important research area in computer vision, with widespread applications in public safety, traffic management, healthcare, and other sectors. With the rapid development of event cameras, their high dynamic range, low latency, and low power consumption make them highly promising for anomaly detection tasks. This paper first introduces the working principles of event cameras and their advantages in the field of video anomaly detection. It then provides a detailed analysis of the main methods and approaches for video anomaly detection, including supervised and unsupervised learning, with the latter divided into reconstruction and prediction-based approaches. I also discuss the challenges faced in the current field, such as scene dependency, the diversity of abnormal behaviors, and data sparsity, and introduce recent advancements in research. Finally, I summarize the methods of modality fusion between event cameras and RGB cameras and propose future research directions and recommendations for improvement, aiming to provide insights for the further development of video anomaly detection tasks.

Keywords: Computer Vision, Anomaly Detection, Event Cameras, Unsupervised Learning, Modality Fusion

摘要

视频异常检测作为计算机视觉的一个重要研究方向，广泛应用于公共安全、交通管理、医疗健康等多个领域。随着事件相机的快速发展，其高动态范围、低延迟和低功耗等特点使其在异常检测任务中具有巨大的应用潜力。本文首先介绍了事件相机的工作原理及其在视频异常检测领域的优势。然后详细分析了现有视频异常检测的主要方法和思路，包括监督学习和无监督学习，在无监督学习中又分为重建和预测两大方向。接着，我探讨了当前领域面临的挑战，如场景依赖性、异常行为的多样性、数据稀疏性等，并介绍了近年来的前沿研究成果。最后，我对事件相机与RGB相机的模态融合方法进行了总结，并提出了未来的研究方向和改进建议，旨在为视频异常检测任务的进一步发展提供思路。

关键词：计算机视觉、异常检测、事件相机、无监督学习、模态融合

引言

视频异常检测是计算机视觉领域中的一个核心研究方向，其主要目的是从视频数据中识别出异常事件。随着现代社会对安全与监控需求的日益增加，视频监控系统已被广泛应用于各种场景中，成为确保公共安全和财产安全的重要手段。例如，在城市交通管理中，视频监控不仅用于监控车辆流量，还用于检测交通事故、违法行为等异常事件；在工业制造中，视频监控被用于发现生产过程中的故障和危险操作；在医疗健康领域，视频监控可用于监测患者的行为和状态，及时发现潜在的紧急情况。因此，如何通过视频数据自动检测这些异常行为成为一个至关重要的问题。

传统的基于帧捕捉的相机虽能完成视频监控的任务，但在处理复杂动态场景时存在一些不足，尤其是在面对快速变化的场景和环境时，常规相机的帧率限制可能导致信息丢失或延迟。随着技术的发展，事件相机作为一种新型视觉传感器，逐渐进入了视频异常检测的研究视野。与传统相机不同，事件相机并不依赖固定的帧率进行图像捕捉，而是仅记录像素亮度的变化事件。这种“事件驱动”的捕捉方式使其具备了高动态范围、低延迟以及低功耗的特点，使得事件相机在处理高速动态变化的场景时表现尤为出色。

事件相机的这些特点，使其特别适合用于视频异常检测任务。与传统相机相比，事件相机不仅可以更加高效地捕捉快速发生的异常事件，还能够在低光照、强对比等极端环境下保持较高的检测精度。这对于那些需要在实时监控中快速做出反应的应用场景，如安防系统、自动驾驶、工业机器人监控等，具有极大的潜在价值。因此，基于事件相机的视频异常检测技术正在迅速崛起，成为该领域研究的一个重要方向。

随着事件相机技术的不断发展，它为视频异常检测任务提供了新的思路和解决方案。事件相机不仅克服了传统相机的局限性，还显著提高了检测的效率和准确性。因此，越来越多的研究者开始关注如何将事件相机应用于视频异常检测，并探索其在各种复杂动态场景中的应用潜力。

事件相机简介

事件相机与传统相机的主要区别在于其工作原理。传统相机以固定的帧率捕捉整个场景的图像，而事件相机仅记录像素亮度的变化，即“事件”。这种工作方式使得事件相机具有低延迟、高动态范围和低功耗的特点，极大地提高了对动态场景捕捉的效率和准确性。

使用V2E对ShanghaiTech数据集进行事件化示例

常用于视频异常检测的方法

目前常用于视频异常检测的方法分为监督学习和无监督学习两大类。

监督学习

在监督学习方法中，模型的训练依赖于预先标注的数据集，即每个视频片段或帧都被明确地标注为“正常”或“异常”。这种方法的发展基于分类和回归两种主要思路。基于分类的方法通过将所有数据样本映射到不同的类别标签中，即模型根据输入的视频特征对其进行分类，判断是否属于异常行为。基于回归的方法则是将每个数据样本映射到一个连续的异常分数空间，模型会根据输入特征计算出一个异常分数，分数越高意味着该样本越可能是异常。

尽管监督学习方法在一些特定应用场景中表现出色，但它的一个主要问题在于对大规模、精确标注数据的依赖。由于视频异常检测通常涉及多个领域，异常事件的类型和表现形式差异很大，因此一个能够涵盖所有异常情况的完整数据集难以构建。更为复杂的是，标注数据的成本非常高，特别是在长时间的视频监控场景中，人工标注每个异常事件几乎不可能实现。此外，粗粒度的标签也会影响模型的表现，因为它们无法提供足够细致的异常信息，这可能导致模型误分类或漏检。

无监督学习

与监督学习方法不同，无监督学习方法不依赖于预先标注的数据，而是试图通过从未标注数据中自动发现异常模式。在无监督学习中，主要分为基于重建和基于预测两大类方法。

基于重建的方法假设模型在训练过程中通过学习正常行为特征，能够对正常数据进行较为准确的重建，但对于异常数据的重建则会产生较大的误差。因此，模型可以通过在测试阶段计算重建误差来判断是否为异常数据。当重建误差超过一定阈值时，数据被判定为异常。这种方法不依赖标签，且在正常数据较为丰富的情况下效果较好。

基于预测的方法认为，正常视频中的帧与帧之间存在某种规律性的上下文关系，模型可以通过学习这种关系来预测未来帧。当模型无法准确预测未来帧，或者预测误差较大时，意味着该段视频可能包含异常行为。预测模型通常会基于过去的视频帧来推测未来帧的特征，异常帧因为违背了正常帧之间的依赖关系，导致模型难以做出准确预测，从而使得预测误差增大。

无监督学习方法的一个显著优势是其对数据标签的依赖较小，因此在标签匮乏或无法准确标注的情况下表现良好。然而，这类方法也存在一些缺陷。例如，当模型的泛化能力过强时，可能会过度拟合正常和异常数据，导致异常数据也被准确重建或预测，进而降低检测准确率。此外，某些正常但较为少见的数据样本，可能因其独特性而被模型误判为异常。因此，尽管无监督学习方法在当前视频异常检测研究中占据主流地位，但仍然面临着挑战，需要进一步提升模型的鲁棒性和准确性。

亟待解决的问题

尽管已有无数研究者投身于视频异常检测领域的研究，该领域目前仍然面临一系列挑战

1. 场景性：视频中的异常事件通常不是孤立的，而是与特定场景、环境或真实情境相关联。这意味着异常的定义和判断需要考虑视频所处的具体场景。例如，在某场景正常的行为，在另一场景就为异常，解决异常的场景依赖问题是提高模型泛化能力的关键。

2. 模糊性：异常检测被广泛认为是检测在特定情况下预期不会出现的事件的过程。然而，在现实世界中，正常和异常之间的边界没有明确划分。例如，一些正常样本也会表现出异常事件所具有的奇怪特征，这阻碍了模型的检测精度。

3. 多样性：现实世界中的异常行为多种多样，无法完全说明，有时甚至可能尚未发生。因此，在一个数据集中考虑所有可能的异常类型是不切实际的。那么如何让模型在将众多未见的或正常或异常的行为区分开来是视频异常检测领域的一大难题。

4. 稀疏性：由于行为的种类繁多，视频异常检测领域的数据集通常有单个行为的数据过少，异常样本明显少于正常样本的不平衡等问题。

5. 噪声：在视频异常检测中，监控画面常作为数据集，但这种数据集中的信息密度过低，而且对于长时间视频的标签标注是一个十分耗时的过程。对于一个粗粒度的标签，模型还很有可能错误的学习到了噪声与标签的关系，数据中的高噪声无疑影响着任务的性能。

6. 隐私性：监控等视频数据具有隐私性，这限制了视频异常检测在某些领域的数据获取。

事件相机对视频异常检测的帮助

利用事件相机的低数据率、低能耗的优点降低异常检测的模型训练成本和应用的成本。
事件相机能大大减少视频中的隐私信息，解决异常检测的数据和应用中存在的隐私方面的问题。
利用事件相机的高动态范围的优点可以提高模型在低/高亮度等画面下的健壮性。
由于事件相机对变化的敏感性，可以借助对变化敏感事件相机数据对异常检测进行辅助。Liu, Z.[9]等人就利用了事件相机来辅助交通领域的物体检测，并且发现事件相机在动态物体检测贡献较大。

事件相机与RGB相机的模态融合方法

Yang, Y.[10]等人提出了一个用于事件引导HDR视频重建的多模态学习框架。为了更好地利用两种视觉信号模态对同一场景的了解，该文提出一种学习共享潜在空间的多模态表示对齐策略，以及针对不同区域不同动态范围对两类信号进行互补的融合模块。并且利用时间相关性来抑制重建的HDR视频中的闪烁效果。

实现方法是将事件相机与RGB相机的数据投影到共享表示空间上，使得两种模态的数据对齐。再使用置信度引导的多模态融合模块，分步执行模态间重建和模态内重建，最后将两个编码器和 HDR 解码器联合训练。

Zhu, Z.[11]等人基于预训练的ViT框架，鼓励ViT弥合两种模式之间的巨大分布差距，实现全面的跨模式信息交互，从而增强其能力。

实现方法是提出一种掩码建模策略，该策略随机屏蔽某些token的特定模态，以强制来自不同模态的token主动交互。还提出了一个正交高秩损失来正则化注意力矩阵，用于抑制跨模态掩码引起的图像闪烁，同时放大其积极作用。

总结

在完成了对视频异常检测领域的深入探讨与研究后，我们可以看到，尽管在这一领域已经取得了显著进展，但仍有许多挑战和未解决的问题等待着科研工作者们的攻克。我们认为在视频异常检测任务中，加入事件相机是一个新颖的创新点。由于其独特的特点，在提高视频异常检测准确性和效率上都将发挥很大的作用。

通过广泛阅读论文，明确了视频异常检测领域的常用方法和亟待解决的问题后，我们开始思考如何在现有的研究上加入事件相机。为此我们进一步的翻阅了相关论文，总结目前的模态融合方法，寻找适合两种模态的编解码器，着手于模型搭建和进一步的实验设计于验证。

在未来的工作中，我们希望能够找到更为有效的解决方案，以应对视频异常检测领域所面临的挑战。最终，我们相信，通过不断的努力和探索，视频异常检测的研究将为我们带来更安全、更智能的生活环境。

参考文献

<a id="1">[1]</a> Sun, S., & Gong, X. (2023). Hierarchical Semantic Contrast for Scene-Aware Video Anomaly Detection. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 22846–22856.

<a id="2">[2]</a> Cao, C., Lu, Y., Wang, P., & Zhang, Y. (2023). A New Comprehensive Benchmark for Semi-Supervised Video Anomaly Detection and Anticipation. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 20392–20401.

<a id="3">[3]</a>Liu, Z., Wu, X., Zheng, D., Lin, K., & Zheng, W. (2023). Generating Anomalies for Video Anomaly Detection With Prompt-Based Feature Mapping. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 24500–24510.

<a id="4">[4]</a> Zhang, C., Li, G., Qi, Y., et al. (2023). Exploiting Completeness and Uncertainty of Pseudo Labels for Weakly Supervised Video Anomaly Detection. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 16271–16280.

<a id="5">[5]</a> Mastan, I. D., & Raman, S. (2020). DCIL: Deep Contextual Internal Learning for Image Restoration and Image Retargeting. Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), pp. 2366–2375.

<a id="6">[6]</a> Lv, H., Yue, Z., Sun, Q., et al. (2023). Unbiased Multiple Instance Learning for Weakly Supervised Video Anomaly Detection. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 8022–8031.

<a id="7">[7]</a> Yang, Z., Liu, J., Wu, Z., et al. (2023). Video Event Restoration Based on Keyframes for Video Anomaly Detection. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 14592–14601.

<a id="8">[8]</a> Peng, Y., Zhang, Y., Xiong, Z., et al. (2023). GET: Group Event Transformer for Event-Based Vision. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 6038–6048.

<a id="9">[9]</a> Liu, Z., Yang, N., Wang, Y., Li, Y., Zhao, X., & Wang, F. (2023). Enhancing Traffic Object Detection in Variable Illumination with RGB-Event Fusion. ArXiv, abs/2311.00436.

<a id="10">[10]</a> Yang, Y., Han, J., Liang, J., et al. (2023). Learning Event Guided High Dynamic Range Video Reconstruction. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 13924–13934.

<a id="11">[11]</a> Zhu, Z., Hou, J., & Wu, D. O. (2023). Cross-Modal Orthogonal High-Rank Augmentation for RGB-Event Transformer-Trackers. Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pp. 22045–22055