视频异常检测领域论文综述

Abstract

Video anomaly detection is an important research area in computer vision, with widespread applications in public safety, traffic management, healthcare, and other sectors. With the rapid development of event cameras, their high dynamic range, low latency, and low power consumption make them highly promising for anomaly detection tasks. This paper first introduces the working principles of event cameras and their advantages in the field of video anomaly detection. It then provides a detailed analysis of the main methods and approaches for video anomaly detection, including supervised and unsupervised learning, with the latter divided into reconstruction and prediction-based approaches. I also discuss the challenges faced in the current field, such as scene dependency, the diversity of abnormal behaviors, and data sparsity, and introduce recent advancements in research. Finally, I summarize the methods of modality fusion between event cameras and RGB cameras and propose future research directions and recommendations for improvement, aiming to provide insights for the further development of video anomaly detection tasks.

Keywords: Computer Vision, Anomaly Detection, Event Cameras, Unsupervised Learning, Modality Fusion

摘要

视频异常检测作为计算机视觉的一个重要研究方向,广泛应用于公共安全、交通管理、医疗健康等多个领域。随着事件相机的快速发展,其高动态范围、低延迟和低功耗等特点使其在异常检测任务中具有巨大的应用潜力。本文首先介绍了事件相机的工作原理及其在视频异常检测领域的优势。然后详细分析了现有视频异常检测的主要方法和思路,包括监督学习和无监督学习,在无监督学习中又分为重建和预测两大方向。接着,我探讨了当前领域面临的挑战,如场景依赖性、异常行为的多样性、数据稀疏性等,并介绍了近年来的前沿研究成果。最后,我对事件相机与RGB相机的模态融合方法进行了总结,并提出了未来的研究方向和改进建议,旨在为视频异常检测任务的进一步发展提供思路。

关键词:计算机视觉、异常检测、事件相机、无监督学习、模态融合

引言

视频异常检测是计算机视觉领域中的一个核心研究方向,其主要目的是从视频数据中识别出异常事件。随着现代社会对安全与监控需求的日益增加,视频监控系统已被广泛应用于各种场景中,成为确保公共安全和财产安全的重要手段。例如,在城市交通管理中,视频监控不仅用于监控车辆流量,还用于检测交通事故、违法行为等异常事件;在工业制造中,视频监控被用于发现生产过程中的故障和危险操作;在医疗健康领域,视频监控可用于监测患者的行为和状态,及时发现潜在的紧急情况。因此,如何通过视频数据自动检测这些异常行为成为一个至关重要的问题。

传统的基于帧捕捉的相机虽能完成视频监控的任务,但在处理复杂动态场景时存在一些不足,尤其是在面对快速变化的场景和环境时,常规相机的帧率限制可能导致信息丢失或延迟。随着技术的发展,事件相机作为一种新型视觉传感器,逐渐进入了视频异常检测的研究视野。与传统相机不同,事件相机并不依赖固定的帧率进行图像捕捉,而是仅记录像素亮度的变化事件。这种“事件驱动”的捕捉方式使其具备了高动态范围、低延迟以及低功耗的特点,使得事件相机在处理高速动态变化的场景时表现尤为出色。

事件相机的这些特点,使其特别适合用于视频异常检测任务。与传统相机相比,事件相机不仅可以更加高效地捕捉快速发生的异常事件,还能够在低光照、强对比等极端环境下保持较高的检测精度。这对于那些需要在实时监控中快速做出反应的应用场景,如安防系统、自动驾驶、工业机器人监控等,具有极大的潜在价值。因此,基于事件相机的视频异常检测技术正在迅速崛起,成为该领域研究的一个重要方向。

随着事件相机技术的不断发展,它为视频异常检测任务提供了新的思路和解决方案。事件相机不仅克服了传统相机的局限性,还显著提高了检测的效率和准确性。因此,越来越多的研究者开始关注如何将事件相机应用于视频异常检测,并探索其在各种复杂动态场景中的应用潜力。

事件相机简介

事件相机与传统相机的主要区别在于其工作原理。传统相机以固定的帧率捕捉整个场景的图像,而事件相机仅记录像素亮度的变化,即“事件”。这种工作方式使得事件相机具有低延迟、高动态范围和低功耗的特点,极大地提高了对动态场景捕捉的效率和准确性。

使用V2E对ShanghaiTech数据集进行事件化示例

常用于视频异常检测的方法

目前常用于视频异常检测的方法分为监督学习和无监督学习两大类。

监督学习

在监督学习方法中,模型的训练依赖于预先标注的数据集,即每个视频片段或帧都被明确地标注为“正常”或“异常”。这种方法的发展基于分类和回归两种主要思路。基于分类的方法通过将所有数据样本映射到不同的类别标签中,即模型根据输入的视频特征对其进行分类,判断是否属于异常行为。基于回归的方法则是将每个数据样本映射到一个连续的异常分数空间,模型会根据输入特征计算出一个异常分数,分数越高意味着该样本越可能是异常。

尽管监督学习方法在一些特定应用场景中表现出色,但它的一个主要问题在于对大规模、精确标注数据的依赖。由于视频异常检测通常涉及多个领域,异常事件的类型和表现形式差异很大,因此一个能够涵盖所有异常情况的完整数据集难以构建。更为复杂的是,标注数据的成本非常高,特别是在长时间的视频监控场景中,人工标注每个异常事件几乎不可能实现。此外,粗粒度的标签也会影响模型的表现,因为它们无法提供足够细致的异常信息,这可能导致模型误分类或漏检。

无监督学习

与监督学习方法不同,无监督学习方法不依赖于预先标注的数据,而是试图通过从未标注数据中自动发现异常模式。在无监督学习中,主要分为基于重建和基于预测两大类方法。

基于重建的方法假设模型在训练过程中通过学习正常行为特征,能够对正常数据进行较为准确的重建,但对于异常数据的重建则会产生较大的误差。因此,模型可以通过在测试阶段计算重建误差来判断是否为异常数据。当重建误差超过一定阈值时,数据被判定为异常。这种方法不依赖标签,且在正常数据较为丰富的情况下效果较好。

基于预测的方法认为,正常视频中的帧与帧之间存在某种规律性的上下文关系,模型可以通过学习这种关系来预测未来帧。当模型无法准确预测未来帧,或者预测误差较大时,意味着该段视频可能包含异常行为。预测模型通常会基于过去的视频帧来推测未来帧的特征,异常帧因为违背了正常帧之间的依赖关系,导致模型难以做出准确预测,从而使得预测误差增大。

无监督学习方法的一个显著优势是其对数据标签的依赖较小,因此在标签匮乏或无法准确标注的情况下表现良好。然而,这类方法也存在一些缺陷。例如,当模型的泛化能力过强时,可能会过度拟合正常和异常数据,导致异常数据也被准确重建或预测,进而降低检测准确率。此外,某些正常但较为少见的数据样本,可能因其独特性而被模型误判为异常。因此,尽管无监督学习方法在当前视频异常检测研究中占据主流地位,但仍然面临着挑战,需要进一步提升模型的鲁棒性和准确性。

亟待解决的问题

尽管已有无数研究者投身于视频异常检测领域的研究,该领域目前仍然面临一系列挑战

1. 场景性:视频中的异常事件通常不是孤立的,而是与特定场景、环境或真实情境相关联。这意味着异常的定义和判断需要考虑视频所处的具体场景。例如,在某场景正常的行为,在另一场景就为异常,解决异常的场景依赖问题是提高模型泛化能力的关键。

2. 模糊性:异常检测被广泛认为是检测在特定情况下预期不会出现的事件的过程。然而,在现实世界中,正常和异常之间的边界没有明确划分。例如,一些正常样本也会表现出异常事件所具有的奇怪特征,这阻碍了模型的检测精度。

3. 多样性:现实世界中的异常行为多种多样,无法完全说明,有时甚至可能尚未发生。因此,在一个数据集中考虑所有可能的异常类型是不切实际的。那么如何让模型在将众多未见的或正常或异常的行为区分开来是视频异常检测领域的一大难题。

4. 稀疏性:由于行为的种类繁多,视频异常检测领域的数据集通常有单个行为的数据过少,异常样本明显少于正常样本的不平衡等问题。

5. 噪声:在视频异常检测中,监控画面常作为数据集,但这种数据集中的信息密度过低,而且对于长时间视频的标签标注是一个十分耗时的过程。对于一个粗粒度的标签,模型还很有可能错误的学习到了噪声与标签的关系,数据中的高噪声无疑影响着任务的性能。

6. 隐私性:监控等视频数据具有隐私性,这限制了视频异常检测在某些领域的数据获取。

最新解决方法

解决场景相关问题:

Sun, S.[1]等人要解决的关键问题是视频异常检测中的场景性问题即如何提高场景感知能力,以便检测出场景相关的异常事件。并应对正常的多样性,让模型学习到不同的正常现象。

解决思想是利用预训练的视频解析网络提取前景对象和背景场景的高层语义特征,然后利用场景感知的自编码器和层次语义对比学习来学习其中的特征和之间的关系。在测试时,根据输入视频的语义类别,检索高相关的正常特征进行重建,重建误差较高的片段被检测为异常。

实现方法:

  • 视频解析:利用预训练的视频解析模型,将前景对象和背景场景的特征分为不同的语义类别。具体使用YOLOv3和FairMOT检测和跟踪对象,使用ViT和PoseConv3D提取对象的外观和动作特征,使用DeepLabV3+生成背景场景的分割图,并使用DBSCAN进行场景聚类。
  • 层次语义对比:将每个对象的外观或运动特征与对应的场景特征结合起来,形成场景—外观或场景-运动特征,然后用自编码器进行编码和重建。在编码过程中,引入层次语义对比学习,使得编码后的潜在特征在同一语义类别内紧凑,在不同语义类别间分离。
    外貌和运动特征在场景中进行对比学习
  • 语义特征重建:在测试时,从外部记忆库中检索和加权正常特征来重建测试视频中的对象特征,并根据重建误差来判断异常。重建误差越大,异常得分越高。
  • 动作增强:为了处理稀有但正常的活动,设计了一个基于骨架的增强方法,通过空间变换和时间裁剪来生成更多的正常和异常样本,进一步训练一个二分类器来提升性能。

    基于骨骼的运动增强,包括空间变换和时间切割

研究贡献是提出了一种层次语义对比方法,有效地利用了预训练网络提供的高层语义信息,让计算机更好地理解和表示正常视频中出现的场景和对象,以及它们之间的关系,提高了正常模式的表示和判别能力。设计了一种场景感知的自编码器结构,结合了背景场景和前景对象的信息,同时减少了重建过程中的背景噪声。和设计了一种基于骨架的动作增强方法,增加了稀有活动的样本数量,帮助处理正常模式的不平衡问题。不足之处在于模型中的某些模块也可以用其他更先进的模块替换,例如使用另一种更好的背景解析模型来代替简单的分割图以区分背景的方法。

Cao, C.[2]等人想要解决的关键问题是半监督视频异常检测和异常预测,特别是场景依赖的异常,给出了另一种解决场景性的方案。

解决思想是利用前向和后向帧预测模型来估计当前和未来帧的异常分数,同时利用场景条件的变分自编码器来处理场景依赖的异常。

实现方法是设计了一个前向-后向场景条件自编码器(FBSCAE),包括一个前向网络和一个后向网络,分别用于前向和后向帧预测。每个网络都是一个三层U-Net,包含了条件变分自编码器(CVAE),将场景图像作为输入条件,引导输入帧的特征与场景相关(处理与场景有关的异常)。在训练阶段,使用均方误差损失、L1损失和KL散度损失来优化模型。在推理阶段,使用前向预测误差作为视频异常检测(VAD)的分数,使用前向-后向预测误差的最大值作为视频异常预测(VAA)的分数。

研究贡献是提出了一个新的大规模数据集NWPU Campus,它是目前最大的半监督视频异常检测基准,也是唯一考虑场景依赖异常和视频异常预测的数据集。提出了一个新的视频异常预测任务,旨在提前预测异常事件的发生,这对于异常事件的预警具有重要意义。不足之处在于对于长期的异常预测还有待改进,以及对于低分辨率的数据集表现不佳。

NWPU Campus dataset

生成虚拟异常增强数据集:

Liu, Z.[3]等人想要解决的关键问题是提高模型对于异常判断的泛化能力。由于异常事件的稀疏性和多样性,目前的模型往往难以泛化到未见过的异常类型。

解决思想是提出一种基于提示的特征映射框架(PFMF),通过在特征层面进行正常特征到异常特征的映射,来生成数据集中未见过的异常类型。同时,引入了一个异常提示来指导映射的方向,使得生成的异常具有无界的多样性。此外,还设计了一个映射适应分支,通过异常分类器和域分类器来缩小场景差距,使得生成的异常具有场景特异性和一致性。

PFMF框架

实现方法是PFMF包含三个部分,即特征提取器、基于提示的特征映射网络和映射适应分支。特征提取器用于将输入的视频实例转换为对应的特征,映射网络用于在同一域内将正常特征映射到异常特征空间,异常提示用于从一个变分自编码器(VAE)中采样,作为映射网络的额外输入,映射适应分支用于对生成的异常特征进行场景适应,包括一个异常分类器和两个域分类器。PFMF的训练过程是统一的,包括特征映射损失、异常分类损失、域分类损失和VAE重构损失。PFMF的推理过程是完全监督的,给定一个未见过的视频实例,通过特征提取器和异常分类器得到实例级别的异常分数,然后通过最大值得到帧级别的异常分数。

PFMF的优点是能够利用虚拟数据集来生成无界的异常类型,提高了VAD的泛化能力;同时能够通过映射适应分支来缩小虚拟和真实场景之间的差距,提高了VAD的鲁棒性。PFMF的缺点是需要依赖于YOLOv3检测器来提取人物的边界框,这可能会引入一些误差。

生成伪标签增强数据集:

Zhang, C.[4]等人想要解决的关键问题是在弱监督视频异常检测中,如果数据只有视频级别的标签,如何预测出准确的帧级别的标签。并使用生成出的帧级别的伪标签用于自训练,增强训练效果。

解决思想是利用完整性和不确定性两个属性来提高伪标签的质量,从而提高异常检测的性能。

实现方法:

  • 完整性:设计一个伪标签生成器包含多头分类器,并引入多样性损失, 这样每个头往往会发现不同的异常事件,从而使伪标签生成器覆盖尽可能多的异常事件。
  • 不确定性:设计一个迭代的不确定性感知的伪标签精炼策略:利用MC Dropout来估计伪标签的不确定性,并根据不确定性选择可靠的样本来训练最终的分类器。
  • 迭代:使用可靠的样本和可靠的伪标签来训练一个新的帧分类器。用新的帧分类器更新伪标签,并重复上述步骤,直到模型收敛。

模型优点是能够有效地利用视频中的完整性和不确定性信息,生成高质量的伪标签,从而提高异常检测的准确性和鲁棒性。缺点是需要进行多次迭代和不确定性估计,计算开销较大。

Mastan, I. D.[5]等人想要解决的关键问题是如何在不使用训练数据的情况下,实现图像恢复和图像重定向的任务,即从单张图像中学习有效的图像特征,并生成不同尺寸或比例的目标图像。解决这个问题可以提高基于重建的视频异常检测任务的性能。

解决思想是利用深度网络结构作为隐含的图像先验,结合内部学习和上下文特征学习的方法,构建一个通用的框架,通过最小化源图像和目标图像在不同特征表示下的差异,来实现图像恢复和图像重定向。

DCIL框架

实现方法是提出了深度上下文内部学习(DCIL)框架,包括以下几个模块:

  • 网络构建模块:使用一个编码器-解码器结构的生成器网络和一个多尺度补丁判别器网络,根据不同的任务设置网络层、跳跃连接、级联输入和残差块等组件。
  • 损失函数模块:使用三种损失函数来优化生成器网络,分别是上下文损失(LCL)、对抗损失(LGAN)和重建损失(LR)。上下文损失用于增强生成图像的上下文特征,对抗损失用于匹配源图像和生成图像的补丁分布,重建损失用于保留源图像的全局特征。
  • 应用模块:根据不同的应用场景,如去噪超分辨率(DSR)、超分辨率(SR)和图像重定向(IR),设置不同的缩放因子、网络参数和损失函数权重,来实现从单张图像中生成不同尺寸或比例的目标图像。

DCIL框架的优点是不需要任何训练数据,只利用单张图像中的内部信息来学习图像特征,避免了训练数据集的限制和偏差。并且DCIL框架可以适应多种图像恢复和图像重定向的任务,只需要调整网络结构和损失函数的设置,就可以实现不同的目标。论文还将网络结构和损失函数进行了模块化设计,便于调整。DCIL框架的缺点是依赖于单张图像中的自相似性作为先验信息,当源图像中存在高度噪声或低相关性时,可能无法学习到有效的图像特征,并导致生成质量下降。

Lv, H.[6]等人想要解决的关键问题是弱监督视频异常检测(WSVAD),即利用只有视频级别的二元异常标签(正常或异常)来训练一个片段级别的异常检测器。需要克服多实例学习(MIL)中的假警报和上下文偏差问题(视频级分类正确但帧级分类错误)

解决思想是提出一个无偏差的多实例学习(UMIL)框架,通过寻求不同上下文偏差的片段之间的不变性来学习无偏差的异常特征。

UMIL框架

实现方法:

  • 划分片段:根据当前的异常检测器f,将视频片段分为两个集合:可信片段集C和模糊片段集A。C中的片段是明显正常或异常的,A中的片段是不确定的。
  • 聚类模糊片段:利用一个无监督的聚类头g,将A中的片段特征分为两个簇,以区分正常和异常片段。g通过最小化预测相似度的二元交叉熵损失来训练。(利用dot-product进行无监督的二元分类,分类后的信息会作为第三步的监督)
  • 训练异常检测器:在C和A上同时训练异常检测器f,使其能够预测C中的二元标签,以及分离A中的两个簇(由第二步生成)。这样可以消除C中的上下文偏置,并学习无偏置的异常特征。

UMIL的优点是能够利用模糊片段来消除可信片段中的上下文偏差,提高WSVAD的性能和鲁棒性。能够将特征表示微调和异常检测器学习整合到一个端到端的训练方式中,得到一个更适合VAD的特征表示。并且采用了一种细粒度的视频划分策略(将每个视频划分为长度为一秒的片段,而不是使用每个粗粒度片段的平均特征作为分类器的输入),保留了视频片段中微妙的异常信息。UMIL的缺点是依赖于无监督聚类来区分模糊片段,其性能受到聚类算法和参数选择的影响。需要预先训练一个MIL模型来初始化异常检测器,并且需要追踪每个片段的预测历史来划分可信和模糊片段,增加了计算开销。

Yang, Z.[7]等人想要解决的关键问题是如何将视频中更高层次的视觉特征和综合的时空关系用于视频异常检测任务中

解决思想是提出一种全新(不同于帧重建、帧预测等)的视频异常检测方法:基于关键帧恢复视频事件的方法。该方法鼓励DNN根据包含隐含的外观和运动关系的视频关键帧来推断缺失的多帧,从而恢复视频事件,这可以更有效地激励DNN挖掘和学习视频中潜在的高层次视觉特征和综合时空变化关系。

实现方法是提出了一种新颖的U形Swin Transformer网络(USTN-DSC),其中引入了一个交叉注意力和一个时域上采样残差跳跃连接来进一步辅助恢复视频中复杂的静态和动态运动对象特征。此外,还提出了一种简单有效的相邻帧差分损失来约束视频序列的运动一致性。

模型优点是能够更好地捕捉视频中长距离的时空依赖关系,提高对异常事件的敏感性和区分度。不足之处是需要更多的计算资源和训练时间,以及对不同场景和运动模式的泛化能力还有待提高。

Event数据中的特征提取工具:

Peng, Y.[8]等人想要解决的关键问题是如何利用Transformer网络来提取事件相机数据中的空间、时间和极性信息,从而提高事件视觉任务的性能。

解决思想是提出一种新的事件表示方法,称为Group Token,将异步事件根据时间戳和极性进行分组,并设计一个新的Transformer网络,称为Group Event Transformer (GET),在Group Token上进行有效的特征提取和整合。

实现方法:GET包括三个主要模块:Group Token Embedding (GTE)、Event Dual Self-Attention (EDSA) block和Group Token Aggregation (GTA) module。GTE将事件流转换为Group Token,EDSA block在空间和时间—极性维度上进行局部自注意力操作,并建立双重残差连接,提取事件相机数据的空间和时间—极性特征,GTA module利用重叠分组卷积来实现两个维度的信息整合和解耦。

GET的优点是能够充分利用事件数据的特性,提高事件视觉任务的性能,同时具有较低的计算成本和模型大小。GET的缺点是需要根据不同的数据集和任务来调整Group Token的生成参数,以达到最佳效果。

事件相机对视频异常检测的帮助

  1. 利用事件相机的低数据率、低能耗的优点降低异常检测的模型训练成本和应用的成本。
  2. 事件相机能大大减少视频中的隐私信息,解决异常检测的数据和应用中存在的隐私方面的问题。
  3. 利用事件相机的高动态范围的优点可以提高模型在低/高亮度等画面下的健壮性。
  4. 由于事件相机对变化的敏感性,可以借助对变化敏感事件相机数据对异常检测进行辅助。Liu, Z.[9]等人就利用了事件相机来辅助交通领域的物体检测,并且发现事件相机在动态物体检测贡献较大。

事件相机与RGB相机的模态融合方法

Yang, Y.[10]等人提出了一个用于事件引导HDR视频重建的多模态学习框架。为了更好地利用两种视觉信号模态对同一场景的了解,该文提出一种学习共享潜在空间的多模态表示对齐策略,以及针对不同区域不同动态范围对两类信号进行互补的融合模块。并且利用时间相关性来抑制重建的HDR视频中的闪烁效果。

实现方法是将事件相机与RGB相机的数据投影到共享表示空间上,使得两种模态的数据对齐。再使用置信度引导的多模态融合模块,分步执行模态间重建和模态内重建,最后将两个编码器和 HDR 解码器联合训练。

Zhu, Z.[11]等人基于预训练的ViT框架,鼓励ViT弥合两种模式之间的巨大分布差距,实现全面的跨模式信息交互,从而增强其能力。

实现方法是提出一种掩码建模策略,该策略随机屏蔽某些token的特定模态,以强制来自不同模态的token主动交互。还提出了一个正交高秩损失来正则化注意力矩阵,用于抑制跨模态掩码引起的图像闪烁,同时放大其积极作用。

总结

在完成了对视频异常检测领域的深入探讨与研究后,我们可以看到,尽管在这一领域已经取得了显著进展,但仍有许多挑战和未解决的问题等待着科研工作者们的攻克。我们认为在视频异常检测任务中,加入事件相机是一个新颖的创新点。由于其独特的特点,在提高视频异常检测准确性和效率上都将发挥很大的作用。

通过广泛阅读论文,明确了视频异常检测领域的常用方法和亟待解决的问题后,我们开始思考如何在现有的研究上加入事件相机。为此我们进一步的翻阅了相关论文,总结目前的模态融合方法,寻找适合两种模态的编解码器,着手于模型搭建和进一步的实验设计于验证。

在未来的工作中,我们希望能够找到更为有效的解决方案,以应对视频异常检测领域所面临的挑战。最终,我们相信,通过不断的努力和探索,视频异常检测的研究将为我们带来更安全、更智能的生活环境。

参考文献

[1] Sun, S., & Gong, X. (2023). Hierarchical Semantic Contrast for Scene-Aware Video Anomaly Detection. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 22846–22856.

[2] Cao, C., Lu, Y., Wang, P., & Zhang, Y. (2023). A New Comprehensive Benchmark for Semi-Supervised Video Anomaly Detection and Anticipation. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 20392–20401.

[3]Liu, Z., Wu, X., Zheng, D., Lin, K., & Zheng, W. (2023). Generating Anomalies for Video Anomaly Detection With Prompt-Based Feature Mapping. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 24500–24510.

[4] Zhang, C., Li, G., Qi, Y., et al. (2023). Exploiting Completeness and Uncertainty of Pseudo Labels for Weakly Supervised Video Anomaly Detection. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 16271–16280.

[5] Mastan, I. D., & Raman, S. (2020). DCIL: Deep Contextual Internal Learning for Image Restoration and Image Retargeting. Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), pp. 2366–2375.

[6] Lv, H., Yue, Z., Sun, Q., et al. (2023). Unbiased Multiple Instance Learning for Weakly Supervised Video Anomaly Detection. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 8022–8031.

[7] Yang, Z., Liu, J., Wu, Z., et al. (2023). Video Event Restoration Based on Keyframes for Video Anomaly Detection. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 14592–14601.

[8] Peng, Y., Zhang, Y., Xiong, Z., et al. (2023). GET: Group Event Transformer for Event-Based Vision. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 6038–6048.

[9] Liu, Z., Yang, N., Wang, Y., Li, Y., Zhao, X., & Wang, F. (2023). Enhancing Traffic Object Detection in Variable Illumination with RGB-Event Fusion. ArXiv, abs/2311.00436.

[10] Yang, Y., Han, J., Liang, J., et al. (2023). Learning Event Guided High Dynamic Range Video Reconstruction. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 13924–13934.

[11] Zhu, Z., Hou, J., & Wu, D. O. (2023). Cross-Modal Orthogonal High-Rank Augmentation for RGB-Event Transformer-Trackers. Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pp. 22045–22055