关于事件相机运动与外观解耦表征方法的学术研究报告
本报告旨在详细介绍由Nuo Chen, Boyang Li, Yingqian Wang, Xinyi Ying, Longguang Wang, Chushu Zhang, Yulan Guo, Miao Li以及Wei An等人共同完成的一项原创性研究成果。该项研究以论文“Motion and Appearance Decoupling Representation for Event Cameras”的形式,发表于IEEE Transactions on Image Processing期刊的2025年第34卷。
一、 作者、机构与发表信息
本研究的主要作者团队来自中国多所知名研究机构。核心成员Nuo Chen, Boyang Li, Yingqian Wang, Xinyi Ying, Chushu Zhang, Miao Li和Wei An隶属于National University of Defense Technology (NUDT)的电子科学与技术学院。Longguang Wang来自空军航空大学,Yulan Guo则任职于中山大学电子与通信工程学院。该研究得到了中国国家自然科学基金的支持。论文于2024年10月收到投稿,历经修订,最终在2025年9月15日正式在线发表。
二、 学术背景与研究动机
本研究的科学领域属于计算机视觉与神经形态计算的交叉范畴,具体聚焦于事件相机的数据处理与表征学习。
事件相机,又称动态视觉传感器,是一种受生物视觉启发的仿生传感器。与传统帧式相机不同,它并不以固定频率捕捉完整的图像帧,而是每个像素独立、异步地响应光照强度的变化(事件),输出包含像素位置、时间戳和极性(变亮或变暗)的稀疏事件流。这使得事件相机具备了高时间分辨率、高动态范围、低功耗和低冗余数据等突出优势,特别适用于高速运动、极端光照等传统相机表现不佳的场景。
然而,事件数据的异步稀疏特性也带来了新的挑战:主流的基于卷积神经网络(CNN)的计算机视觉方法是为密集、规则的图像矩阵设计的,无法直接处理事件流。因此,如何将原始的、异步的事件流“表示”或“转换”成适合现有深度学习框架处理的格式,即事件表征,成为了事件相机应用中的关键前置问题。
现有的密集表征方法(如Voxel Grid, Event Stacking)通常将一段时间内的事件简单地聚合到一个或少数几个密集张量中,例如通过沿时间维度堆叠或划分为时间仓。这种方法虽然兼容了现有框架,但论文指出其根本缺陷在于:将时空信息粗暴地耦合在单一张量中。这种耦合忽略了事件在单位时间内的动态变化细节,引入了历史伪影和语义不一致性(例如,由于目标运动和事件积累导致的轮廓模糊或拖尾),使得事件输入与任务真值(如检测框、分割掩码)之间的映射关系变得模糊,从而给后续网络的特征提取和学习带来了沉重负担,限制了性能的进一步提升。
受人类视觉系统中对运动和外观信息分别处理的先验启发,以及视频理解领域成功解耦时空特征方法的激励,本研究团队提出了核心研究目标:设计一种新颖的事件表征方法,能够将事件流中高度纠缠的时空信息解耦为独立的运动信息与外观信息,从而降低网络的学习难度,提升其在多种高层视觉任务上的性能。
三、 详细研究流程与方法
本研究的工作流程主要包含三个核心部分:运动与外观解耦表征(MAD)的生成、基于事件运动引导注意力的特征融合模块设计、以及针对不同下游任务的解码器头适配。
1. MAD解耦表征的生成流程: * 输入与预处理: 给定原始事件流,首先将其划分为固定时长(例如50毫秒)的非重叠时间仓作为基本处理单元。每个时间仓内的事件根据极性(正/负)进行分组。 * 运动张量生成: 本研究将事件在短时间内的运动假设为恒定速度,并使用光流场来表征该运动。具体采用一个无监督的事件光流估计网络——EV-FlowNet,来处理每个时间仓的事件,生成一个尺寸为H×W×2的光流图,即运动张量Tm。其中H和W是相机分辨率,两个通道分别代表x和y方向的瞬时速度。 * 外观张量生成: 这是解耦的关键步骤。利用上一步估计得到的运动张量(光流),将所有事件根据其发生的时间戳,沿运动轨迹对齐到一个统一的参考时间点(通常设为时间仓的结束时刻)。这个对齐过程通过几何变换实现,公式为:(x′, y′) = (x, y) + (t - t_ref) * v(x, y)。经过对齐后,原本因目标运动而分散在不同位置的事件被“拉回”到目标在参考时刻应有的清晰轮廓位置。最后,将对齐后的事件聚合到一个图像平面上,通过计算每个像素点落入的事件数量,形成一个清晰的、图像化的外观张量Ta。该张量保留了场景的结构、边缘和纹理信息,但消除了运动导致的模糊。
2. 特征融合:事件运动引导注意力模块: 生成Tm和Ta后,需要有效地融合这两路信息。为此,研究团队设计了一个双分支骨干网络和一个新颖的事件运动引导注意力模块。 * 网络架构: 外观分支使用较重的设计(如ResNet变体),用于提取包含丰富语义的外观特征;运动分支则设计得较轻,因为运动张量本身的语义信息较少。两个分支并行处理Tm和Ta,输出多尺度的特征图。 * EMGA模块工作流程: 该模块是连接两个分支的桥梁,其设计遵循残差思想。具体而言,对于每一层,它以外观特征F_a和对应的运动特征F_m作为输入。 1. 空间注意力生成: 首先将F_m和F_a在通道维度拼接,通过一个1×1卷积和Sigmoid函数生成一个空间注意力图Ψ_s。该图由运动特征引导,旨在强调外观特征中与运动相关的关键空间区域。 2. 通道注意力生成: 将经过空间注意力加权后的外观特征F_as进行全局平均池化,再通过一个1×1卷积和Softmax函数生成通道注意力权重Ψ_c,用于增强重要通道。 3. 特征融合与输出: 最终的输出是原始外观特征F_a与经过双重注意力调制后的特征之和,即 F_am = F_a + (F_as ⊙ Ψ_c)。这种设计使得网络能够利用运动线索(如属于同一物体的像素通常具有一致运动)来增强外观特征的判别性,同时残差连接保证了原始外观细节不被丢失。
3. 下游任务适配与实验设置: 为了验证MAD表征的通用性和有效性,研究团队为三个代表性的高层视觉任务设计了不同的解码器头,并在五个公开数据集上进行了全面的实验。 * 目标任务与数据集: * 目标检测: 使用GEN1自动驾驶数据集和1Mpx检测数据集。评价指标为平均精度均值。 * 语义分割: 使用DSEC-Semantic数据集和DDD17数据集。评价指标为准确率和平均交并比。 * 人体姿态估计: 使用DHP19数据集。评价指标为平均每关节位置误差。 * 任务特定设计: * 检测: 在特征金字塔网络后接检测头。此外,针对事件相机在静态场景下事件稀少导致漏检的问题,论文创新性地提出了一个边界框记忆模块。该模块通过比较帧间检测框的交并比和框内事件密度,来判断目标是否因静止而“消失”,从而将历史检测结果合理地传递到当前帧,增强了静态目标检测的鲁棒性。 * 分割: 采用经典的U-Net结构,将其中编码器替换为本文提出的双分支骨干网络(含EMGA)。 * 姿态估计: 采用两步法:首先在两个视角上分别进行2D姿态估计,然后将中间特征反投影并聚合为3D体素,最后通过一个3D CNN预测3D关节热图。 * 实验流程: 训练分为两步。首先,固定EV-FlowNet的参数,在大规模事件数据上预训练光流估计网络。然后,冻结光流网络,针对每个下游任务,训练其对应的骨干网络、EMGA模块以及任务解码器头。采用标准的数据增强和优化策略。
四、 主要实验结果与分析
实验结果表明,本文提出的MAD方法在三个任务、五个数据集上均取得了最先进的性能,充分证明了其有效性和通用性。
1. 目标检测结果: 在GEN1数据集上,MAD方法达到了49.2%的mAP,超过了之前的最佳方法SAST的48.2%。在更具挑战性的高分辨率1Mpx数据集上,MAD取得了49.5%的mAP,同样优于SAST的48.7%。消融实验进一步揭示了各组件的作用:仅使用外观张量Ta作为输入,其性能已大幅超越基线方法,说明对齐后清晰的轮廓至关重要;仅使用运动张量Tm性能很差,证实其无法独立承载足够语义;简单拼接Tm和Ta能带来小幅提升;而引入EMGA模块进行有效融合后,性能达到了峰值。可视化结果清晰显示,MAD方法在高速运动和复杂场景下能产生更准确的检测框,且其边界框记忆模块有效缓解了长时静止目标的漏检问题。
2. 语义分割结果: 在DSEC-Semantic数据集上,MAD方法在准确率和mIoU上均排名第一。在DDD17数据集上,其mIoU达到56.91%,显著高于同期最佳方法。值得注意的是,本研究仅对标准U-Net的编码器部分进行了适配(替换为MAD骨干网络),就取得了极具竞争力的结果,这强有力地证明了MAD表征本身具有很强的泛化能力和表达力,而非依赖于极其复杂的任务专用网络设计。可视化分割图显示,MAD能更好地预测远处的小目标(如交通标志、行人),并减少错误和伪影。
3. 人体姿态估计结果: 在DHP19数据集上,MAD方法在2D和3D关节误差上均优于所有对比方法。与之前的最佳方法TORE相比,2D误差降低了0.75像素,3D误差降低了2.08毫米。这对于精细的关节定位至关重要。可视化结果尤为突出地展示了MAD在快速运动关节(如挥舞的手臂)上的优势,其估计结果更接近真实值,有效减轻了因快速运动导致的历史伪影问题。
4. 深入的消融与讨论: * 解耦有效性验证: 研究对比了MAD与Voxel Grid、EST等表征方法在不同深度骨干网络下的性能。关键发现是:MAD配合一个浅层骨干网络(如ResNet-18)所达到的性能,可与其它表征方法配合深层骨干网络(如ResNet-101)的性能相媲美,同时总体推理时间显著减少。这表明MAD通过解耦,极大地简化了网络需要学习的内容,使其能用更简单的模型学习到更具判别性的特征,实现了性能与效率的更好平衡。 * 光流估计精度的影响: 实验发现,更准确的光流确实能带来更好的下游任务性能。但即使使用误差相对较大的快速光流估计网络,MAD的性能仍能超越之前的SOTA方法。这说明即使是不完美的解耦,也能带来显著的性能增益,为实际应用中的效率权衡提供了依据。 * EMGA模块有效性: 与简单的拼接、相加、相乘以及交叉注意力等融合方式对比,EMGA模块取得了最佳性能,验证了其“运动引导注意力”设计的优越性。 * 失败案例分析: 论文坦率地指出了当前方法的局限性:对极小目标的分割仍有困难;对长期完全静止或运动极慢的目标检测能力不足。这源于事件相机本身的工作原理——无变化则不产生事件。作者指出,未来与帧式相机或VIDAR相机融合是解决该问题的潜在方向。
五、 结论与研究价值
本研究提出了一种名为运动与外观解耦表征的通用、高效的事件数据表示方法。该方法受到生物视觉启发,通过估计光流和对齐事件,将异步事件流分解为独立的运动张量和外观张量,从而清晰地分离了时空信息。基于此,设计了事件运动引导注意力模块以实现有效的双流特征交互与融合。
研究的科学价值在于:它深刻指出了传统事件密集表征方法中时空信息耦合的根本缺陷,并提出了一种创新的解耦思路,为事件表征研究开辟了新的方向。所提出的MAD框架具有高度的通用性,可轻松适配于多种高层视觉任务。
研究的应用价值显著:MAD方法在目标检测、语义分割和人体姿态估计这三个核心任务上均实现了最先进的性能,且模型设计相对简洁,易于实现和部署。其通过解耦降低网络学习负担的特性,使得在保持高性能的同时有可能使用更轻量的网络,有利于事件相机在嵌入式平台和实时系统中的应用。
六、 研究亮点
七、 其他有价值内容
论文的讨论部分非常扎实,不仅包含了标准的消融实验,还深入探讨了光流估计精度这一上游任务对下游性能的影响边界,并坦诚分析了方法在极端情况(极小目标、绝对静止)下的失败案例,为后续研究者指明了改进方向。此外,论文代码已开源,有利于领域内的复现、验证和进一步发展。