面向真实场景的行人过街意图预测综述

分享自：
面向真实场景的行人过街意图预测综述

工程学
信息科学
交通与运载工程
人工智能
计算机科学
期刊:CHAINDOI:10.23919/chain.2024.000008
【点击此处】阅读全文、收藏及针对性提问
行人过街意图预测研究综述：方法、数据与挑战
本文旨在向中文研究界介绍一篇关于“野外环境下行人过街意图预测”的综合性学术综述。这篇题为《Pedestrian Crossing Intention Prediction in the Wild: A Survey》的论文，由瑞典皇家理工学院（KTH Royal Institute of Technology）的Yancheng Ling和Zhenliang Ma合作完成，发表在期刊《CHAIN》2024年第1卷第4期（第263-279页）。该综述系统性地回顾和总结了这一关键领域的研究进展、核心方法、数据集、评估指标以及当前面临的挑战与未来方向。其主要论点结构清晰，论述层层递进，为研究者提供了一个全面的知识地图和清晰的科研导航。
一、 研究背景与动机：一个至关重要的安全问题
论文开篇即强调了行人作为交通系统中弱势群体所面临的挑战。由于缺乏足够保护、身体抗冲击能力有限且风险规避能力较弱，行人的交通安全一直是研究的重点。更复杂的是，行人行为具有显著的随机性和不可预测性，例如速度变化、突然转向或停止。因此，准确预测行人意图，特别是过街意图，对于保障安全驾驶至关重要，也是自动驾驶汽车自动决策过程的基石。尽管已有很多研究涉及行人意图预测的各个方面（如视线检测、轨迹预测、碰撞规避等），但“行人过街意图预测”因其代表了车辆与行人之间最关键的交互之一，且是交通事故的高发点，而受到了广泛关注。开发自动驾驶汽车预测行人过街意图的能力，是确保安全驾驶的核心任务。
二、 研究范畴与工作流程定义：从问题定义到预测输出
为了明确讨论边界，作者首先对“行人过街意图预测”问题进行了精确定义。从任务角度看，这通常被视为一个二元分类任务，即基于一段观测历史（例如连续的16帧视频图像），预测未来某个时间段内（例如1至2秒）行人是否会过街。这一预测基于对行人姿态、动作及周围交通环境的综合分析。从数据角度看，已有多个公开数据集为此任务提供支持，其中最常用且便于公平比较的是JAAD和PIE数据集。这两个数据集提供了丰富的标注信息，包括行人边界框、车辆速度以及行人意图标签（过街/不过街），并能从中提取更丰富的输入特征。
论文随后提出了一个通用的行人过街意图预测系统工作流程，包含五个关键步骤：(1) 感知：使用传感器（如车载摄像头、速度传感器）感知周围环境。(2) 原始数据：传感器收集和传输的数据。(3) 输入数据表征：对原始数据进行处理后，可直接输入模型的特征表示（例如边界框、车速、行人图像裁剪块等）。(4) 模型：用于预测的核心算法模型。(5) 结果：最终的分类预测结果。这一框架为理解后续讨论的各个技术环节提供了清晰的脉络。
三、 核心观点一：模型输入数据表征是性能的关键影响因素，应注重信息互补与效率平衡
论文花费大量篇幅详细阐述了模型输入数据表征的不同类型及其对性能的显著影响。作者将输入信息系统地分为四大类：行人信息、自车信息、环境信息及其他信息。每一类又包含多种具体的表征形式，并详述了从原始数据中提取这些表征的预处理技术和常用算法。
行人信息：旨在捕捉行人的姿态和动作细节。主要表征形式包括：
行人图像裁剪块：提供行人的外观和姿态信息，通常使用2D或3D卷积神经网络提取特征，但易受图像质量影响。
行人骨骼关键点数据：比原始图像更鲁棒，能提供更精确的姿势和动作信息，因其内在的几何约束使其在遮挡情况下仍能进行合理预测。常用图卷积网络（GCN）或Transformer来提取特征，其中GCN尤其擅长处理此类非欧几里得数据，能有效保留关键点间的空间几何关系。
边界框及其衍生信息：边界框本身可用于捕捉轨迹和距离信息；其中心点序列可表征运动信息；宽高比和面积能反映行人尺寸和形状变化。这些数据常被视为序列数据，用循环神经网络（RNN）或Transformer处理。
意图信息：如“是否在看车”（通过视线检测模型提取）、“是否在行走”等，通常通过全连接层处理。
局部运动信息：通过光流法从行人裁剪图像中提取的详细运动信息。
自车信息：主要是车辆速度。它不仅能反映自车运动，还能间接提供交通流状况。速度数据可从车载传感器或GPS获取，前者更精确常用。特征提取方法包括RNN、Transformer或构建速度图并用GCN处理。
环境信息：旨在让模型理解行人周围的交通环境。
全局图像：提供丰富的交通场景信息，特征提取方法与行人图像裁剪类似。
语义分割图：比全局图像提供更精确的像素级环境元素分类（如车道、车辆、行人、交通标志）。
局部环境图像裁剪：聚焦于行人及其直接周边环境。
其他信息：如深度图（提供交通元素距离信息）、行人与自车的相对距离等。
作者通过引用和总结大量文献，论证了不同输入组合对性能的影响。其核心论点是：单一模态数据（如仅使用行人图像）性能有限，而融合多模态数据（结合行人、自车、环境信息）能显著提升预测准确率。 例如，同时使用骨骼数据、车辆速度和边界框的模型，比仅使用骨骼数据的模型在复杂场景下表现更优。然而，作者也指出一个关键挑战：增加输入数据表征类型会提高数据预处理成本和计算资源消耗，可能降低模型的实用性。例如，使用语义分割图需要从原始图像进行额外计算，耗时耗力。因此，未来的研究需要在信息丰富度与计算效率之间寻求平衡，避免信息冗余，并探索更高效的环境信息间接获取方式（如通过车速推断交通流状态）。
四、 核心观点二：模型架构的演进与性能对比显示出GCN和Transformer的优势
论文系统地梳理了用于行人过街意图预测的主流模型架构，包括基于CNN、RNN、GCN、Transformer、强化学习以及融合结构的模型，并分析了各自的优缺点。
CNN-based模型：早期研究使用VGG、ResNet、3D卷积等架构从图像序列中提取时空特征。虽然有效，但通常仅限于处理图像相关数据，且对长时依赖的建模能力有限。
RNN-based模型：引入LSTM、GRU等网络处理序列数据，能够融合多模态输入（如图像特征序列、速度序列等），并通过注意力机制融合特征。然而，RNN模型在处理骨骼数据时将其视为离散序列，丢失了其空间几何结构信息，且参数量大，影响实时性。
GCN-based模型：因其擅长处理非欧几里得数据（如图、骨骼）而受到关注。GCN模型能有效保留骨骼关键点间的几何关系，从而更精准地提取姿态特征。研究从最初仅使用骨骼数据的纯GCN模型，发展到融合图像、速度、语义图等多模态信息，并引入注意力机制增强的GCN模型（如STA-GCN）。一些工作还创新性地将边界框、速度数据也构建成图，使GCN能直接处理这些数据，实现了纯GCN框架下的多模态融合。
Transformer-based模型：凭借其强大的长序列建模和自注意力机制，在近年研究中表现突出。这类模型能够协同并渐进式地捕捉行人、车辆和环境之间的动态时空交互，部分模型还引入了深度证据学习来处理复杂场景中的预测不确定性（AI uncertainty）。
融合结构模型：结合两种或以上架构的优势，例如用CNN处理视觉特征、用RNN处理非视觉序列，再用GCN处理骨骼图，最后通过高效的特征融合模块进行整合。
论文通过表格对比了不同模型在PIE和JAAD数据集上的准确率，并提供了模型复杂度（参数量、大小）和预测效率（推理时间）的对比。分析表明，基于GCN和Transformer的模型通常能取得更好的性能，同时拥有更短的预测时间和更小的模型尺寸，这主要得益于其更轻量的结构和更高效的特征提取能力。例如，Pedast-GCN模型在保持高精度的同时，推理速度远快于某些基于RNN的模型。
五、 核心观点三：模型验证、泛化能力与不确定性是当前研究面临的关键挑战
除了方法和数据，论文还深入探讨了模型评估与部署中面临的深层挑战。
数据集与评估指标：JAAD和PIE是当前最常用的基准数据集。标准的评估指标包括准确率、精确率、召回率、F1分数和AUC。进行充分的消融实验（Ablation Study）以验证每个模块或输入类型的贡献至关重要，包括测试不同模型变体、输入组合、观测长度、天气条件以及噪声数据下的鲁棒性。
模型泛化能力：论文引用研究指出，当模型在一个数据集上训练而在另一个不同数据集上测试时，性能通常会出现显著下降。这凸显了提升模型泛化能力的极端重要性。未来工作需要在模型结构改进和输入数据规范化两方面共同努力，以确保模型在真实世界多样化场景中的可靠表现。
预测不确定性：这是论文强调的一个前沿且重要的方向。从人类驾驶员的角度看，不同司机对同一行人的意图判断可能存在差异，尤其是在模糊情境下。然而，现有大多数模型是确定性模型，无法模拟这种不确定性。预测不确定性主要来源于模型结构本身和输入数据。固定参数的模型无法模拟不同司机的决策差异；而缺失或错误的输入数据也会引入不确定性。研究表明，在模型中显式地引入并处理不确定性（如通过证据学习或贝叶斯方法）可以显著提升模型的性能和可靠性。这是未来使预测系统更接近人类认知、更值得信赖的关键一步。
六、 数据隐私与伦理考量不容忽视
在AI与自动驾驶应用中，论文特别强调了数据隐私和伦理考虑的必要性。这包括在采集行人数据（如车载摄像）时，应尽量减少对个人隐私信息的无意捕捉。预测模型必须确保处理数据时无偏见，不因年龄、性别、种族等因素产生歧视性判断。模型的决策过程应具备透明度和可解释性。开发者和使用者对模型的应用负有重要责任。在推动技术发展的同时，坚守隐私、公平和伦理的最高标准，是技术正向赋能社会的基石。
七、 结论与未来展望
该综述论文对行人过街意图预测领域进行了全面梳理，涵盖了数据感知、输入表征、模型架构及核心挑战。作者总结指出，当前研究的关键挑战集中在模型输入数据表征的选择与效率平衡、模型泛化能力的提升，以及预测不确定性的建模三个方面。解决这些问题对于提高预测模型在真实世界中的可用性和可信度至关重要。
总结与价值： 这篇由Yancheng Ling和Zhenliang Ma撰写的综述，其价值在于为领域内的研究者和实践者提供了一个系统化、结构化的知识框架。它不仅详细盘点了技术细节（从数据到模型），更深刻指出了当前研究的瓶颈与未来有潜力的方向（如泛化性、不确定性、伦理）。对于希望进入该领域的新研究者，这是一份极佳的入门指南和文献索引；对于资深研究者，它提供了一个反思现有工作、定位创新点的宏观视角。论文强调的多模态融合、高效架构（如GCN/Transformer）以及超越纯精度指标的对泛化性和不确定性的关注，将对推动行人意图预测技术走向更安全、更可靠、更实用的实际部署产生积极影响。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问