类型a:学术研究报告
作者及机构
本研究由Kathrin Donandt(德国杜伊斯堡-埃森大学船舶技术、海洋工程与运输系统研究所)与Dirk Söffker(德国杜伊斯堡-埃森大学动力学与控制系)合作完成,论文发表于2023年IEEE智能交通系统国际会议(IEEE SMC),DOI编号为10.1109/SMC53992.2023.10394158。
学术背景
研究领域为自动驾驶系统的轨迹预测,核心科学问题是如何通过深度学习模型提升目标主体(Target Agent, TA)在复杂交通环境中的轨迹预测精度。传统方法依赖LSTM(长短期记忆网络)和CNN(卷积神经网络)的混合架构,但存在计算效率低、无法实时处理动态环境交互的缺陷。本研究提出一种基于Transformer的时空情境感知模型(SOSP-CT),旨在通过改进社会张量(Social Tensor)定义和空间上下文嵌入方法,解决现有模型对周围主体(Surrounding Agents, SA)交互关系建模不足的问题。
研究流程与方法
1. 模型架构设计
- 输入特征重构:将目标主体的位移信息(纵向与横向)离散化为分类标签序列,避免传统回归任务的误差累积问题。
- 社会张量创新:提出一种4D张量(宽度×长度×时间步长×2),直接编码SA与TA在每一时间步的相对位移变化率(而非LSTM隐藏状态),显著降低计算复杂度(图3示例)。
- 空间情境隐式建模:通过导航区域相关坐标系(如航道千米距和边界距离,图4)定义位移特征,替代传统地图处理子模块。
社会情境融合模块(STT)
训练与优化
主要结果
1. 性能对比
- 误差指标:在5分钟预测时域内,SOSP-CT的最终位移误差(FDE)为31.69±40.58米,优于空间情境单独建模的SP-CT(31.95±44.32米)和情境无关模型CT(38.55±46.8米,表I)。
- 长时域优势:预测时域超过3分钟后,SOSP-CT的FDE显著低于CT(图5b),证明社会交互建模对长期预测的必要性。
结论与价值
1. 科学价值
- 提出首个完全基于Transformer的轨迹预测框架,摒弃LSTM-CNN混合架构,计算效率提升显著。
- 通过导航区域相关坐标系的特征定义,实现无地图模块的空间情境建模,为受限环境(如内河航道)提供新范式。
研究亮点
1. 方法创新:社会张量的时间步级交互建模与Transformer的端到端融合属首次提出。
2. 工程友好性:无需高精度地图输入,降低部署成本。
3. 可解释性:通过注意力权重可视化SA影响(图2),增强行为预测的可信度。
其他价值
论文指出当前数据集中异常轨迹(如超速船舶)对误差分布的干扰,未来需通过数据清洗和超参数优化进一步提升性能,并计划在行人、车辆基准数据集上验证普适性。