这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
本研究由Yanxiang Gong、Linjie Deng、Shuai Tao、Xinchen Lu、Peicheng Wu、Zhiwei Xie、Zheng Ma及通讯作者Mei Xie(邮箱:mxie@uestc.edu.cn)共同完成,所有作者均来自University of Electronic Science and Technology of China(中国电子科技大学信息与通信工程学院)。研究以预印本形式发布于arXiv:2205.03582v1(计算机视觉领域,2022年5月7日),并计划提交至Journal of LaTeX Templates。
研究领域:本研究属于智能交通系统中的关键任务——车牌检测与识别(License Plate Detection and Recognition, LPDR),结合了计算机视觉与深度学习技术。
研究动机:尽管基于深度学习的方法在车牌任务中表现优异,但中文车牌因缺乏大规模、多样化的公开数据集(如多目标车牌、复杂场景数据),导致模型鲁棒性不足。现有数据集(如CCPD、EasyPR)多以单一车牌为主,难以覆盖实际监控系统中的多车牌场景。
研究目标:
1. 构建Chinese Road Plate Dataset (CRPD),填补中文多目标车牌数据空白;
2. 提出一种端到端(end-to-end)的高效统一网络,实现检测与识别的联合优化,兼顾实时性(30 FPS)与精度。
统一框架:检测与识别共享特征提取分支,通过RROIAlign(旋转感兴趣区域对齐)实现特征融合,避免两阶段模型的误差累积问题。
检测分支:基于STELA(一种实时锚框学习检测器),包含以下模块:
- 锚框分类:采用Focal Loss解决类别不平衡问题;
- 旋转框回归:定义五元组(中心点、宽高、旋转角),使用Smooth L1 Loss;
- 锚框优化:通过额外回归分支动态调整锚框形状,提升检测精度。
识别分支:改进CRNN(卷积循环神经网络)结构:
- 特征提取:利用FPN(特征金字塔网络)第三层输出,经RROIAlign裁剪为8×25特征图;
- 序列识别:引入双向LSTM和CTC Loss(连接时序分类损失),支持不定长字符识别;
- 创新点:替换部分卷积为可变形卷积(Deformable Convolution),增强对倾斜车牌的适应性。
科学价值:
1. 提出首个大规模中文多目标车牌数据集CRPD,推动复杂场景LPDR研究;
2. 设计端到端统一网络,通过共享特征和RROIAlign缓解误差累积,为实时应用提供新基线。
应用价值:模型可部署于电子收费、交通监控等系统,支持多车牌、复杂环境下的高精度识别。
研究指出CRPD的局限性(如未标注字符位置),为未来工作(如字符级检测、非车辆场景扩展)指明方向。