利用机器学习提升城市环境中GPS码相位定位精度

分享自：
利用机器学习提升城市环境中GPS码相位定位精度

期刊:IEEE Internet of Things JournalDOI:10.1109/jiot.2020.3037074
基于机器学习的城市环境GPS码相位定位精度提升研究
一、 研究团队与发表信息
本研究的主要作者包括Rui Sun（孙睿，通讯作者）、Guanyu Wang（王冠宇）、Qi Cheng（程琦）、Linxia Fu（付琳霞）、Kai-Wei Chiang、Li-Ta Hsu（许立达）以及Washington Yotto Ochieng。研究团队来自多所知名高校与研究机构：南京航空航天大学民航学院、西安测绘研究所地理信息工程国家重点实验室、台湾成功大学测量与空间信息学系、香港理工大学航空及民航工程学系跨域学部，以及英国伦敦帝国理工学院土木与环境工程系。
该研究成果以题为“Improving GPS Code Phase Positioning Accuracy in Urban Environments Using Machine Learning”的学术论文形式，发表于IEEE Internet of Things Journal期刊，具体为2021年4月15日出版的第8卷第8期。论文于2020年11月10日在线发表，并于2021年4月7日发布最终版本。
二、 学术背景与研究目的
本研究属于全球导航卫星系统（GNSS）高精度定位领域，具体聚焦于城市复杂环境下的GPS定位误差抑制问题。随着物联网（IoT）和智慧城市应用的发展，精准可靠的位置信息变得至关重要，而GPS是提供此类信息的关键传感器。然而，在城市峡谷等建筑密集环境中，GPS信号容易被建筑物反射、衍射或阻挡，导致多路径效应（Multipath）和非视距（Non-Line-of-Sight， NLOS）接收。这两种效应会引入高达数十米的伪距误差，严重恶化GPS的定位精度，制约了其在城市区域基于位置服务中的应用。
传统的误差缓解方法主要从三个层面入手：1）天线与接收机硬件设计（如抗多路径天线）；2）信号处理技术（如窄相关器、多径估计延迟锁定环）；3）测量域建模与融合（如结合惯性测量单元、视觉传感器或三维城市模型）。然而，这些方法存在局限性：硬件方案可能笨重昂贵；信号处理方法对短延迟多路径无效；而依赖额外传感器或高精度三维模型的方法则受限于成本、天气条件或模型完整性。近年来，基于机器学习的方法展现出潜力，它们通过分析GPS原始测量中的多个变量来改善定位解算。但现有研究大多集中于直接预测信号接收类型（LOS、NLOS、Multipath），其定位精度的提升受限于信号分类的准确性。分类标签的获取往往依赖三维城市模型、摄像头或罗盘等额外信息源，这些源本身会引入误差并增加成本和复杂性。
因此，本研究旨在解决现有机器学习方法的局限性，提出一种新的思路：不直接进行信号分类，而是利用机器学习模型直接预测每个卫星观测值的伪距误差本身。基于预测的误差，再对定位解算进行修正，从而从根本上提升定位精度。研究的具体目标是：开发一种基于梯度提升决策树（Gradient Boosting Decision Tree， GBDT）的机器学习算法，仅使用信号强度（载噪比C/N0）、卫星高度角和伪距残差这三个易获取的变量，来预测城市环境中的伪距误差，并在此基础上提出两种定位改进方案，最终实现比传统方法更优的定位性能，同时避免对额外硬件或地理空间信息的依赖。
三、 详细研究流程与方法
本研究的工作流程清晰分为线下训练和线上测试两个主要阶段，整体框架如图1所示。核心在于GBDT模型的构建与应用。
1. 数据准备与变量确定： 研究选取了三个具有代表性且易于从GPS接收机原始观测值中获取的变量作为GBDT模型的输入特征：卫星高度角（Elevation Angle）、载噪比（C/N0） 和伪距残差（Pseudorange Residual）。选择这三个变量是基于前期研究[35,36]在计算成本与训练精度之间的权衡。高度角越低，信号被遮挡或反射的概率越大；C/N0值在存在多路径/NLOS时通常会降低；伪距残差则反映了观测值与当前定位解算之间的不一致性，在观测卫星数量充足时可用于检测异常信号。
2. 线下训练阶段： 此阶段的目标是利用已知“地面真值”的数据训练GBDT模型，学习从输入变量到伪距误差的映射关系。 * 训练数据集（D1）构建： 数据来源于两个部分：a) 城市峡谷点：在已知精确坐标的点位上（如校园狭窄道路旁、高楼一侧的测试点），使用商用或测地型GPS接收机采集静态数据。这些数据主要包含受多路径和NLOS影响的观测值，伪距误差较大。b) 参考站：在开阔无遮挡的参考站（如CKSV站、SatRef HKSC站）采集数据。这些数据主要为LOS信号，伪距误差很小。为了平衡数据集并防止训练偏差，从城市峡谷数据（大误差）和参考站数据（小误差）中分别随机抽取一定数量的样本，共同构成训练集D1。例如，在测试案例1中，D1包含从城市峡谷采集的24，000个大误差样本，以及从城市峡谷和参考站各采集的12，000个小误差样本（共24，000个）混合而成。 * 标签生成（关键步骤）： 这是本研究的核心创新点之一。对于训练集中的每一个观测值（对应一组输入变量），需要计算其“真实”的伪距误差作为标签。计算基于已知的接收机精确坐标和卫星星历。具体公式为：伪距误差 Δρ = 修正后的伪距观测值 ρ_c - 几何距离 r。其中，几何距离r由已知接收机坐标和卫星坐标计算得出；ρ_c 是经过卫星钟差、对流层与电离层延迟模型修正后的伪距观测值。Δρ 中主要包含了由多路径和NLOS引起的主导误差项。通过此过程，为每一组（C/N0, 伪距残差，高度角）数据对赋予了对应的伪距误差值，完成了监督学习所需的标签标注。 * GBDT模型训练： 使用GBDT这一集成学习算法来拟合输入变量与伪距误差标签之间的关系。GBDT通过迭代生成一系列弱学习器（决策树），每棵树学习之前所有树组合的残差，最终将所有树的预测结果加权求和，得到一个强大的预测模型。研究中详细描述了GBDT的数学优化过程：初始化一个简单的决策树，然后迭代地计算损失函数的负梯度（残差），用新的数据（原输入，当前残差）训练新的弱学习器来拟合该残差，并以一定的学习率将新树加入到模型中，最终输出一个强大的预测函数。研究还进行了超参数敏感性分析（如叶子节点数、学习率、迭代次数），以确定最优模型参数。在测试案例1中，最终确定的参数为：迭代次数1000，叶子节点数20，学习率0.1。
3. 线上测试与定位解算： 此阶段将训练好的GBDT模型应用于新的、未知环境的GPS观测数据，以提升定位精度。 * 测试数据集（D2）：在相同的城市测试点（但不同于训练数据采集时段）或新的测试点采集新的GPS观测数据，形成测试集D2。 * 伪距误差预测： 将D2中每个观测值的三个变量（C/N0, 伪距残差，高度角）输入训练好的GBDT模型，模型输出对该观测值伪距误差的预测值。 * 两种定位改进策略： * 策略一：伪距误差修正定位：这是本研究的主推且性能更优的策略。直接使用GBDT预测出的伪距误差值，对原始的伪距观测值进行修正：ρ_corrected = ρ_raw - Δρ_predicted。然后，使用所有修正后的伪距，采用标准最小二乘法进行定位解算。此方法利用了所有卫星的观测信息。 * 策略二：多路径/NLOS信号排除或修正定位：此策略结合了分类的思想。首先设定一个阈值P（通过实验经验确定，如测试案例1为5米，测试案例2为50米）。将预测的伪距误差绝对值与阈值比较：若小于P，则判定为LOS信号，直接用于定位；若大于等于P，则判定为受多路径/NLOS影响的信号。然而，并非简单地排除所有被判定为异常的卫星，因为排除卫星可能恶化卫星几何构型（通过位置精度衰减因子PDOP衡量）。因此，引入了一个条件策略：计算排除该可疑卫星前后的PDOP值。如果排除后PDOP增大（几何构型变差），则不排除该卫星，而是采用策略一的方法对其伪距进行修正后使用；如果排除后PDOP未增大，则直接排除该卫星观测值。最终使用保留的LOS信号和修正后的异常信号进行定位解算。
4. 实验设计与验证： 研究设计了两个典型的城市环境测试案例来验证算法性能。 * 测试案例1（狭窄道路，两侧有建筑）：在成功大学校园内一条两侧有建筑的狭窄道路旁设置已知点P0，使用Novatel ProPak 7接收机采集数据。同时利用校园内的CKSV参考站数据。按前述方法构建D1和D2。 * 测试案例2（宽阔道路，单侧有高层建筑）：在香港一个单侧有高层建筑的宽阔道路旁设置两个点P1和P2，使用Novatel OEM6接收机采集数据。同时利用香港SatRef HKSC参考站数据。同样构建D1和D2。此环境被认为更具挑战性，NLOS效应更严重。 * 对比基准：将提出的两种策略的定位结果与两种传统方法进行对比：1) 传统方法一：基于标准异常值检测与排除的定位。2) 传统方法二：基于C/N0和高度角阈值（C/N0 > 30 dB且高度角 > 15度）的多路径/NLOS信号排除定位。 * 评估指标：主要使用均方根误差（RMSE）来评估3D、2D（水平）和高度方向的定位精度。同时，也分析了信号分类的准确率以及算法在不同历元上的改善比例。
四、 主要研究结果
1. GBDT模型预测性能： 在两个测试案例中，GBDT模型在预测伪距误差方面均显著优于传统的线性和非线性回归方法（二次、三次、四次多项式拟合）。如图5和图10的残差曲线所示，GBDT的预测残差更接近零且更稳定。定量结果显示，在测试案例1中，GBDT对内部验证和外部验证数据的拟合RMSE分别为2.19米和4.10米，远低于其他方法（见表II）。在测试案例2中，GBDT的拟合RMSE为5.96米（内部）和12.75米（外部），同样是最优的（见表VII）。这证明了GBDT能够有效学习城市环境中伪距误差与所选三个变量之间的复杂非线性关系。
2. 信号分类准确率（针对策略二）： 在测试案例1中，使用阈值P=5米，GBDT算法对信号接收类型（LOS vs. 多路径/NLOS）的总体分类准确率达到76%（见表III）。在挑战性更高的测试案例2中，使用更大的阈值P=50米（因为误差更大），总体分类准确率提升至91%，其中LOS信号分类准确率高达97%，多路径/NLOS信号分类准确率为73%（见表VIII）。这表明在误差更显著的环境中，基于预测误差的分类效果更好。
3. 定位精度提升结果： * 测试案例1（狭窄道路）：定位结果如图6和表IV所示。伪距误差修正策略将3D定位精度（RMSE）从传统方法一的61.03米和传统方法二的78.80米，提升至45.14米，分别改善了25.95%和42.73%。多路径/NLOS排除或修正策略的改善相对有限，3D RMSE为55.69米，主要原因是分类准确率（76%）不够高，且排除卫星导致几何构型弱化。图7的精度分布直方图显示，修正策略使定位误差在10米以内的历元比例从传统方法的7-10%大幅提升至53%以上。 * 测试案例2（宽阔道路，单侧高楼）：定位结果如图11和表IX所示。此环境下传统方法的定位误差非常大（3D RMSE > 80米）。伪距误差修正策略展现了惊人的效果，将3D RMSE大幅降低至23.27米，相比传统方法提升了超过70%。水平精度和高度精度也分别提升了约76%和59%。多路径/NLOS排除或修正策略也将3D RMSE改善至60.80米，提升了约25%。图12的直方图清晰显示，修正策略使大多数历元的定位精度进入了30米以内区间，而传统方法主要集中在60-90米误差区间。
4. 历元级性能分析： 研究进一步分析了算法在每个历元上的表现（见表V和表X）。在测试案例2中，伪距误差修正策略在97%的历元上改善了3D定位结果，仅在3%的历元上因GBDT预测误差导致结果变差。多路径/NLOS排除或修正策略在81%的历元上改善了3D定位。这强有力地证明了所提算法，尤其是修正策略，在严重多路径/NLOS环境中的有效性和鲁棒性。
五、 研究结论与价值
本研究成功开发并验证了一种基于GBDT机器学习模型的新型GPS伪距误差预测与修正算法，用于显著提升城市复杂环境下的码相位定位精度。主要结论如下：
方法有效性：提出的方法，特别是伪距误差直接修正策略，能够在不依赖额外硬件或高成本三维城市模型的情况下，有效抑制多路径和NLOS效应带来的伪距误差，大幅提升定位精度。在高层建筑林立的挑战性环境中，可将3D定位精度从传统方法的80多米提升至23.3米，改善幅度超过70%。
策略对比：研究提出的两种策略中，伪距误差修正策略整体上优于多路径/NLOS信号排除或修正策略。这是因为修正策略利用了所有卫星的观测信息，在可见卫星数量不足时尤为重要，且能同时修正由不准确的电离层、对流层模型引起的残余误差。
环境适应性：算法在伪距误差更严重的环境（测试案例2）中表现出更大的性能提升，证明其特别适用于信号遮挡和反射效应强烈的“城市峡谷”区域。
实用性与前景：该方法计算量小，成本低，易于集成到现有GPS处理流程中。作者展望了未来的应用框架：在城市区域建立均匀分布的参考点网络，采集数据用于离线训练；用户可通过通信链路在线获取训练好的模型规则，实时进行伪距误差修正，从而为地面车辆、行人等提供鲁棒的位置服务。
六、 研究亮点
思路创新：不同于现有机器学习方法聚焦于信号接收类型分类，本研究开创性地将机器学习应用于直接预测伪距误差值，绕过了分类不准确对定位精度的限制，并避免了分类标签获取过程中引入的额外误差和成本。
模型高效：仅使用三个易于获取的GPS原生变量（C/N0、高度角、伪距残差） 作为输入，在保证预测性能的同时降低了数据获取与处理的复杂度。
算法设计巧妙：提出了两种定位改进策略，尤其是伪距误差修正策略，简单直接且效果显著。而多路径/NLOS排除或修正策略中引入PDOP判断条件，体现了对卫星几何构型重要性的考量，避免了盲目排除卫星可能带来的负面影响。
验证充分：通过两个具有代表性的、不同特征的城市场景（窄路两侧建筑、宽路单侧高楼）进行实验，全面评估了算法性能，并与传统方法进行了详实的对比，结果具有说服力。
工程实用性强：整个方案基于广泛可得的GPS观测数据，无需特殊硬件，为在实际的物联网设备、智能手机或车载终端中实现高精度城市定位提供了可行的技术路径。
七、 其他有价值内容
论文在引言部分对现有的多路径/NLOS缓解技术进行了全面而精炼的综述，涵盖了天线设计、信号处理、传感器融合、三维城市模型辅助以及早期的机器学习分类方法，为读者理解该领域的研究脉络和本工作的创新定位提供了清晰的背景。此外，论文对GBDT算法的数学原理和训练过程进行了清晰的阐述，并进行了超参数敏感性分析，增强了研究的可复现性和严谨性。最后，作者指出了当前基于参考点离线训练、在线应用的框架，并提出了开发在线数据训练机制的未来研究方向，以支持实时和后处理应用，体现了研究的延续性和应用前景。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问