分享自:

基于CPU-FPGA异构芯片随机信号的Dempster组合规则

期刊:the journal of supercomputingDOI:10.1007/s11227-025-07847-x

基于CPU-FPGA异构芯片的随机信号Dempster组合规则(RS DRC)算法研究报告

一、 研究作者、机构与发表信息

本项研究的主要作者为Huaping HeJie ChenHeng Zhang,均来自National University of Defense Technology, College of Advanced Interdisciplinary Studies(中国长沙)。该研究成果以学术论文形式发表于期刊 The Journal of Supercomputing,于2025年9月9日被接受,并于2026年在线发表。

二、 学术背景与研究动机

本研究属于信息融合与不确定性推理领域,具体聚焦于Dempster-Shafer证据理论(Dempster-Shafer Evidence Theory, DSET)的核心计算引擎——Dempster组合规则(Dempster’s Rule of Combination, DRC)的高效硬件加速实现。

在智能决策、模式识别、故障诊断等复杂系统中,信息融合面临数据来源多样、质量参差、充满不确定性的挑战。Dempster-Shafer证据理论作为一种强大的不确定性建模与推理数学工具,通过基本信任分配函数(Basic Belief Assignment, BBA)和Dempster组合规则,能够有效处理不精确、不完全甚至冲突的信息。然而,DRC的计算复杂度随着识别框架中元素数量的增加呈指数级增长(O(4^n)),这严重限制了其在处理高维、大规模证据体时的可扩展性和实时性。

尽管已有研究尝试利用异构计算(如GPU、FPGA甚至量子计算机)来加速DRC,但仍存在局限性。例如,GPU加速方法(如CUDA DRC)虽然利用大规模并行计算,但其时间复杂度本质未变(单证据组合为O(2^n)),且存在CPU-GPU数据传输开销。基于FPGA的方法虽然能通过定制硬件逻辑加速,但其运行时间仍会随着识别框架元素增多而增加。量子计算方案(如QDrc)则受限于硬件成熟度、成本高昂和数据传输延迟等问题。

因此,本研究旨在解决DRC在高维识别框架下的计算瓶颈。研究团队提出了一种创新的方法——基于随机信号的Dempster组合规则(RS DRC),并利用CPU-FPGA异构芯片(Zynq系列) 进行硬件加速。其核心目标是:在固定逻辑组合次数(n)的前提下,将DRC的计算复杂度从指数级O(4^n)降低到线性级O(n),从而实现无论识别框架元素如何增加,融合时间都能保持稳定的高效处理能力,为复杂决策系统中的不确定性数据处理提供可行的实际部署方案。

三、 详细研究流程与方法

本研究提出并验证RS DRC算法,其核心思想是利用随机信号模拟证据的信任分配,并通过FPGA的并行逻辑门电路实现高效的证据融合。整个研究流程可分为以下几个关键步骤:

1. 算法核心原理与设计(RS DRC算法) * 步骤一:信号证据识别框架(Signals Recognition Framework, SRF)生成。 此步骤将传统的证据理论识别框架映射到FPGA的可编程逻辑单元(PL)的信号线上。识别框架中的每个基本互斥事件θ_i对应一条独立的信号线w[j](j从0到n-1),其电平(0或1)表示该事件是否发生。识别框架的幂集2^θ则对应所有可能的信号线状态组合。通过CPU(PS端)生成随机数,并基于蒙特卡洛采样方法,将BBA的概率区间映射为随机数落入的区间,从而生成代表该BBA的随机信号(一组高/低电平组合)。每次采样生成一个n位的随机信号,代表一次“逻辑组合”的输入。进行N次独立采样,即可得到N个随机信号,用于模拟BBA的概率分布。研究提出了两种随机数生成方案:基于CPU的真随机数生成器(TRNG)和完全在FPGA上实现的伪随机数生成器(PRNG)。 * 步骤二:随机信号证据组合逻辑计算。 这是算法的并行加速核心。在FPGA中,将两个待融合的证据(表示为随机信号wa和wb)的每一位进行并行逻辑“或”运算。对于第i次逻辑组合,融合结果wc[i]的逻辑为:wc[i] = wa[i] OR wb[i] OR NOT wc(init)[i],其中wc(init)[i]初始化为0。FPGA利用其硬件并行性,可以同时处理大量的(例如1024次)这样的逻辑组合,极大地加速了传统DRC中耗时的幂集交集运算。 * 步骤三:结果测量与统计。 在完成N次并行逻辑组合后,FPGA对N个融合结果wc进行测量和统计,计算每种不同信号组合(对应幂集中的某个子集)出现的次数x_i。 * 步骤四:最终融合结果计算。 根据统计结果计算冲突系数k(即所有结果为空集∅的次数x_0占总次数N的比例)。然后,按照修正后的公式计算最终事件A的信任分配:m_final(A) = (1/(1-k)) * (x_A / N)。论文从数学上证明了,当逻辑组合次数N趋于无穷大时,RS DRC的融合结果将收敛于经典DRC的结果,其误差随N增大而减小。

2. 硬件实现与系统架构 研究在Xilinx Zynq-7035异构芯片上实现了RS DRC算法。Zynq芯片集成了ARM处理器(Processing System, PS)和FPGA(Programmable Logic, PL)。 * TRNG方案: CPU(PS)负责生成真随机数并转换为随机信号,通过AXI-Lite总线将数据写入DDR内存并通知FPGA。FPGA(PL)通过AXI总线读取数据,利用预先设计好的IP核(包含区间分类和位操作模块)进行高速并行逻辑组合计算,最后将统计结果返回给PS进行最终的概率计算。 * PRNG方案: 所有步骤(包括伪随机数生成、信号映射、逻辑组合、结果统计)均在FPGA(PL)内完成,完全避免了PS-PL之间的数据传输延迟,进一步缩短了融合时间,但会消耗更多的FPGA逻辑资源(LUTs和FFs)。

3. 实验设计与分析流程 研究通过一系列对比实验验证RS DRC的性能。 * 实验对象与样本: * 算法验证: 使用预设的两组BBA(如表2所示)作为输入,分别用经典DRC(C++实现)、量子DRC(QDrc,基于IBM QASM模拟器)和RS DRC(在Zynq上实现)进行融合,比较输出结果。 * 运行时间对比: 在不同元素数量(2到10)的识别框架下,测试并比较了经典DRC(在树莓派和Zynq的ARM核上运行)、CUDA DRC(在i7+RTX3060上运行)、FPGA DRC(文献[23,24]方法)以及RS DRC(TRNG和PRNG两种方案在Zynq上运行)的融合时间。每种环境下的测试时间均为从输入证据到输出证据的完整流程时间。 * 误差分析: 在Zynq平台上,测试RS DRC在不同逻辑组合次数N(从128到8192)下,其融合结果与经典DRC结果之间的绝对误差,并分析误差随N增加的变化趋势。 * 实际应用验证: 将RS DRC应用于UCI Wine数据集的分类任务。首先基于正态分布分类器(NDBC)和Wang的校准方法为13个属性构建BBA,然后使用经典DRC和RS DRC(N=2048)分别进行证据融合,最终根据融合结果做出分类决策。通过混淆矩阵和Jousselme距离评估两种方法的分类精度和结果一致性。此外,还在其他多个UCI数据集(Heart, Iris, Vehicle, Red Wine, White Wine)上进行了扩展分类实验,对比了DRC、CUDA DRC和RS DRC的运行时间和分类准确率。

四、 主要研究结果

1. 融合结果准确性验证: 对比实验表明,RS DRC的融合结果与经典DRC、QDrc的结果在趋势上高度一致。例如,在案例1的融合中,三种方法最终都强烈支持事件{θ1}。虽然由于随机性,RS DRC的结果与精确值存在微小偏差,但通过计算Jousselme距离发现,随着融合步骤(证据数量)增加,RS DRC与DRC结果之间的差异迅速减小并趋近于零。这证明了RS DRC在决策层面能够达到与经典DRC几乎相同的性能。

2. 计算效率与可扩展性突破: 运行时间对比实验取得了关键性发现: * 经典DRC的运行时间随识别框架元素数量n呈指数级增长(O(4^n))。例如在Zynq ARM核上,当n从2增加到10时,运行时间从0.029ms激增至2618.1ms,增长近10万倍。 * CUDA DRCFPGA DRC在元素较少时速度很快,但其运行时间仍会随着n增大而显著增加(例如CUDA DRC在n>10后时间明显上升),因为它们的时间复杂度本质仍是元素数量的函数。 * RS DRC的表现截然不同。当固定逻辑组合次数N(如1024次)时,其融合时间几乎不随识别框架元素数量n的增加而变化。在Zynq平台上,RS DRC (TRNG)的融合时间稳定在约0.9811ms,RS DRC (PRNG)更是稳定在约0.0103ms。这验证了其时间复杂度在固定N时为O(n)的线性特性,成功解决了高维框架下的计算瓶颈。实验数据清晰显示,当框架元素超过6个时,RS DRC的速度开始显著超越其他所有方法。

3. 误差与计算成本的权衡: 误差分析实验表明,RS DRC的融合误差与逻辑组合次数N成反比。当N=128时,绝对误差约为2.97%;当N增加到1024时,误差降至0.99%以内;当N达到8192时,误差进一步降至0.25%。同时,运行时间与N呈强线性相关(Pearson系数r≈0.999)。这为用户提供了灵活的权衡空间:对于需要高精度的场景,可以选择较大的N;对于需要极速响应的场景,可以选择较小的N。研究表明,N=1024是一个较好的平衡点,能在保证误差%的同时,获得极快的处理速度(PRNG方案仅需10.3μs)。

4. 实际应用性能: 在Wine数据集分类任务中,RS DRC(N=2048)最终得到的分类结果与经典DRC完全相同(均将样本判定为类别2),其混淆矩阵显示的分类准确率与DRC高度相近(各类别准确率差异在1-3%以内)。在多个UCI数据集的扩展实验中,RS DRC与DRC、CUDA DRC的分类准确率几乎相同。然而,在运行时间上,RS DRC展现出巨大优势。特别是在类别数较多的数据集(如White Wine,7类)上,RS DRC(PRNG)的融合速度比经典DRC快了超过391倍,也比CUDA DRC更快。这充分证明了RS DRC在保持高分类精度的同时,具有卓越的加速性能。

五、 研究结论与价值

本研究成功提出并验证了一种基于CPU-FPGA异构计算和随机信号仿真的新型Dempster组合规则加速算法——RS DRC。

科学价值: 1. 理论创新: 将蒙特卡洛随机采样思想与Dempster-Shafer证据理论相结合,创造性地提出了用随机信号和并行逻辑运算来模拟和加速复杂的幂集交集与概率计算,为证据理论的高效计算开辟了一条新路径。 2. 复杂度突破: 首次在硬件加速层面,实现了DRC计算复杂度从指数级O(4^n)到线性级O(n)(固定N时)的根本性降低,理论上解决了高维识别框架下的可扩展性问题。

应用价值: 1. 高性能计算: 为需要实时或近实时处理高维不确定性信息的系统(如自动驾驶、复杂环境监测、医疗诊断辅助、军事目标识别)提供了可行的硬件加速解决方案。 2. 硬件友好性: 充分利用了FPGA的并行性和可重构性,算法设计贴合硬件特性。提出的两种实现方案(TRNG和PRNG)为不同应用场景(强调随机性安全vs.极致速度和确定性)提供了选择。 3. 实用化推动: 通过在Zynq这类商用异构芯片上的成功部署,并展示其在标准数据集分类任务上的有效性和高效性,极大地推动了Dempster-Shafer证据理论从理论算法走向实际工程应用。

六、 研究亮点

  1. 核心创新点突出: 提出的RS DRC算法是本研究最大的亮点。它通过“随机信号映射”和“并行逻辑组合”两个关键设计,巧妙地规避了传统DRC中耗时的显式幂集遍历和交集运算。
  2. 性能优势显著: 实验数据无可辩驳地证明了RS DRC在计算效率上的革命性优势——融合时间不随问题规模(识别框架元素数)指数增长,而是保持稳定。这在处理高维证据体时具有决定性意义。
  3. 实现方案完备: 研究不仅提出了算法原理,还给出了完整的CPU-FPGA异构架构实现细节,包括PS-PL通信(AXI-Lite)、IP核设计、两种随机数生成方案的对比与权衡,使得工作具有很高的可复现性和工程参考价值。
  4. 验证体系全面: 研究从“结果正确性”(对比DRC)、“计算效率”(多平台对比)、“误差可控性”(不同N下的分析)到“实际应用效果”(多数据集分类)四个维度对RS DRC进行了全面、深入的验证,论证充分有力。
  5. 启发性强: 这项工作展示了如何利用随机性和硬件并行性来颠覆传统确定性算法的计算范式,为其他计算密集型组合优化问题(如贝叶斯推理、模糊逻辑运算)的硬件加速提供了新的思路。

七、 其他有价值内容

研究还指出了当前RS DRC的局限性:与经典DRC相比,其融合结果存在因随机采样引起的误差,尽管该误差可通过增加采样次数N来控制系统性地减小。这为后续研究指明了改进方向,例如研究更高效的低偏差采样方法或自适应调整N的策略。

此外,作者展望了未来研究方向,包括将RS DRC扩展到多识别框架信息融合、构建跨模态特征关联模型以提升复杂场景识别精度,以及开发兼容不同异构芯片的通用处理方案,通过动态任务调度和算力分配策略,进一步增强算法在实际场景中的适应性和实时处理能力。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com