基于深度强化学习的区块链支付通道网络调度策略

分享自：
基于深度强化学习的区块链支付通道网络调度策略

期刊:IEEE Transactions on NetworkingDOI:10.1109/TNET.2024.3492034
这篇文档属于类型a，是一篇关于区块链支付通道网络（Payment Channel Networks, PCNs）中基于深度强化学习的交易调度策略的原创性研究论文。以下为详细的学术报告内容：
作者及发表信息本文由Zhe Ren、Zihao Wang、Xinghua Li（IEEE会员）、Yinbin Miao（IEEE会员）、Zhuowen Li、Ximeng Liu（IEEE会员）、Lei Han和Robert H. Deng（IEEE会士）合作完成。作者单位包括西安电子科技大学综合业务网理论及关键技术国家重点实验室、福州大学数学与计算机科学学院、新加坡管理大学信息系统学院等。论文发表于IEEE Transactions on Networking，2025年4月第33卷第2期，DOI编号为10.1109/TNET.2024.3492034。
学术背景研究领域与动机区块链技术因其去中心化、透明性和不可篡改性被广泛应用于金融、医疗等领域，但其低交易吞吐量（如比特币每秒仅处理7笔交易）成为关键瓶颈。支付通道网络（PCNs）通过将链下交易（off-chain transactions）聚合后批量上链，显著提升吞吐量。然而，现有PCNs（如比特币的Lightning Network和以太坊的Raiden Network）采用先到先服务（FCFS）策略，导致通道余额动态失衡，交易成功率低（仅44%-68%）。
研究目标本文提出一种基于深度强化学习的调度策略，旨在解决以下问题：
 1. 交易顺序优化：在缓冲区（buffers）中动态调整交易执行顺序，最大化吞吐量（throughput）。
 2. NP-hard问题求解：将调度问题形式化为PSP（Payment Scheduling Problem），证明其NP-hard性质，并提出多项式时间近似解法。
研究流程与方法1. 问题建模与复杂性证明系统模型：
 双向支付通道初始余额为( (c_a, c_b) )，容量恒定（( c_a + c_b = p )）。
 
交易特征包括发送方、接收方、金额、到达时间和最大缓冲时间（maximum buffer time）。
 
PSP定义：
 目标函数为最大化归一化吞吐量（公式10），约束条件包括通道余额限制（公式12）、余额更新规则（公式13）和交易优先级（公式14）。
 
NP-hard证明：
 通过将PSP归约到背包问题（Knapsack Problem），证明其计算复杂性。
 
2. 基于深度强化学习的求解器设计神经网络架构：
 采用Seq2Seq（Sequence-to-Sequence）模型，包含编码器（Encoder）和解码器（Decoder）。
 
编码器：区分静态特征（交易金额、发送方、截止时间）和动态特征（剩余金额、通道余额），使用Transformer架构（无位置编码）生成嵌入向量。
 
解码器：基于LSTM和注意力机制（Attention Mechanism），通过掩码（Mask）机制排除非法交易（如余额不足或超时的交易）。
 
训练方法：
 采用优势演员-评论家算法（A2C, Advantage Actor-Critic），以负归一化吞吐量为奖励函数，通过策略梯度更新参数。
 
3. 调度策略实现PCPS（Payment Channel Periodic Scheduling）：
 所有交易均缓存至缓冲区，定期（如每25秒）调用求解器生成最优执行序列。
 
PCCS（Payment Channel Conditional Scheduling）：
 仅当交易无法立即执行时缓存，其余直接执行，牺牲部分吞吐量以提升实时性。
 
4. 实验验证数据集：
 交易金额分布包括均匀分布（0-100）、高斯分布（均值50，标准差15）和真实信用卡交易数据（采样值<100）。
 
基线对比：
 FCFS：Lightning Network默认策略。
 
PMDE：基于缓冲区的状态优化策略（Papadis & Tassiulas, 2022）。
 
评估指标：
 交易成功率（Success Rate）和归一化吞吐量（Normalized Throughput）。
 
主要结果交易成功率提升：
 在均匀分布下，PCPS和PCCS比FCFS提升25%，PMDE仅提升10%。
 
大额交易（>60）成功率显著提高（图9），因调度策略优先执行小额交易以平衡通道余额。
 
吞吐量优势：
 PCPS在均匀分布下吞吐量比FCFS高119%，比PMDE高53%（图10a）。
 
初始通道余额不平衡时（( c_a=0, c_b=100 )），PCPS性能不受影响，而FCFS下降15%（图11）。
 
实时性权衡：
 PCCS牺牲约5%吞吐量，但将交易平均延迟降低40%。
 
结论与价值科学价值：
 首次将深度强化学习应用于PCNs调度问题，提出可处理NP-hard问题的Seq2Seq求解器。
 
为动态交易环境下的吞吐量优化提供了理论框架。
 
应用价值：
 可集成至现有PCNs（如Lightning Network），提升实际吞吐量53%以上。
 
为多跳交易（multi-hop transactions）和隐私保护调度提供了研究方向。
 
研究亮点方法创新：
 结合静态/动态特征分离与注意力机制，降低计算复杂度。
 
提出掩码规则确保调度可行性（如余额约束和优先级约束）。
 
性能突破：
 在真实交易数据下，归一化吞吐量达90%（FCFS仅68%）。
 
开源支持：
 实验代码基于PyTorch 2.0和Python 3.9，支持复现与扩展。
 
其他价值局限性：当前研究聚焦单跳调度（single-hop），未来可扩展至多跳场景。
 
数据可用性：实验数据来自公开信用卡交易数据集（Kaggle CreditCardFraud）。
 
（报告总字数：约1800字）
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问