加速密码系统中高精度整数乘法的GPU实现

分享自：
加速密码系统中高精度整数乘法的GPU实现

期刊:ACM SIGPLAN Annual Symposium on Principles and Practice of Parallel Programming (PPoPP '24)DOI:10.1145/3627535.3638495
【点击此处】阅读全文、收藏及针对性提问
这篇文档属于类型a，即报告了一项原创性研究。以下是针对该研究的学术报告：
作者与发表信息本研究由Zhuoran Ji（山东大学）、Zhaorui Zhang（香港理工大学）、Jiming Xu（蚂蚁集团）和Lei Ju（山东大学）合作完成，论文标题为《Poster: Accelerating High-Precision Integer Multiplication Used in Cryptosystems with GPUs》，发表于第29届ACM SIGPLAN并行编程原理与实践年度研讨会（PPoPP ‘24），会议于2024年3月2日至6日在英国爱丁堡举行，论文收录于ACM出版社的会议论文集，共3页，DOI编号为10.1145⁄3627535.3638495。
学术背景研究领域与背景
 研究聚焦于密码学中的高精度整数乘法（high-precision integer multiplication），这是隐私保护计算技术的核心运算之一。随着数据安全风险上升（如文献[4,5,8]所述），密码系统（如RSA、ElGamal、Paillier）依赖大整数运算（通常需2048位以上）保障安全性，但此类运算计算密集，单次乘法需执行4096次32位宽乘法操作，传统CPU实现效率低下。GPU因其并行能力被视为加速潜力平台（文献[3,7]），但现有方法（如数论变换NTT）因位长不足难以适用，而学校教科书乘法（schoolbook multiplication）的并行化面临资源分配、通信开销等挑战。
研究目标
 提出一种名为GIM（GPU-accelerated Integer Multiplication）的算法，通过分段整数乘法（segmented integer multiplication）和二维并行化策略，解决GPU加速中因位长多样性导致的性能瓶颈，实现高效、通用的高精度乘法加速。
研究流程与方法1. 分段整数乘法设计核心思想：将大整数分解为固定大小的段（类似分块矩阵乘法），基础运算单元为固定位宽的uint_mul函数。
 
实现细节：
 每个段由uint_mul并行计算（使用NT线程），结果通过累加合并。
 
段大小独立于总位长，便于优化GPU资源利用（如寄存器、共享内存）。
 
图1展示了算法模板：支持代码（support code）负责段对（segment pairs）的调度与累加，uint_mul封装并行计算。
 
2. 计算建模与并行化分析计算图（computation diagram）：
 图3以图形化方式展示乘法运算的并行化挑战：
 
节点表示宽乘法指令（wide-multiply），红色连线表示加法操作（含进位传播）。
 
蓝色区域表示线程负载，形状差异反映负载不均衡与线程间通信（数据依赖）。
 
二维并行化策略：
 
横向：每个字的计算分布到多线程。
 
纵向：单线程处理多个字的偏积（partial products）。
 
优化方向：平衡片上资源、通信成本、并行度及内存访问模式。
 
3. 实验验证对比方法：
 Baseline：单线程处理单次乘法。
 
CGBN：NVIDIA发布的高精度算术库（文献[6]）。
 
NTT：基于数论变换的算法。
 
CPU-GMP：CPU基准（使用GMP库）。
 
测试平台：NVIDIA A100、RTX4090、AMD Radeon 6900XT GPU及Intel 13900KF CPU。
 
评估指标：
 吞吐量（throughput）：对比不同密码系统（RSA、ElGamal、Paillier）下2048位密钥的运算速度。
 
并行效率：分析输入元素数量对性能的影响（图4）。
 
主要结果性能优势：
 GIM在A100上较CGBN提升1.41–1.49倍，较Baseline提升4.47倍，较CPU-GMP提升294.3倍。
 
在RTX4090（更多整数ALU）上加速比更高，但AMD GPU因需替换warp shuffle操作为共享内存通信，性能下降。
 
并行效率：
 达到97%峰值吞吐所需最小输入量：GIM（2¹⁶）优于CGBN（2¹⁸）和Baseline（2²⁰），凸显其操作内并行（intra-operation parallelism）的优势。
 
通用性验证：
 GIM适用于非CUDA GPU（如AMD），但需适配通信机制。
 
结论与价值科学价值：
 - 提出首个通过分段乘法与二维并行化解决GPU加速高精度乘法通用性问题的算法。
 - 计算图模型为并行化策略分析提供了可视化工具，可推广至其他密集计算问题。
应用价值：
 - 显著提升密码系统（如区块链、安全多方计算）的实时性，支持2048位以上大数运算的规模化部署。
研究亮点创新方法：
 分段乘法设计实现位长与实现的解耦，突破传统NTT的位长限制。
 
二维并行化策略平衡负载与资源利用率。
 
性能突破：
 在主流GPU上实现接近理论极限的加速比，且输入规模需求更低。
 
跨平台兼容性：
 算法设计不依赖特定硬件指令，可扩展至异构计算架构。
 
其他价值研究为后续GPU加速密码学运算（如模幂、同态加密）提供了方法论参考。
 
开源实现（如CGBN对比）推动领域内工具链优化。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问