RealPDEBench：一个面向真实世界数据的复杂物理系统基准测试

分享自：
RealPDEBench：一个面向真实世界数据的复杂物理系统基准测试

物理学
信息科学
期刊:ICLR
本文档发表于ICLR 2026会议，作者团队主要来自西湖大学、上海交通大学、中国科学院数学与系统科学研究院、同济大学和北京大学。研究团队包括Peiyan Hu、Haodong Feng、Hongyuan Liu、Tongtong Yan、Wenhao Deng、Tianrun Gao、Rong Zheng、Haoren Zheng、Chenglei Yu、Chuanrui Wang、Kaiwen Li、Zhi-Ming Ma、Dezhi Zhou、Xingcai Lu、Dixia Fan以及通讯作者Tailin Wu。
本研究属于科学机器学习领域，旨在解决该领域发展中的一个关键瓶颈：缺乏真实世界数据。当前，绝大多数科学机器学习模型仅在数值模拟数据上进行训练和验证。然而，由于数值误差、测量噪声、未测量模态（物理系统的变量）等因素，模拟数据与真实世界测量数据之间存在巨大鸿沟。这导致我们无法准确评估现有模型在真实场景下的性能，也阻碍了诸如从噪声数据中学习、模拟到现实的迁移（sim-to-real transfer）等关键任务的研究。因此，构建一个包含配对真实与模拟数据的基准测试集，对于推动科学机器学习走向实际应用至关重要。本研究的目标正是填补这一空白，提出了首个集成真实世界测量数据与配对数值模拟数据的科学机器学习基准测试集——RealPDEBench，旨在系统性地评估模型在复杂物理系统上的性能，并探索如何弥合模拟与现实的差距。
研究的具体工作流程包含四个核心组成部分：数据集构建、任务定义、评估指标设计和基线模型测试。
首先，在数据集构建方面，研究团队精心选择了流体动力学和燃烧学领域的五个代表性复杂物理场景：圆柱绕流（Cylinder）、受控圆柱绕流（Controlled Cylinder）、流固耦合（Fluid-Structure Interaction, FSI）、三维翼型绕流（Foil）和旋流燃烧（Combustion）。这些场景涵盖了从层流到湍流的转捩、受控系统响应、非线性多物理场耦合、三维效应以及涉及化学反应的物理过程等关键挑战。对于每个场景，研究团队都采集了配对的真实世界实验数据和数值模拟数据。真实世界数据通过粒子图像测速技术（Particle Image Velocimetry, PIV）在水洞中测量流场，以及通过火焰化学发光成像技术（Chemiluminescence Imaging）测量燃烧场获得，总计超过700条轨迹，每条轨迹超过2000帧，覆盖不同的系统参数（如雷诺数、控制频率、质量比、攻角、当量比等）。模拟数据则使用计算流体动力学方法生成，其中流体系统采用有限体积法和浸没边界法，使用LilyPad（2D）和WaterLily（3D）求解器；燃烧系统则采用三维大涡模拟结合涡耗散概念模型。所有数据以HDF5格式存储，包含时间序列的网格化数据及对应的系统参数。
其次，在任务定义上，研究设定了三种训练范式，但均在相同的真实世界测试集上进行评估。这三种范式反映了不同的数据可用性场景：1) 模拟训练：模型仅在大量的模拟数据上训练；2) 真实世界训练：模型仅在有限的真实世界数据上训练；3) 模拟预训练-真实世界微调：模型先在大量模拟数据上预训练，然后在有限的真实世界数据上微调。这种设计使得研究者能够比较模拟数据与真实数据各自的优劣，并探索如何结合两者优势来提升模型在真实场景下的性能。
第三，研究设计了一套包含九个指标的全面评估体系，分为数据导向和物理导向两类。数据导向指标包括均方根误差、平均绝对误差、相对L2误差和决定系数，用于衡量模型在数据点层面的预测精度。物理导向指标则更关注模型的物理一致性，包括：傅里叶空间误差（评估频域预测精度）、频率误差（评估周期性动力学捕捉能力）、动能误差（针对速度场的物理量评估）以及平均速度剖面误差（评估长期统计特性的吻合度）。此外，还引入了“更新比率”这一指标，专门用于量化模拟预训练相比从零开始进行真实世界训练所带来的收敛效率提升。
第四，研究团队系统性地评估了十种代表性基线模型，涵盖了从传统方法到最先进的科学机器学习模型。这些模型包括：动态模态分解（一种降阶模型）、U-Net（编码器-解码器架构）、卷积神经算子、DeepONet（深度算子网络）、傅里叶神经算子、小波扩散神经算子、多小波变换神经算子、GK-Transformer（基于注意力机制的神经算子）、Transolver以及预训练的PDE基础模型DPOT（包括小型和大型版本）。所有实验均在统一的、高度模块化的PyTorch代码框架中进行，确保了实验的可复现性和可扩展性。
研究的主要结果揭示了模拟数据与真实世界数据之间存在显著差距，同时也证明了合理利用模拟数据能够有效提升模型在真实数据上的性能。
具体而言，在“模拟训练”与“真实世界训练”的对比中，所有模型在仅用模拟数据训练后，直接迁移到真实世界测试集时，其各项误差（如相对L2误差）均显著高于直接用真实世界数据训练的模型，差距从9.39%到78.91%不等。例如，在圆柱绕流数据集上，FNO模型在模拟训练下的相对L2误差为0.2575，而在真实世界训练下为0.0855。图3a进一步显示，在受控圆柱数据集上，基于模拟数据训练的模型在频率误差这一物理指标上也远高于基于真实数据训练的模型。这明确证实了模拟数据与真实数据分布不同，直接迁移存在困难。
然而，研究也发现了模拟数据的巨大价值。通过“模拟预训练-真实世界微调”策略，模型在真实世界测试集上的表现 consistently 优于仅用同等数量真实数据“从零训练”的模型。如表1所示，在大多数数据集和模型上，微调后的误差（RMSE, rel L2）均低于真实世界训练的结果。更重要的是，“更新比率”指标显示，对于大多数情况，该比值小于1，意味着通过模拟预训练，模型仅需更少的迭代步数就能达到甚至超越“从零训练”的最佳性能。图3b展示了在燃烧数据集上，微调过程的验证损失下降速度远快于从零训练，这直观体现了模拟数据提供的先验知识能加速模型在真实任务上的收敛。
对不同基线模型的深入分析（图4）揭示了有趣的权衡现象。以RMSE（数据精度）和频率误差（物理周期性）作为两个维度，可以发现：1) 大型预训练基础模型DPOT-L-FT在综合性能上表现最佳，靠近坐标原点，体现了大规模预训练和参数量带来的优势。2) 基于卷积的方法（如U-Net, CNO）通常在数据精度（RMSE）上表现出色，因为预测任务类似于图像处理，而卷积在此类任务中已被证明非常有效。3) 基于多小波变换的MWT模型在捕捉周期性（频率误差）方面显示出优势。这表明，针对不同的任务目标和数据特性，需要选择合适的网络架构。
此外，研究还进行了自回归评估以检验模型的长期预测能力（图3c）。结果显示，某些模型（如CNO）虽然在单步预测中表现良好，但在多轮自回归预测中误差积累更快，说明其长期动力学建模能力较弱。而DPOT-L等大型模型在长期预测中表现更为稳健。图5展示了在10轮自回归预测后，各模型在平均速度剖面误差上的表现，DPOT-L依然领先，而传统方法DMD则显示出局限性。研究还分析了模型在不同频率带（低、中、高）的傅里叶空间误差（图6），发现CNO在高频区域的相对性能更好，这可能与其消除混叠误差的设计原理有关。
本研究的结论是，为了应对科学机器学习领域缺乏真实世界数据的核心挑战，我们提出了首个面向复杂物理系统预测的真实世界科学机器学习基准测试集RealPDEBench。它集成了配对的真实与模拟数据、三类任务、九项评估指标和十种基线模型。实验不仅证实了模拟数据与真实数据之间存在不容忽视的差距，也证明了通过模拟预训练并结合真实数据微调，可以有效提升模型在真实场景下的精度和收敛速度，为弥合“模拟-现实”鸿沟迈出了重要一步。
本研究的意义与价值主要体现在以下几个方面：1) 科学价值：首次系统性地提供了多场景、多参数、配对的大规模真实物理实验数据集，为科学机器学习的实证研究奠定了坚实的数据基础。2) 方法论价值：明确提出了评估模拟-现实差距及跨数据域迁移能力的标准化任务框架和综合评估指标，为后续研究提供了清晰的评估范式。3) 应用价值：研究结果为开发能够有效融合模拟与真实数据的新算法提供了重要指导和基准，推动了科学机器学习模型走向真实世界部署。4) 社区价值：开源的数据集、代码和模块化框架将极大促进该领域的可复现性研究和快速发展。
本研究的亮点包括：1) 首创性：这是首个系统性集成配对真实与模拟数据的复杂物理系统科学机器学习基准测试集。2) 全面性：涵盖了从基础流体到多物理场燃烧的多个挑战性场景，设计了兼顾数据精度与物理一致性的多维评估体系。3) 深刻的洞察：不仅揭示了模拟-现实差距，更重要的是通过严谨的实验证明了模拟数据作为宝贵先验知识，能够实质性提升模型在真实任务上的性能与效率。4) 实用性：提供的模块化代码框架易于扩展，有助于社区快速集成新数据集和模型，加速相关研究。
此外，研究团队还提供了详尽的伦理声明和可复现性声明，强调了在安全关键场景中直接应用模型的局限性，并承诺公开所有代码、数据、检查点和日志文件，体现了严谨的科研态度和对开放科学的支持。附录中包含了未在正文中展示的额外实验结果（如MAE, R2等指标），进一步丰富了研究的完整性。这项工作有望激发更多致力于融合模拟与真实数据、开发适用于现实世界科学机器学习算法的研究。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问