面向混合变量问题的区域自适应分类相似性核替代建模研究

分享自：
面向混合变量问题的区域自适应分类相似性核替代建模研究

生物医学工程
工程学
期刊:Ocean EngineeringDOI:10.1016/j.oceaneng.2026.125115
【点击此处】阅读全文、收藏及针对性提问
由华中科技大学航空航天学院的吴茜旭、谢挺利、林泉、周奇与武汉第二船舶设计研究所的夏兴龙合作完成的研究论文《RACS: A Region-Adaptive Categorical Similarity Kernel for Surrogate Modeling with Mixed-Variable Problems》，已于2026年3月在线发表于海洋工程领域的知名期刊《Ocean Engineering》（第355卷，文章号125115）。本研究主要针对船舶与海洋结构设计优化中普遍存在的混合变量（Mixed-Variable）问题，提出了一种名为区域自适应分类相似性核（Region-Adaptive Categorical Similarity kernel，简称RACS核）的新型高斯过程回归（Gaussian Process Regression， GPR）核函数，旨在提升代理模型（Surrogate Model）对同时包含连续变量（如尺寸、厚度）和分类变量（如材料类型、增强策略）的复杂工程问题的预测精度与稳定性。
本研究根植于计算力学与机器学习交叉的代理模型领域。在船舶与海洋工程领域，结构设计往往需要在由连续参数和离散选项共同构成的复杂空间中进行探索与优化。直接依赖于计算成本高昂的有限元分析（Finite Element Analysis， FEA）等数值模拟进行穷举搜索是不现实的。因此，能够以较低计算成本近似模拟真实物理响应的代理模型成为了关键工具。其中，高斯过程回归因其能够提供预测不确定性估计而备受青睐。然而，传统GPR在处理分类变量时面临严峻挑战。常用的独热编码（One-Hot Encoding）方法会导致输入维度急剧膨胀，使得核函数难以有效刻画连续变量与分类变量之间复杂的相互作用关系。此外，混合变量问题的输入空间通常具有高度非光滑、不规则的特性，且数据分布在不同区域可能存在显著异质性，这对依赖全局相似性度量的传统模型提出了更高的适应能力要求。针对这些挑战，本研究的核心目标是开发一种能够自适应于局部数据分布、有效融合连续与分类变量信息的核函数，以显著提升混合变量预测任务的准确性，并为海洋结构优化提供更高效可靠的工具。
本研究的工作流程严谨而系统，主要包含方法构建、基准验证和工程应用三个主要阶段，并详细阐述了RACS核的实现细节与实验设计。
第三部分：详细工作流程
1. RACS核函数的方法论构建： 这是研究的核心创新环节。RACS核的设计是一个集成创新，并非单一算法，而是构建了一整套建模框架。 * 采样策略： 为确保训练数据能充分覆盖混合变量的组合空间，研究采用了联合采样策略。对于连续变量，使用拉丁超立方采样（Latin Hypercube Sampling， LHS）以确保其在定义域内均匀分布；对于分类变量，则采用全因子设计（Full Factorial Design， FFD），系统性地遍历所有可能的类别组合。这种组合采样方式为后续建模提供了具有代表性的数据基础。 * 连续核构建： 采用经典的径向基函数（Radial Basis Function， RBF）核来衡量连续变量之间的相似性。其创新之处在于引入了 “区域自适应机制” 。该机制首先在输入空间中定义一组区域中心，然后根据数据点到每个区域中心的距离计算区域权重。最终的连续核是两个数据点在各区域上RBF核值的加权和，权重由两点的区域权重共同决定。这使得核函数能够根据数据所处的局部区域动态调整相似性度量，从而更好地适应数据分布的异质性。 * 分类核构建： 摒弃了容易导致维度灾难的独热编码，采用了嵌入（Embedding） 技术。每个分类变量的每个类别都被映射到一个低维的嵌入向量。两个分类值之间的相似性通过计算其对应嵌入向量之间的欧氏距离，并转换为指数相似度来衡量。关键在于，这些类别嵌入并非静态的，而是与连续变量的区域中心联合学习的，即“区域感知的分类嵌入”。这意味着分类变量的相似性度量会根据其所在的数据区域（由连续变量分布定义）进行自适应调整，从而能够捕捉分类变量影响随区域变化的复杂模式。 * RACS模型集成： 将上述连续核与分类核通过乘法结合，形成最终的复合核函数。整个模型的超参数（如区域数量、嵌入维度等）通过贝叶斯优化（Bayesian Optimization）联合调优，优化目标是最大化高斯过程的边际似然（Marginal Likelihood）。为防止在小样本下过拟合，框架引入了正交正则化、交叉验证选择结构参数以及边际似然自带的复杂性惩罚等多重正则化机制。
2. 基准测试函数验证： 此阶段旨在通过可控的数学问题验证RACS核的有效性和优越性。 * 研究对象与样本： 研究选取了四个经典的混合变量测试函数，涵盖不同维度与复杂度。其中，案例一（Test Function 2）作为示意图例被详细解析，包含1个5类别的分类变量和2个连续变量。案例四是一个高维问题，包含10个分类变量和10个连续变量。对于每个案例，使用前述LHS+FFD策略生成训练集和测试集，例如设置训练样本量为4*n_comb（n_comb为分类变量组合总数），测试集为2*n_comb。所有实验均进行多次独立运行以评估稳定性。 * 对比方法与评估指标： 将RACS模型与三种主流混合变量建模方法进行对比：贝叶斯树高斯过程（Bayesian Treed Gaussian Process， BTGP）、高氏距离（Gower Distance）核方法以及混合变量ReLU代理模型（Mixed-Variable ReLU-based Surrogate Modeling， MVRSM）。评估指标包括均方误差（MSE）、决定系数（R²）、最大绝对误差（MaxAE）和归一化绝对误差（NAE），并计算了统计显著性（p值）。 * 实验过程： 按照“实验设计-数据预处理-模型初始化（设置超参数）-计算区域权重-嵌入分类变量-计算核矩阵-训练GP模型-预测与评估”的标准流程进行。在高维案例中，由于BTGP因分类组合空间爆炸而无法稳定运行，主要对比了RACS、Gower和MVRSM。
3. 海洋工程案例应用： 此阶段旨在将RACS核应用于真实的工程问题，证明其实际价值。 * 研究对象： 以一个变刚度加筋圆柱壳（Stiffness Reinforced Cylindrical Shell， SRCS）的轴向应力预测为工程案例。该结构模拟潜水器耐压壳，涉及5个离散设计变量（如板厚等级）和4个连续设计变量（如筋板尺寸），其力学响应通过高保真的有限元分析获得。 * 数据处理与建模： 使用LHS生成了100个设计配置及其对应的FEA轴向应力值作为训练数据，另用50个配置作为测试集。将设计变量预处理后，使用RACS及其他对比方法构建代理模型，并评估它们对测试集应力的预测性能。 * 鲁棒性测试： 特别针对工程中常见的数据稀疏问题（即无法覆盖所有离散组合），设计了额外的压力测试：逐步从训练数据中掩蔽（移除）部分已观测到的离散组合，观察RACS模型在面临未见过结构配置时的预测稳健性。
第四部分：主要结果
1. 基准测试结果： 综合低维（案例1-3）和高维（案例4）测试结果，RACS核展现出全面而稳定的优越性。 * 低维场景性能领先： 在三个低维测试案例中，RACS在绝大多数评价指标（R²， MSE， MAE）上显著优于BTGP和MVRSM（p值通常小于0.05）。例如在案例2中，RACS的R²达到0.9229，显著高于BTGP的0.6192和MVRSM的0.6532；其NAE为2.47%，远低于BTGP的6.30%和MVRSM的5.10%。与Gower方法相比，RACS通常表现相当或更优，且稳定性（标准差）更佳。这表明RACS能更有效地捕捉混合变量间的复杂关联。 * 样本量适应性： 随着训练样本量增加（从4*n_comb增至6*n_comb），RACS的性能持续稳步提升（如案例2中R²从0.9229升至0.9708），且波动性减小，显示出良好的数据效率和学习能力。而对比方法如BTGP和MVRSM对样本量增加的响应有限，性能提升不明显。 * 高维场景优势凸显： 在包含20个变量的高维案例中，BTGP已完全失效。RACS在R²（0.8614）和MSE（1754.36）上均优于Gower（0.8196， 2620.64）和MVRSM（0.8386， 1809.15），并且在NAE（9.21%）上表现最佳，同时各项指标的标准差最小。这证明了RACS嵌入机制在处理高维混合变量及组合空间稀疏采样时的强大能力。
2. 工程案例结果： RACS在真实工程问题中取得了成功应用。 * 预测精度最高： 在SRCS轴向应力预测任务中，RACS模型的MSE最低（0.0653），R²最高（0.9874），接近完美拟合。其MaxAE（1.1220）和NAE（1.8571%）也均优于或与其他最佳对比方法（MVRSM）相当，显著优于BTGP和Gower距离方法（Gower的NAE高达13.17%）。这表明RACS构建的代理模型能够以极高精度近似复杂的结构力学响应。 * 鲁棒性得到验证： 鲁棒性测试结果显示，即使在训练数据中掩蔽（缺失）高达30%的已观测离散组合，RACS模型依然能保持优异的预测性能（R²维持在0.9784左右），且预测散点紧密分布在理想线附近，未出现灾难性预测错误。这证明了其“区域感知分类嵌入”机制能够通过潜在空间的相似性，有效推断从未见过的结构配置的性能，这对于实际工程中无法穷尽所有设计选项的情况具有至关重要的意义。
这些结果层层递进：首先，基准测试从数学上证实了RACS核在原理上的先进性和普遍适用性；其次，样本量实验验证了其数据效率；接着，高维测试证明了其在复杂场景下的可扩展性；最后，工程案例和鲁棒性测试共同证实了其在解决实际、数据受限的工程难题中的有效性和实用性。所有结果均有力地支持了RACS核能够解决混合变量建模核心挑战的结论。
第五部分：结论与价值
本研究提出并验证的RACS核，为海洋工程及其他领域的混合变量代理建模提供了一种高效、精确且稳健的解决方案。其科学价值在于：创造性地将区域自适应机制与嵌入学习相结合，统一了连续与分类变量的处理框架，从核函数层面解决了传统方法因编码导致的维度爆炸和交互建模困难的问题，推动了高斯过程回归在混合变量领域的方法学发展。其应用价值尤为突出：为船舶与海洋结构（如潜水器耐压壳、半潜平台、海上风机支撑结构等）的优化设计提供了强有力的工具。通过构建高精度的代理模型，能够极大减少对耗时昂贵的有限元分析的依赖，加速设计迭代周期，在可接受的计算成本下探索更广阔的设计空间，从而有望获得更优、更可靠的工程设计方案。
第六部分：研究亮点
方法创新性： 提出了全新的“区域自适应分类相似性核”（RACS），其核心创新是区域自适应机制与区域感知的分类嵌入的联合学习框架。这使模型能动态适应数据分布的局部特性，精细刻画变量间依赖关系随区域的变化。
解决关键难题： 直接针对混合变量建模中的三个核心痛点——独热编码维度爆炸、变量间交互难以捕捉、数据分布异质性——提出了集成解决方案，并在理论上和实验上证明了其有效性。
验证全面性： 研究验证体系完整，从标准测试函数到高维复杂函数，再到真实的海洋结构工程案例，由简入繁，充分证明了方法的普适性、可扩展性和工程实用性。
突出鲁棒性： 特别关注并验证了模型在数据稀疏（未观测组合） 条件下的鲁棒性，这对实际工程应用至关重要，显示了该方法应对现实世界数据不完备挑战的能力。
第七部分：其他有价值内容
研究还对所提方法的计算复杂度进行了详细分析，指出其核心计算代价在于复合核矩阵的构建，复杂度为O(n²(d_cont + q*r))，与样本数量成平方关系。作者坦承这限制了其在超大规模数据集上的应用，但同时也论证了在海洋工程等计算仿真昂贵、样本量通常有限的场景下，这种为提升精度而付出的计算代价是合理且可接受的。此外，论文第二章对现有混合变量预测方法（如编码法、基于核的方法、变量独立建模、基于距离的方法等）进行了系统且清晰的梳理和评述，为读者提供了该领域的良好背景概览。最后，作者在结论部分也明确了当前方法的局限性（如计算复杂度）和未来的改进方向（如开发高效核近似、探索轻量化架构以处理实时时空响应等），体现了研究的严谨性和前瞻性。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问