用于主动ISAC波形优化的基于模型的在线学习框架

分享自：
用于主动ISAC波形优化的基于模型的在线学习框架

数学和统计学
电子科学与信息系统
人工智能
信息科学
计算机科学
期刊:IEEE Journal of Selected Topics in Signal ProcessingDOI:10.1109/JSTSP.2024.3386057
【点击此处】阅读全文、收藏及针对性提问
针对集成感知与通信系统中主动波形优化的基于模型在线学习框架的研究报告
本文旨在向您介绍一篇发表在学术期刊 IEEE Journal of Selected Topics in Signal Processing 2024年7月刊（第18卷第5期）上的原创性研究论文。该论文由来自芬兰阿尔托大学（Aalto University）信息与通信工程系的 Petteri Pulkkinen (学生会员，IEEE) 和 Visa Koivunen (会士，IEEE) 共同完成，标题为《Model-Based Online Learning for Active ISAC Waveform Optimization》。
一、 学术背景与研究目标
本研究属于无线通信与信号处理交叉领域，具体聚焦于集成感知与通信（Integrated Sensing and Communications, ISAC） 系统的关键技术——波形优化与资源分配。随着6G等新一代无线系统的发展，ISAC因其能共享硬件和频谱资源、提升系统效率与降低成本而成为研究热点。在动态变化的无线环境中（如干扰和信道条件快速变化），传统的基于静态统计假设的批量优化方法难以适应。近年来，在线学习（Online Learning），特别是无模型强化学习（Model-Free Reinforcement Learning, MFOL），被引入以解决此类动态优化问题。然而，MFOL方法通常存在样本效率低（即需要大量交互数据才能学习到有效策略）和可解释性差的问题。
为此，本研究提出了一种基于模型的在线学习（Model-Based Online Learning, MBOL） 框架，旨在克服MFOL的局限性。该框架的核心思想是：利用对感知、通信及无线电环境的结构性知识（即“模型”），通过在线学习来优化模型参数，并基于学习到的模型进行决策（如波形和功率分配）。这种方法预期能提供更好的可解释性和更高的样本效率。本研究不仅提出了适用于多载波ISAC系统的具体MBOL算法，更关键的是，首次为这类MBOL方法建立了严格的理论分析框架，证明了其性能条件和收敛速率，为理解MBOL在主动波形优化任务中的潜力奠定了理论基础。
二、 研究流程与方法详述
本研究主要包含理论分析框架构建、具体算法设计以及数值实验验证三个核心部分。
1. 理论框架构建与问题建模： 首先，研究将ISAC系统中的动态资源分配问题形式化为一个约束马尔可夫决策过程（Constrained Markov Decision Process, CMDP）。在这个CMDP中： * 状态（State）：定义为每个子载波上的感知和通信信道质量（即信道增益与干扰加噪声功率的比值）。 * 动作（Action）：包括两个决策：a) 子载波选择：决定每个子载波用于感知还是通信；b) 功率分配：为每个子载波分配发射功率，需满足总功率和频谱掩模约束。 * 效用函数（Utility）：对于感知功能，采用接收信号与目标散射矩阵之间的互信息（Mutual Information, MI） 作为性能指标；对于通信功能，采用香农公式计算的数据速率。优化目标是在满足通信MI最低要求的前提下，最大化感知MI。 * 关键假设：为了使理论分析可行，研究做出了两个重要假设：（A1）状态转移分布独立于智能体（ISAC系统）采取的动作（即环境动态是非反应性的）；（A2）效用函数是已知的（通常可表示为信干噪比SINR的函数）。这些假设在协作式ISAC场景（干扰源行为不直接受我方动作影响）中是合理的。
2. 提出特定的MBOL方法类别与算法： 研究提出了一类基于学习型模型预测控制（Learning-based Model Predictive Control, LMPC） 的MBOL方法。其工作流程（如图1所示）区别于MFOL：MBOL智能体从与环境的交互中学习一个状态转移模型 t_θ(s_{k+1}|s_k)（参数为θ），然后基于当前状态s_k和学习到的模型t_θ，通过求解一个即时优化问题（即“规划”）来生成最优动作a_k，而不是直接学习策略或价值函数。
针对ISAC波形优化问题，研究者设计了具体的MBOL算法： * 模型学习：由于假设各子载波状态转移独立，模型学习被分解为多个并行的多类逻辑回归问题。他们将连续的状态空间离散化为L个“近似箱”，并学习给定当前状态下，下一时刻状态落入每个箱的概率φ_{x,i,j}(s_k, θ)。模型参数θ通过最小化观测状态转移与模型预测之间的KL散度（Kullback-Leibler Divergence） 来在线更新，使用了在线凸优化（Online Convex Optimization, OCO） 算法（如在线梯度下降OGD）。 * 控制器（规划器）：在每一时刻k，给定当前状态s_k和学习到的模型t_θ，控制器求解一个替代优化问题：选择动作a_k以最大化当前状态下的期望感知MI，同时满足当前状态下的期望通信MI约束。由于子载波选择是组合优化问题，研究者提出了一种高效的启发式算法（Algorithm 1）：首先假设所有子载波用于通信并优化功率分配；然后找出满足通信约束所需的最小子载波数，释放剩余子载波和功率用于感知；最后在剩余资源上优化感知性能。
3. 理论性能分析： 这是本研究的核心贡献之一。研究者为所提出的MBOL方法类别建立了严格的性能边界（Performance Bounds）： * 模型收敛性边界（Theorem 1）：在满足损失函数凸性、参数空间有界、在线算法稳定等假设下，证明了学习到的平均模型参数θ̄_k的期望损失与最优模型参数θ*的损失之差存在上界E(k; U)。该边界依赖于在线算法的遗憾界、环境的混合系数（衡量数据依赖性）等。分析表明，在β混合环境中，使用具有次线性遗憾的稳定OCO算法，模型学习能够渐近收敛。 * 策略收敛性边界（Theorem 2，无约束情况）：证明了MBOL策略获得的平均奖励与最优策略的平均奖励之差的期望上界为 2 * u_max * sqrt(δ + E(k; U))，其中δ是真实环境动态与模型类所能表示的最佳模型之间的最小KL散度（即模型偏差）。这表明，仅当模型类能够完美捕捉真实动态（δ=0）时，MBOL策略才能渐近收敛到全局最优策略；否则会存在一个与模型偏差相关的渐近性能差距。 * 约束满足性边界（Theorem 3）：证明了MBOL策略获得的平均约束值的期望下界为 c_n - u_max * sqrt(2(δ + E(k; U)))。这意味着，同样地，只有在δ=0时，约束才能被渐近严格满足。 * 问题相关收敛速率：针对文中提出的线性模型和OGD算法，并结合有限状态马尔可夫链的混合性质，研究者推导出了更具体的收敛速率：模型学习损失以 O(gd * log_ζ k / sqrt(k)) 的速率收敛，进而策略和约束满足的收敛速率约为 O(u_max * sqrt(gd * log_ζ k / k^{1/4}))。但作者指出，由于证明中使用的界限较为宽松，实际观察到的收敛速度可能更快。
4. 数值实验与性能评估： 研究通过数值仿真，在多种动态干扰场景下评估了所提MBOL算法的性能，并与以下基线方法进行比较： * MFOL方法：一种之前提出的、专门解决该问题的无模型强化学习算法。 * 非预测性优化：基于当前状态（假设下一时刻状态不变）进行优化的传统方法。 * 已知模型：假设拥有完美环境模型信息的理想化MBOL方法（性能上界）。 * 均匀分配：均匀分配功率和随机分配子载波的简单方法。
评估了两种MBOL变体：线性MBOL（使用线性特征映射）和非线性MBOL（使用神经网络）。实验设置包括：子载波数N=16，总功率约束，通信MI最低要求c_min=5，并在四种干扰场景（“匹配”、“马尔可夫链”、“跳频”、“静止”）下测试。
三、 主要结果
样本效率：在大多数动态场景（如“跳频”、“马尔可夫链”）中，MBOL方法（特别是线性MBOL）展现出比MFOL方法显著更高的样本效率。MBOL方法通常能在数百个训练样本内达到接近最优的性能，而MFOL则需要数千个样本。例如，在“跳频”场景中，MBOL方法约100个样本后收敛，而MFOL需要超过1000个样本。
渐近性能与模型偏差：实验结果验证了理论分析。在模型与真实环境“匹配”的场景中，线性MBOL最终达到了与“已知模型”基线几乎相同的性能（最优）。然而，在模型存在偏差的场景（如“马尔可夫链”），尽管MBOL学习更快，但其最终渐近性能可能略逊于拥有足够多数据后的MFOL方法。这是因为MFOL不受模型偏差限制，可以直接学习最优策略。
约束满足：MBOL方法（尤其是非线性MBOL）能够快速满足通信约束要求。线性MBOL的约束满足通常从下方渐近逼近要求值，这与Theorem 3的分析一致。MFOL在初期可能过度满足通信约束而牺牲感知性能，随后再调整。
理论边界紧致性：数值实验表明，推导出的理论性能边界在实际问题中并不紧致。通过额外实验（图5），研究者发现，实际性能差距与模型KL散度之间近似呈线性关系，远好于理论分析给出的平方根关系。这表明MBOL在实际中的收敛速度可能比理论最坏情况边界预测的要快得多。
依赖数据的影响：实验还探讨了状态序列相关性（非独立同分布数据）对模型学习的影响。结果显示，数据依赖性会减慢学习速度，混合时间越长，影响越明显，这与理论预期相符。
四、 研究结论与价值
本研究的主要结论是：为ISAC波形优化提出的基于模型的在线学习（MBOL）框架，在动态环境中具有比无模型方法更高的样本效率和可解释性。研究为该类方法建立了首个理论分析框架，明确了其收敛到最优策略的条件（模型类需包含真实动态）和收敛速率。所提出的具体MBOL算法在实际动态干扰场景中表现优异，能够快速学习并做出有效的资源分配决策。
科学价值： 1. 理论贡献：首次为ISAC领域的MBOL方法提供了系统的收敛性分析，填补了该领域理论研究的空白，为后续算法设计和性能评估提供了理论基础。 2. 方法论贡献：提出了一种将复杂的ISAC资源分配问题分解为模型学习和模型预测控制两阶段的实用框架，并设计了高效的控制器算法。 3. 桥梁作用：连接了在线凸优化、强化学习与信号处理、通信资源管理等多个领域。
应用价值： 1. 提升ISAC系统性能：为6G等未来无线系统中ISAC功能的实时、自适应波形优化提供了高效、可解释的解决方案。 2. 促进频谱共享：在动态共享频谱场景下，该方法能帮助ISAC系统智能地规避干扰、协同利用频谱，提升整体频谱效率。 3. 工程实践指导：理论边界和实验结果为系统设计者权衡模型复杂性、学习速度与最终性能提供了重要参考。
五、 研究亮点
理论创新性：将MBOL应用于ISAC波形优化，并建立了严谨的收敛性理论分析，是该文最突出的贡献。
问题驱动的方法设计：提出的MBOL算法紧密结合了ISAC系统的信号模型和优化目标（互信息），利用了问题的结构信息（如信道状态信息），而非黑箱学习。
全面的实验验证：不仅在多种动态场景下验证了算法有效性，还通过实验揭示了理论边界与实际性能的差距，并分析了原因，对后续研究具有启发意义。
清晰的局限性阐述：明确指出了所提方法在反应性干扰环境（假设A1不成立）下的局限性，并指出了未来研究方向（如结合完整RL框架应对智能干扰）。
六、 其他有价值的要点
研究者指出，所设计的控制器（Algorithm 1）可能并非全局最优，因为实验中MFOL在大量数据后有时能超越“已知模型”基线的性能。这暗示了未来改进控制器设计以进一步提升性能的空间。此外，论文附录提供了关键定理（Theorem 2和3）的详细证明，以及所提状态转移模型与有限状态马尔可夫链等价性的论证，增强了研究的完整性和可复现性。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问