使用逻辑分布建模Bellman误差及其在强化学习中的应用

论文背景与研究目的 强化学习(Reinforcement Learning,RL)近年来已成为人工智能领域中一个充满活力且具有变革性的领域,其目标是通过智能体与环境的交互,实现最大化累积奖励的能力。然而,RL的应用在实际中面临着优化贝尔曼误差(Bellman Error)的挑战。这种误差在深度Q学习及相关算法中尤为关键,传统方法主要使用均方贝尔曼误差(Mean-Squared Bellman Error, MSELoss)作为标配损失函数。然而,认为贝尔曼误差服从正态分布的假设可能过于简化了RL应用中的复杂特性。正因为此,本文重新审视了RL训练中贝尔曼误差的分布,发现其更倾向于服从逻辑分布(Logistic Distribution)。 论文来源与作者介绍 本篇论文题目为”Modeling ...

加速支持张量机的顺序安全静态和动态筛选规则

在数据获取技术的不断发展下,获取大量包含多种特征的高维数据已经变得十分容易,比如图像、视觉等。然而,传统的机器学习方法尤其是基于向量和矩阵的方法,面临着维度灾难、计算复杂度增加以及模型过拟合等挑战。为了解决这些问题,张量作为一种多维数组表示方式,比向量和矩阵更具灵活性,能够更好地处理高维数据。因此,基于张量的机器学习方法逐渐成为学术研究的焦点。 支持张量机 (Support Tensor Machine, STM) 是一种有效的张量分类策略,受到支持向量机 (Support Vector Machine, SVM) 和交替投影技术以及多线性代数操作的启发。STM 旨在处理复杂的张量数据,通过寻找具有最大间隔的两类分类超平面,在分类任务中表现出优异的性能。尽管最近基于不同张量分解方法的一系列改...

耦合神经网络间歇性随机扰动下的快速同步控制及加密解密应用

耦合神经网络间歇性随机扰动下的快速同步控制及加密解密应用 一、背景及研究动机 近年来,神经网络被广泛应用于各种领域,包括数据分类、图像识别及组合优化问题等。在神经网络结构和性能方面,可以将其分为确定性神经网络和随机性神经网络。许多研究表明,加入噪声扰动的随机神经网络展示出比确定性神经网络更好的动态特性,即通过构建具有随机扰动的网络,可以更真实地模拟实际神经网络的模型。然而,当前大多数神经网络的研究主要集中在全时扰动模型上,尽管实际生活中更多的是间歇性随机扰动现象。 二、论文来源 这篇名为《Fast synchronization control and application for encryption-decryption of coupled neural networks with ...

基于蒙特卡洛树搜索和流形正则化的3D/2D血管配准

基于蒙特卡洛树搜索和流形正则化的3D/2D血管配准

基于蒙特卡罗树搜索和流形正则化的3D/2D血管配准研究 在介入血管手术中,增强术中实时成像技术通过将术前计算机断层血管造影(CTA)图像投影到术中数字减影血管造影(DSA)图像上,能够弥补DSA导航的不足,如缺乏深度信息和过度使用有毒对比剂。在这些技术中,3D/2D血管配准是关键步骤。本研究提出了一种基于血管图匹配的3D/2D配准方法。 一、背景及研究动机 数字减影血管造影(DSA)是用于微创介入血管手术的主要成像方法,通过向感兴趣的血管腔注入对比剂,获得2D图像。虽然DSA具有高空间和时间分辨率,但它缺乏深度信息,且过度使用对比剂会增加患者负担。因此,结合术前CTA图像中提取的3D血管和DSA图像,是3D/2D配准技术的实际应用,能够为介入放射科医生提供血管深度信息,支持导丝或导管的操控。...

基于图神经网络的图优化问题求解框架

基于图神经网络的图优化问题求解框架

基于图神经网络的图优化问题求解框架 背景及研究动机 在解决约束满足问题(CSPs)和组合优化问题(COPs)时,回溯法与分支启发式结合是一种常见的方法。尽管为特定问题设计的分支启发式理论上是高效的,但其复杂性和实施难度使实践应用受限。反之,通用的分支启发式尽管适用范围广,但通常表现出次优性能。本文作者提出了一个新的求解框架,通过在分支启发式中引入香农熵(Shannon Entropy),在通用性和特定性之间找到平衡。具体地,利用图神经网络(GNN)模型从概率方法中训练得出的损失函数学习这些概率分布,并将其应用于两个NP-hard问题:最小支配团问题(Minimum Dominating Clique Problem)和边团覆盖问题(Edge Clique Cover Problem)。 作者...