本文旨在介绍一项发表在 Cyborg Bionic Syst. 期刊(2025年8月4日在线发表)上的原创性研究,该研究由 Moein Khajehnejad、Forough Habibollahi、Alon Loeffler、Aswin Paul、Adeel Razi 和 Brett J. Kagan 共同完成,作者单位包括澳大利亚的 Cortical Labs、莫纳什大学、墨尔本大学以及印度的 IITB-莫纳什研究学院和英国伦敦大学学院等机构。
本研究处于生物学智能与人工智能的交叉领域,核心科学问题聚焦于生物神经系统的学习效率与网络可塑性。尽管深度强化学习在诸多复杂任务上已超越人类表现,但其通常面临样本效率低、计算能耗高、依赖精心设计的奖励函数和超参数等问题。相反,生物神经系统则能以极少的样本和极低的功耗实现高效学习。然而,由于生物系统的复杂性和不可控性,直接比较生物学习与机器学习一直是个巨大挑战。
为了克服这一障碍,本研究采用了“DishBrain”系统——一个将活体体外培养的神经细胞与高密度微电极阵列实时整合的封闭反馈回路平台。该系统使研究者能够在可控的、简化的环境下(如模拟的“Pong”乒乓球游戏),观测和研究生物神经网络的动态变化和学习过程。基于此,本研究设定了两大核心目标:第一,探究在结构化游戏环境中,体外培养的神经网络的连接性是否会发生快速、动态的重组,并揭示其潜在的神经网络机制。第二,将这种生物神经网络的样本效率与三种先进的深度强化学习算法——深度Q网络、优势演员-评论家和近端策略优化进行直接比较,旨在验证即使是简单的生物神经网络,在有限样本(即真实世界时间尺度)下的学习能力是否优于当前的深度强化学习模型。
本研究工作流程清晰,主要分为两大平行路径:生物神经网络(BNN)的动态分析,以及与深度强化学习(RL)算法的性能比较。
1. 生物神经网络(BNN)实验与网络构建流程: * 研究对象与样本: 研究使用了源自人诱导多能干细胞(hiPSC)和小鼠胚胎(E15)的皮质神经元细胞,共培养了24个不同的神经细胞团。数据采集自437个实验会话,其中262个为“游戏”会话,175个为“休息”会话。“游戏”会话持续20分钟,神经细胞在DishBrain系统中玩简化版Pong游戏;“休息”会话持续10分钟,仅记录自发活动,无任何刺激或反馈。 * DishBrain系统操作: 系统通过高密度微电极阵列向神经细胞传递结构化电刺激以编码游戏信息(如球的X、Y坐标),同时实时读取特定“运动区”的神经活动来控制游戏中的球拍移动。游戏规则包含“击中”(可预测的奖励性刺激)和“未击中”(不可预测的惩罚性刺激)两种反馈,从而形成闭环学习环境。 * 数据分析与网络构建流程: * a. 数据预处理与降维: 由于原始数据维度极高(1024个通道,20 kHz采样),研究首先使用t-分布随机邻域嵌入(t-SNE)算法将每个通道的尖峰活动序列嵌入到低维(二维)空间中,以提高计算效率和揭示潜在结构。 * b. 关键通道筛选: 为了从大量通道中识别出对任务响应的关键神经群体,研究团队开发了一种新颖的分析框架。首先,将所有“游戏”会话的降维数据构建成一个张量,然后使用Tucker分解和K-medoids聚类算法,从1024个通道中筛选出30个最具代表性的“中心点”通道。这30个通道被认为能够捕捉整个网络在游戏过程中的核心动态。 * c. 功能连接网络构建: 以这30个筛选出的通道作为网络节点,计算它们之间降维后时间序列的零滞后皮尔逊相关系数作为边权值,为每个“游戏”和“休息”会话构建功能连接网络。 * d. 动态网络分析: 为了观察网络随时间的演化,研究者将每个20分钟的“游戏”会话和10分钟的“休息”会话进一步分割为时长2分钟的多个时间窗,分别构建每个时间窗的功能连接网络。通过比较会话早期(如前2分钟)和晚期(如后2分钟)的网络拓扑属性(如平均连接权重、模块化指数、节点数、边数等)变化,来量化网络的可塑性。
2. 深度强化学习(RL)算法比较流程: * 比较对象: 三种主流深度强化学习算法:深度Q网络(DQN)、优势演员-评论家(A2C)和近端策略优化(PPO)。 * 公平性设计: 为确保比较的公平性,研究者将RL算法的训练回合数限制在与生物BNN平均游戏回合数相匹配的70个回合,并将RL算法训练所耗费的实际时间归一化为20分钟(模拟真实世界时间尺度)。 * 控制变量实验: 为了探究信息输入密度对RL算法样本效率的影响,研究设计了三种不同的输入模式: * 图像输入: 输入为40x40像素的灰度游戏画面,使用卷积神经网络处理。这是RL算法在Atari游戏中的典型输入,但信息维度远高于BNN接收的刺激。 * 球拍与球位置输入: 输入简化为一个4维向量,包含球和球拍的坐标。这是一种浅层网络架构,无卷积层。 * 球位置输入: 输入设计为尽可能模拟BNN接收的刺激,包括球的Y轴位置(划分为8段,模拟BNN的8个感觉电极)和X轴位置(速率编码),同样使用浅层网络。这是与BNN信息密度最接近的比较条件。 * 性能评估指标: 比较BNN与三种RL算法在三种输入模式下,在三个关键游戏性能指标上的表现:平均每次对打击球数、发球直接得分(Ace球)百分比、以及长对打(连续击球≥3次)百分比。此外,还计算了各组在游戏前5分钟与后15分钟之间的相对性能提升,以量化学习速率。
1. 生物神经网络的动态可塑性结果: * 网络分析显示,当BNN处于“游戏”状态时,其功能连接网络与“休息”状态存在显著差异。“游戏”状态下,网络的节点数、边数、密度、平均连接权重和参与系数等指标均发生显著变化,而“休息”状态下则无此变化。 * 降维可视化(t-SNE和Isomap)结果清晰地表明,“游戏”会话的记录数据在早期和晚期呈现出可区分的分布模式,而“休息”会话则没有,这直观证明了游戏过程中网络状态发生了系统性演变。 * 最关键的发现在于对30个关键通道网络的时间动态分析: 比较“游戏”会话初期和末期的网络发现,节点间的功能连接强度发生了显著的重组——许多连接增强(红色边),同时也有一些连接减弱(黑色边)。网络的平均连接权重显著增加,而模块化指数显著降低。模块化指数降低意味着网络内部不同社区(模块)之间的连接增多,整合性增强,这可能反映了网络为处理特定任务(传感输入-运动输出映射)而进行了更有效的全局协调。这些动态变化在“休息”会话中均未出现,强烈表明BNN在闭环游戏环境中发生了快速、目标导向的网络可塑性重组,这是其能够进行“学习”的潜在神经机制证据。
2. 生物神经网络与深度强化学习的性能比较结果: * 总体性能优势: 在样本数限制为70个回合(约20分钟)的条件下,无论是人源还是鼠源的BNN,在所有三种RL输入模式下,在平均击球数上都显著优于DQN、A2C和PPO算法,且Ace球百分比最低,长对打百分比最高。这表明BNN在游戏表现上全面领先。 * 学习速率优势: 在相对性能提升指标上,BNN(尤其是人源细胞)展现出最大的提升幅度,显著高于所有RL算法。RL算法在不同时间区间内的性能提升大多不显著,而BNN则在游戏过程中表现出持续的、显著的改进。 * 样本效率的核心结论: 即使将RL算法的输入简化为与BNN信息密度相当的“球位置输入”(浅层架构),BNN的样本效率优势依然存在,且RL算法的表现通常更差。这排除了“RL算法因输入信息维度太高而导致样本效率低”的简单解释。研究证实,在真实世界时间尺度下,即使是非常简单的生物神经网络,其学习样本效率也显著高于当前最先进的深度强化学习算法。 * 补充发现: RL算法的球拍移动平均速度显著高于BNN,但这并未转化为更好的游戏表现,暗示RL算法的控制可能更随机。此外,研究通过扩展训练回合数发现,RL算法在训练数万回合后最终能超越BNN的表现,但这恰恰突显了其在有限样本下的低效。
本研究得出以下核心结论:首先,体外培养的生物神经网络在结构化闭环任务中能够展现出快速、动态的功能连接重组,这种网络层面的可塑性是其实现适应性学习的基础神经机制。其次,也是更具突破性的结论是,在公平的、基于真实世界时间的样本效率比较中,简单的生物神经网络在Pong任务上的学习能力超越了多种先进的深度强化学习模型。这不仅为生物智能的高效性提供了实证支持,也凸显了当前人工智能算法与生物学习机制之间存在根本性差异。
这项研究的科学价值在于,它首次在可控的实验平台上,对生物神经网络和深度学习算法进行了直接、量化的性能比较,为“样本效率”这一关键概念提供了实证基准。它挑战了“仅通过扩大硅基系统规模就能实现生物级智能”的观点,表明算法本身或计算底质的质性变革可能至关重要。在应用价值上,该研究为“合成生物智能”这一新兴领域提供了强有力的佐证,展示了利用生物神经网络作为高效、低功耗信息处理器的潜力,可能为未来开发新型类脑计算硬件和生物启发式学习算法开辟道路。
文章还探讨了未来方向,例如结合具有可控结构的神经网络、探索更复杂的任务、以及开发生物启发的学习算法(如主动推理)以弥补当前RL的不足。作者也坦诚了研究的局限性,包括体外神经网络的长期稳定性、硬件接口的优化、以及超参数搜索空间的非穷尽性等。这些讨论为后续研究指明了潜在路径。最后,研究强调了结合生物学原理与工程学方法,开发混合生物-硅智能系统,以实现实时、高效、节能学习的广阔前景。