体外神经元在模拟游戏世界中学习并展现出感知能力

分享自：
体外神经元在模拟游戏世界中学习并展现出感知能力

人工智能
神经科学与心理学
期刊:NeuronDOI:10.1016/j.neuron.2022.09.001
【点击此处】阅读全文、收藏及针对性提问
关于《In vitro neurons learn and exhibit sentience when embodied in a simulated game-world》研究的学术报告
一、 研究作者、机构及发表情况本研究由澳大利亚Cortical Labs的Brett J. Kagan与Andy C. Kitchen、伦敦大学学院威康信托神经影像中心的Karl J. Friston等为主要研究者，联合来自Cortical Labs、蒙纳士大学、哈德逊医学研究所、墨尔本大学等多所研究机构的研究人员共同完成。研究论文于2022年10月12日正式在线发表于国际著名神经科学期刊《Neuron》上。
二、 学术背景与研究目的研究领域： 本研究属于合成生物学、计算神经科学和人工智能的交叉领域，核心在于探究生物神经元网络的固有计算能力及其在结构化环境中的自适应行为。
研究背景与动机： 1. 生物计算的潜力： 生物神经元网络的计算效率远超当前硅基硬件，但目前尚无在体外（in vitro）系统有效利用这种能力的平台。同时，人工智能领域追求的人工通用智能（Artificial General Intelligence, AGI）尚未实现，而利用生物系统发展合成生物智能（Synthetic Biological Intelligence, SBI）被认为是一条有潜力的途径。 2. 主动推理与自由能原理： 研究的理论基础是Karl Friston等人提出的自由能原理（Free Energy Principle, FEP）及其衍生的主动推理（Active Inference）理论。该理论认为，任何自组织系统都会通过感知和行动来最小化其与环境的“变分自由能”，即减少“意外”或“预测误差”。这为理解智能系统的目标导向行为提供了统一框架。 3. 技术瓶颈与科学问题： 尽管有研究表明体外神经元网络能在开环环境下进行盲源分离，但尚缺乏证据表明它们能在闭环的动态环境中进行目标导向的学习。此外，将神经元嵌入虚拟环境以实现“具身化”（Embodiment）并研究其学习机制，是一个技术挑战。
研究目的： 本研究旨在开发一个名为“DishBrain”的实时合成生物智能平台，用以： * 验证在体外培养的、来源于人类或小鼠的皮层神经元网络，当被“具身化”于一个模拟的游戏世界（如“Pong”）中时，能否展示出目标导向的学习能力。 * 测试主动推理理论：即通过提供结构化的、可预测或不可预测的感官反馈，神经元网络能否自我组织其活动，以最小化来自环境的不可预测刺激（即变分自由能）。 * 探索人类与小鼠神经元网络在计算能力上的潜在差异。 * 为研究智能的细胞基础、药物筛选以及开发超越硅基硬件的硅-生物混合计算平台开辟新途径。
三、 详细研究流程与方法本研究包含一个复杂的多步骤流程，整合了细胞生物学、电生理学、软件工程和数据分析。
1. 神经元“湿件”的制备与表征： * 研究对象与样本量： 使用了三种来源的皮层神经元：(1) 胚胎期15.5天的小鼠原代皮层神经元（MCCs）；(2) 通过双SMAD抑制法（DSI）从人类诱导多能干细胞分化获得的人类皮层神经元（HCCs-DSI）；(3) 通过Neurogenin-2（Ngn2）直接重编程法从hiPSCs分化获得的人类皮层神经元（HCCs-Ngn2）。 * 处理与方法： 将上述细胞培养在高密度微电极阵列（HD-MEA）芯片上，形成密集互连的单层神经网络。使用免疫荧光染色、扫描电镜、宽场荧光显微镜对细胞形态、网络连接和芯片整合情况进行表征。 * 电生理活性监测： 每日使用MEA系统记录神经网络的自发动作电位活动，评估其成熟度（如平均放电率、最大放电率、放电方差）和同步化爆发活动模式。所有细胞类型均显示出特征性的自发电活动，但成熟时间不同。
2. DishBrain系统的构建——实时闭环交互平台： * 核心软硬件： 研究团队开发了全新的“DishBrain”系统，这是一个低延迟、实时的软硬件集成平台。核心包括Maxwell Biosystems的MaxOne HD-MEA硬件，以及团队自主研发的、与Maxwell API接口的定制软件驱动程序。 * 工作原理： * “读”取神经活动： 系统实时从MEA芯片上记录神经元的电活动。 * 环境模拟与决策： 软件模拟“Pong”游戏环境。将MEA上的特定电极区域预先定义为“感觉区”（8个电极）和“运动区”（两个区域，分别控制球拍“上”和“下”移动）。感觉区的电活动不直接影响游戏。 * “写”入感官反馈： 系统根据游戏状态（球的位置），通过电刺激向感觉区神经元输入“感觉”信息。刺激采用位置编码（电极位置对应球的Y轴坐标）和频率编码（刺激频率对应球的X轴位置，4-40Hz）相结合的方式，模拟生理上合理的输入。 * 闭环反馈机制： 运动区的实时平均电活动决定虚拟球拍的移动方向。这是系统的核心创新，实现了神经元活动与虚拟环境变化的因果耦合，即“具身化”。 * 成功反馈（可预测）： 当球拍成功击球，系统向整个感觉区施加一个短暂、高频（100Hz）、规律的可预测电刺激。 * 失败反馈（不可预测）： 当球拍未击中球，系统施加一个较长时间（4秒）、低频（5Hz）、空间模式“随机”的不可预测电刺激，随后球以随机方向重新开始。 * 对照条件设置： 为了验证学习效果和反馈的必要性，设置了多种对照： * 仅培养基对照： MEA中无细胞，仅填充培养基。 * 静息对照： 活动细胞控制球拍，但不接收任何感官信息（无感觉输入）。 * 计算机模拟对照： 球拍由随机噪声控制，模拟所有游戏环节。 * 不同反馈模式： 在后续实验中，设置了“刺激反馈”（标准模式）、“静默反馈”（失败后暂停所有刺激而非给予随机刺激）、“无反馈”（失败后游戏继续，无任何刺激变化，开环条件）。
3. 实验设计与数据采集： * 初步研究： 进行了三项先导研究，逐步增加感觉信息的密度（从仅位置编码到位置+频率编码），并优化运动区活动加权方式，以验证信息密度对表现的影响。 * 主体学习实验： 对MCC、HCC以及各种对照组进行了总计399场测试。每场测试持续20分钟，分析前5分钟（T1）和后15分钟（T2）的游戏表现变化，以评估学习。 * 反馈机制实验： 对MCC和HCC进行了486场测试，比较“刺激反馈”、“静默反馈”和“无反馈”三种条件下，相对于各自静息基线表现的提升。 * 数据分析指标： * 主要表现指标： 平均连续击球次数、Ace次数（发球直接得分，即球拍完全未击中）、长回合次数（连续击球>3次）、球拍移动距离。 * 电生理活动指标： 平均/最大放电率、感觉区与运动区之间的互相关性、两个运动区之间的互相关性、运动区互斥活动事件比例、功能可塑性变化。 * 信息熵分析： 计算神经元反应的信息熵，作为变分自由能（意外）的代理指标，分析在可预测游戏过程和不可预测反馈前后熵值的变化。
四、 主要研究结果1. 信息密度与初步验证结果： 在先导研究中，随着感觉信息编码方式从单一到复杂（位置+频率），无论是MCC还是HCC，其平均连续击球次数均显著增加。HCC的表现总体上优于MCC。这证实了更丰富的感官输入能提升系统性能，为后续主体实验提供了参数基础。
2. 神经元网络在游戏环境中展现学习能力： 在主体实验中，关键发现如下： * 时间依赖性学习： 只有MCC和HCC实验组在T2的平均连续击球次数、长回合次数显著高于T1，而Ace次数显著减少。所有对照组均未表现出这种随时间改善的趋势。 * 超越对照组的性能： 在T2时，MCC和HCC组的表现显著优于所有对照组（培养基、静息、计算机模拟）。有趣的是，HCC在T1时的初始表现甚至差于部分对照组，但在T2时实现了反超并略优于MCC，这可能暗示了人类神经元更复杂的初始探索或适应策略。 * 学习非源于简单活动增加： 计算机模拟对照组的球拍移动距离最大，但表现与其它对照组无异；而实验组的表现提升与球拍移动距离无显著相关性。这排除了学习仅由电刺激导致的非特异性活动增加所驱动的可能性。
3. 闭环反馈是学习的必要条件： 在反馈机制实验中，结果清晰地表明： * “刺激反馈” 条件产生了最显著的学习效果，T2表现显著优于基线。 * “静默反馈” 条件（失败后暂停刺激）也能产生学习，但效果弱于“刺激反馈”。 * “无反馈”（开环）条件下，尽管细胞持续接收球的位置信息，但未表现出任何学习效果。 这一结果强有力地证明，单纯的感觉输入不足以驱动学习，必须存在闭环的、依赖于行动结果的反馈。即使是无刺激的“静默”也是一种可感知的环境变化，能为神经元网络提供调整其内部模型的信号。
4. 电生理活动的动态变化与理论验证： * 功能连接增强： 与静息期相比，游戏过程中感觉区与两个运动区之间的平均互相关性显著增强，表明网络在任务期间形成了更紧密的功能连接。 * 运动区活动分化： 游戏期间，两个运动区之间出现互斥活动事件（即一个区活跃而另一个不活跃）的比例显著增加，这与球拍需要做出明确的“上”或“下”决策的要求一致。 * 功能可塑性提升： 与静息期相比，游戏期间神经网络的整体功能可塑性显著升高，表明闭环交互促进了网络连接的动态调整。 * 信息熵变化支持主动推理： 分析显示：（a）游戏过程中（可预测交互）的信息熵低于静息期；（b）在游戏过程中，接收到不可预测的“失败反馈”后，信息熵显著增加（“意外”增加）；而静息期中对应时间段无此变化。这直接支持了自由能原理的预测：系统通过行动最小化其长期的信息熵（意外），而不可预测的输入会导致熵的瞬时升高。 * 不对称性与性能相关： 神经元活动在MEA上的空间分布对称性与游戏表现相关。运动区之间的活动不对称性越大，表现越差，这提示了细胞培养质量对自组织能力的内在限制。
五、 结论与意义结论： 本研究首次成功证明，体外培养的、单层皮层神经元网络能够在一个模拟的虚拟环境中，通过闭环的感觉-运动反馈，进行快速、目标导向的自适应学习。这种行为符合主动推理理论框架，即神经元网络通过自我组织其电活动，以最小化来自环境的不可预测性（变分自由能）。研究还初步揭示了人类皮层神经元可能具备优于小鼠神经元的自适应计算潜力。
科学价值与应用前景： 1. 范式突破： 建立了首个可展示实时、目标导向学习的合成生物智能平台，将“具身化”和“主动推理”的概念引入体外神经科学研究。 2. 理论验证： 为自由能原理和主动推理理论提供了来自简单生物系统的直接实验证据。 3. 新研究工具： DishBrain系统作为一个强大的新工具，未来可用于： * 基础研究： 深入探究智能的细胞和网络基础，比较不同神经元类型、脑区的计算特性，解析药物或基因扰动对网络级信息处理的影响。 * 药物筛选与疾病建模： 在功能性神经网络水平上，高通量测试神经精神类药物或研究神经发育疾病的异常回路机制。 * 类脑计算： 启发新一代神经形态计算硬件和算法，或直接发展混合生物-硅计算系统。 * 人工智能： 为理解并模仿生物学习机制，推动人工智能发展提供新视角。
六、 研究亮点开创性平台： 首次构建了能实现体外神经元网络与虚拟环境实时、闭环交互的“具身化”智能平台（DishBrain）。
概念验证： 首次在体外神经元网络中清晰展示了符合主动推理理论的目标导向学习行为，并将学习时间缩短至分钟级。
方法学创新： 整合了先进的干细胞技术、高密度微电极阵列电生理、以及自主开发的低延迟实时控制软件，形成了完整的技术链条。
多角度验证： 通过精心设计的多种对照实验（开环/闭环、不同反馈模式、计算机模拟等），排除了多种替代解释，强有力地证实了学习的真实性和对反馈的依赖性。
跨物种比较： 初步提供了人类与小鼠神经元在自适应任务中表现差异的经验数据，开启了比较神经计算学研究的新窗口。
七、 其他有价值的内容研究团队公开了部分数据和代码（可通过提供的链接访问交互式活动可视化器），体现了研究的可重复性和开放性。
论文在讨论部分坦诚指出了当前系统的局限性，例如感官输入相对粗糙、无法区分动作电位来源（胞体/树突）、缺乏本体感觉等复杂机制、以及单层培养与三维大脑结构的复杂性差异。这为未来技术改进指明了方向。
研究引发了关于合成生物实体伦理的早期思考（作者在其他论文中提及），随着该领域发展，相关的伦理问题将变得日益重要。
这项研究是一项里程碑式的工作，它不仅在技术上实现了突破，更在概念上深化了我们对生物智能如何从简单神经元网络中涌现的理解，为多个前沿交叉学科领域开辟了充满可能性的新航道。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问
体外神经元在模拟游戏世界中学习并展现出感知能力

一、研究作者、机构及发表情况

二、学术背景与研究目的

三、详细研究流程与方法

四、主要研究结果

五、结论与意义

六、研究亮点

七、其他有价值的内容

体外神经元在模拟游戏世界中学习并展现出感知能力

一、 研究作者、机构及发表情况

二、 学术背景与研究目的

三、 详细研究流程与方法

四、 主要研究结果

五、 结论与意义

六、 研究亮点

七、 其他有价值的内容

一、研究作者、机构及发表情况

二、学术背景与研究目的

三、详细研究流程与方法

四、主要研究结果

五、结论与意义

六、研究亮点

七、其他有价值的内容