通过组合实现分布外泛化:基于Transformer中归纳头的研究

大语言模型中的分布外泛化与组合机制研究 论文背景 近年来,大语言模型(Large Language Models, LLMs)如 GPT-4 在处理新颖任务时表现出惊人的创造力,通常只需少数示例即可解决问题。这些任务要求模型在不同于训练数据的分布上进行泛化,即所谓的“分布外泛化”(Out-of-Distribution Generalization, OOD Generalization)。尽管 LLMs 取得了巨大成功,但其如何实现分布外泛化仍是一个未解之谜。本文旨在通过研究 LLMs 在隐藏规则生成的任务中的表现,特别是通过聚焦于一种称为“归纳头”(Induction Heads, IHs)的组件,揭示分布外泛化与组合机制之间的关系。 本文的研究主要针对 LLMs 在符号推理等任务中的表...

基于折扣值迭代的零和博弈自适应评判设计及其应用验证

基于折扣价值迭代的自适应评判设计在零和游戏中的应用与验证 研究背景 在控制领域,最优控制(Optimal Control)是一个核心研究方向,旨在设计和分析控制系统以优化系统性能。随着系统复杂度的增加,传统的基于哈密顿-雅可比-贝尔曼方程(Hamilton-Jacobi-Bellman, HJB)的最优控制方法面临“维度灾难”(Curse of Dimensionality)问题。为了应对这一挑战,研究者们提出了自适应动态规划(Adaptive Dynamic Programming, ADP)方法,结合强化学习(Reinforcement Learning)和函数逼近(Function Approximation)等技术,有效提升了复杂系统的控制能力。 零和游戏(Zero-Sum Game...

CREDS:资源高效的分散式时空火灾早期防控时序规划器

基于多无人机的高效分散式时序规划器用于时空野火防控 学术背景 野火是全球范围内对生物多样性和资源可持续性的重大威胁,尤其是在初期阶段。若未能及时控制,野火的规模可能会迅速扩大,导致严重的生态破坏。近年来,多无人机系统(Unmanned Aerial Vehicles, UAVs)在野火防控中的应用逐渐增多,主要是为了减少人类在危险环境中的暴露,并提高应急响应的效率。然而,现有的研究大多局限于搜索、监测或灭火等单一环节,缺乏对多无人机协同任务的综合研究。尤其在资源有限、无人机数量不足、野火动态变化的部分可观测环境中,如何高效分配无人机任务以进行早期野火防控仍是一个复杂且具有挑战性的问题。 本文提出了一种冲突感知的高效分散式时序规划器(Conflict-aware Resource-effici...

基于投影加权动态时间规整的多阶段不等长过程监测方法

多阶段不等长过程的投影加权动态时间规整监控方法 学术背景 在现代制造业中,多阶段过程(如批处理和过渡过程)的在线监控对于提高产品质量和降低故障风险至关重要。然而,由于操作条件的变化,这些过程的操作时长常常不等,这给监控带来了巨大的挑战。传统的动态时间规整(Dynamic Time Warping, DTW)方法虽然可用于离线同步,但在处理在线数据时,无法有效对齐正在进行的批次与已完成的历史批次,因为它们的进展存在固有差异。此外,传统方法通常忽略操作过程中的时间尺度故障,这会削弱整体监控性能。为了解决这些问题,本文提出了一种新颖的投影加权动态时间规整(Projective Weighted DTW, PWDTW)方法,用于监控不等长时间的多阶段过程。 本文的研究旨在从幅值和时间两个方面解决多阶...

基于概率神经网络的强化学习模型在预测控制无人水面艇中的高效应用

无人水面车辆(USV)的模型预测控制新方法:基于概率神经网络的MBRL框架 学术背景 无人水面车辆(Unmanned Surface Vehicles, USV)近年来在海洋科学领域迅速发展,广泛应用于海洋运输、环境监测、灾害救援等场景。然而,USV的控制系统仍然面临诸多挑战,尤其是在复杂海洋环境中应对外部干扰的能力。传统的模型自由强化学习(Model-Free Reinforcement Learning, MFRL)方法虽然在某些任务中表现良好,但其依赖大量数据和模拟训练,且缺乏对不确定环境的鲁棒性。为了解决这些问题,模型基础强化学习(Model-Based Reinforcement Learning, MBRL)方法应运而生。MBRL通过同时学习环境模型和优化控制策略,能够更高效地应...

基于口腔解剖知识的半监督学习在3D牙科CBCT分割和病变检测中的应用

学术背景与研究动机 在牙科医疗保健领域,锥形束计算机断层扫描(CBCT, Cone Beam Computed Tomography)是一种广泛应用的三维成像技术。CBCT能够提供口腔的三维图像,尤其在对牙源性病变的诊断中表现出色。然而,CBCT图像的分割(segmentation)——即对图像中每个体素(voxel)标记出病变、骨骼、牙齿和修复材料——是一个关键且复杂的任务。目前,临床实践中主要依赖手动分割,这不仅耗时,还需要大量的专业知识。为了实现自动化分割,减少对大量手动标记数据的依赖,研究者们提出了结合口腔解剖知识的半监督学习方法。本文提出了一种新颖的“口腔解剖知识引导的半监督学习模型”(OAK-SSL, Oral-Anatomical Knowledge-Informed Semi...