针对原子间作用力的几何增强预训练

针对原子间作用力的几何增强预训练 引言 分子动力学(MD)模拟在物理、化学、生物和材料科学等领域扮演着重要角色,为原子水平的过程提供了洞见。MD模拟的精确度和效率取决于所选择描述分子体系中原子相互作用的相互原子作用力(interatomic potentials)函数。经典MD使用经验公式,参数需要拟合,计算代价低但精度不够。而第一性原理MD则通过求解薛定谔方程获得精确的相互作用力,但计算量极大。因此,机器学习相互原子作用力(MLIPs)通过使用机器学习模型拟合第一性原理计算的能量和力而达到接近ab initio的精度以及较高效率,成为一种有前景的替代方案。 MLIPs的性能和通用性受限于标记数据的稀缺性,因为获取标记数据需要耗费巨大的第一性原理计算代价。各种自监督学习方法已被探索过,以从大...

基于深度学习和语音合成的神经语音解码框架

基于深度学习和语音合成的神经语音解码框架

神经科学研究获重大突破:深度学习技术实现从脑电信号解码出自然语音 纽约大学一个跨学科研究团队最近在神经科学和人工智能界取得重大突破。他们开发出一种基于深度学习的新框架,能够直接从人脑的神经信号中解码并合成出自然的人声。这项创新性成果有望为失语和失音症患者研发出新一代语音类脑机接口。 研究动机 语音障碍严重影响患者的社交和生活质量。过去几十年,研究人员一直致力于开发能从大脑解码并合成语音的神经假体,以帮助这些患者重建交流能力。然而,由于训练所需的大脑和语音数据的稀缺性、语音生成过程的复杂性和高维度性,构建高性能语音解码系统一直是个巨大的挑战。 研究成果精髓 该团队提出了一种创新的基于深度学习的语音解码框架,核心包括两个模块:(1)一个”脑电解码器”,将植入大脑皮层的电极阵列(ECoG)采集的脑...

使用等变三维条件扩散模型进行分子连接设计

使用等变三维条件扩散模型进行分子连接设计

从事早期药物发现的科研人员面临着一个巨大挑战,即在大约10的60次方种可能的分子结构中寻找具有药理活性的候选分子。一种成功的解决方案是从较小的”片段”分子着手,这种策略被称为基于片段的药物设计(FBDD)。在FBDD过程中,首先需要利用计算机筛选出与目标蛋白口袋结合的片段,然后再将这些片段连接成单个化合物。连接片段时,需要考虑片段的几何构象以及蛋白质口袋的结构,以设计出高亲和力的潜在药物分子。 这篇论文介绍了一种名为DiffLinker的新型分子线酶(linker)设计方法。它是一种三维Equivariant Diffusion模型,能够给定任意数量的断开的片段,生成连接这些片段的线酶结构。与之前的基于自回归的方法不同,DiffLinker能一次性生成连接两个或更多片段的线酶,无需预先确定线...

使用图transformer模型进行小分子的质谱预测

这是一篇关于用于小分子质谱预测的图transformers模型(MassFormer)的论文。该研究针对质谱数据中的分子鉴定问题,提出了一种新的深度学习方法来预测小分子的质谱图谱。 背景介绍: 质谱(MS)是一种广泛应用于多个领域(如蛋白质组学、代谢组学、环境化学等)的分析技术,用于鉴定和定量样品中的化学物质。然而,对于大多数小分子,由于其碎裂过程的复杂性,准确模拟质谱图谱一直是该领域的一个关键挑战。现有的基于规则的方法(如CFM)存在性能和适用范围的限制。近年来,深度学习方法被应用于质谱预测,但现有模型主要基于分子指纹或局部图神经网络,无法有效建模分子全局结构和远程原子相互作用对碎裂的影响。 研究来源: 该研究由来自多伦多大学和矢量人工智能研究所的Adamo Young、Hannes Rö...

利用生成扩散模型合成拉格朗日湍流

当前,对于湍流中被流体所携带微粒的统计和几何学性质的研究存在重大挑战。尽管过去30年来在理论、数值模拟和实验方面做出了卓越的努力,但目前仍然缺乏能够真实再现湍流微粒轨迹统计和拓扑特性的模型。本研究提出了一种基于最新扩散模型(diffusion model)的机器学习方法,可以生成三维高雷诺数湍流中单个微粒轨迹,从而绕过直接数值模拟或实验获取可靠拉格朗日数据的需求。 论文信息: 本文作者来自罗马大学等机构,发表于2024年4月的《自然机器智能》(Nature Machine Intelligence)期刊。 研究方法: (a) 研究流程 该研究首先利用直接数值模拟(DNS)生成三维纳维-斯托克斯方程组的高雷诺数湍流场,并追踪大量(327,680条)拉格朗日微粒轨迹,构建高质量的训练数据集。然后...

构建复杂系统模拟的准确替代模型的高效学习

该研究提出了一种在线学习方法,用于高效构建能够准确模拟复杂系统的代理模型。该方法主要包括三个关键组成部分: 采样策略,用于生成新的训练和测试数据; 学习策略,用于根据训练数据生成候选代理模型; 验证指标,用于评估候选代理模型在测试数据上的有效性。 文中作者使用径向基函数(RBF)插值作为代理模型的响应面。该在线方法旨在确保代理模型包含响应面的所有局部极值点(包括端点),并采用连续验证和更新机制,当代理模型的性能低于有效性阈值时会重新训练。 作者的主要创新点是: 提出了一种优化器驱动的采样策略,可以确保训练数据包含响应面的所有局部极值点,从而保证了长期代理模型的有效性。 设计了一种自动化的在线学习工作流程,包括显式的验证和更新机制,以生成对未来所有数据都有效的代理模型。 研究过程: a) 验证...