DeepRNA-Twist:基于语言模型引导的RNA扭转角预测与注意力-初始网络

一、学术背景及研究动机 随着生命科学与生物信息学的飞速发展,RNA分子结构及其功能研究成为热点领域。RNA不仅仅是基因信息的传递者,更在调控、催化等多种生理过程中扮演关键角色。RNA分子的三维结构直接影响其生物学功能,而RNA结构的精确解析对于基础科学、药物设计、疾病机制研究等均具有重要意义。然而,RNA的序列到结构转换远比蛋白质复杂,不仅因为RNA的骨架有七个主链扭转角(α, β, γ, δ, ε, ζ, χ),而且还涉及复杂的伪扭转角(η, θ),加之非经典碱基对、多重环、三元作用等多样结构因素,使得高精度RNA三维结构预测极具挑战性。 传统的实验测定RNA结构方法如核磁共振(NMR)、X射线晶体学(X-ray crystallography)、冷冻电镜(cryo-EM)手段,不但昂贵且...

基于矩阵补全的集成学习提高微生物-疾病关联预测

学术背景与研究问题 微生物作为地球上最广泛存在的生命形式之一,与海洋、土壤以及人类自身均有密切关系。人体内约含有350万亿个微生物细胞(microbial cells),与人类健康、疾病的发生和发展息息相关。近年来,随着测序技术与生物信息学的快速进步,大量研究聚焦于阐明人体微生态(microbiome)组成及其功能对健康产生的影响。例如,肠道菌群组成的变化能够影响机体免疫和疾病发生,肝脏代谢也被证实受肠道微生物调控,会通过降低能量消耗、促进脂肪沉积等促进代谢疾病发展。 尽管实验生物医学对微生物-疾病(microbe-disease)关联的揭示已做出巨大努力,但已被实验确定的疾病相关微生物数量仍十分有限,传统实验方法既耗时又高成本,因此亟需高效、精准的计算方法,用于筛查潜在的微生物-疾病关联。...

MMNC——一种多模态可解释的非编码RNA分类方法

非编码RNA(ncRNA)在细胞过程和疾病发展中扮演着关键角色。尽管基因组测序项目揭示了大量非编码基因的存在,但ncRNA的功能和分类仍然是一个复杂且具有挑战性的问题。ncRNA的多样性、复杂性和功能性使其成为生物医学研究的重要对象,尤其是在生物标志物和治疗靶点的发现中。然而,现有的ncRNA分类工具大多仅依赖于单一或两种数据类型(如序列或二级结构),忽略了其他可能提供重要信息的数据源。此外,现有方法通常缺乏可解释性,难以揭示不同ncRNA类别的特征。 为了解决这些问题,来自Université Paris-Saclay和Institut Curie的研究团队提出了一种名为MMNC(Multi-Modal Interpretable Representation for Non-Coding...

基于Transformer模型的DNA序列比对方法研究

学术背景 DNA序列比对是基因组学中的一项核心任务,旨在将短DNA片段(reads)定位到参考基因组上的最可能位置。传统方法通常分为两个步骤:首先对基因组进行索引,然后通过高效搜索定位reads的可能位置。然而,随着基因组数据的爆炸式增长,尤其是面对长达数十亿碱基的参考基因组时,传统的比对方法在计算效率和准确性上面临巨大挑战。近年来,Transformer模型在自然语言处理(NLP)领域的成功启发了研究人员将其应用于DNA序列分析。尽管已有研究表明Transformer模型在短DNA序列分类任务中表现优异,但序列比对任务需要在整个基因组范围内进行搜索,这对模型的全局搜索能力提出了更高要求。 为此,本研究提出了一种名为“embed-search-align”(ESA)的新框架,旨在通过Tran...

使用Transformer高效增强冷冻电镜密度图的研究:CryoTen

学术背景 冷冻电子显微镜(Cryo-EM)是解析大分子(如蛋白质)结构的重要实验技术。然而,Cryo-EM的有效性常常受到实验条件(如低对比度和构象异质性)导致的噪声和密度值缺失的制约。尽管现有的全局和局部图像锐化技术被广泛用于改善Cryo-EM密度图,但在高效提升其质量以构建更精确的蛋白质结构方面仍面临挑战。为了解决这一问题,研究人员开发了CryoTen,一种基于3D UNETR++风格Transformer的模型,旨在有效增强Cryo-EM密度图的质量。 论文来源 这篇论文由Joel Selvaraj、Liguo Wang和Jianlin Cheng共同撰写。Joel Selvaraj和Jianlin Cheng来自美国密苏里大学电气工程与计算机科学系,而Liguo Wang则来自布鲁克...

基于共享肽段的蛋白质和翻译后修饰的相对定量

在蛋白质组学研究中,质谱技术(Mass Spectrometry, MS)被广泛用于分析蛋白质的丰度和结构变化。然而,蛋白质的定量分析面临一个关键挑战:许多蛋白质共享相同的肽段(shared peptides),即这些肽段在多个蛋白质的序列中出现。传统的方法通常仅依赖于唯一肽段(unique peptides)进行蛋白质定量,忽略了共享肽段的信息,这可能导致定量结果的偏差或不准确。特别是在研究蛋白质异构体(protein isoforms)或翻译后修饰(post-translational modifications, PTMs)时,共享肽段的存在使得定量分析更加复杂。 为了解决这一问题,研究者们提出了一种新的统计方法,旨在利用共享肽段的定量信息,更准确地估计蛋白质的丰度和PTMs的位点占有...

基于信息熵增强BERT和多向GRU的S-硫化位点预测方法

背景介绍 蛋白质翻译后修饰(Post-Translational Modifications, PTMs)是调节细胞活动的关键机制,包括基因转录、DNA修复和蛋白质相互作用等。其中,半胱氨酸(Cysteine)作为稀有氨基酸,通过其硫醇基团(Thiol Group)参与多种PTMs,尤其是在氧化还原平衡和信号传递过程中发挥着重要作用。S-硫酰化(S-Sulfhydration)是一种重要的PTM,与心血管疾病和神经系统疾病的发生和发展密切相关。然而,S-硫酰化的具体机制仍不明确,尤其是在位点识别方面存在较大的挑战。 传统的S-硫酰化位点识别方法,如生物素转换法(Biotin Conversion Method)和马来酰亚胺荧光法(Maleimide Fluorescence Method),...

单细胞转录组学中的轨迹对齐:Tragedy方法的创新与应用

单细胞转录组测序(single-cell RNA sequencing, scRNA-seq)技术的出现,为研究细胞发育和分化过程中的基因表达动态提供了前所未有的分辨率。然而,由于生物过程的复杂性,不同条件下的细胞发育轨迹往往是不对称的,这给数据的整合和比较带来了挑战。现有的方法通常依赖于将不同条件下的样本整合后再进行聚类分析或推断共享轨迹,但这些方法在处理不对称轨迹时往往效果不佳,可能会掩盖关键的差异表达基因(differentially expressed genes, DEGs)。 为了解决这一问题,研究人员开发了一种新的方法——Trajectory Alignment of Gene Expression Dynamics (Tragedy)。Tragedy方法能够在不进行数据集整合...

基于共享单元和多通道注意力机制的circRNA与疾病关联预测

背景介绍 近年来,环状RNA(circRNA)作为一种新型的非编码RNA分子,在疾病的发生、发展和治疗中扮演着重要角色。circRNA具有独特的环状结构,不易被核酸酶降解,因此被认为是潜在的生物标志物和治疗靶点。然而,通过实验方法研究circRNA与疾病的关联不仅耗时且成本高昂,这限制了相关研究的进展。为了解决这一问题,研究人员开始开发计算模型,通过生物信息学方法预测circRNA与疾病的关联,从而为实验研究提供指导。 尽管多视图学习方法在预测circRNA与疾病关联方面得到了广泛应用,但现有方法往往未能充分利用不同视图之间的潜在信息,且忽略了不同视图对预测结果的重要性差异。因此,哈尔滨工业大学和电子科技大学的团队提出了一种结合共享单元和多通道注意力机制的新方法,名为MSMCDA(Multi...

基于APNet的稀疏深度学习模型在COVID-19严重程度驱动因素发现中的应用

学术背景 COVID-19大流行对全球公共卫生系统造成了巨大冲击,尽管目前疫情已有所缓解,但其复杂的免疫病理机制、长期后遗症(如“长新冠”)以及未来可能出现的类似威胁,仍然推动着相关研究的深入。特别是重症COVID-19患者,常伴随“细胞因子风暴”、急性呼吸窘迫综合征(ARDS)、多器官衰竭等严重症状,亟需更精准的预测模型和生物标志物来指导临床决策。 传统的机器学习(ML)和深度学习(DL)模型在高通量组学数据分析中表现出色,但往往缺乏生物可解释性,难以揭示非线性蛋白质动态(如翻译后修饰)和复杂的信号通路调控机制。为了解决这一问题,作者开发了APNet(Activity PASNet),一种结合了差异活性分析和生物信息驱动的稀疏深度学习模型,旨在通过可解释的预测发现COVID-19重症的驱动...