基于模糊粗糙迭代计算模型的单细胞RNA-seq数据基因选择

背景介绍 单细胞RNA测序(single cell RNA-seq, scRNA-seq)技术近年来在生物医学研究中得到了广泛应用,它能够揭示单个细胞中基因表达的异质性,为理解细胞类型、细胞状态以及疾病机制提供了重要工具。然而,scRNA-seq数据具有小样本、高维度、高噪声等特点,这使得在聚类和分类之前进行基因选择成为必要步骤。传统的统计分析和机器学习方法在处理高维数据时往往面临“维度灾难”问题,因此,如何有效地从海量基因中选择出具有代表性的基因,成为当前研究的热点之一。 为了解决这一问题,本文作者提出了一种基于模糊粗糙迭代计算模型(Fuzzy Rough Iterative Computation Model, FRIC-Model)的基因选择方法。该方法通过引入模糊对称关系(fuzzy...

剪接体保真度的结构洞察:DHX35–GPATCH1介导的异常剪接底物排斥机制

学术背景介绍 剪接体(spliceosome)是一个高度动态的大分子复合物,负责从pre-mRNA中精确切除内含子(intron)。尽管近年来通过冷冻电镜(cryo-electron microscopy, cryo-EM)技术,科学家们已经对剪接体的逐步组装、催化剪接和最终解离过程有了较为全面的结构理解,但剪接体如何识别并拒绝次优剪接底物的分子机制仍不清楚。这一问题对于理解剪接保真性(splicing fidelity)至关重要,因为剪接错误可能导致基因表达异常,进而引发多种疾病。 本文的研究旨在揭示剪接体如何通过特定的RNA解旋酶(helicase)和G-patch蛋白(G-patch protein)来识别和拒绝异常的剪接底物,特别是那些含有非典型5’剪接位点(5’ splice si...

非经典蛋白质组的全面发现与功能表征

学术背景 人类基因组计划(Human Genome Project)的完成极大地推动了我们对复杂生物过程的全基因组理解。然而,基因组中仅有约1%的区域编码蛋白质,其余大部分为非编码区域,产生大量的非编码RNA(ncRNA),如长链非编码RNA(lncRNA)。近年来,越来越多的研究表明,这些非编码RNA可能编码新型肽段,并在细胞活动中发挥重要作用。例如,某些lncRNA编码的肽段在肌肉生理功能、代谢调节、免疫反应等过程中扮演关键角色。然而,由于技术限制,这些非经典翻译产物(如新型肽段)的系统识别和功能表征仍然是一个巨大的挑战。 胃癌作为全球第五大常见癌症,具有高度异质性和缺乏早期诊断标志物的特点。尽管基因组学、转录组学和蛋白质组学研究已经揭示了胃癌的多组学特征,但针对新型肽段的研究仍然较少。...

TP53特异性突变作为乳腺癌同源重组缺陷的潜在生物标志物:一项临床下一代测序研究

乳腺癌是全球女性中最常见的恶性肿瘤之一,其发病机制复杂,涉及多种基因突变和信号通路异常。同源重组缺陷(Homologous Recombination Deficiency, HRD)是乳腺癌中的一个重要分子特征,与患者对PARP抑制剂(PARPi)治疗的敏感性密切相关。HRD通常由BRCA1/2基因突变引起,但越来越多的研究表明,其他基因的突变也可能导致HRD。TP53基因是乳腺癌中最常见的突变基因之一,其在细胞周期调控、DNA修复和基因组稳定性中发挥关键作用。然而,TP53突变与HRD之间的关系尚未完全阐明。本研究旨在通过临床下一代测序(Next-Generation Sequencing, NGS)技术,探索TP53特异性突变在乳腺癌HRD中的潜在作用,并评估其作为PARPi治疗生物标...

前蛋白转化酶Furin作为新的动脉瘤易感基因影响TGF-β信号传导

学术背景 主动脉瘤(Aortic Aneurysm, AA)是一种主动脉异常扩张的疾病,常见于腹主动脉和胸主动脉。主动脉瘤在65岁以上人群中发病率较高,若未及时诊断和治疗,可能导致致命的破裂。尽管年龄、吸烟、高血压和男性性别被认为是重要的风险因素,但这些因素既非必要也不充分,表明遗传易感性在疾病发生中起着关键作用。目前,大多数主动脉瘤病例,甚至家族性主动脉瘤,尚未找到已知的致病基因变异。仅有约2%的非选择性腹主动脉瘤患者和5%的非选择性胸主动脉瘤患者在已知的主动脉瘤基因中携带(可能)致病性变异。这表明,大多数主动脉瘤具有复杂的遗传背景,可能涉及多个基因的相互作用。 转化生长因子β(Transforming Growth Factor-β, TGF-β)信号通路在主动脉瘤的发生中起着重要作用。...

基于尺度空间显著性的Hi-C数据分析方法

在基因组学领域,理解基因组的空间组织对于揭示基因调控机制至关重要。Hi-C技术作为一种全基因组染色体构象捕获技术,能够揭示基因组的三维结构,特别是染色质环(chromatin loops)在基因调控中的关键作用。然而,现有的Hi-C数据分析方法通常只能识别共享的染色质环,而难以检测细胞类型特异性的染色质环。这限制了我们对不同细胞类型中基因调控机制的理解。为了解决这一问题,Rui Liu等人提出了一种新的算法——SSSHiC(Significance in Scale Space for Hi-C Data),旨在通过尺度空间分析来识别细胞类型特异性的染色质环,从而更好地理解基因调控的细胞特异性。 论文来源 这篇论文由Rui Liu、Zhengwu Zhang、Hyejung Won和J. S...

MMNC——一种多模态可解释的非编码RNA分类方法

非编码RNA(ncRNA)在细胞过程和疾病发展中扮演着关键角色。尽管基因组测序项目揭示了大量非编码基因的存在,但ncRNA的功能和分类仍然是一个复杂且具有挑战性的问题。ncRNA的多样性、复杂性和功能性使其成为生物医学研究的重要对象,尤其是在生物标志物和治疗靶点的发现中。然而,现有的ncRNA分类工具大多仅依赖于单一或两种数据类型(如序列或二级结构),忽略了其他可能提供重要信息的数据源。此外,现有方法通常缺乏可解释性,难以揭示不同ncRNA类别的特征。 为了解决这些问题,来自Université Paris-Saclay和Institut Curie的研究团队提出了一种名为MMNC(Multi-Modal Interpretable Representation for Non-Coding...

基于多密钥同态加密的基因组计算隐私保护框架

基因组分析的隐私保护框架:基于多密钥同态加密的研究 学术背景 随着基因组测序成本的降低,基因组数据的广泛可用性为个性化医疗(也称为基因组医学)开辟了新的可能性。然而,基因组数据包含大量敏感信息,如疾病易感性、祖先信息和身体特征,这些信息的隐私问题成为了医学研究和数据共享的重大障碍。尽管研究人员已经提出了多种隐私保护技术,但现有的基于密码学的方法在互操作性、可扩展性、隐私保护程度以及多方分析支持方面仍存在不足。这些局限性限制了基因组数据的潜力,阻碍了其在医学研究中的应用。因此,开发一种既能保护隐私又能支持多方基因组数据处理的加密技术成为了迫切需求。 论文来源 这篇论文由Mina Namazi、Mohammadali Farahpoor、Erman Ayday和Fernando Pérez-Go...

基于Transformer模型的DNA序列比对方法研究

学术背景 DNA序列比对是基因组学中的一项核心任务,旨在将短DNA片段(reads)定位到参考基因组上的最可能位置。传统方法通常分为两个步骤:首先对基因组进行索引,然后通过高效搜索定位reads的可能位置。然而,随着基因组数据的爆炸式增长,尤其是面对长达数十亿碱基的参考基因组时,传统的比对方法在计算效率和准确性上面临巨大挑战。近年来,Transformer模型在自然语言处理(NLP)领域的成功启发了研究人员将其应用于DNA序列分析。尽管已有研究表明Transformer模型在短DNA序列分类任务中表现优异,但序列比对任务需要在整个基因组范围内进行搜索,这对模型的全局搜索能力提出了更高要求。 为此,本研究提出了一种名为“embed-search-align”(ESA)的新框架,旨在通过Tran...

单细胞拷贝数变异与事件历史重建的SCICONE模型

肿瘤的发展过程中,基因组拷贝数变异(Copy Number Alterations, CNAs)是驱动肿瘤异质性和进化的重要因素。理解这些变异对于开发个性化的癌症诊断和治疗方法至关重要。单细胞测序技术提供了最高分辨率的拷贝数分析,能够深入到单个细胞水平。然而,低读深(low read-depth)的全基因组测序数据给拷贝数变异的检测带来了巨大的统计和计算挑战。现有的计算方法大多忽略了细胞之间的进化关系,导致检测结果不够准确。因此,开发一种能够结合细胞进化历史的拷贝数检测方法成为当前研究的迫切需求。 论文来源 本论文由ETH Zurich(瑞士联邦理工学院)和SIB Swiss Institute of Bioinformatics(瑞士生物信息学研究所)的研究团队共同完成,主要作者包括Jac...