基于预训练大语言模型的人类蛋白质必要性的全面预测与分析

基于预训练大型语言模型的人类蛋白质必要性预测与分析 学术背景 人类必需蛋白质(Human Essential Proteins, HEPs)对个体的生存和发育至关重要。然而,实验方法识别HEPs通常成本高、耗时长且劳动强度大。此外,现有的计算方法仅在细胞系水平上预测HEPs,但HEPs在活体人类、细胞系和动物模型之间差异显著。因此,开发一种能够在多个水平上全面预测HEPs的计算方法显得尤为重要。最近,大型语言模型(Large Language Models, LLMs)在自然语言处理领域取得了显著成功,蛋白质语言模型(Protein Language Models, PLMs)也因其能够在大规模蛋白质序列上进行预训练而崭露头角。然而,PLMs是否能够显著提高蛋白质必要性预测任务的效果仍然未知...

DeepBlock:通过深度学习进行毒性控制的理性配体生成方法

深度学习应用于目标蛋白配体生成的最新研究:DeepBlock框架的提出与验证 背景与研究问题 药物发现过程中,寻找能够结合特定蛋白的配体分子(ligand)一直是核心目标。然而,目前的虚拟筛选方法(virtual screening)通常受限于化合物库的规模和化学空间的广度,难以在大规模化学空间中发现符合目标特性的创新化合物。相比之下,去新药设计(de novo drug design)通过从头生成分子结构,为探索现有化合物库之外的化学空间提供了崭新的可能性。 近年来,深度生成模型(deep generative models)在化学分子生成领域取得了显著进展,包括自回归模型(autoregressive models)、变分自编码器(variational autoencoders, VA...

通过基因型表示图实现生物样本库规模数据的高效分析

基于Genotype Representation Graph (GRG)的研究:提升生物数据分析效率的新框架 学术背景与研究动机 随着测序技术的迅速进步,大规模基因组数据的收集变得愈发普遍,尤其是在人类疾病关联研究领域,基因组数据的分析需求日益增长。2023年底,英国生物银行(UK Biobank)在其云计算平台上发布了约50万份全基因组数据,其中已有20万份完成相位(phased)处理。这类庞大的数据集为科研提供了前所未有的机会,但也带来了新的难题:如何高效地编码和分析如此巨大的基因组数据?传统的二维表格化数据结构(如VCF文件格式)在储存和计算效率方面面临瓶颈,难以应对不断增长的数据需求。 在这一背景下,科学家们提出了新的数据表示和处理方法以优化压缩率和计算性能。本研究的目标是开发一种...

负载Glepaglutide的泡沫在炎症性肠病治疗中的粘膜愈合诱导作用

新型直肠泡沫制剂在炎症性肠病治疗中的应用研究 近年来,炎症性肠病(inflammatory bowel disease, IBD)的发病率逐渐上升,该病以肠道粘膜损伤、慢性炎症及复发性发作为主要特征,目前仍缺乏一种理想的治疗手段。研究人员发现了一种名为胰高血糖素样肽-2(glucagon-like peptide 2, GLP-2)的33氨基酸多肽,其具有刺激肠道生长、修复肠粘膜和增强上皮细胞完整性的功效。然而,GLP-2在体内仅有极短的半衰期(7分钟),使其在临床治疗中受到了极大的限制。为解决这一难题,研究者们开发了一种GLP-2的长效类似物——Glepaglutide(GL),其通过氨基酸替换显著延长了体内半衰期(达50小时)。但由于Glepaglutide需通过皮下注射给药,这给患者的...

肾纤维化的体外和体内模型:迈向生理相关的人源化模型

肾纤维化的机制与研究模型:迈向更接近人体生理的模型 研究背景与问题陈述 慢性肾脏病(Chronic Kidney Disease, CKD)是全球范围内的重大公共健康问题,据估计其影响了超过10%的人口,是导致死亡的主要原因之一。肾纤维化(kidney fibrosis)作为CKD的关键病理终点,对肾单位(nephrons)结构和功能造成破坏,但目前对其病理机制的理解尚不完全。多数针对肾纤维化的研究使用动物模型进行,这些模型尽管揭示了一些潜在机制,但由于其在生理、代谢和分子途径上无法完全模拟人体肾脏,导致在药物和疗法开发的跨物种转化研究中存在显著局限性。此外,传统的二维细胞培养模型尽管作为疾病研究和药物筛选的起点,但由于缺乏三维的高级肾脏生物架构和功能,也难以满足研究需求。这些因素催生了开发...