分享自:

基于疾病本体的疾病相似性分析R包DOSIM

期刊:BMC BioinformaticsDOI:10.1186/1471-2105-12-266

本文档属于类型a,即报告了一项原创研究的科学论文。以下是针对该研究的学术报告:

主要作者与机构
本文的主要作者包括Jiang Li、Binsheng Gong、Xi Chen、Tao Liu、Chao Wu、Fan Zhang、Chunquan Li、Xiang Li、Shaoqi Rao和Xia Li。他们来自哈尔滨医科大学生物信息科学与技术学院。该研究发表于《BMC Bioinformatics》期刊,发表日期为2011年6月29日。

学术背景
该研究的科学领域是生物信息学,特别是疾病相似性分析。疾病本体(Disease Ontology, DO)的构建为疾病及其风险因素的研究提供了重要支持。通过语义相似性度量,DO能够帮助研究者分析疾病之间的相似性,从而更好地理解不同疾病之间的关系并进行分类。同时,基因的相似性也可以通过其与相似疾病的关联性进行分析。然而,现有的生物信息学工具缺乏同时研究疾病和基因相似性的简便方法。因此,本研究旨在开发一个基于R语言的软件包(DOSim),用于计算疾病之间的相似性,并基于疾病度量人类基因的相似性。此外,DOSim还整合了基于DO的富集分析功能,用于探索独立基因集的疾病特征,并通过多层富集分析(GO和KEGG注释)帮助用户理解新检测到的基因模块的生物学意义。

研究流程
研究流程主要包括以下几个步骤:
1. DOSim软件包的开发
DOSim是一个基于R语言的软件包,用于计算疾病和基因的相似性。它整合了多种语义相似性度量方法,包括Resnik度量、Lin度量、Jiang和Conrath度量(JC)、Relevance度量(Rel)、Graph Information Content度量(GIC)、Information Coefficient相似性度量(SimIC)、Wang度量、以及几种改进的度量方法(CoutoResnik、CoutoLin和CoutoJC)。这些方法基于信息内容(IC)计算疾病术语之间的相似性。
2. 疾病相似性计算
DOSim实现了十种代表性的语义相似性度量方法,用于计算疾病术语之间的相似性。通过信息内容(IC)的定义,DOSim能够量化疾病术语的特异性和信息量。研究还引入了“最大信息共同祖先”(MICA)和“分离共同祖先”(DCA)的概念,用于计算两个术语之间的共享信息。
3. 基因相似性计算
DOSim通过基因的DO术语注释组计算基因之间的相似性。每个基因由其直接DO术语注释集表示,语义相似性通过术语集之间的相似性计算。DOSim实现了五种不同的基因相似性计算方法,包括最大相似性(Max)、平均相似性(Mean)、FunsimMax、FunsimAvg和最佳匹配平均(BMA)。
4. 富集分析
DOSim还提供了基于DO的富集分析功能,用于探索独立基因集的疾病特征。富集分析的显著性通过超几何检验评估,并使用错误发现率(FDR)调整p值。
5. 基因模块检测与注释
DOSim能够检测基因模块,并通过多层富集分析(GO和KEGG注释)探索基因模块的生物学意义。基因模块的检测通过层次聚类和动态树切割方法实现。
6. DO结构与术语的可视化
DOSim提供了可视化DO结构和术语的功能,用户可以通过getDAGraph函数获取指定DO术语的DAG图。

主要结果
1. 疾病相似性应用
研究使用DOSim分析了128种癌症术语之间的相似性。通过Wang度量计算了这些癌症术语之间的成对相似性,并进行了平均连锁层次聚类。结果显示,癌症疾病表现出模块化特征,且不同模块之间存在显著的相关性。
2. 基因相似性应用
研究使用DOSim分析了361个与肥胖相关的基因。通过BMA方法和Resnik度量计算了这些基因之间的相似性,并进行了层次聚类和动态树切割,最终检测到10个不同的基因模块。通过GO和KEGG注释分析,这些模块揭示了肥胖的复杂发病机制。
3. 基因模块的多层注释
对10个肥胖相关基因模块的GO和KEGG注释分析表明,不同模块在生物学功能和信号通路上存在显著差异。例如,模块M4的KEGG注释表明,肥胖可能与多种癌症(如结直肠癌和子宫内膜癌)以及多个信号通路(如ERBB信号通路和JAK-STAT信号通路)相关。模块M1的GO注释则表明,肥胖与胆固醇、脂蛋白和甘油三酯的生物学过程相关。

结论
DOSim软件包通过整合信息理论相似性概念,为疾病和基因的相似性分析提供了强大的工具。与现有的生物信息学工具(如FUNDO)相比,DOSim不仅能够进行富集分析,还能够计算疾病-疾病和基因-基因的相似性。此外,DOSim的基因模块检测和多层注释功能有助于更好地理解复杂疾病的发病机制和异质性。DOSim的发布为疾病和基因相似性研究提供了重要的技术支持,具有显著的学术和应用价值。

研究亮点
1. 新颖的相似性度量方法
DOSim整合了十种语义相似性度量方法,并首次将这些方法应用于疾病和基因的相似性计算。
2. 多层富集分析
DOSim通过GO和KEGG注释进行多层富集分析,帮助用户深入理解基因模块的生物学意义。
3. 模块化特征分析
研究揭示了癌症疾病和肥胖相关基因的模块化特征,为复杂疾病的发病机制提供了新的见解。
4. 可视化功能
DOSim提供了DO结构和术语的可视化功能,方便用户进行数据分析和结果展示。

其他有价值的内容
研究还提供了详细的R脚本和Perl脚本,用户可以通过这些脚本复现研究结果。此外,研究还提供了额外的文件,包括128种癌症术语的相似性矩阵、DO图以及肥胖相关基因模块的详细注释信息。这些资源为其他研究者提供了重要的参考和工具支持。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com