分享自:

使用多重相关功能性生物标志物建模临床结果的贝叶斯方法

期刊:Stat Methods Med ResDOI:10.1177/0962280212460444

本文旨在介绍一篇由Qi Long、Xiaoxi Zhang、Yize Zhao、Brent A. Johnson和Robert M. Bostick共同撰写的研究论文。这篇论文题为《Modeling Clinical Outcome Using Multiple Correlated Functional Biomarkers: A Bayesian Approach》(使用多个相关功能性生物标志物建模临床结局:一种贝叶斯方法),发表在《Statistical Methods in Medical Research》期刊上,其最终编辑版本于2016年4月发布。该研究的主要作者来自埃默里大学的生物统计学和生物信息学系、流行病学系以及辉瑞公司。

该研究的学术背景隶属于生物统计学、功能数据分析以及生物医学研究的交叉领域。在生物医学研究中,尤其是在癌症风险评估等领域,研究者经常需要对生物标志物进行重复测量。这些测量可能沿着特定空间结构(如组织切片)或随时间进行,并且不可避免地受到测量误差的影响。此类重复测量的生物标志物被称为“功能性生物标志物”或“功能性预测因子”。一个重要且常见的科学目标是评估这些功能性生物标志物与临床结局(如患病风险)之间的关联。然而,此类数据通常存在两层相关性:同一受试者同一生物标志物的重复测量值之间的相关性,以及同一受试者不同生物标志物之间的相关性。现有的统计学方法,特别是广义功能线性模型,虽然在分析单一功能性预测因子方面取得了进展,但大多忽略了对重复测量内部相关性进行建模,更重要的是,完全未能考虑多个功能性生物标志物之间的相关性。忽略这些相关性虽然不会导致估计量不一致,但会损失估计效率,即估计结果不够精确。此外,许多现有方法也未明确处理测量误差问题。本研究旨在克服这些局限,开发一种能够同时处理测量误差和两层相关性的统计模型,以更准确、更有效地评估多个功能性生物标志物与临床结局之间的关联。具体而言,本研究受到一项关于结直肠癌风险生物标志物的研究(MAP II研究)的启发,在该研究中,蛋白质生物标志物沿着结直肠隐窝的长度分布,形成了一维空间功能数据。因此,本研究的主要目标是提出一种新颖的贝叶斯联合建模方法,用于在存在测量误差和相关性的情况下,分析临床结局与多个功能性生物标志物的关系。

研究方法的详细工作流程可分为模型构建、贝叶斯推断框架建立、模拟验证和实际数据应用四个主要部分。

首先,在模型构建部分,研究从简单情况开始,逐步扩展到复杂情况。对于一个单一的功能性生物标志物Z(t),研究者假设感兴趣的标量结局Y(例如,二元结局如是否患癌)服从指数族分布。通过一个连接函数g(·),将Y的期望μ与功能性预测因子Z(t)以及其他标量预测因子X关联起来,其核心是通过一个权重函数β(t)与Z(t)的积分。这构成了广义功能线性模型的基础。为了在实际中估计连续的β(t),需要对其进行参数化。研究假设Z(t)和β(t)属于同一个由一组基函数s(t)(例如,样条基或勒让德多项式基)张成的函数空间。具体而言,Z_i(t) = s(t)^T γ_i,β(t) = s(t)^T ν,其中γ_i和ν是待估的系数向量。通过这种参数化,复杂的积分项∫β(t)Z(t)dt可以简化为η^T γ_i的形式,其中η是一个由基函数和ν决定的向量。因此,估计β(t)等价于估计η。考虑到测量误差,实际观测到的生物标志物值W_ij是在设计点t_ij上对真实值Z_i(t_ij)的带噪声观测,噪声ε_i服从均值为0、协方差矩阵为Ω_i的正态分布。Ω_i不假设为对角阵,从而允许同一受试者不同测量点间的相关性。

接着,研究将模型扩展至多个(p个)功能性生物标志物的情形。这是本研究方法的核心创新。对于受试者i,第j个生物标志物的观测值W_ij被建模为:W_ij = S_i γ_ij + bi 1{m_i} + ε_ij。其中,S_i是基函数在设计点上的取值矩阵,γ_ij是第j个生物标志物对应的系数向量。误差项被明确分解为两部分:ε_ij ~ N(0, Ω_ij),刻画同一生物标志物内部重复测量间的相关性;b_i ~ N(0, σ_b^2),是一个受试者水平的随机效应,刻画了来自同一受试者的不同生物标志物测量值之间的额外相关性。ε_ij和b_i相互独立。这种分解巧妙地捕获了前述的两层相关性。此时,连接均值的模型变为:g(μ_i) = α_0 + α_1^T Xi + Σ{j=1}^p η_j^T γ_ij。所有待估参数(包括与临床结局相关的α, η,与生物标志物曲线相关的γ_ij,以及各种方差-协方差参数)被整合到一个联合似然函数中。

其次,在贝叶斯推断框架建立部分,为了解决这个复杂的联合模型并给出参数估计及不确定性度量,研究采用了贝叶斯方法。研究者为所有参数设定了先验分布:对于主要兴趣参数η和α,通常使用多元正态先验;对于生物标志物曲线的系数γ_ij,假设其来自一个以超参数μ_j和Σ_j为均值和协方差的正态分布,并对这些超参数设定了共轭的正态-逆Wishart先验,形成层次模型结构。对于测量误差协方差矩阵Ω_ij,根据数据设计(平衡或不平衡)设定了不同的先验。例如,对于平衡设计,假设Ω_ij = Ω_j对所有受试者相同,并使用逆Wishart分布作为先验;对于不平衡设计,则假设Ω_ij具有自回归AR(1)结构,并对方差参数φ_j和相关系数ρ_j使用平坦先验。由于模型复杂,许多参数没有共轭后验分布,研究者采用马尔可夫链蒙特卡洛方法进行后验抽样,具体结合了Gibbs抽样和自适应Metropolis拒绝抽样算法。通过从后验分布中抽取大量样本,可以获得所有参数(特别是η)的后验均值、标准差以及可信区间。一旦获得η的后验样本,即可通过β_j(t) = s(t)^T ν_j = s(t)^T η_j(当基函数正交时)的关系,重构出权重函数β_j(t)在整个定义域上的后验估计和点态可信带,这提供了生物标志物在不同位置(或时间)对结局影响强度的可视化解读。

第三,在模拟验证部分,为了评估所提出的贝叶斯方法在有限样本下的性能,研究者进行了广泛的模拟研究。模拟考虑了不同类型的结果变量(高斯连续型和二元型)、不同的数据结构(平衡与不平衡设计)以及不同的相关性强度和测量误差大小。研究设置了两个功能性生物标志物,使用勒让德多项式基函数生成其真实曲线。主要评价指标包括参数估计的偏差、均方根误差、后验标准差的均值、蒙特卡洛标准误差以及95%后验可信区间的覆盖率。研究还将提出的贝叶斯方法与一个现有的、忽略相关性的广义功能线性模型估计方法(称为“独立模型”)进行了比较。模拟结果清晰地表明:在存在中度或高度相关性时,贝叶斯方法在估计偏差、精度(更小的均方根误差和蒙特卡洛标准误)以及统计推断的可靠性(95%可信区间的覆盖率更接近名义水平)方面均显著优于独立模型。即使相关性较弱,贝叶斯方法也表现出可比或更优的性能。对于二元结局,在中等样本量下,贝叶斯方法同样表现出良好的性能。这些结果强有力地证明了考虑两层相关性对于提高统计推断效率的必要性,以及所提贝叶斯方法的稳健性和优越性。

第四,在实际数据应用部分,研究者将方法应用于 motivating example——MAP II结直肠癌风险研究的数据集。该研究为病例对照设计,病例为结肠镜检查发现腺瘤(结直肠癌前兆)的个体,对照为未发现腺瘤的个体。研究者关注两个蛋白质功能性生物标志物:APC(一种已知的肿瘤抑制基因)和TGF-α(一种已知的致癌介质)。每个受试者的隐窝被标准化为50个区段,生物标志物的表达水平沿此空间位置测量。分析时,研究者将病例对照状态作为二元结局,并调整了年龄作为标量协变量。采用逻辑斯蒂回归作为连接函数,并使用勒让德多项式作为基函数。通过比较不同基函数数量(q=2,3,4,5)下模型的偏差信息准则值,最终选择q=3作为最佳模型。贝叶斯分析过程成功执行,并输出了所有参数的估计。

该研究的主要结果如下:模拟研究的结果已在上述工作流程中详述,其核心结论是贝叶斯方法在考虑相关性后表现优异。在实际数据分析中,得到了更具体、更有生物学意义的发现。参数估计表显示,年龄(α_1)的效应显著为正,表明年龄增长是结直肠腺瘤的风险因素。更重要的是,两个生物标志物的权重函数估计值(β̂_APC(t) 和 β̂_TGF-α(t))及其95%可信区间被绘制出来。分析结果显示:在隐窝中部区域(大致对应于第15到第35区段),APC的权重函数估计值主要为负,且其可信区间在15-36区段内不包含0,这意味着在这些位置,较低的APC表达水平与较高的腺瘤风险显著相关。相反,TGF-α的权重函数估计值在同一区域主要为正,且其可信区间在9-29区段内不包含0,这意味着较高的TGF-α表达水平与较高的腺瘤风险显著相关。特别地,APC在约第25区段、TGF-α在约第17区段的权重绝对值最大,表明这些位置与风险的关联最强。这些结果与已知的生物学知识相符:APC是抑癌基因,其表达降低应增加风险;TGF-α是促癌因子,其表达升高应增加风险。此外,研究指出,这些关联最强的区域恰好对应于结直肠隐窝中增殖区向分化区过渡的区域,这为进一步理解癌变发生的空间生物学机制提供了统计学证据。与作者之前未考虑相关性及多生物标志物联合分析的半参数方法结果相比,新的贝叶斯方法得到了相似的权重函数形状,但获得了更窄的可信区间,体现了模型效率的提升。

本研究的结论是,成功开发并验证了一种新颖的贝叶斯联合建模框架,用于分析存在测量误差和多重相关性的多个功能性生物标志物与临床结局之间的关联。该方法不仅在统计模拟中表现出优于传统方法的性能,而且在真实的生物医学研究(MAP II研究)中得到了有意义的应用,揭示了APC和TGF-α蛋白表达沿隐窝空间分布与结直肠癌风险关联的具体模式,尤其是在隐窝功能过渡区的关联最为显著。

该研究的亮点主要体现在以下几个方面:第一,方法学创新性强。这是首次明确提出并系统解决多个功能性生物标志物之间相关性建模问题的方法学研究,明确分解并建模了“组内”(同一生物标志物重复测量)和“组间”(不同生物标志物之间)两层相关性,填补了现有方法的空白。第二,模型实用且灵活。提出的贝叶斯框架能够同时处理测量误差、平衡与不平衡设计、连续与离散结局,具有很强的实用性。第三,应用驱动,意义明确。研究源于实际的生物医学问题(MAP II研究),方法的应用直接产生了具有生物学洞察力的结果,验证了方法的价值。第四,推断完整。贝叶斯方法天然地提供了所有参数的全概率不确定性量化(可信区间),便于进行稳健的统计推断。第五,计算可实现。虽然模型复杂,但研究者通过精心设计的MCMC算法使其计算可行,并提供了具体实施细节。

此外,论文还讨论了一些有价值的延伸内容,例如:该方法可扩展至不同生物标志物使用不同数量基函数的情形;未来可研究方向包括将变量选择融入贝叶斯框架以处理大量生物标志物、使用更高效的MCMC采样算法(如哈密顿蒙特卡洛)加速计算、以及探讨在频率主义框架下拟合此类联合模型的可能性等。这些讨论为后续研究指明了方向。这项研究为生物医学领域中日益常见的复杂功能数据关联分析提供了一个强大、可靠且富有洞察力的统计工具。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com