晚期头颈癌纵向生物标志物与终点事件的边际化两部分联合模型

分享自：
晚期头颈癌纵向生物标志物与终点事件的边际化两部分联合模型

期刊:Pharmaceutical StatisticsDOI:10.1002/pst.2338
关于《一种用于纵向生物标志物和终末事件的边际化两部分联合模型及其在晚期头颈癌中的应用》的学术研究报告
一、 研究作者、机构与发表信息
本研究由 Denis Rustand (第一作者兼通讯作者，来自法国波尔多大学、波尔多人口健康研究中心INSERM UMR1219，以及沙特阿拉伯阿卜杜拉国王科技大学)、Laurent Briollais (加拿大多伦多大学、西奈山医院Lunenfeld-Tanenbaum研究所) 和 Virginie Rondeau (法国波尔多大学、波尔多人口健康研究中心INSERM UMR1219) 共同完成。该研究于2023年9月3日被接受，并发表在期刊《Pharmaceutical Statistics》2024年第23卷第60-80页。该期刊由John Wiley & Sons Ltd.出版，本文是一篇开放获取文章。
二、 学术背景与研究目的
本研究属于生物统计学、临床肿瘤学试验设计与纵向数据分析的交叉领域。具体聚焦于联合模型 (Joint Model) 的统计方法学发展，用于同时分析纵向数据 (Longitudinal Data) 和生存数据 (Survival Data)。
研究背景： 在实体瘤癌症临床试验中，靶病灶最长直径之和 (Sum of the Longest Diameter, SLD) 是一个关键的纵向生物标志物，用于评估肿瘤负荷随时间的变化，从而反映早期治疗效果。然而，SLD数据的分布具有两个显著特征：1) 零值过多 (因治疗导致肿瘤完全消失的患者其SLD值为0)；2) 右偏态分布 (非零值呈偏态分布)。传统的统计模型，如将零值视为左删失 (Left-censoring) 的单一部分联合模型 (One-Part Joint Model, OPJM)，无法有效处理这种“真实零值”所携带的信息，可能导致对治疗效果的错误推断。
为了处理零值过多的问题，先前的研究（包括本文作者团队的工作）引入了条件化两部分联合模型 (Conditional Two-Part Joint Model, C-TPJM)。该模型将生物标志物的分布分解为两部分：一个二元部分 (Binary Part) 建模出现正值（vs. 零值）的概率，一个连续部分 (Continuous Part) 在给定出现正值的条件下建模SLD的取值。这两部分通过相关的随机效应 (Random Effects) 连接。然而，C-TPJM存在一个关键局限：它只能提供协变量（如治疗方案）对条件均值 (Conditional Mean) （即仅针对出现正值的患者子群体）的影响，而无法直接估计对边际均值/总体均值 (Marginal Mean / Overall Mean) （即针对全体患者，包含零值）的影响。在临床试验中，评估治疗对生物标志物总体均值的影响通常更具临床相关性，例如用于支持监管机构（如FDA）的审批决策。
研究目的： 为解决C-TPJM的上述局限，本文提出了一种新的边际化两部分联合模型 (Marginalized Two-Part Joint Model, M-TPJM)。该模型的核心创新在于，其连续部分直接建模协变量对生物标志物总体均值的影响，同时二元部分仍处理零值概率。M-TPJM旨在结合C-TPJM（能处理零值）和OPJM（能提供总体均值效应）的优点，为临床决策提供更直接、更全面的信息。此外，本研究还详细对比了M-TPJM与C-TPJM、左删失OPJM在模拟研究和实际数据应用中的表现，并阐述了不同模型的临床解释差异。
三、 研究详细流程与方法
本研究是一项统计方法学研究，其流程主要包括模型构建、模拟研究、实际数据应用三个核心部分，并辅以详细的模型估计和比较方法。
1. 模型构建 (M-TPJM框架) * 纵向部分 (Two-Part Submodel): * 二元部分： 与C-TPJM类似，使用带有Logit链接的广义线性混合模型 (Generalized Linear Mixed Model, GLMM) 建模患者 i 在第 j 次访视时SLD为正值（>0）的概率。公式为：logit(P(y_ij > 0 | a_i^m)) = X_a_ij^T * α^m。其中，a_i^m 是患者特异性的随机效应。 * 连续部分 (关键创新点)： 与C-TPJM不同，M-TPJM的连续部分直接建模总体均值 E(y_ij | b_i^m)。假设y_ij服从对数正态分布，其位置参数 μ_ij^m 通过以下公式与二元部分关联：μ_ij^m = X_b_ij^T * β^m - log[P(y_ij > 0 | a_i^m)] - (σ_ε^m)^2 / 2。这使得 exp(X_b_ij^T * β^m) 可以直接解释为对SLD总体均值的（乘法）效应。 * 随机效应： 二元部分和连续部分的随机效应 a_i^m 和 b_i^m 服从多元正态分布，其相关性结构捕捉了零值概率与生物标志物总体均值之间的潜在关联。 * 生存部分 (Survival Submodel): 使用Cox比例风险模型建模死亡风险。风险函数为：λ_i(t) = λ_0(t) * exp(X_s_i^T * γ + h(·)^T * φ)。其中 h(·) 是关联函数，连接纵向生物标志物信息与死亡风险。 * 关联结构 (Association Structures): 本研究提出了两种关联结构： * 共享随机效应 (Shared Random Effects, SRE): 将纵向模型中的随机效应直接纳入生存模型的风险函数。这解释了由这些随机效应捕获的个体异质性对死亡风险的影响。 * 当前值 (Current Level / Current Value, CL): 将生物标志物在时间 t 的期望值 E(y_i(t) | b_i^m) （对于M-TPJM）或 E(y_i(t) | a_i^c, b_i^c) （对于C-TPJM，这是一个更复杂的组合）纳入生存模型。这直接量化了生物标志物当前水平与死亡风险之间的关联强度 (φ)。 * 估计方法： 采用惩罚似然法 (Penalized Likelihood Approach) 进行模型估计。使用M-样条 (M-splines) 灵活地近似基线风险函数 λ_0(t)。由于随机效应的积分没有解析解，采用蒙特卡洛积分 (Monte-Carlo Integration) 进行数值近似，这种方法比高斯-埃尔米特求积法更能适应高维随机效应和复杂模型（如包含随机斜率）。
2. 模拟研究 (Simulation Study) 为了评估和比较M-TPJM、C-TPJM和左删失OPJM的性能，研究者设计了三个模拟场景： * 场景1： 真实数据生成机制是M-TPJM。 * 场景2： 真实数据生成机制是C-TPJM。 * 场景3： 真实数据生成机制是左删失OPJM（将最小的10%观测值视为删失）。 * 设计： 每个场景生成300个模拟数据集，每个数据集包含400名个体。生物标志物测量次数中位数为2，死亡率为80%（模仿实际数据）。模型中包含一个二元治疗协变量及其与时间的交互项。评估指标包括参数估计的偏差 (Bias) 和覆盖率 (Coverage Probability)。 * 分析流程： 在每个模拟数据集上，分别用M-TPJM、C-TPJM和OPJM进行拟合（均采用CL关联结构），比较各模型参数估计值与真实值的接近程度以及95%置信区间的覆盖概率。此外，还在补充材料中进行了零值比例更高（20%）的模拟。
3. 实际数据应用 (Application) 将提出的M-TPJM应用于一个真实的晚期头颈癌随机临床试验数据——SPECTRUM研究。 * 数据来源： 数据来自Project Data Sphere平台公开的个体患者数据。 * 研究对象： 分析子集包含449名转移性和/或复发性头颈鳞状细胞癌患者。其中327名接受化疗+帕尼单抗（Panitumumab，抗EGFR单抗）联合治疗（B组），330名接受单纯化疗（A组）。中位总生存期（OS）A组为0.61年，B组为0.81年。共收集了1913次SLD测量值，其中161个为零值（8%）。 * 分析流程： * 模型拟合： 分别用M-TPJM（CL和SRE关联）、C-TPJM（CL和SRE关联）以及左删失OPJM（CL和SRE关联）对数据进行分析。 * 模型设定： 纵向部分包含治疗、时间及其交互项。由于基线时所有患者SLD>0，二元部分截距被固定为一个较大值（8.0）以确保稳定性。生存部分包含治疗效应。 * 模型比较： 使用似然交叉验证准则 (Likelihood Cross-Validation Criterion, LCV) 比较模型拟合优度。 * 结果解释： 重点比较不同模型下，治疗对SLD零值概率、SLD总体均值（或条件均值）的影响，以及治疗通过生物标志物对生存的间接影响。
四、 主要研究结果
1. 模拟研究结果： * 场景1 (真实模型为M-TPJM): M-TPJM能准确恢复所有参数，覆盖率接近95%。左删失OPJM在连续部分参数估计上存在严重偏差，特别是截距和时间-治疗交互项，且无法正确处理零值。C-TPJM的二元部分参数估计无偏，但其连续部分参数（针对条件均值）与M-TPJM的连续部分参数（针对总体均值）含义不同，不可直接比较。所有模型在生存部分的参数（治疗独立效应和关联参数）估计均表现良好。 * 场景2 (真实模型为C-TPJM): C-TPJM表现最佳。M-TPJM在二元部分参数估计上出现偏差，因为它假设二元部分与连续部分通过公式(3)存在关联，而模拟数据中两者在给定随机效应下是独立的。M-TPJM未能完全捕捉C-TPJM生成的非线性总体均值轨迹（图2）。左删失OPJM再次出现严重偏差。 * 场景3 (真实模型为左删失OPJM): 左删失OPJM表现最佳。M-TPJM在连续部分参数估计上基本无偏，但覆盖率略有下降。C-TPJM出现了收敛问题（73%的收敛率），因为其二元部分需要估计一个趋向无穷大的截距（基线零值概率接近0），在固定截距后问题解决。 * 高零值比例模拟： 结论与上述相似，但当模型设定错误时，偏差程度随着零值比例增加而增大。 * 关键结论： 左删失OPJM在存在真实零值时会产生严重有偏估计。C-TPJM在不是真实模型时，会对生物标志物总体均值的推断产生偏差。M-TPJM在大多数情况下能提供准确的推断，除非生物标志物的时间趋势在对数尺度上非线性（此时需要在模型中纳入时间的光滑函数）。
2. 实际数据应用结果： * 模型拟合优度： LCV准则表明，M-TPJM的拟合优度优于C-TPJM（差异为中等程度），且CL关联略优于SRE关联。 * M-TPJM主要发现 (采用CL关联): * 二元部分： 时间效应显著为负（α_time = -3.67），表明随时间推移，观察到SLD>0的概率降低（即完全缓解概率增加）。治疗与时间的交互项显著为负（α_time*trt = -2.02），表明B组（化疗+帕尼单抗）患者获得零值SLD（完全缓解）的几率随时间增加的速度显著快于A组（单纯化疗）。 * 连续部分 (总体均值)： 时间效应显著为负（β_time = -0.68），exp(-0.68)=0.51，意味着A组患者SLD总体均值每年下降约49%。治疗主效应及其与时间的交互项均不显著，表明两组患者在SLD总体均值的下降趋势上无统计学差异。 * 生存部分： 治疗对死亡风险的独立直接效应不显著（γ_trt = -0.05, p>0.05）。当前值关联参数显著为正（φ = 0.08），exp(0.08)=1.08，意味着SLD每增加1 cm，死亡风险增加约8%。 * 模型比较： * vs. 左删失OPJM: OPJM估计的SLD下降趋势更陡峭（β_time = -0.87），残差标准差更大，表明其对数据的拟合不如M-TPJM。OPJM也发现了随机效应与生存的显著关联。 * vs. C-TPJM: C-TPJM在二元部分参数估计的标准误更大，不确定性更高。其连续部分参数解释的是治疗对“正值SLD的条件均值”的影响，与M-TPJM的“总体均值”效应不可比。两者在生存部分的参数估计相似。 * 临床解释示例： 利用M-TPJM的CL关联结构，可以计算治疗在特定时间点的风险比。例如，对于参考个体（≤65岁女性），随机化后1年时，B组 vs. A组的风险比为0.93 (95% CI: 0.75-1.16)，表明联合治疗通过降低SLD带来了轻微的生存获益趋势，但未达到统计学显著性。这一计算在C-TPJM中更为复杂，需要组合二元和连续两部分的信息。
五、 研究结论与价值
本研究成功提出并验证了一种新的统计模型——边际化两部分联合模型（M-TPJM），用于分析具有零值过多的纵向生物标志物与终末事件的联合数据。
科学价值： 1. 方法学创新： M-TPJM填补了现有联合模型方法的一个空白，首次在联合建模框架内实现了对生物标志物总体均值的直接建模，同时妥善处理了零值问题。它提供了比C-TPJM更直接的总体平均效应估计，比左删失OPJM更准确的模型设定。 2. 灵活性提升： 提出的估计框架（惩罚似然+蒙特卡洛积分）允许纳入更复杂的随机效应结构（如随机斜率），并支持两种具有不同临床解释的关联结构（SRE和CL），增强了模型的适用性。 3. 明确指导： 通过系统的模拟和实际应用，清晰阐明了M-TPJM、C-TPJM和OPJM各自的适用场景、估计性能及结果解释的差异，为应用研究者提供了明确的方法选择指南。
应用价值： 1. 服务于临床决策： 在癌症临床试验中，监管机构和临床医生更关注治疗对患者整体生物标志物水平（包含有反应和无反应者）的影响。M-TPJM直接提供的总体均值效应估计，更符合这种决策需求。 2. 提升推断准确性： 在存在大量真实零值（如肿瘤完全缓解）的情况下，使用错误的模型（如左删失OPJM）可能导致对治疗效果的严重误判。M-TPJM为这类数据的分析提供了更稳健的工具。 3. 量化间接效应： 通过CL关联结构，M-TPJM可以量化治疗通过影响生物标志物（如降低SLD）而对生存产生的间接效应，有助于理解治疗的作用机制。
六、 研究亮点
核心创新点明确： 首次在联合模型中实现了对半连续型纵向生物标志物边际均值（总体均值） 的直接建模，解决了C-TPJM只能提供条件均值效应的关键局限。
全面的方法学对比： 不仅提出了新模型，还通过精心设计的模拟研究，在多种数据生成机制下，与现有主流方法（C-TPJM, OPJM）进行了详尽的性能比较，充分展示了M-TPJM的优势和适用边界。
紧密联系实际应用： 使用真实的晚期头颈癌III期临床试验数据演示了M-TPJM的应用，并给出了清晰、具有临床意义的解释（如治疗提高完全缓解几率、SLD水平与死亡风险直接相关等），证明了其解决实际问题的能力。
提供实用工具： 作者已将模型实现并集成到R语言软件包frailtypack的longiPenal函数中，便于其他研究者使用和推广。
七、 其他有价值内容
对关联结构的深入讨论： 文章详细区分了SRE和CL两种关联结构的临床解释。SRE关联有助于理解个体异质性（如基线肿瘤大小偏离平均水平的程度）如何影响生存；CL关联则直接量化了生物标志物当前水平与死亡风险的动态关联。这帮助使用者根据研究问题选择合适的关联形式。
计算效率： 文章指出，在本次应用中，M-TPJM的计算时间介于C-TPJM和OPJM之间，但因其提供了更直接且临床相关的估计，这种计算成本的增加是可接受的。
模型选择建议： 文章最后总结指出，M-TPJM和C-TPJM是互补的，回答不同的临床问题。如果兴趣在于生物标志物总体均值与终末事件的关联，应优先选择M-TPJM；如果兴趣在于分别理解零值概率和正值条件均值与终末事件的关联，则应使用C-TPJM。这为后续研究者的模型选择提供了重要依据。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问