这篇文档属于类型b(综述类论文),以下是针对中文读者的学术报告:
作者与机构
本文由V.T. Farewell(英国剑桥大学公共卫生学院医学研究委员会生物统计单位)、D.L. Long(美国西弗吉尼亚大学生物统计系)、B.D.M. Tom、S. Yiu和L. Su(均来自剑桥大学)合作完成,发表于《Annual Review of Statistics and Its Application》2017年3月刊。
主题与背景
论文题为《Two-Part and Related Regression Models for Longitudinal Data》,系统综述了纵向数据中“两部分模型”(two-part models)的应用与挑战。这类模型适用于存在大量零值或半连续数据(semicontinuous data)的场景,例如医学研究中零膨胀计数数据(zero-inflated count data)或生活质量评分数据。其核心思想是将数据生成过程分为两部分:一部分建模二元响应变量(如是否为零),另一部分建模条件响应变量(如非零值的分布)。
主要观点与论据
1. 两部分模型的理论基础与类型
- 模型结构:论文以Aitchison(1955)提出的半连续数据模型为起点,介绍了两部分模型的基本形式,包括零膨胀泊松模型(zero-inflated Poisson, ZIP)和跨栏模型(hurdle models)。
- 纵向数据扩展:传统两部分模型通过引入随机效应(random effects)处理纵向数据的组内相关性,例如Olsen & Schafer(2001)提出的混合效应模型,其中二元部分和连续部分的随机效应可存在相关性(如ρ≠0)。
模型估计的挑战与解决方案
边际推断与模型变体
移动者-停留者模型(Mover-Stayer Models)
实际应用与案例
论文价值与意义
本文为处理纵向零膨胀数据提供了方法学框架,尤其强调:
1. 相关性假设的必要性:忽略随机效应相关性会导致参数估计偏差;
2. 边际化模型的临床意义:直接建模总体均值更符合实际需求;
3. 分布选择的敏感性:不同随机效应分布对亚组存在性的结论影响显著。
亮点
- 首次系统比较了纵向两部分模型的估计偏差问题;
- 提出边际化ZIP模型,解决了传统ZIP模型参数解释困难的问题;
- 通过PsA和HIV案例,展示了方法在遗传流行病学和行为干预中的应用潜力。
(注:全文约1500字,涵盖原文核心内容,术语翻译如“two-part models”首次出现时标注英文,后续使用中文表述。)