该研究由Xuming He(密歇根大学统计系)、Xiaoou Pan(加州大学圣地亚哥分校数学系)、Kean Ming Tan(密歇根大学统计系)和Wen-Xin Zhou(加州大学圣地亚哥分校数学系)合作完成,发表于《Annals of Statistics》期刊。
本研究属于统计机器学习领域,聚焦于删失分位数回归(Censored Quantile Regression, CQR)方法在高维数据下的扩展。在生物医学(如生存分析)、金融风险管理等领域,响应变量常因观测限制而出现右删失(right censoring)现象。传统方法如Cox比例风险模型和加速失效时间模型只能捕捉协变量的同质效应,而CQR能揭示协变量在不同分位点上的异质影响。然而,现有CQR方法在大规模高维数据(协变量维度p>>样本量n)中存在计算效率低和统计推断困难两大瓶颈。
研究团队提出了平滑化估计方程(Smoothed Estimating Equations, SEE)框架,其关键技术路线包括: 1. 核平滑技术:采用对称非负核函数k(u)及其积分形式k̄(u)替代原估计方程中的不连续指示函数,如将1(u≥0)近似为k̄(u/h)。核函数需满足κ_u=sup k(u)<∞,且在|u|≤c区间有κ_l=min k(u)>0。 2. 序列优化算法:在分位点网格τ_l=τ_0<τ_1<…<τ_m=τ_u上,通过以下两步实现估计: - 初始分位点τ_0:求解平滑方程q̂_0(β)=n^(-1)∑[Δ_i k̄_h(-r_i(β))-τ_0]x_i=0 - 后续分位点τ_k:迭代求解含历史估计项的方程q̂_k(β),其中整合了前k-1个分位点的估计结果 3. 惩罚正则化扩展:对高维稀疏场景(p>n),在目标函数中加入ℓ_1惩罚项,采用主化-最小化(Majorize-Minimization)类算法求解。
研究团队建立了统一的理论框架,涵盖以下关键结果: 1. 收敛速率:在亚线性增长维度条件(p=o(n^a),a)下,证明估计量具有均匀收敛速率O(√(s log p/n)),显著改进了现有文献中exp(cs)√(s log p/n)的约束 2. Bootstrap推断:提出基于Rademacher乘数的加权Bootstrap方法,严格证明了其在渐近条件下的有效性 3. Bahadur表示:建立了估计误差ê(τ)的随机积分表示,揭示了序列估计过程中误差积累的精确量化形式
针对传统方法(如Peng-Huang算法)在基因表达数据(p=22,283,n=442)上面临的计算瓶颈(170小时 vs 新方法2分钟),研究团队通过: 1. 梯度优化:利用平滑后损失函数二阶可导的特性,采用拟牛顿算法替代线性规划 2. 并行计算:设计可扩展的分布式实现方案 3. 正则化路径:创新性地提出膨胀惩罚参数序列λ_k={1+log((1-τ_l)/(1-τ_k))}λ_0,避免交叉验证的高成本
该研究为处理高维删失数据开辟了新途径,其提出的乘数Bootstrap方法为复杂依赖结构下的统计推断提供了通用范式。开源代码(GitHub: xiaooupan/scqr)已在实际生物医学研究中获得应用。未来可望扩展至区间删失、双重删失等更复杂场景。