本研究由Rong Jiang(东华大学)和Keming Yu(安庆师范大学/Brunel University London)合作完成,于2022年发表在期刊《Neurocomputing》第508卷上。论文题为《Renewable quantile regression for streaming data sets》,针对大数据流环境中的分位数回归(quantile regression, QR)建模问题,提出了一种创新的在线更新方法。
分位数回归作为传统均值回归的拓展,能全面分析因变量条件分布的异质性特征,在经济学、生物医学等领域应用广泛。然而,面对以高速、海量、持续到达为特征的流数据(streaming data),传统分位数回归面临两大挑战:(1)存储瓶颈——历史原始数据无法全部保存;(2)计算效率——每次新数据到达需重新拟合全局模型。虽然Chen等人(2019)提出了流数据分位数回归方法,但其需要强假设条件(数据批次数量B需满足B = o(n_j^c), c < 1/3),限制了实际应用。
本研究旨在开发无需强假设条件的可再生分位数回归方法,通过动态整合当前批次数据与历史摘要统计量,实现参数估计和变量选择的在线更新,最终达到与全数据批量处理相同的渐近效率。
针对分位数损失函数不可导的问题,研究采用核平滑技术(kernel smoothing)对检查函数(check function)进行连续逼近,构建凸且二阶可导的目标函数:
$$ \hat{\beta}_h = \arg\minb \frac{1}{n} \int \rho\tau(t) K_h(t - y_i + x_i^\top b) dt $$
其中$K_h(\cdot)$为高斯核函数,带宽$h_j = (n_j \ln n_j)^{-1⁄4}$。该方法的梯度与Hessian矩阵具有显式表达式,为后续在线更新奠定基础。
核心思想:仅保存历史数据的充分统计量(参数估计$\hat{\beta}{b-1}$和加权信息矩阵$\tilde{J}{b-1}$),通过增量式方程更新当前估计:
$$ \frac{1}{nb} \left[ \tilde{J}{b-1} (\hat{\beta}b - \hat{\beta}{b-1}) + u(D_b, \hat{\beta}_b, h_b) \right] = 0 $$
实现步骤:
1. 初始化:对第一批数据$D_1$计算SQR估计$\hat{\beta}_1$和信息矩阵$J(D_1, \hat{\beta}_1, h_1)$。
2. 迭代更新:对第$b$批数据$D_b$,通过牛顿-拉夫森法求解上述方程,仅需当前数据$Db$和历史统计量$\tilde{J}{b-1}$、$\hat{\beta}_{b-1}$。
3. 存储释放:更新$\tilde{J}b = \tilde{J}{b-1} + J(D_b, \hat{\beta}_b, h_b)$后丢弃原始数据$D_b$。
将SCAD惩罚函数(Smoothly Clipped Absolute Deviation)引入在线框架,通过局部自适应Majorization-Minimization(LAMM)算法实现稀疏估计:
$$ \tilde{\beta}_b = \arg\minb \left| b - \tilde{\beta}{b-1} \right|{\tilde{J}{b-1}}^2 + \frac{1}{nb} S{h_b}(Db, b) + p{\lambdab}(|b|) $$
其中惩罚项导数$p’{\lambda}(\cdot)$通过自适应线性近似处理,调和参数$\lambda_b$通过在线BIC准则选择。
在以下条件下(C1-C3):核函数性质、条件密度光滑性、协变量有界性,证明:
- 一致性:$\sqrt{n_b}(\hat{\beta}_b - \beta_0) \xrightarrow{d} N(0, \tau(1-\tau)\Sigma^{-1}\Gamma\Sigma^{-1})$,与全数据SQR估计同分布。
- Oracle性质:变量选择方法具有稀疏性和渐近正态性,且无需批次数量限制。
该研究通过创新的平滑技术与在线更新机制,为流数据分位数回归提供了高效、可靠的解决方案。其理论贡献和实用工具(如Algorithm 1-3)将为统计学、机器学习交叉领域的研究者提供重要参考,特别是在需要实时建模与稀疏识别的应用场景中展现出独特优势。