这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
大型语言模型在推荐系统中的高效微调方法研究
作者及机构
本研究由新加坡国立大学的Xinyu Lin、Wenjie Wang(通讯作者)、Tat-Seng Chua,香港理工大学的Yongqi Li,香港大学的Shuo Yang,中国科学技术大学的Fuli Feng(通讯作者)以及莫纳什大学的Yinwei Wei共同完成。论文发表于2024年7月的ACM SIGIR国际信息检索会议(SIGIR ‘24),标题为《Data-Efficient Fine-Tuning for LLM-Based Recommendation》。
学术背景
研究领域聚焦于基于大型语言模型(LLM)的推荐系统优化。随着LLM在点击率预测(CTR)、序列推荐等任务中展现出潜力,微调(fine-tuning)成为其适应推荐数据的关键步骤。然而,LLM在快速增长的推荐数据上微调的高成本(如TikTok每日新增9,420亿次交互)限制了实际应用。传统核心集选择(coreset selection)方法依赖启发式指标或复杂优化,难以兼顾效率与准确性。为此,本研究提出数据剪枝(data pruning)任务,旨在为LLM的少样本微调(few-shot fine-tuning)筛选代表性样本,目标包括:
1. 高准确性:识别对整体性能影响大的样本;
2. 高效率:降低剪枝过程的计算成本。
研究流程与方法
问题建模与算法设计
- 核心挑战:
- 准确评估样本移除对经验风险的影响需留一法重训练(leave-one-out retraining),计算成本高;
- 代理模型(surrogate model)与LLM的能力差异可能导致样本选择偏差。
- 解决方案:提出DEALRec方法,结合两种评分机制:
- 影响力评分(Influence Score):基于影响函数(influence function)和二阶优化技术,估计样本移除对经验风险的影响。通过对称性加速计算,仅需一次估计即可覆盖所有样本。
- 努力评分(Effort Score):计算样本损失对LLM参数的梯度范数,衡量LLM拟合样本的难度,以弥补代理模型与LLM的差距。
- 分层采样策略:将样本按总分分组后分层采样,避免贪婪选择导致的覆盖不足问题。
实验验证
- 数据集:使用Amazon的Games(34万交互)、MicroLens-50K(36万交互)和Book(530万交互)三个真实数据集,按8:1:1划分训练/验证/测试集。
- 基线方法:对比随机采样、难度导向方法(GRAND、EL2N)、多样性方法(TF-DCon、RecRanker)及覆盖增强方法(CCS)。
- LLM模型:在BigRec(基于LLaMA-7B)和Tiger(基于Transformer)上实例化DEALRec,采用LoRA参数高效微调技术。
- 评估指标:Recall@K和NDCG@K(K=10/20或20/50)。
计算优化
- 代理模型选择:采用轻量级序列推荐模型SASRec作为代理,其训练时间(0.45小时)较LLM(36.87小时)减少98.78%。
- 高效估计技术:通过随机Hessian-向量积(HVP)和泰勒展开近似加速影响力评分计算。
主要结果
性能对比
- DEALRec在2%样本量下超越全数据微调:
- Games数据集上Recall@20提升18.45%,时间成本降低95.47%;
- MicroLens-50K上NDCG@20提升44.74%,Book上Recall@50提升43.52%。
- 代理模型泛化性验证:SASRec、BERT4Rec和DCRec作为代理时,DEALRec均优于全数据训练。
关键发现
- 影响力评分与努力评分的协同作用:移除任一组件会导致性能下降(如MicroLens-50K上NDCG@20降低8.41%),证实两者互补性。
- 样本选择比例优化:1%样本量即可达到全数据性能,进一步增加样本收益递减。
- 用户行为分析:DEALRec在难样本(高损失组)上的表现显著优于随机采样(Recall@20提升37.29%)。
效率突破
- 剪枝过程仅需1.67小时(Games数据集),较LLM全训练节省97%时间;
- 超参数λ(平衡影响力与努力评分)最优值为0.5-1.0,过高会导致过拟合。
结论与价值
科学意义
- 首次提出面向LLM推荐的数据剪枝任务,为高效微调提供理论框架;
- 通过代理模型和双评分机制,解决了传统核心集选择方法在LLM场景下的局限性。
应用价值
行业影响
- 为短视频、电商等高频更新数据的平台提供实用解决方案,例如TikTok每日新增视频的快速建模。
研究亮点
方法创新
- 首创结合影响力函数与梯度范数的双评分体系,兼顾样本代表性和LLM适配性;
- 分层采样策略提升少样本的数据覆盖,理论保障经验风险边界(参考[57])。
技术突破
- 通过对称性和HVP估计将计算复杂度从O(nm²)降至O(m²),适用于大规模数据;
- 验证了轻量代理模型在LLM任务中的可迁移性。
实证贡献
- 在3个数据集、2种LLM架构上验证普适性;
- 发现1%样本量的“性能饱和点”,为后续研究提供基准。
其他价值
- 讨论部分指出:LLM的上下文窗口限制未来可扩展至交互序列剪枝;
- 附录中对比了不同聚类数K对分层采样的影响,建议K=50以平衡多样性与计算成本。
此研究为LLM推荐系统的落地提供了高效、可扩展的解决方案,同时开辟了数据剪枝与模型轻量化结合的新方向。