这篇文档属于类型a(单篇原创研究论文),以下是针对该研究的学术报告:
作者及机构
本研究由快手科技的Changshuo Zhang*、Zihan Lin*、Shukai Liu†(通讯作者)、Yongqi Liu和Han Li共同完成,发表于2025年4月的ACM Web Conference(WWW Companion ‘25)会议论文集。
研究领域与动机
该研究属于推荐系统与用户行为建模交叉领域,聚焦于短视频平台(如快手、TikTok)中评论区的用户停留时间(staytime)预测问题。传统视频推荐系统主要关注观看时长(watchtime)预测,但忽视了用户在评论区的交互行为(如阅读、点赞、回复)对整体参与度的影响。停留时间作为用户兴趣建模的关键指标,能更全面地反映用户与内容的深层互动。
科学问题与目标
现有方法难以直接适用于停留时间预测,因其需同时建模用户与多条评论的细粒度交互及评论间的关联性。为此,作者提出两个核心目标:
1. 构建首个公开的短视频评论数据集Kuaicomt,包含用户-视频-评论三元交互数据;
2. 设计两阶段框架LCU(LLM-enhanced Comment Understanding),通过大语言模型(LLM)增强评论语义理解,并结合辅助任务提升预测精度。
数据构建
基于Kuaicomt数据集(34,701用户、82,452视频、1,600万条评论),设计三类领域任务:
1. 停留时间分桶预测(Staytime Bucketing Prediction):将停留时间划分为不同区间(如短、中、长),预测用户所属区间;
2. 热门评论预测(Top Comment Prediction):识别评论区中最可能获高互动的评论;
3. 用户-评论交互预测(User-Comment Interaction Prediction):个性化预测用户对特定评论的互动概率(点赞/回复)。
模型微调
采用监督微调(Supervised Fine-Tuning, SFT)策略,混合领域任务数据与通用数据(Alpaca-GPT4),比例1:1:1:3。选用Qwen2-7B模型,通过LoRA(Low-Rank Adaptation)技术高效适配,生成视频与评论的预训练嵌入表(Embedding Tables)。
架构设计
1. 特征融合:将LLM生成的嵌入(视频$e_v$、评论$e_c$)与传统特征(用户$X_u$、视频$X_v$、评论$X_c$)拼接,经多层感知机(MLP)与多头自注意力层(MHSA)交互;
2. 辅助任务:
- 用户无关评论排序(User-Agnostic Ranking):预测评论的全局受欢迎程度(ListMLE损失);
- 用户相关评论排序(User-Specific Ranking):预测个性化互动概率(二元交叉熵损失)。
损失函数
总损失为停留时间预测损失(MAE/RMSE)与两项辅助任务的加权和($\lambda_1, \lambda_2$可调)。