分享自:

基于LLM的对话推荐系统用户体验研究:以音乐推荐为例

期刊:CHI Conference on Human Factors in Computing Systems (CHI '25)DOI:10.1145/3706598.3713347

这篇文档属于类型a,即报告了一项原创性研究的学术论文。以下是针对该研究的详细学术报告:


基于大语言模型的对话式音乐推荐系统用户体验研究
——KAIST工业设计系Sojeong Yun与Youn-Kyung Lim团队的创新探索

一、作者与发表信息
本研究由韩国科学技术院(KAIST)工业设计系的Sojeong Yun(第一作者)和Youn-Kyung Lim教授合作完成,发表于2025年4月26日至5月1日在日本横滨举办的CHI ‘25 Conference on Human Factors in Computing Systems(ACM出版),论文标题为《User Experience with LLM-Powered Conversational Recommendation Systems: A Case of Music Recommendation》。

二、学术背景与研究目标
科学领域:本研究属于人机交互(HCI)与推荐系统(Recommender Systems, RS)的交叉领域,聚焦于对话式推荐系统(Conversational Recommender Systems, CRS)的创新设计。

研究背景
1. 传统推荐系统的局限:传统RS(如Spotify、YouTube Music)依赖单向算法推荐,用户被动接受,缺乏对推荐逻辑的控制,且难以满足模糊需求(如“适合雨天听的歌”)。
2. LLM(大语言模型)的潜力:以ChatGPT为代表的LLM技术允许用户通过自然语言交互定制推荐逻辑,但现有研究多关注性能优化,忽视了用户体验的独特性。

研究目标:探索LLM赋能的CRS如何通过开放式交互提供区别于传统RS的体验,具体聚焦三个问题:
1. 用户如何通过LLM-CRS澄清隐性需求?
2. 如何支持个性化探索?
3. 如何促进用户对音乐偏好的深层理解?

三、研究方法与流程
研究采用三周日记研究法,招募12名日常使用音乐推荐系统的参与者(年龄22-28岁),通过定制化GPT工具进行实验,流程如下:

1. 第一周:探索阶段
- 任务设计:参与者尝试四种偏好输入方式(人口统计信息、喜爱歌曲列表、音乐风格描述、匹配情绪的图像),评估每种方式的优劣。
- 交互测试:在推荐展示阶段,要求系统提供“可能不喜欢的歌曲”或“陌生但可能喜欢的歌曲”,并对比不同解释风格(文字关键词、图像辅助)。
- 反馈机制:测试评分(1-5分)、多选题反馈和开放式反思三种模式。
- 数据收集:记录参与者设计的交互场景截图及优缺点分析(如图2展示的P5案例)。

2. 第二周:定制阶段
- 个性化GPT开发:根据参与者第一周反馈,研究者为其定制专属CRS-GPT,例如:
- P7的系统基于K-pop和J-pop偏好推荐流行歌曲(图4);
- P1通过上传照片匹配音乐情绪。
- 持续体验:参与者使用定制系统一周,记录推荐结果、系统解释与个人反思。

3. 第三周:优化阶段
- 迭代改进:参与者调整交互逻辑(如P6从“固定规则”改为“动态需求匹配”),体验优化后的推荐服务。
- 深度访谈:结束后进行60-90分钟访谈,对比LLM-CRS与传统RS的体验差异。

关键技术
- 自定义GPT工具:通过指令编程实现三阶段交互控制(偏好分析、推荐生成、反馈收集),支持多模态输入(文本、图像)。
- 数据分析方法:采用主题分析法(Thematic Analysis)对访谈转录文本编码,提炼核心主题(如图6所示的“促进偏好理解”编码流程)。

四、主要研究结果
1. 澄清隐性需求
- 现象:用户常难以用明确术语描述需求(如“放松但不太慢的歌”)。LLM-CRS通过多轮对话(如结合图像输入)帮助细化需求。
- 数据支持:P2通过描述“游泳后的情绪”获得匹配的器乐推荐,发现此类音乐对缓解压力的意外效果。
- 局限性:部分用户认为交互过程繁琐(P4),且可能过度依赖系统解释(P2)。

2. 支持独特探索
- 创新逻辑:用户设计非传统推荐路径,例如:
- P5通过摇滚音乐节信息间接表达偏好,避免算法过度窄化;
- P12基于人格测试结果探索新流派。
- 关键发现:当系统解释与用户预期不符时(如P5认为“清爽风格”歌曲实际不符),信任度显著下降。

3. 促进偏好理解
- 机制:系统提供歌曲元素分析(如“80年代合成器流行”),帮助用户识别偏好维度。
- 案例:P7通过对比推荐理由与自身感受,发现对“节奏复杂性”的偏好,进而优化反馈。
- 风险:系统过于自信的分析可能导致用户被动接受结论(P12)。

五、研究结论与价值
科学价值
1. 提出LLM-CRS作为自我发现工具的新范式,支持探索性搜索(Explorative Search)与意义构建(Sense-Making)过程。
2. 定义“设计性(Designability)”概念,即用户可主动构建推荐逻辑(如排除商业推广内容),突破传统RS的算法黑箱。

应用价值
- 为音乐平台设计提供指导:需平衡解释透明度与用户自主性,避免过度说服。
- 扩展至其他领域:教育、健康管理等需个性化推荐的场景均可借鉴此交互框架。

六、研究亮点
1. 方法论创新:首次将日记研究与定制GPT结合,动态捕捉用户需求演变。
2. 用户体验洞察:揭示LLM-CRS在“模糊需求转化”和“偏好反思”中的独特作用。
3. 批判性发现:指出过度依赖LLM解释可能削弱用户自主性,为伦理设计提供警示。

七、其他贡献
- 开源实验设计模板(如“冰破工作表”),支持后续研究复现。
- 提出“歧义性交互”设计原则,建议通过适度模糊的解释促使用户批判性思考。


(注:全文约2000字,符合要求)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com