本研究由Cathy Mengying Fang(MIT Media Lab)、Phoebe Chua(新加坡国立大学增强人类实验室)、Samantha W. T. Chan(MIT Media Lab与南洋理工大学)、Joanne Leong(MIT Media Lab)、Andria Bao(麻省理工学院)及Pattie Maes(MIT Media Lab)合作完成,发表于CHI Conference on Human Factors in Computing Systems (CHI ‘25),会议时间为2025年4月26日至5月1日,地点为日本横滨。
研究领域:本研究属于人机交互(HCI)与行为科学的交叉领域,结合生成式人工智能(Generative AI)、情感计算(Affective Computing)及自我差异理论(Self-Discrepancy Theory)。
研究动机:传统认知行为疗法(Cognitive-Behavioral Therapy, CBT)依赖心理想象(mental imagery)帮助个体构建理想自我(ideal self),但部分人群存在想象困难。近年来,生成式AI技术(如语音克隆和情感化语言模型)的发展为个性化行为干预提供了新可能。
核心问题:如何通过AI生成的情感化自声(Emotional Self-Voice, ESV),增强个体对理想自我的具身化体验,从而提升目标达成中的心理韧性、动机和承诺?
ESV系统由三个核心模块构成:
1. 理想自我文本生成:
- 使用GPT-4生成符合用户理想自我特质的回应,内容涵盖情绪化语言(如叹息、语气词)以增强表达力。
- 用户需提供具体场景(如“目标失败”或“习惯养成困难”)及理想自我形容词(如“坚韧”“自信”)。
2. 情感语音合成:
- 采用Hume AI的Empathic Voice Interface将文本转化为情感化语音,支持动态语调调整。
3. 语音克隆与个性化:
- 通过ElevenLabs的即时语音克隆API,基于用户1分钟语音样本生成个性化语音,保留原始音色同时注入目标情感(如乐观、坚定)。
技术亮点:
- 动态情感表达:首次结合情感化语言模型(LLM)与语音克隆技术,实现内容与音色的双重个性化。
- 实时交互:用户可通过滑块调整生成回应的“积极性”与“情感强度”,系统响应时间约30秒/句。
研究对象:60名参与者(美国籍,英语流利),随机分为三组:
- ESV组:接收AI生成的文本+克隆自声回应。
- 纯文本组:仅接收文本回应。
- 对照组:仅通过心理想象构建回应。
实验场景:
1. 目标失败场景:反思未达成的个人目标(如职业挫折)。
2. 习惯养成场景:描述难以坚持的习惯(如健康饮食)。
测量指标:
- 情感效价(valence)与唤醒度(arousal):7分量表评估干预前后情绪变化。
- 心理韧性(resilience):采用Benchmark Resilience Tool (BRT)量表。
- 动机与承诺:通过Goal Commitment Measure量表量化。
- 理想自我连续性:改编自Future-Self Continuity Questionnaire,评估理想自我的生动性(vividness)与相似性。
科学价值:
1. 理论验证:首次实证证明生成式自声可作为缩小“现实自我-理想自我”差距的有效干预手段,支持自我差异理论。
2. 方法创新:开发了首个结合情感化LLM与语音克隆的ESV系统,为人机交互中的个性化行为干预提供新范式。
应用价值:
- 心理健康:ESV可辅助CBT治疗,帮助想象困难人群增强自我对话能力。
- 习惯养成:未来可集成至健康类APP,通过每日“理想自我语音提示”提升目标坚持率。
作者建议探索ESV在人际冲突解决中的应用,并研究长期使用对自我认同的影响。此外,需优化语音克隆对非英语口音的适应性,以扩大技术普惠性。
(全文约2200字)