本研究由来自斯坦福大学和Google Research的联合团队完成,主要作者包括Joon Sung Park、Joseph C. O’Brien、Carrie J. Cai、Meredith Ringel Morris、Percy Liang和Michael S. Bernstein。该研究发表于2023年10月29日至11月1日举办的ACM用户界面软件与技术研讨会(UIST ‘23)。
这项研究属于人机交互(Human-Computer Interaction)和人工智能交叉领域,聚焦于”可信人类行为代理”(believable human behavior proxies)的开发。研究团队注意到,尽管大型语言模型(LLM)在模拟人类行为方面取得了显著进展,但现有方法在长期一致性(long-term coherence)和动态社交互动方面仍存在局限。传统方法如有限状态机(finite-state machines)和行为树(behavior trees)需要大量人工编码,而基于强化学习的方法则难以适应开放世界的复杂社交场景。
该研究旨在开发一种新型的”生成式智能体”(generative agents)架构,能够: 1. 模拟人类日常活动(如起床、工作、社交等) 2. 形成并维持人际关系 3. 在群体中实现信息传播和活动协调 4. 对环境变化和用户干预做出合理反应
研究团队提出了一个三层架构: 1. 记忆流(Memory Stream):以自然语言记录智能体的完整经历 2. 反思(Reflection):将记忆合成为更高层次的推论 3. 规划(Planning):将推论转化为具体行为计划
研究团队开发了一个名为”Smallville”的沙盒环境,模拟一个小镇社区。该环境包含: - 25个具有独特背景的生成式智能体 - 多个功能区域(住宅、咖啡馆、商店等) - 可交互的物体(如炉灶、书桌等) - 基于Phaser框架构建的视觉界面
记忆流包含三种类型: 1. 观察(Observation):直接感知的事件记录 2. 反思(Reflection):通过分析记忆生成的高层次推论 3. 计划(Plan):未来行为的时序安排
记忆检索采用三重评分机制: - 时效性(Recency):近期访问的记忆优先级更高 - 重要性(Importance):区分日常事件与核心记忆 - 相关性(Relevance):基于情境的相关度评估
采用自上而下的递归规划方法: 1. 首先生成一天的大致安排(5-8个时间段) 2. 将每个时间段分解为小时级活动 3. 进一步细化为5-15分钟的详细动作
智能体间的对话基于: 1. 对彼此的记忆和关系认知 2. 当前情境和对话历史 3. 通过大型语言模型生成自然回应
研究采用两种评估方式: 1. 控制评估:通过”访谈”测试单个智能体的行为可信度 2. 端到端评估:观察25个智能体两天内的群体行为
评估指标包括: - 记忆准确性 - 计划合理性 - 反应适当性 - 信息传播范围 - 关系形成数量 - 活动协调能力
在控制评估中,完整架构的智能体表现出: 1. 准确的自我认知(如正确描述个人特征和日常安排) 2. 合理的记忆检索(能回忆特定事件和对话) 3. 连贯的长期规划(避免重复或矛盾的行为) 4. 适当的即时反应(如处理突发情况) 5. 深刻的反思能力(能基于经历形成见解)
在端到端评估中观察到: 1. 信息传播: - 市长竞选信息从1人知晓扩展到8人(32%) - 情人节派对信息从1人知晓扩展到13人(52%)
关系形成:
活动协调:
通过消融实验(ablation study)发现: 1. 完整架构表现最佳(Trueskill评分29.89) 2. 缺少反思模块下降至26.88 3. 缺少规划和反思下降至25.64 4. 完全消融(无记忆、无规划、无反思)降至21.21
这项研究为人机交互领域开辟了新方向,通过融合大型语言模型与传统认知架构,首次实现了长期一致、社会性丰富的智能体行为模拟。其技术框架和应用前景都具有重要的学术价值和实践意义。