一、 研究概览
本研究由中国学者赵一鸣教授、余馨婕、陈忆金教授、张鑫、杨云鹤共同完成,涉及武汉大学信息管理学院、武汉大学苏州研究院、武汉大学大数据研究院、武汉数据智能研究院、武汉大学图书情报国家级实验教学示范中心、华南师范大学经济与管理学院及华南师范大学人工智能产业协同创新研究中心等多所研究机构。该研究成果以《AIGC环境下对话式搜索与传统搜索的用户行为及学习效果比较研究》为题,发表于期刊《信息资源管理学报》2025年第15卷第4期。
二、 学术背景与研究动机
本研究属于信息科学与人机交互交叉领域,重点关注在生成式人工智能(AIGC)浪潮下,用户信息行为模式的变迁。研究背景在于:以ChatGPT为代表的对话式搜索系统正深刻改变人们获取信息的方式,与传统基于关键词匹配的搜索引擎(传统网络搜索)形成鲜明对比。尤其是在以学习为目的的“搜索即学习”(Search-as-Learning, SAL)场景下,用户的行为模式与学习效果是否会因搜索工具的不同而产生系统性差异,尚缺乏深入、定量的实证研究。
具体而言,现有文献对传统网络搜索情境下的“搜索即学习”研究较多,关注任务类型、用户知识水平、认知风格等因素的影响。而对新兴的对话式搜索,研究多聚焦于用户接受意愿或行为路径探索,缺乏将两者进行直接、全面的行为与效果对比。因此,本研究旨在填补这一空白,通过用户实验,在“搜索即学习”框架下,对比分析用户在对话式搜索与传统网络搜索中的信息搜索行为(细分为查寻、选择、利用三阶段)、学习效果(包括客观知识增长与主观感知)以及认知负荷的差异。研究目的在于深入理解AIGC环境下人智交互的新模式,揭示行为差异背后的认知机制,从而为优化两类系统的设计、提升用户学习效率提供理论依据与实践指导。
三、 研究设计与详细流程
本研究采用对照实验法,流程严谨,主要包含以下步骤:
实验任务与对象设计:
- 任务设计: 研究设计了三个以学习为目标的“模拟仿真工作任务”,主题分别为“龙卷风”、“孙子”、“高原反应”。任务类型参考了认知学习模式,要求参与者掌握相关知识并形成输出(如评价、方案)。每位参与者需完成全部三个任务。
- 对象招募与分组: 共招募40名本科及以上学历的被试,通过匹配法(匹配性别、年龄、学历、任务主题熟悉度等变量)最终筛选出32名有效被试,随机分为两组,每组16人。
- 对话式搜索组: 使用ChatGPT-3.5进行搜索。
- 传统网络搜索组: 使用未集成AIGC功能的百度搜索引擎进行搜索。
- 变量控制: 通过背景问卷控制主题熟悉度、自信度、兴趣度、信息素养等额外变量,确保两组基线特征均衡。
数据采集与测度指标: 实验过程中,通过录屏软件(EV录屏)全程记录用户行为,并结合概念图绘制、笔记记录、问卷调查等多种方式采集数据。关键测度指标如下:
- 信息搜索行为(自变量):
- 信息查寻行为: 操作化为唯一检索式/提问指令数量、检索式/提问指令平均长度、检索式/提问指令重构次数。
- 信息选择行为: 操作化为详情页面/对话内容浏览总数、有用搜索结果触达时间、总阅读时间、平均阅读时间、有用页面/内容数、有用页面/内容占比、精读次数(页面静态停留超8秒)。
- 信息利用行为: 操作化为记录总时间、记录次数、平均记录时间、先验知识整合与归类次数。
- 学习效果(因变量):
- 实际学习效果: 核心测量指标。通过对比搜索前后绘制的概念图得分差值来量化认知结构的变化。概念图评分体系涵盖节点丰富性、专业性、有效性、层次性、探索性等多个维度,由研究人员根据标准化指标体系打分。
- 主观感知效果: 采用李克特九分量表测量用户对搜索结果的满意度、感知有用性、感知相关性、感知准确性。
- 认知负荷(中介变量): 采用成熟的PAAS量表进行主观测量,评估用户完成任务的心理努力和任务难度。
- 补充数据: 实验后对用户进行简短访谈,以辅助解释定量结果。
实验流程: 每个任务的流程标准化:
- 前测: 被试阅读任务描述后,基于已有知识绘制前测概念图。
- 搜索与记录: 被试使用指定工具(ChatGPT或百度)进行不限时搜索,同时使用Word文档记录学习到的知识。
- 后测: 被试认为任务完成后,绘制后测概念图,并填写包含PAAS量表和主观感知效果量表的后测问卷。
- 三个任务按序进行,数据独立收集。
数据分析方法:
- 描述性统计: 对两组各项指标进行初步对比。
- 线性回归分析: 核心分析方法。以搜索工具类型(对话式vs.传统)为核心自变量,分别对各项信息行为指标、学习效果指标进行回归分析,控制人口统计学等变量,检验两组差异的显著性。
- 独立样本t检验: 用于直接比较两组用户在认知负荷上的差异。
四、 主要研究发现
研究通过严谨的数据分析,得出了一系列重要结论,揭示了两种搜索模式下的系统性差异:
信息搜索行为的差异:
- 信息查寻行为: 回归分析显示,两组仅在检索式/提问指令平均长度上存在极显著差异(p<0.001)。对话式搜索组用户输入的提问指令(平均长度约12.2字)显著长于传统搜索组的检索式(平均长度约0.0字,回归系数12.179)。这表明用户在使用对话式搜索时,倾向于用更长的自然语言完整描述需求,而非提炼关键词。而在检索式/指令数量和重构次数上,两者无显著差异。
- 信息选择行为: 多项指标呈现显著差异。传统搜索组用户的详情页面浏览总数(p<0.05)、总阅读时间(p<0.001)和精读次数(p<0.01)均显著高于对话式搜索组。然而,对话式搜索组的有用详情页面/内容占比(p<0.001)却显著更高。这说明传统搜索用户需要浏览更多网页、花费更多时间筛选,但其中“有用”信息的比例较低;而对话式搜索能直接提供更集中、相关度更高的内容,筛选效率更高。
- 信息利用行为: 传统搜索组用户的记录次数(p<0.001)显著更多,但对话式搜索组用户的平均记录时间(p<0.001)显著更长。这意味着传统搜索用户因信息碎片化,需要频繁记录零散内容;而对话式搜索用户面对更成体系、可直接利用的生成内容,单次记录(如复制、整合)所花时间更长。
学习效果的差异: 对所有五项学习效果指标(实际学习效果、满意度、感知有用性、相关性、准确性)的回归分析结果均显示,对话式搜索组的系数显著为正(p值从<0.05到<0.001不等)。这表明,对话式搜索在客观知识增长和所有主观感知维度上,均显著优于传统网络搜索。用户认为对话式搜索提供的结果更相关、准确、有用,整体满意度更高,最终实际学到的知识(概念图得分增长)也更多。
认知负荷的差异及其中介作用: 独立样本t检验和回归分析均证实,对话式搜索组用户的认知负荷显著低于传统网络搜索组(p<0.001)。结合认知负荷理论,研究进一步分析了行为差异的认知机制:
- 认知负荷减轻导致行为“复杂化”与效率提升: 由于对话式搜索降低了用户筛选和整合信息的认知负担(低认知负荷),用户能够将更多的认知资源用于更精确地表达需求(表现为提问指令更长)、更有效地甄别有用内容(表现为有用内容占比更高)以及更深入地进行信息整合记录(表现为平均记录时间更长)。这种“复杂化”是认知资源解放后的积极行为。
- 认知负荷减轻促进学习效果提升: 较低的认知负荷使用户能够更专注于知识理解和建构,而非耗费精力在信息海洋中导航与筛选,这直接促进了更好的学习效果。
行为逻辑与期望的转变:
- 需求表达从“减法”到“加法”: 传统搜索要求用户将复杂需求精简为关键词(做减法),而对话式搜索鼓励用户用完整的自然语言描述需求(做加法)。
- 服务期望从“好、准、全”到“好、即时、可用”: 用户不再满足于获得一堆需要自行判断、整合的参考链接,而是期望直接获得定制化、可直接使用的答案或知识产品。
五、 结论与价值
本研究的核心结论是:在AIGC支持的“搜索即学习”场景下,相较于传统网络搜索,对话式搜索能显著降低用户的认知负荷,并通过改变用户的信息查寻、选择与利用行为模式,最终实现更优的学习效果(包括客观知识增长和主观体验)。
理论价值:
- 构建了一套可同时测量两种搜索情境下用户信息搜索行为(三阶段)与学习效果(五维度)的指标体系,为后续比较研究提供了方法论参考。
- 将认知负荷理论引入对话式搜索研究,揭示了行为与效果差异背后的认知机制,丰富了“搜索即学习”的理论内涵,拓宽了该领域的研究视野。
- 实证揭示了从传统搜索到对话式搜索,用户信息行为范式发生了结构性转变(如需求表达逻辑、信息服务期望的转变)。
实践启示:
- 对传统搜索引擎的启示: 应加强自然语言处理能力,提供更智能、自然的交互体验;优化搜索算法与结果呈现,提高信息筛选效率,降低用户认知负荷。
- 对对话式搜索系统的启示: 需增强生成内容的可追溯性与可信度标识(如标注来源),帮助用户评估信息质量;应发展更强大的探索性对话功能(如多轮追问、限定范围),支持深度学习和知识发现;需持续优化交互体验。
六、 研究亮点
- 研究视角新颖: 首次在“搜索即学习”框架下,对AIGC驱动的对话式搜索与传统搜索进行系统性的对照实验研究,具有前沿性和时效性。
- 研究设计严谨: 采用匹配法控制被试变量,结合录屏行为日志、概念图前后测、主观量表、访谈等多种数据采集方法,从主客观多角度全面测量行为与效果,保证了研究的内部效度。
- 理论融合深入: 成功将认知负荷理论与信息搜索行为分析相结合,不仅描述了“是什么”差异,更深入解释了“为什么”会产生这些差异,提升了研究的理论深度。
- 指标构建系统: 将信息搜索行为精细划分为三个阶段并选取多维度指标,对学习效果进行主客观综合测量,构建的分析框架系统、全面。
- 发现具有启发性: 提出的用户行为逻辑从“减法”到“加法”、服务期望从“好准全”到“好即时可用”的转变,深刻揭示了技术变革对用户认知和行为模式的深层影响。
七、 其他说明
研究也指出了自身的局限性,如未区分不同任务类型的影响、学习效果测量方法(概念图)可能存在误差等,为未来研究指明了方向,例如可采用眼动追踪、更细粒度的行为日志分析等方法进行深化探索。这些反思体现了研究的科学性。