本文档为发表于2025年ACM CHI EA会议(CHI EA ‘25, Yokohama, Japan)的研究论文,由来自IBM Research、Cisco Systems, Inc.及IBM多个全球分部的作者Justin D. Weisz、Shraddha Vijay Kumar、Michael Muller、Karen-Ellen Browne、Arielle Goldberg、Katrin Ellice Heintze和Shagun Bajpai共同完成。论文题为《Examining the Use and Impact of an AI Code Assistant on Developer Productivity and Experience in the Enterprise》。本研究属于人机交互(Human-Computer Interaction, HCI)与软件工程交叉领域,聚焦于评估企业内部部署的大型语言模型(Large Language Model, LLM)驱动的AI代码助手对开发者生产力与体验的实际影响。
研究背景与目标 随着GitHub Copilot、Amazon Q Developer等基于LLM的AI编程助手迅速普及,理解其对开发者生产力的影响变得至关重要。以往研究多关注客观行为指标(如代码接受率、代码行数变化),而对开发者主观感知的生产力影响关注不足。本研究团队获得了在IBM内部研究新开发的Watsonx Code Assistant(WCA)变体(WCA@IBM)的机会。该助手支持Python、Java等多种通用编程语言,提供代码生成、自动补全、代码解释、测试生成和对话问答等功能。本研究旨在从主观角度,通过混合方法探究WCA如何影响开发者对自身生产力的感知,以补充现有研究,并为HCI社区贡献关于企业环境中AI编程助手用户体验的深入见解。
研究方法与流程 本研究采用了两阶段混合方法,包括大规模问卷调查和非主持的可用性测试。 第一阶段:大规模问卷调查 研究对象为IBM内部使用WCA的开发者。调查分为两个模块:模块一(Module 1)关注使用情况、可用性和人口统计学信息;模块二(Module 2)深入探讨使用动机、信任、内容所有权与责任。调查共招募了669名受访者,分为两个队列:第一队列(2024年5月)收到105份回复;第二队列(2024年7月)针对参与WCA培训项目的564名开发者,收到564份回复。两个队列被合并分析。 调查内容与数据处理:调查问卷设计全面,涵盖了多个维度的测量(详见表1)。关键测量项包括:1) 使用动机与目的:基于Liang等人的研究框架,并增加了组织内部特有的动机项(如探索新工具、履行试用IBM新产品的责任等)。2) 生产力感知:采用7点语义差异量表评估WCA对工作“难易程度”、“质量高低”和“速度快慢”的影响;采用改编自Ross等人的4项5点李克特量表测量自我效能感。3) 输出质量与速度:对生成的代码、文档、测试、解释等内容的整体质量进行5点评分;对聊天响应速度进行5点评分。4) 作者身份与责任:探究在四种不同协作场景下(如直接粘贴WCA生成的代码、修改后使用、仅参考WCA想法等),开发者对代码作者归属的认知;调查开发者对WCA可能复制受版权保护材料的担忧程度,以及他们认为自身和WCA各自应承担的责任。5) 对工作角色的影响:通过开放式问题收集看法。定量数据采用描述性统计分析,定性反馈则采用反思性主题分析进行归纳。
第二阶段:非主持可用性测试 为了评估WCA具体功能,研究招募了15名WCA用户参与非主持的可用性测试。参与者来自不同的产品团队,涵盖固件开发、安全、移动应用等多个领域,其中约43%为WCA的常规用户。 测试流程:参与者被要求使用WCA的不同功能(代码生成、聊天、代码自动补全)完成一个小型编程问题,然后使用WCA为他们的代码生成解释和README文档。每个任务完成后,参与者需填写一份简短的体验问卷。整个测试过程约40分钟。此阶段的数据主要用于获取关于具体功能使用的深度定性反馈,补充问卷调查的发现。
主要研究结果 1. 使用动机、用途与非使用原因 与先前研究(如Liang等人)中开发者主要将AI助手用于代码生成不同,本研究发现WCA的首要用途是代码理解:71.9%的受访者用于解释代码,68.5%用于回答一般编程问题。代码生成(55.6%)、文档生成(39.6%)和测试生成(35.7%)虽也被使用,但频率较低。这表明在企业环境中,AI助手在辅助开发者理解现有代码库和进行知识探索(sensemaking)方面具有重要价值。此外,研究还发现了技术写作人员等“非典型”用户的“超范围使用”案例,他们利用WCA理解技术概念以减少对开发者的打扰。 在非使用原因方面,除了常见的“自己动手更快”(39.3%)和“助手建议无帮助”(32.1%)外,一个值得注意的发现是早期采用者的社会压力。少数受访者表示,因为担心在代码审查中被同事看到使用AI生成的代码而感到“尴尬”,或因为工具太新、团队中使用的人太少而对其持“固有的怀疑态度”。这提示组织文化对AI助手广泛采纳的重要性。 2. 生成内容的使用方式 开发者很少(2-4%)直接不经修改地使用WCA生成的输出。更常见的做法是修改后使用(9-19%),或将其用于学习和获取灵感(分别有23-35%和24-37%的受访者如此报告)。用户反馈WCA能“推荐我未曾想到或甚至不知道的方法”,帮助“在一种新语言中开始编写代码”,或“帮助回忆随时间流逝而遗忘的概念”。这凸显了生成式AI作为学习工具的潜力。 3. 对生产力的影响 总体而言,受访者认为WCA使他们的工作变得更轻松(均值=0.78,p<0.001)、质量更高(均值=0.66,p<0.001)、速度更快(均值=0.57,p<0.001),自我效能感评分处于中等水平(均值=3.20/5)。这表明WCA带来了净生产力提升。 然而,这种收益并非均匀分布。42.6%的受访者认为WCA降低了他们的效率(自我效能感≤3),而57.4%认为提高了效率。积极影响主要体现在两种模式:1) 加速模式:当开发者知道下一步该做什么时,WCA能快速生成代码或补全,节省时间。2) 探索模式:当开发者不确定如何解决问题时,WCA能提供不同的解决思路和起点。负面影响则主要源于输出质量的不稳定和响应速度问题。输出质量平均评分为3.20(“可接受”),响应速度平均评分为2.88(略低于“可接受”)。用户抱怨需要花费额外时间验证、调试或纠正WCA的输出,甚至因“幻觉”而浪费时间。许多用户将当前的WCA比作需要大量监督的“实习生”或“初级开发者”。 4. 作者身份与责任 在代码作者归属认知上,呈现出一种共同创造的复杂图景。当开发者自己实现功能时,57.5%认为自己是唯一作者;当直接粘贴WCA生成的代码时,53.7%认为WCA是唯一作者。值得注意的是,相当一部分受访者在所有场景下都感知到共同作者身份,例如在修改WCA生成的代码后(64.4%认为“双方共同”),甚至在仅仅实施WCA提出的想法时(39.8%认为“双方共同”)。这暗示可能需要新的机制来追踪人-AI共同创作活动,妥善归属各方贡献。 在责任方面,绝大多数受访者(83.4%)担心WCA可能复制非IBM拥有的受版权保护材料。同时,绝大多数人认为确保代码不包含侵权材料是共同责任:89.2%认为自己有责任,96.2%认为WCA有责任。用户既承认自身作为使用者的最终责任,也期望WCA系统本身应具备检测侵权内容的能力。 5. 对工作角色的影响 开发者对AI助手如何改变其职业角色看法不一。积极的观点认为,WCA能处理“许多重复性的脏活累活”,让开发者能专注于更高层次、更具创造性的问题,如创新功能设计和架构。消极的担忧则集中在技能退化的风险上,有用户担心过度依赖AI会让人“变懒”、“不再思考”,甚至导致“维护更多更差代码”的恶性循环。此外,一个关键发现是生产力提升可能伴随期望值的提高。有参与者指出,由于团队被要求使用WCA,管理层“期望在一个冲刺阶段完成比以往更多的工作”。这揭示了AI工具引入后可能带来的无形工作压力。
结论与意义 本研究通过对企业内AI代码助手的案例研究,揭示了几个重要见解: 1. 代码理解是首要用例:与预期不同,AI助手在企业中的主要价值并非仅是生成代码,更在于辅助代码理解和知识获取。这为未来研究指明了方向,即如何更好地设计AI助手以支持开发者在大型代码库中的意义构建任务。 2. 软件工程是共同创造活动:开发者通常会审查和修改AI生成的输出,表明在此领域“过度依赖”问题可能不如其他AI应用领域严重。同时,用户普遍感知到与AI的共同作者关系,这呼吁建立新的贡献追踪和归属机制。 3. 完美并非必需:尽管WCA在质量和速度上存在波动,但仍为许多开发者带来了生产力提升。随着模型性能改进,更多开发者将受益。研究也指出,部分开发者可能需要学习如何更有效地进行提示工程。 4. 降低生成内容风险是共同责任:用户强烈意识到防范知识产权风险的重要性,并认为这需要人与AI系统的共同努力。这要求开发新的社会技术方法,结合算法检测与智能的人工审查界面。 5. 开发者担忧技能退化与早期采纳压力:对技能丧失的担忧以及对成为早期使用者的社会顾虑,表明需要更清晰地阐述AI代码助手的益处,并制定明确的组织政策,以鼓励员工安心使用并引导职业向更高价值活动转型。
研究亮点 1. 研究视角新颖:聚焦于开发者主观感知的生产力,弥补了以往研究多关注客观行为指标的不足,提供了更全面的影响评估。 2. 企业环境深度洞察:研究对象是单一大型科技公司内部部署的专用工具用户,能够深入揭示企业环境下的特殊考量,如对专有技术的支持需求、组织文化影响、以及对知识产权合规性的高度关注。 3. 揭示了非典型用例与复杂的社会心理因素:发现了技术写作者等“超范围使用”案例,以及“早期采纳尴尬”等影响工具使用的微妙社会心理障碍,丰富了对此类技术采纳过程的理解。 4. 强调了人-AI协作中的责任与归属新问题:深入探讨了共同创作中的作者身份认知和风险共担责任,指出了未来人-AI协作界面与治理机制设计需要解决的关键问题。 5. 混合方法的应用:结合大规模问卷调查(获取广度与量化数据)和小规模可用性测试(获取深度与情境化反馈),使研究发现更为扎实和立体。
本研究为理解企业环境中AI代码助手的实际使用模式、收益、挑战及其对开发者职业的潜在影响提供了宝贵的实证证据。随着AI技术的快速演进,本研究所揭示的关于人类创造力、责任、技能演变以及与AI系统共生的核心问题,将持续具有重要的参考价值。