企业环境中AI代码助手对开发者生产力与体验的使用及影响研究

分享自：
企业环境中AI代码助手对开发者生产力与体验的使用及影响研究

人工智能
计算机科学
软件工程
工程学
信息科学
期刊:Extended Abstracts of the CHI Conference on Human Factors in Computing SystemsDOI:10.1145/3706599.3706670
【点击此处】阅读全文、收藏及针对性提问
本文档为发表于2025年ACM CHI EA会议（CHI EA ‘25, Yokohama, Japan）的研究论文，由来自IBM Research、Cisco Systems, Inc.及IBM多个全球分部的作者Justin D. Weisz、Shraddha Vijay Kumar、Michael Muller、Karen-Ellen Browne、Arielle Goldberg、Katrin Ellice Heintze和Shagun Bajpai共同完成。论文题为《Examining the Use and Impact of an AI Code Assistant on Developer Productivity and Experience in the Enterprise》。本研究属于人机交互（Human-Computer Interaction, HCI）与软件工程交叉领域，聚焦于评估企业内部部署的大型语言模型（Large Language Model, LLM）驱动的AI代码助手对开发者生产力与体验的实际影响。
研究背景与目标 随着GitHub Copilot、Amazon Q Developer等基于LLM的AI编程助手迅速普及，理解其对开发者生产力的影响变得至关重要。以往研究多关注客观行为指标（如代码接受率、代码行数变化），而对开发者主观感知的生产力影响关注不足。本研究团队获得了在IBM内部研究新开发的Watsonx Code Assistant（WCA）变体（WCA@IBM）的机会。该助手支持Python、Java等多种通用编程语言，提供代码生成、自动补全、代码解释、测试生成和对话问答等功能。本研究旨在从主观角度，通过混合方法探究WCA如何影响开发者对自身生产力的感知，以补充现有研究，并为HCI社区贡献关于企业环境中AI编程助手用户体验的深入见解。
研究方法与流程 本研究采用了两阶段混合方法，包括大规模问卷调查和非主持的可用性测试。 第一阶段：大规模问卷调查 研究对象为IBM内部使用WCA的开发者。调查分为两个模块：模块一（Module 1）关注使用情况、可用性和人口统计学信息；模块二（Module 2）深入探讨使用动机、信任、内容所有权与责任。调查共招募了669名受访者，分为两个队列：第一队列（2024年5月）收到105份回复；第二队列（2024年7月）针对参与WCA培训项目的564名开发者，收到564份回复。两个队列被合并分析。 调查内容与数据处理：调查问卷设计全面，涵盖了多个维度的测量（详见表1）。关键测量项包括：1) 使用动机与目的：基于Liang等人的研究框架，并增加了组织内部特有的动机项（如探索新工具、履行试用IBM新产品的责任等）。2) 生产力感知：采用7点语义差异量表评估WCA对工作“难易程度”、“质量高低”和“速度快慢”的影响；采用改编自Ross等人的4项5点李克特量表测量自我效能感。3) 输出质量与速度：对生成的代码、文档、测试、解释等内容的整体质量进行5点评分；对聊天响应速度进行5点评分。4) 作者身份与责任：探究在四种不同协作场景下（如直接粘贴WCA生成的代码、修改后使用、仅参考WCA想法等），开发者对代码作者归属的认知；调查开发者对WCA可能复制受版权保护材料的担忧程度，以及他们认为自身和WCA各自应承担的责任。5) 对工作角色的影响：通过开放式问题收集看法。定量数据采用描述性统计分析，定性反馈则采用反思性主题分析进行归纳。
第二阶段：非主持可用性测试 为了评估WCA具体功能，研究招募了15名WCA用户参与非主持的可用性测试。参与者来自不同的产品团队，涵盖固件开发、安全、移动应用等多个领域，其中约43%为WCA的常规用户。 测试流程：参与者被要求使用WCA的不同功能（代码生成、聊天、代码自动补全）完成一个小型编程问题，然后使用WCA为他们的代码生成解释和README文档。每个任务完成后，参与者需填写一份简短的体验问卷。整个测试过程约40分钟。此阶段的数据主要用于获取关于具体功能使用的深度定性反馈，补充问卷调查的发现。
主要研究结果 1. 使用动机、用途与非使用原因 与先前研究（如Liang等人）中开发者主要将AI助手用于代码生成不同，本研究发现WCA的首要用途是代码理解：71.9%的受访者用于解释代码，68.5%用于回答一般编程问题。代码生成（55.6%）、文档生成（39.6%）和测试生成（35.7%）虽也被使用，但频率较低。这表明在企业环境中，AI助手在辅助开发者理解现有代码库和进行知识探索（sensemaking）方面具有重要价值。此外，研究还发现了技术写作人员等“非典型”用户的“超范围使用”案例，他们利用WCA理解技术概念以减少对开发者的打扰。 在非使用原因方面，除了常见的“自己动手更快”（39.3%）和“助手建议无帮助”（32.1%）外，一个值得注意的发现是早期采用者的社会压力。少数受访者表示，因为担心在代码审查中被同事看到使用AI生成的代码而感到“尴尬”，或因为工具太新、团队中使用的人太少而对其持“固有的怀疑态度”。这提示组织文化对AI助手广泛采纳的重要性。 2. 生成内容的使用方式 开发者很少（2-4%）直接不经修改地使用WCA生成的输出。更常见的做法是修改后使用（9-19%），或将其用于学习和获取灵感（分别有23-35%和24-37%的受访者如此报告）。用户反馈WCA能“推荐我未曾想到或甚至不知道的方法”，帮助“在一种新语言中开始编写代码”，或“帮助回忆随时间流逝而遗忘的概念”。这凸显了生成式AI作为学习工具的潜力。 3. 对生产力的影响 总体而言，受访者认为WCA使他们的工作变得更轻松（均值=0.78，p<0.001）、质量更高（均值=0.66，p<0.001）、速度更快（均值=0.57，p<0.001），自我效能感评分处于中等水平（均值=3.20/5）。这表明WCA带来了净生产力提升。 然而，这种收益并非均匀分布。42.6%的受访者认为WCA降低了他们的效率（自我效能感≤3），而57.4%认为提高了效率。积极影响主要体现在两种模式：1) 加速模式：当开发者知道下一步该做什么时，WCA能快速生成代码或补全，节省时间。2) 探索模式：当开发者不确定如何解决问题时，WCA能提供不同的解决思路和起点。负面影响则主要源于输出质量的不稳定和响应速度问题。输出质量平均评分为3.20（“可接受”），响应速度平均评分为2.88（略低于“可接受”）。用户抱怨需要花费额外时间验证、调试或纠正WCA的输出，甚至因“幻觉”而浪费时间。许多用户将当前的WCA比作需要大量监督的“实习生”或“初级开发者”。 4. 作者身份与责任 在代码作者归属认知上，呈现出一种共同创造的复杂图景。当开发者自己实现功能时，57.5%认为自己是唯一作者；当直接粘贴WCA生成的代码时，53.7%认为WCA是唯一作者。值得注意的是，相当一部分受访者在所有场景下都感知到共同作者身份，例如在修改WCA生成的代码后（64.4%认为“双方共同”），甚至在仅仅实施WCA提出的想法时（39.8%认为“双方共同”）。这暗示可能需要新的机制来追踪人-AI共同创作活动，妥善归属各方贡献。 在责任方面，绝大多数受访者（83.4%）担心WCA可能复制非IBM拥有的受版权保护材料。同时，绝大多数人认为确保代码不包含侵权材料是共同责任：89.2%认为自己有责任，96.2%认为WCA有责任。用户既承认自身作为使用者的最终责任，也期望WCA系统本身应具备检测侵权内容的能力。 5. 对工作角色的影响 开发者对AI助手如何改变其职业角色看法不一。积极的观点认为，WCA能处理“许多重复性的脏活累活”，让开发者能专注于更高层次、更具创造性的问题，如创新功能设计和架构。消极的担忧则集中在技能退化的风险上，有用户担心过度依赖AI会让人“变懒”、“不再思考”，甚至导致“维护更多更差代码”的恶性循环。此外，一个关键发现是生产力提升可能伴随期望值的提高。有参与者指出，由于团队被要求使用WCA，管理层“期望在一个冲刺阶段完成比以往更多的工作”。这揭示了AI工具引入后可能带来的无形工作压力。
结论与意义 本研究通过对企业内AI代码助手的案例研究，揭示了几个重要见解： 1. 代码理解是首要用例：与预期不同，AI助手在企业中的主要价值并非仅是生成代码，更在于辅助代码理解和知识获取。这为未来研究指明了方向，即如何更好地设计AI助手以支持开发者在大型代码库中的意义构建任务。 2. 软件工程是共同创造活动：开发者通常会审查和修改AI生成的输出，表明在此领域“过度依赖”问题可能不如其他AI应用领域严重。同时，用户普遍感知到与AI的共同作者关系，这呼吁建立新的贡献追踪和归属机制。 3. 完美并非必需：尽管WCA在质量和速度上存在波动，但仍为许多开发者带来了生产力提升。随着模型性能改进，更多开发者将受益。研究也指出，部分开发者可能需要学习如何更有效地进行提示工程。 4. 降低生成内容风险是共同责任：用户强烈意识到防范知识产权风险的重要性，并认为这需要人与AI系统的共同努力。这要求开发新的社会技术方法，结合算法检测与智能的人工审查界面。 5. 开发者担忧技能退化与早期采纳压力：对技能丧失的担忧以及对成为早期使用者的社会顾虑，表明需要更清晰地阐述AI代码助手的益处，并制定明确的组织政策，以鼓励员工安心使用并引导职业向更高价值活动转型。
研究亮点 1. 研究视角新颖：聚焦于开发者主观感知的生产力，弥补了以往研究多关注客观行为指标的不足，提供了更全面的影响评估。 2. 企业环境深度洞察：研究对象是单一大型科技公司内部部署的专用工具用户，能够深入揭示企业环境下的特殊考量，如对专有技术的支持需求、组织文化影响、以及对知识产权合规性的高度关注。 3. 揭示了非典型用例与复杂的社会心理因素：发现了技术写作者等“超范围使用”案例，以及“早期采纳尴尬”等影响工具使用的微妙社会心理障碍，丰富了对此类技术采纳过程的理解。 4. 强调了人-AI协作中的责任与归属新问题：深入探讨了共同创作中的作者身份认知和风险共担责任，指出了未来人-AI协作界面与治理机制设计需要解决的关键问题。 5. 混合方法的应用：结合大规模问卷调查（获取广度与量化数据）和小规模可用性测试（获取深度与情境化反馈），使研究发现更为扎实和立体。
本研究为理解企业环境中AI代码助手的实际使用模式、收益、挑战及其对开发者职业的潜在影响提供了宝贵的实证证据。随着AI技术的快速演进，本研究所揭示的关于人类创造力、责任、技能演变以及与AI系统共生的核心问题，将持续具有重要的参考价值。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问