分享自:

用户如何看待AI编码助手?——基于真实用户评论的感知分析与分类研究

期刊:2025 40th IEEE/ACM International Conference on Automated Software Engineering (ASE)DOI:10.1109/ASE63991.2025.00024

关于《“我的生产力提升了,但是……”:揭秘用户对AI编程助手的看法》的学术研究报告

本文旨在向广大研究人员介绍一项由新加坡管理大学(Singapore Management University)、阿尔伯塔大学(University of Alberta)、阿尔伯塔机器智能研究所(Alberta Machine Intelligence Institute)及东南大学的研究团队合作完成,并于2025年发表于第40届IEEE/ACM自动化软件工程国际会议(ASE)的原创性研究。该研究题为《“my productivity is boosted, but …” demystifying users’ perception on ai coding assistants》,聚焦于人工智能(AI)编程助手这一新兴工具,通过分析大规模真实用户反馈,系统性地揭示了开发者的核心关切、价值判断与潜在需求。

一、 研究背景与目标

随着以GitHub Copilot为代表、基于大型语言模型(LLMs)的AI编程助手在软件开发实践中迅速普及,理解开发者对这些工具的“真实”看法变得至关重要。尽管AI助手被证明能够加速开发流程,但先前研究表明,开发者可能花费超过50%的编码时间来验证AI生成的建议,这增加了认知负担。深入了解开发者的感知与需求,对于指导工具开发者优化产品、更好地满足实际软件开发需求、乃至塑造软件开发的未来具有关键意义。

然而,现有研究存在明显的局限性。多数研究采用访谈、问卷调查或受控环境下的用户研究,存在样本量小、成本高、问题预设性强或仅聚焦于少数流行工具(如GitHub Copilot)等问题。同时,尽管在线应用商店评论已被证明是连接开发者和用户、获取大规模真实反馈的有效渠道,但针对AI编程助手评论的挖掘研究尚不充分。现有研究往往仅关注GitHub Copilot,忽略了整个生态系统的多样性;其构建的分类体系多源于GitHub Issues和Stack Overflow等技术论坛,主要反映高级用户提出的技术问题,而忽略了普通用户的主观体验和正面反馈。此外,新手或非技术用户更倾向于在Visual Studio Code(VS Code)这类易于提交反馈的市场中留下评论,他们的声音对于全面理解AI编程助手在现实世界中的接受度至关重要。

基于此,本研究旨在填补这一研究空白。研究团队识别到一个前所未有的机会:VS Code作为全球使用最广泛的集成开发环境(IDE),其市场中存在数千个AI编程助手扩展,并积累了大量的用户评论。这些来自全球开发者的第一手反馈为大规模、多工具地分析用户感知提供了丰富的数据源。因此,本研究设定了两个核心研究问题(RQs): 1. RQ1:用户讨论了AI编程助手的哪些方面? 2. RQ2:用户关心、赞赏和不喜欢AI编程助手的哪些方面?

二、 研究流程详述

本研究遵循了针对软件工程中应用评论分析的最佳实践,采用了一个严谨的五步骤工作流程。

步骤一:数据收集——识别AI编程助手扩展 首先,研究者从VS Code市场收集了截至2024年11月28日的全部66,053个扩展的元数据。为了从中识别出AI编程助手,他们采用了混合标注方法。首先,通过四种方法(官方搜索、基于类别的筛选、基于标签的筛选、描述关键词匹配)汇集了1,962个潜在的AI扩展候选。随后,为确保标注准确性,研究团队先手动随机抽样标注了322个扩展,由两位标注者基于预定义标准(扩展是否包含至少一个AI组件以辅助其功能)进行独立判断,达成高度一致性(Cohen‘s kappa系数为0.92)。为扩展至整个候选集,他们利用GPT-4o进行零样本学习自动标注,在手动标注集上验证了其精度(96.37%)和召回率(96.88%)。最终,确认了1,085个AI扩展,占VS Code市场所有扩展的1.64%。分析显示,超过90%的AI扩展是在过去两年(2023-2024年)发布的,表明其近期呈现爆发式增长。此外,市场集中度很高,安装量排名前10的AI扩展占据了总安装量的86%。

步骤二:研究样本选择 为确保分析的代表性和深度,研究聚焦于具有广泛用户基础和高度参与度的AI扩展。具体选择了两种类型:安装量最高的30个扩展(占AI扩展总安装量的95.3%)和用户评论数超过100的所有扩展。合并后得到32个待分析的AI扩展,共包含5,908条用户评论。在排除字数少于10的短评后,剩余5,259条评论。为确保分析可行性并保持统计代表性,研究者随机抽取了361条评论(置信水平95%,误差范围5%)作为最终分析样本。所有非英语评论均使用谷歌翻译转换为英语。

步骤三:构建用户反馈分类体系 这是本研究的核心分析环节。研究团队采用了一种混合卡片分类法(Hybrid Card Sorting)和自底向上的合并方法,对361条用户评论进行手动编码,以构建一个层次化的分类体系(Taxonomy)。 1. 编码原则:确立了多标签标注(一条评论可涉及多个独立主题)、三级分类体系(类别-子类别-叶子节点)、自底向上合并以及混合卡片分类(预定义五个顶层类别:功能性、可用性、可靠性、可支持性、性能,同时允许在编码过程中自由扩展)四大原则。 2. 迭代编码过程:编码分批次进行。前几轮编码后,发现预定义的五个类别无法涵盖用户关于生产力、定价等更广泛的体验和情感反馈,因此新增了三个顶层类别:总体体验、定价和对比。经过六轮编码,分类体系达到稳定(结构饱和)。最终,两位标注者对剩余17%的数据进行独立标注,取得了极高的评分者间一致性(k = 0.983)。 3. 最终分类体系:该体系包含8个顶层类别、16个子类别和62个叶子节点(即具体标签)。八个顶层类别分别是:功能性、总体体验、可用性、可靠性、定价、可支持性、对比、性能。 4. 情感分析:情感分析在叶子节点层面进行,而非整条评论。每个被提及的叶子节点都被标记为“喜欢”、“不喜欢”或“中性”。最终独立标注阶段的情感分析一致性也很高(k = 0.943)。

步骤四:数据分析与发现提炼 基于构建的分类体系和情感标注,研究团队进行了深入的定性分析,识别用户讨论的焦点、偏好和痛点,并提炼出六项关键研究发现(Findings)。这些发现通过引用原始评论(附带评分标识,如“r1, 5p”)来支撑。

三、 主要研究结果详述

研究结果的核心体现在对用户反馈的系统性分类和六项关键发现的阐述上。

(一)用户讨论的分类体系结果 通过对361条评论的手动编码,研究得出了一个详尽的三级分类体系。以下是各主要类别的简要概述: * 功能性:讨论最广泛的类别(占所有标签提及的32.2%)。用户最关注建议内容(如准确性、帮助性、完整性/冗余度),其次是编程语言、库和任务支持(如代码重构、测试生成),以及理解能力上下文感知能力。值得注意的是,关于上下文感知的反馈负面居多(57%不喜欢),表明助手在获取和保持相关上下文方面存在困难。 * 总体体验:第二受关注的类别(18.4%),正面情感占主导(90%喜欢)。其中生产力提升是最常被提及的标签,许多用户报告了工作效率的提高。研究还发现,新手开发者比经验丰富的开发者更倾向于给出正面评价。 * 可用性:第三大类别(14.1%),涉及用户界面与交互、可学习性、可控性和可预测性。用户批评了复杂的上手过程、具有干扰性的界面设计(如光标控制问题)以及助手有时会“搞乱”现有代码的问题。 * 可靠性:用户表达了对其稳定性、安全性、伦理和可用性的担忧。负面情感占主导(77%不喜欢),涉及扩展程序错误、服务降级至弱模型、登录问题,以及对使用开源代码训练后收费的AI伦理担忧(这是第二不受欢迎的标签)。 * 定价:用户明确将定价和价值感知作为采纳与否的关键因素。许多人青睐免费的替代品,并对基于开源代码训练的收费服务表示不满。 * 性能:用户对响应时间普遍满意(82%喜欢),但对资源消耗(特别是CPU和内存占用)抱怨较多(78%不喜欢)。 * 可支持性对比类别则分别涵盖了兼容性、服务支持以及与其他工具(如GitHub Copilot, ChatGPT)的比较。

(二)六项关键发现 1. 用户普遍感知AI编程助手有助于提升生产力,但对“有帮助性”的感知因经验水平而异:90%提及生产力的评论持正面态度。然而,新手开发者(15人中有14人)明确表示助手很有帮助,而经验丰富的开发者则表现出更多怀疑。 2. 用户最关心建议内容。准确性备受推崇,但冗余、不完整或有错误的输出常受批评,对建议帮助性的看法则褒贬不一:“建议内容”是讨论最多的子话题。准确性是最受喜爱的标签,但建议的“帮助性”却是最不被喜欢的标签之一。冗余和不完整的输出问题在以往研究中关注较少,但在本研究中是建议相关负面反馈的第二大原因。 3. 用户担忧上下文感知问题。AI助手在给定上下文时能很好理解代码,但常常难以获取和保持相关上下文:涉及“上下文理解”(给定上下文后的理解能力)的评论73%为正面。然而,涉及“上下文感知”(检索和维持上下文的能力)的评论仅38%为正面。项目/代码库上下文支持和上下文记忆容量是两个最不受欢迎的标签。上下文记忆能力差常与“无帮助的建议”共同出现,表明其直接导致输出质量下降。 4. 可用性对用户至关重要——细微的设计问题可能导致用户弃用:可用性是第二受关注的类别。复杂的上手过程(尤其是支持本地模型的扩展)、令人沮丧的建议界面与交互(如不当的建议放置、光标焦点问题)以及助手干扰用户代码等严重的可用性故障,都是导致负面体验的原因。 5. 用户对资源消耗不满,但对响应时间普遍满意:与以往研究关注响应时间不同,本研究发现用户更常抱怨资源消耗(高CPU/内存使用),且这不仅限于本地模型,在线模型在处理大文件或多项目时也会出现此问题。 6. 用户在采纳AI编程助手时会权衡定价和功能价值:定价和比较是影响用户决策的重要因素。用户偏好免费工具,并对缺乏竞争力功能却定价高于竞争对手的工具表示批评。将开源代码用于商业盈利的伦理问题也显著影响用户满意度。

四、 研究结论与意义

本研究通过系统分析VS Code市场中AI编程助手的真实用户评论,构建了一个包含8个类别、16个子类别和62个标签的全面分类体系,并揭示了用户的核心关切和态度。研究发现,用户高度重视建议的准确性,但对其冗余性、上下文感知能力弱、资源消耗高以及定价伦理等问题感到不满。同时,用户体验因技能水平而异,且可用性设计细节对工具接受度有重大影响。

基于这些发现,研究提出了五项对改进AI编程助手具有指导意义的实践启示: 1. 提升上下文感知能力以支持复杂任务:通过代码库索引、动态推理、上下文压缩或基于用户仓库的模型微调等技术,改善助手对项目级上下文的理解和记忆。 2. 加强对聊天和智能体(Agent)交互模式的研究:现有研究多集中于传统代码补全,需深入理解用户与聊天、智能体模式的交互,并设计更有效的交互模式。 3. 通过直观设计优先考虑可用性:关注直观的界面设计、清晰的文档、简化的上手流程,并避免干扰性功能(如推理过程中的广告)。同时,通过模型压缩等技术降低资源消耗。 4. 确保可靠性以建立用户信任:保障工具稳定性、减少漏洞、确保公平性并保持透明度(如提供源代码归属),是建立用户信任的关键。 5. 持续的用户参与和市场洞察至关重要:积极与用户社区沟通、收集反馈,并研究竞争对手以识别标准功能和差异化机会,有助于提升用户满意度和产品竞争力。

五、 研究亮点

  1. 数据源新颖且规模宏大:首次大规模、系统性地挖掘并分析了VS Code市场中整个AI编程助手生态系统的用户评论,突破了以往研究局限于单一工具(如GitHub Copilot)或技术论坛的局限,捕捉了更广泛、更真实的开发者声音。
  2. 方法论严谨:采用了结合手动编码与GPT-4o辅助的混合标注方法高效识别AI扩展,并遵循严格的定性研究流程构建分类体系,确保了研究结果的可信度和可重复性。
  3. 分类体系全面且层次化:构建的三级分类体系不仅涵盖了功能、性能等传统维度,还纳入了总体体验、定价、对比等反映用户主观感受和决策因素的类别,提供了更完整的用户感知全景图。
  4. 发现具有重要实践价值:研究揭示了一些此前未被充分重视的问题,如上下文“感知”(而非“理解”)是主要瓶颈、冗余/不完整建议的普遍性、可用性细微问题的影响、以及定价和伦理对用户采纳的关键作用。这些发现为AI编程助手的设计者、开发者和研究者提供了直接、具体的改进方向。
  5. 揭示了用户群体的异质性:明确指出了新手与经验开发者对AI助手“帮助性”的感知差异,提示工具设计可能需要考虑不同用户群体的特定需求和引导策略。

六、 其他有价值内容

研究还对32个分析扩展的能力进行了小规模分析,将其分为仅支持行级代码补全、支持聊天功能、以及专注于其他任务(如文档生成)三类。分析发现,聊天类扩展获得的正面评价最多(63%),用户关注其功能性;而行级工具好评与差评几乎各半,用户更关注性能和与其他工具的对比;其他任务类扩展好评率最高(77%),且多在可用性上受到赞扬。这一分析初步揭示了不同类型助手可能面临不同的用户期望和反馈模式,为后续更精细化的研究提供了线索。此外,研究团队已公开所有数据、标注工具和结果,以供后续研究复现和深入探索。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com