分享自:

OpenRCA:大型语言模型能否定位软件故障的根本原因?

期刊:ICLR 2025

这篇文档属于类型a,是一篇关于原创研究的学术论文报告。以下是针对该研究的详细学术报告:


大型语言模型在软件故障根因分析中的潜力评估:OpenRCA基准与RCA-Agent框架

作者与机构
本研究的核心作者团队由Junjielong Xu(香港中文大学深圳数据科学学院与微软联合培养)、Qinan Zhang、Zhiqing Zhong(香港中文大学深圳数据科学学院)、Shilin He、Chaoyun Zhang等来自微软研究院、清华大学和香港中文大学的研究人员组成。该研究以会议论文形式发表于ICLR 2025,标题为《OpenRCA: Can Large Language Models Locate the Root Cause of Software Failures?》。

学术背景
研究领域聚焦于人工智能驱动的软件工程(AI for Software Engineering),特别是大型语言模型(LLMs)在软件开发生命周期(SDLC)后期阶段的应用。当前LLMs的研究主要集中在代码生成等早期开发阶段,而软件部署后的运维环节(如故障根因分析/Root Cause Analysis, RCA)仍高度依赖人工,且现有AI方法因软件系统复杂性和异构数据(如日志、指标、追踪)的挑战表现有限。本研究旨在探索LLMs在RCA任务中的潜力,填补这一研究空白。

研究流程与方法
1. 基准数据集构建(OpenRCA)
- 数据来源:从3个企业级软件系统(电信、银行、在线市场)收集335个真实故障案例,配套68GB脱敏的遥测数据(包括指标、日志、追踪)。
- 数据处理:通过四阶段流程(系统筛选→数据平衡→校准→查询合成)确保数据质量。例如,校准阶段由3名工程师验证故障标签与遥测数据的匹配性,剔除无法确认根因的案例(如缺失数据或标签错误)。
- 任务设计:将RCA定义为目标驱动任务,覆盖7种组合目标(如定位故障组件、时间、原因或其组合),通过自然语言查询模拟真实场景。

  1. 评估框架开发(RCA-Agent)

    • 架构:采用多智能体系统(Controller+Executor),通过Python代码执行处理遥测数据,避免LLMs直接处理长上下文。Controller负责推理流程(异常检测→故障定位→根因分析),Executor生成并执行数据分析代码。
    • 创新性:提出“程序合成与执行”范式,将数据检索与分析任务卸载到Python内核,使LLMs专注于逻辑推理。例如,通过分层分析指标时间序列、追踪依赖图、日志文本,逐步缩小根因范围。
  2. 实验设计

    • 基线方法:对比两种采样策略(Oracle采样与平衡采样)和6种LLMs(包括Claude 3.5、GPT-4o和开源模型Llama 3.1)。
    • 评估指标:以完全匹配根因要素(组件、时间、原因)为正确标准,计算准确率。

主要结果
1. LLMs的当前局限性
- 所有模型在OpenRCA上表现不佳,最佳模型Claude 3.5通过RCA-Agent仅解决11.34%的案例。
- 任务复杂度显著影响性能:单要素任务(如仅定位组件)准确率(16.78%)显著高于多要素任务(三要素任务准确率为0%)。

  1. 关键发现
    • 系统复杂性效应:模型在较简单的电信系统(15种根因组件)上表现优于复杂的市场系统(44种组件)。
    • 推理长度与性能正相关:超过10步推理的案例准确率更高,但模型倾向“懒惰”推理(50%响应在10步内完成)。
    • 错误容忍度的重要性:Gemini因无法有效处理代码执行错误,性能下降68.4%,而Claude和GPT-4o仅下降15-18%。

案例实证
以银行系统故障为例,RCA-Agent通过以下步骤成功定位根因:
1. 分析CPU/内存指标,筛选异常组件(如Tomcat01)。
2. 通过追踪数据识别高频自调用链,确认Tomcat01为传播源头。
3. 结合日志发现“网络数据包丢失”证据,最终输出结构化根因。

结论与价值
1. 科学意义:OpenRCA是首个面向LLMs的RCA开源基准,推动AI与软件运维交叉研究。
2. 应用价值:RCA-Agent框架为处理大规模异构数据提供了可扩展方案,尽管当前性能有限,但指明了代码执行与多智能体协同的未来方向。
3. 行业影响:自动化RCA可降低企业运维成本(如避免CrowdStrike级故障的数十亿美元损失)。

研究亮点
1. 数据真实性:基于真实生产环境的故障案例,覆盖多类型软件架构。
2. 方法创新性:将程序合成引入LLMs的RCA任务,突破长上下文限制。
3. 可扩展性:OpenRCA支持动态更新,防止数据污染,促进社区协作。

局限性与展望
当前数据仅涵盖分布式系统,未来计划纳入单体架构故障;需进一步优化RCA-Agent的错误处理机制,并探索真实工程师查询的集成。


此报告完整呈现了研究的背景、方法、结果与价值,符合学术传播的严谨性和完整性要求。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com