本文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
作者及机构
本研究的核心作者团队来自Virginia Tech(弗吉尼亚理工大学),包括Cho-Ting Lee、Andrew Neeser、Shengzhe Xu、Jay Katyan、Patrick Cross、Sharanya Pathakota等。合作者还包括来自World Forest ID的Marigold Norman、Simeone Consulting的John Simeone,以及Virginia Tech的Jaganmohan Chandrasekaran和Naren Ramakrishnan。该研究发表于2025年IEEE/ACM第47届国际软件工程会议(ICSE),论文标题为《Can an LLM Find Its Way Around a Spreadsheet?》。
学术背景
研究领域为自然语言处理(NLP)与软件工程的交叉领域,聚焦于大型语言模型(LLM)在数据预处理中的应用。研究背景基于以下问题:
1. 现实需求:电子表格(spreadsheet)是商业和科学领域广泛使用的工具,但数据清洗(如处理拼写错误、缺失值、格式不一致等)通常需要高度专业化的代码流程,普通用户难以直接操作。
2. 技术挑战:尽管LLM在代码生成方面表现优异,但在表格数据处理中仍存在局限性,例如易产生幻觉(hallucination,即生成不存在的函数或语法错误)或无法精准适配用户需求。
3. 研究目标:开发一个基于LLM的自动化系统Tradesweep,通过自然语言交互生成可执行的数据预处理代码,并动态扩展代码库以提升后续任务效率。
研究流程
研究分为以下核心环节:
系统设计
实验验证
动态代码库扩展
主要结果
1. 预处理准确性
- Tradesweep在Teak、Grain、Timber数据集上的正确率分别为97.19%、97.61%、98.17%,显著优于B1(73.09%、87.65%、29.58%)。
- B2和B3因缺乏列名信息或检索效率低下,正确率波动较大(如B3在Timber上格式错误率达12.81%)。
代码质量与效率
用户参与优化
结论与价值
1. 科学意义
- 提出结合RAG与动态代码库的LLM应用框架,解决了表格数据预处理中的幻觉问题。
- 验证了自然语言交互在降低编程门槛中的有效性,为非专业用户提供实用工具。
应用价值
局限性
研究亮点
1. 方法创新:首次将RAG技术应用于表格数据处理,通过代码检索-生成闭环提升LLM可靠性。
2. 工程贡献:开源系统设计(未明确提及但可推测)为后续研究提供基准平台。
3. 实证规模:在百万级真实数据(如Timber的308万条记录)上验证性能,远超同类工作(如FLAME仅针对Excel公式)。
其他价值
- 为贸易合规领域(如制裁规避检测)提供自动化支持,案例显示可有效纠正原产国标签错误。