这篇文档属于类型a,即报告了一项单一原创研究的学术论文。以下是对该研究的详细报告:
该研究的主要作者包括Yangyang Wu、Chen Yang、Mengying Zhu、Xiaoye Miao、Wei Ni、Meng Xi、Xinkui Zhao和Jianwei Yin。他们分别来自浙江大学软件学院(Zhejiang University, Ningbo, China)、浙江大学数据科学中心(Zhejiang University, Hangzhou, China)、浙江大学脑机智能国家重点实验室(The State Key Lab of Brain-Machine Intelligence, Zhejiang University, Hangzhou, China)、香港城市大学数据科学系(Department of Data Science, City University of Hong Kong, Hong Kong, China)以及浙江大学计算机学院(College of Computer Science, Zhejiang University, Hangzhou, China)。该研究于2025年发表在IEEE第41届国际数据工程会议(ICDE)上。
该研究的主要科学领域是数据清洗(Data Cleaning),特别是错误校正(Error Correction, EC)。数据清洗是数据工程中的基础但具有挑战性的步骤,通常包括错误检测(Error Detection, ED)和错误校正两个阶段。尽管错误检测技术已经取得了显著进展,但错误校正仍然是一个更具挑战性的任务。传统的错误校正方法依赖于预定义的规则或约束,需要大量的领域知识和人工努力。虽然已经探索了一些无需配置的错误校正方法,但它们仍然需要大量的特征工程或标注数据进行模型训练。因此,研究团队提出了一种名为ZeroEC的零训练、可解释的错误校正系统,利用大语言模型(Large Language Models, LLMs)生成思维链(Chain-of-Thoughts, CoTs)和校正规则,无需模型训练。
ZeroEC系统由两个模块组成:上下文相关元组搜索(Contextual-Relevant Tuple Search, CTS)和无训练可解释校正(Training-Free Explainable Correction, TEC)。CTS模块使用加权余弦相似度函数构建上下文相关元组检索器,高效识别每个脏元组的最相关元组,减少LLM提示中的冗余并降低计算成本。TEC模块采用基于聚类的代表性元组采样策略,通过让LLMs暴露于多种数据错误类型来减少“幻觉”风险,并生成校正思维链、校正规则和可解释的错误校正结果。
在多个真实世界数据集上的广泛实验表明,ZeroEC在准确性和效率方面显著优于现有方法。具体来说,ZeroEC在准确性上比现有方法提高了66.82%,在速度上比现有方法快了6.87倍。此外,ZeroEC生成的校正规则和思维链确保了校正结果的可解释性,适用于医疗、金融和政府等关键任务系统。
ZeroEC系统通过利用大语言模型的隐式先验知识,无需模型训练即可高效、有效地校正错误数据并生成推理思维链。该系统遵循无配置范式,用户只需标注少量数据值,大大降低了认知负担。ZeroEC的成功应用表明,大语言模型在数据清洗任务中具有巨大潜力,特别是在处理复杂和多样化的错误模式时。
ZeroEC的代码和数据集已在GitHub上公开,供其他研究人员使用和验证。此外,研究团队还计划开发一个端到端的数据清洗系统,通过迭代执行错误检测和错误校正,逐步提高两者的性能。