分享自:

使用语义熵检测大型语言模型中的幻觉

期刊:natureDOI:10.1038/s41586-024-07421-0

这篇文档属于类型a,即报告了一项原创研究。以下是针对该研究的学术报告:


大型语言模型中的幻觉检测:基于语义熵的新方法

作者及机构
本研究的作者包括Sebastian Farquhar、Jannik Kossen、Lorenz Kuhn和Yarin Gal,他们均来自英国牛津大学计算机科学系的OATML实验室。研究于2024年6月20日发表在《Nature》期刊上,题为《Detecting Hallucinations in Large Language Models Using Semantic Entropy》。

学术背景
大型语言模型(LLMs),如ChatGPT和Gemini,在推理和问答任务中展现了强大的能力,但也常常产生“幻觉”(hallucinations),即生成错误或无依据的答案。这种现象在多个领域(如法律、新闻、医学)引发了严重问题,甚至可能危及生命。尽管通过监督或强化学习可以部分提升模型的真实性,但如何检测新问题中的幻觉仍是一个挑战。本研究旨在开发一种通用的方法,通过基于统计学的语义熵(semantic entropy)来检测LLMs中的幻觉,特别是“虚构”(confabulations)——即模型生成的任意且错误的答案。

研究流程
1. 问题定义与目标
研究首先定义了“幻觉”在LLMs中的具体表现,特别是虚构现象。虚构指的是模型在相同输入下生成不同且错误的答案,且这些答案对随机种子等无关细节敏感。研究的目标是开发一种无需先验任务知识、无需任务特定数据的方法,能够在跨数据集和任务中检测虚构。

  1. 语义熵的提出与实现
    研究提出了一种基于语义熵的检测方法。语义熵通过计算模型生成答案的语义不确定性来检测虚构。具体步骤包括:

    • 生成答案:对每个问题,从模型中采样多个可能的答案,并记录其概率。
    • 语义聚类:使用双向蕴含(bidirectional entailment)算法将答案按语义相似性聚类。双向蕴含通过判断两个句子是否相互蕴含来确定它们是否语义等价。
    • 语义熵计算:基于聚类结果,计算语义熵。高语义熵表明模型对生成答案的语义不确定性较高,从而可能产生虚构。
  2. 实验设计与数据集
    研究在多个数据集上验证了语义熵的有效性,包括TriviaQA(常识问答)、SQuAD(阅读理解)、BioASQ(生物医学问答)、NQ-Open(开放域问答)和SVAMP(数学应用题)。此外,研究还开发了一个传记生成数据集FactualBio,用于检测长文本中的虚构。

  3. 基线方法与对比
    研究对比了语义熵与多种基线方法,包括朴素熵(naive entropy)、嵌入回归(embedding regression)和P(true)方法。朴素熵直接计算生成答案的词汇熵,忽略了语义等价性;嵌入回归通过训练分类器预测模型答案的正确性;P(true)方法通过提示模型判断生成答案的真实性。

  4. 评估指标
    研究使用AUROC(受试者工作特征曲线下面积)和AURejA(拒绝准确率曲线下面积)作为主要评估指标。AUROC衡量模型预测错误答案的能力,而AURejA衡量通过拒绝高不确定性答案提升模型准确性的能力。

主要结果
1. 语义熵的有效性
研究结果表明,语义熵在多个数据集和模型上均优于基线方法。例如,在TriviaQA和SQuAD数据集上,语义熵的AUROC分别达到0.790和0.810,显著高于朴素熵和P(true)方法。这表明语义熵能够有效检测模型生成的虚构。

  1. 长文本中的虚构检测
    在FactualBio数据集上,语义熵同样表现出色,其AUROC和AURejA均高于基线方法。这表明语义熵不仅适用于短文本,还能有效检测长文本中的虚构。

  2. 模型规模的影响
    研究还发现,随着模型规模的增大,P(true)方法的性能有所提升,但语义熵在所有模型规模上均保持稳定且优异的性能。

结论
本研究提出了一种基于语义熵的新方法,能够有效检测LLMs中的虚构现象。该方法无需先验任务知识,适用于跨数据集和任务,并在多个领域展现了强大的应用潜力。研究结果表明,语义熵不仅能够提升模型的准确性,还能为用户提供生成答案的可靠性评估,从而为LLMs的安全应用提供了重要支持。

研究亮点
1. 创新性方法:语义熵通过计算生成答案的语义不确定性,解决了传统方法无法区分语义等价性的问题。
2. 广泛应用性:方法无需任务特定数据,适用于多种任务和数据集,展现了强大的通用性。
3. 长文本检测能力:研究首次将语义熵应用于长文本中的虚构检测,拓展了其应用范围。

其他价值
本研究不仅为LLMs的幻觉检测提供了新思路,还为未来研究提供了重要参考。例如,语义熵可以进一步应用于摘要生成、对话系统等领域,为提升生成内容的真实性和可靠性提供支持。此外,研究还强调了区分不同幻觉机制的重要性,为未来研究提供了新的方向。


这篇报告详细介绍了研究的背景、方法、实验设计、结果和意义,为读者提供了全面的理解。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com