分享自:

基于强化学习的上下文学习演示选择方法

期刊:Proceedings of the 42nd International Conference on Machine Learning

基于所提供的内容,这是一篇报告单一原创研究的学术论文,因此属于类型a。以下是根据要求生成的学术报告。


学术研究报告:基于强化学习的上下文学习演示样本选择方法

本文由Xubin Wang、Jianfei Wu、Yichen Yuan、Deyu Cai、Mingzhe Li和Weijia Jia共同完成。其中,Xubin Wang和Jianfei Wu分别来自香港浸会大学、北京师范大学-香港浸会大学联合国际学院(UIC)人工智能与未来网络研究所以及北京师范大学珠海校区;Weijia Jia为通讯作者。本项研究发表于Proceedings of the 42nd International Conference on Machine Learning (PMLR),收录于2025年的会议论文集中。

一、 研究背景与目标

本研究的核心科学领域属于自然语言处理,具体聚焦于大语言模型的上下文学习。ICL(In-Context Learning, 上下文学习)是一种无需微调模型参数即可让LLM(Large Language Models, 大语言模型)执行新任务的关键技术。其方法是在输入提示中提供少数任务相关的示例(即“演示样本”),模型基于这些示例进行推理并给出答案。ICL的有效性高度依赖于演示样本的选择。

然而,当前主流的演示样本选择方法多侧重于与查询样本的相似性相关性。这种策略虽然能在一定程度上提升准确性,但也容易导致过拟合,即所选样本过于集中于某一特征或标签,无法全面反映数据的潜在分布,从而损害模型在新数据上的泛化能力。尤其是在少样本场景下,这一问题尤为突出。多样性对于覆盖更广泛的数据结构和概念至关重要,但如何自动、动态地选择出既相关又多样的演示样本,是一个尚未完全解决的挑战。

因此,本研究旨在解决这一核心问题,提出了一种名为RDEs的创新方法。其核心目标是:通过利用强化学习框架,动态优化ICL任务(特别是文本分类和推理任务)中的演示样本选择策略,以在相关性与多样性之间取得最佳平衡,从而提升大语言模型的预测准确性、鲁棒性和泛化能力。

二、 研究方法与详细流程

本研究提出并实现了一个完整的基于RL的演示选择框架RDEs。其工作流程可以概括为以下几个核心环节:

1. 问题形式化与建模 研究首先将演示样本选择问题构建为一个序列决策问题,并使用马尔可夫决策过程 进行形式化建模。具体定义如下: * 状态空间(S):用于捕捉当前决策的完整上下文信息,由四个部分拼接而成: * 文本特征:当前查询文本的TF-IDF向量。 * 演示记忆:已选演示样本的聚合嵌入向量。 * 预测历史:基于当前演示集所做预测的编码。 * 多样性追踪:当前已选演示样本集的标签多样性分数(定义为唯一标签数除以总样本数)。 * 动作空间(A):从知识库(候选演示池)中选择一个样本的离散动作。 * 状态转移(P):确定性的。执行一个动作(选择一个样本)后,状态更新为包含新样本集及其预测和多样性分数的状态。 * 奖励函数(R):设计了一个多目标奖励函数,以同时优化准确性和多样性: R(s, a) = 准确性奖励(预测正确则为1) + λ * 多样性提升奖励(添加样本后的多样性分数增量)。其中,λ是一个可自适应退火的系数,用于在训练早期鼓励探索多样性,后期则更注重准确性。 * 折扣因子(γ):用于权衡即时奖励与未来奖励。

2. 基于强化学习的优化框架 研究探索并实现了两种RL算法来学习最优的样本选择策略: * Q-Learning方法:适用于状态空间相对较小或可离散化的环境。该方法采用标准的Q-Learning更新规则,通过ε-贪心策略平衡探索与利用,并将Q值存储在一个表格中。这种方法构成了论文中RDEs/bRDEs/C的基础。 * PPO变体方法:针对高维状态空间,采用了近端策略优化算法。该方法构建了一个演员-评论家架构: * 策略网络(Actor):一个神经网络,输入状态,输出选择每个候选样本的概率。 * 价值网络(Critic):另一个神经网络,用于估计当前状态的价值。 * 优化目标:使用PPO的裁剪替代目标函数来更新策略网络,确保策略更新的稳定性,同时结合价值函数损失和鼓励探索的熵奖励。

3. 统一的训练流程与集成策略 RDEs框架的训练遵循一个统一的范式: 1. 初始化:初始化RL策略(Q表或神经网络参数)。 2. 数据准备:预计算所有测试样本和知识库样本的TF-IDF特征。 3. 迭代训练: a. 从测试集中采样一个查询输入。 b. 初始候选选择:基于相关性(如TF-IDF相似度)从知识库中选出少量初始候选演示样本。 c. 生成预测:将当前查询和选择的演示样本构建成提示,输入给目标LLM,获取其预测结果。 d. 计算多样性:计算当前演示样本集的标签多样性分数。 e. 状态编码:根据当前查询、演示集、预测结果和多样性分数,构建状态表示。 f. 动作选择:RL策略根据当前状态选择一个动作(即从知识库中选择一个新的样本)。 g. 计算奖励:根据预测准确性和多样性变化计算即时奖励。 h. 策略更新:使用Q-Learning或PPO算法,基于状态、动作和奖励对策略参数进行更新。 4. 输出:训练完成后,得到一个可以针对每个查询自适应选择演示样本的优化策略。

4. 与高级推理技术集成 为了进一步提升性能,RDEs可以无缝集成思维链技术,形成了RDEs/C变体。与标准提示(直接将输入、演示样本和选项拼接)不同,Cot提示要求LLM在给出最终答案前,先生成中间的推理步骤。研究表明,将RDEs的选择能力与Cot的逐步推理能力相结合,能够产生协同效应,进一步优化预测性能。

5. 实验设计与评估对象 为了全面评估RDEs的有效性,研究进行了广泛且严谨的实验: * 评估数据集:使用了四个广泛认可的意图分类数据集进行主要评估:Banking77、CLINC150、HWU64和Liu54。为了测试其在更复杂推理任务上的泛化性,还使用了BigBenchHard(布尔表达式和谎言网络子集)、GSM-8k(数学推理)和SST5(细粒度情感分析)作为补充挑战集。 * 对比基线方法:与十种现有方法进行了对比,分为两大类: * 提示工程方法:零样本提示、知识提示、最少到最多提示、思维链提示、自我优化。 * 演示选择方法:少样本提示、少样本+思维链提示、主动演示选择、代表性演示选择、自适应演示选择。 * 评估模型:实验涉及了14个开源和闭源的LLM,包括闭源模型(如GPT-3.5-turbo,豆包Lite/Pro-4k,混元Lite)和开源模型(如Gemma系列、Llama系列、Qwen系列),确保了结论的普适性。 * 评估指标:主要使用准确率作为核心评估指标。

三、 主要研究结果

1. 闭源模型上的性能表现 在四个主要分类数据集上,RDEs方法(尤其是RDEs/C)展现出压倒性的优势。如表1所示: * 在Banking77数据集上,RDEs/C在GPT-3.5-turbo上达到了0.858的准确率,远高于其他任何基线方法(最佳基线ada为0.360)。在所有四个闭源模型上的平均准确率为0.838,显著领先。 * 在CLINC150数据集上,RDEs/C在豆包Pro-4k模型上取得了0.961的最高分,平均准确率也达到0.902。 * 类似地,在HWU64和Liu54数据集上,RDEs/C的平均准确率分别为0.872和0.824,均大幅领先于所有基线。 * 结果逻辑关系:这些结果表明,无论模型本身性能如何(如豆包Lite-4k相对较弱),RDEs都能显著提升其ICL性能。这证明了RDEs框架本身的有效性,而不仅仅是依赖强大模型的固有能力。性能提升的一致性,为后续分析其内在机制(多样性平衡)提供了坚实的实证基础。

2. 开源模型上的性能表现 在开源模型上的实验进一步验证了RDEs的鲁棒性。如表2所示: * 尽管不同开源模型(从小型Gemma-2-2b到超大型Qwen-1.5-72b)的基线性能差异巨大,RDEs/C在大多数情况下仍能带来显著提升。 * 例如,在Banking77数据集上,Qwen-1.5-72b使用RDEs/C后准确率从0.775提升至0.892。即使是基线性能很差的Llama-3.2-1b,使用RDEs/C后准确率也从0.680大幅提升至0.744。 * 结果逻辑关系:这些结果排除了“性能提升仅源于特定(闭源)模型”的可能性,证明了RDEs作为一种通用方法的潜力。同时,结果也显示模型规模越大,通常能更好地利用RDEs选择的优质演示样本,产生更强的协同效应。

3. 平均性能与趋势分析 图3汇总了所有模型(闭源和开源)在各数据集上的平均结果。关键发现包括: * RDEs/C在四个数据集中的三个(Banking77, HWU64, Liu54)上取得了最高平均准确率。 * 在CLINC150数据集上,RDEs/b的平均准确率(0.812)略高于RDEs/C(0.788),但仍远高于所有基线。这表明Cot的集成效果可能因数据集特性而异,但RDEs的核心选择机制始终有效。 * 多样性驱动的泛化:在多个数据集中,强调多样性的ADA方法表现优于纯相似性的方法,而RDEs通过RL动态优化,性能又超越了静态的ADA。这直接证明了通过RL平衡相关性与多样性这一核心设计的价值。

4. 在复杂推理任务上的评估 补充实验(表5)显示,RDEs方法在更具挑战性的推理任务上依然表现优异。 * 在BigBenchHard的布尔表达式和Web of Lies任务上,使用DeepSeek-R1-32b模型时,RDEs/C和RDEs/PPO均取得了接近或达到1.00的完美准确率,远超基线方法。 * 在数学推理数据集GSM-8k上,RDEs/C也取得了有竞争力的结果。 * 结果逻辑关系:这些结果将RDEs的有效性从“文本分类”扩展到了“复杂推理”,证明了其方法论的普遍适用性。特别是RDEs/PPO在部分任务上表现突出,表明不同的RL算法可能适用于不同复杂度的任务,为未来的算法选择提供了参考。

5. 消融研究 图4和图5的消融研究直观地展示了多样性的重要性。对比“无多样性”基线、RDEs/b和RDEs/C,后两者在绝大多数模型和数据集上都带来了显著的性能提升。这为“多样性是提升ICL泛化能力的关键因素”这一核心论点提供了直接证据,并证明了RDEs成功地通过其奖励函数实现了对多样性的有效利用。

四、 结论与价值

本研究的核心结论是:提出的RDEs框架通过将演示样本选择问题形式化为一个RL任务,并设计一个同时优化准确性和多样性的奖励函数,能够动态、自适应地为每个查询选择最优的演示样本集。该方法在广泛的文本分类和复杂推理任务上,均能显著且一致地超越现有的提示工程和演示选择基线方法。

科学价值: 1. 理论贡献:为ICL研究提供了一个新颖的、基于强化学习的演示选择理论框架。它将选择过程建模为MDP,并明确了相关性与多样性的联合优化目标,为该领域的后续研究提供了新的思路和基准。 2. 方法论创新:首次将PPO等现代RL算法深入应用于ICL的演示选择问题,并展示了其潜力。提出的多样性奖励设计和状态表示方法具有启发性。 3. 实证贡献:通过在大规模、多样化的数据集和LLM上进行系统性实验,为“多样性对于ICL泛化至关重要”提供了强有力的实证支持,并定量展示了RL方法在实现这一目标上的优越性。

应用价值: 1. 提升LLM实际效能:RDEs提供了一种轻量级、无需修改模型参数的“后训练”优化手段,可立即应用于现有商业和开源LLM,显著提升其在少样本场景下的任务性能,降低对大量标注数据的依赖。 2. 增强模型鲁棒性:通过促进多样性,有助于减少模型因演示样本偏差而产生的错误,使其在面对分布外数据或对抗性样本时更加稳健。 3. 推动高效提示工程:为实现自动化、智能化的提示构建和优化提供了可行路径。

五、 研究亮点

  1. 核心创新点:研究的主要新颖性在于利用强化学习框架,显式地、动态地优化演示样本选择中的相关性与多样性权衡。这与多数静态的、仅关注单一目标(如相似性)的现有方法形成鲜明对比。
  2. 系统性的验证:实验设计极为全面,覆盖了多种任务类型(分类、推理)、海量模型(14个LLM)和众多基线方法(10种),使得结论具有很高的说服力和普适性。
  3. 灵活可扩展的框架:RDEs框架具有模块化特点,其RL算法(Q-Learning, PPO)、奖励函数、状态表示均可根据具体任务进行调整。它还能轻松集成如Cot等更高级的推理技术,展现了良好的扩展性。
  4. 对关键挑战的回应:研究直接针对了ICL领域公认的关键挑战——“如何选择有效的演示样本”,并提出了一个行之有效的解决方案。

六、 其他有价值的内容

论文还包含了影响声明,前瞻性地讨论了该技术可能带来的正面影响(如提升有限数据下的模型效能)和潜在风险(如计算成本高、可能被误用于增强监控或审查),并呼吁未来的研究应关注计算效率提升、设置防滥用保障措施以及进行用户体验研究,体现了负责任的科研态度。附录部分提供了详细的算法对比、收敛性理论分析、数据集和基线方法描述等补充材料,增强了研究的可复现性和深度。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com