基于强化学习的上下文学习演示选择方法

分享自：
基于强化学习的上下文学习演示选择方法

期刊:Proceedings of the 42nd International Conference on Machine Learning
基于所提供的内容，这是一篇报告单一原创研究的学术论文，因此属于类型a。以下是根据要求生成的学术报告。
学术研究报告：基于强化学习的上下文学习演示样本选择方法
本文由Xubin Wang、Jianfei Wu、Yichen Yuan、Deyu Cai、Mingzhe Li和Weijia Jia共同完成。其中，Xubin Wang和Jianfei Wu分别来自香港浸会大学、北京师范大学-香港浸会大学联合国际学院（UIC）人工智能与未来网络研究所以及北京师范大学珠海校区；Weijia Jia为通讯作者。本项研究发表于Proceedings of the 42nd International Conference on Machine Learning (PMLR)，收录于2025年的会议论文集中。
一、 研究背景与目标
本研究的核心科学领域属于自然语言处理，具体聚焦于大语言模型的上下文学习。ICL（In-Context Learning, 上下文学习）是一种无需微调模型参数即可让LLM（Large Language Models, 大语言模型）执行新任务的关键技术。其方法是在输入提示中提供少数任务相关的示例（即“演示样本”），模型基于这些示例进行推理并给出答案。ICL的有效性高度依赖于演示样本的选择。
然而，当前主流的演示样本选择方法多侧重于与查询样本的相似性或相关性。这种策略虽然能在一定程度上提升准确性，但也容易导致过拟合，即所选样本过于集中于某一特征或标签，无法全面反映数据的潜在分布，从而损害模型在新数据上的泛化能力。尤其是在少样本场景下，这一问题尤为突出。多样性对于覆盖更广泛的数据结构和概念至关重要，但如何自动、动态地选择出既相关又多样的演示样本，是一个尚未完全解决的挑战。
因此，本研究旨在解决这一核心问题，提出了一种名为RDEs的创新方法。其核心目标是：通过利用强化学习框架，动态优化ICL任务（特别是文本分类和推理任务）中的演示样本选择策略，以在相关性与多样性之间取得最佳平衡，从而提升大语言模型的预测准确性、鲁棒性和泛化能力。
二、 研究方法与详细流程
本研究提出并实现了一个完整的基于RL的演示选择框架RDEs。其工作流程可以概括为以下几个核心环节：
1. 问题形式化与建模 研究首先将演示样本选择问题构建为一个序列决策问题，并使用马尔可夫决策过程 进行形式化建模。具体定义如下： * 状态空间（S）：用于捕捉当前决策的完整上下文信息，由四个部分拼接而成： * 文本特征：当前查询文本的TF-IDF向量。 * 演示记忆：已选演示样本的聚合嵌入向量。 * 预测历史：基于当前演示集所做预测的编码。 * 多样性追踪：当前已选演示样本集的标签多样性分数（定义为唯一标签数除以总样本数）。 * 动作空间（A）：从知识库（候选演示池）中选择一个样本的离散动作。 * 状态转移（P）：确定性的。执行一个动作（选择一个样本）后，状态更新为包含新样本集及其预测和多样性分数的状态。 * 奖励函数（R）：设计了一个多目标奖励函数，以同时优化准确性和多样性： R(s, a) = 准确性奖励（预测正确则为1） + λ * 多样性提升奖励（添加样本后的多样性分数增量）。其中，λ是一个可自适应退火的系数，用于在训练早期鼓励探索多样性，后期则更注重准确性。 * 折扣因子（γ）：用于权衡即时奖励与未来奖励。
2. 基于强化学习的优化框架 研究探索并实现了两种RL算法来学习最优的样本选择策略： * Q-Learning方法：适用于状态空间相对较小或可离散化的环境。该方法采用标准的Q-Learning更新规则，通过ε-贪心策略平衡探索与利用，并将Q值存储在一个表格中。这种方法构成了论文中RDEs/b和RDEs/C的基础。 * PPO变体方法：针对高维状态空间，采用了近端策略优化算法。该方法构建了一个演员-评论家架构： * 策略网络（Actor）：一个神经网络，输入状态，输出选择每个候选样本的概率。 * 价值网络（Critic）：另一个神经网络，用于估计当前状态的价值。 * 优化目标：使用PPO的裁剪替代目标函数来更新策略网络，确保策略更新的稳定性，同时结合价值函数损失和鼓励探索的熵奖励。
3. 统一的训练流程与集成策略 RDEs框架的训练遵循一个统一的范式： 1. 初始化：初始化RL策略（Q表或神经网络参数）。 2. 数据准备：预计算所有测试样本和知识库样本的TF-IDF特征。 3. 迭代训练： a. 从测试集中采样一个查询输入。 b. 初始候选选择：基于相关性（如TF-IDF相似度）从知识库中选出少量初始候选演示样本。 c. 生成预测：将当前查询和选择的演示样本构建成提示，输入给目标LLM，获取其预测结果。 d. 计算多样性：计算当前演示样本集的标签多样性分数。 e. 状态编码：根据当前查询、演示集、预测结果和多样性分数，构建状态表示。 f. 动作选择：RL策略根据当前状态选择一个动作（即从知识库中选择一个新的样本）。 g. 计算奖励：根据预测准确性和多样性变化计算即时奖励。 h. 策略更新：使用Q-Learning或PPO算法，基于状态、动作和奖励对策略参数进行更新。 4. 输出：训练完成后，得到一个可以针对每个查询自适应选择演示样本的优化策略。
4. 与高级推理技术集成 为了进一步提升性能，RDEs可以无缝集成思维链技术，形成了RDEs/C变体。与标准提示（直接将输入、演示样本和选项拼接）不同，Cot提示要求LLM在给出最终答案前，先生成中间的推理步骤。研究表明，将RDEs的选择能力与Cot的逐步推理能力相结合，能够产生协同效应，进一步优化预测性能。
5. 实验设计与评估对象 为了全面评估RDEs的有效性，研究进行了广泛且严谨的实验： * 评估数据集：使用了四个广泛认可的意图分类数据集进行主要评估：Banking77、CLINC150、HWU64和Liu54。为了测试其在更复杂推理任务上的泛化性，还使用了BigBenchHard（布尔表达式和谎言网络子集）、GSM-8k（数学推理）和SST5（细粒度情感分析）作为补充挑战集。 * 对比基线方法：与十种现有方法进行了对比，分为两大类： * 提示工程方法：零样本提示、知识提示、最少到最多提示、思维链提示、自我优化。 * 演示选择方法：少样本提示、少样本+思维链提示、主动演示选择、代表性演示选择、自适应演示选择。 * 评估模型：实验涉及了14个开源和闭源的LLM，包括闭源模型（如GPT-3.5-turbo，豆包Lite/Pro-4k，混元Lite）和开源模型（如Gemma系列、Llama系列、Qwen系列），确保了结论的普适性。 * 评估指标：主要使用准确率作为核心评估指标。
三、 主要研究结果
1. 闭源模型上的性能表现 在四个主要分类数据集上，RDEs方法（尤其是RDEs/C）展现出压倒性的优势。如表1所示： * 在Banking77数据集上，RDEs/C在GPT-3.5-turbo上达到了0.858的准确率，远高于其他任何基线方法（最佳基线ada为0.360）。在所有四个闭源模型上的平均准确率为0.838，显著领先。 * 在CLINC150数据集上，RDEs/C在豆包Pro-4k模型上取得了0.961的最高分，平均准确率也达到0.902。 * 类似地，在HWU64和Liu54数据集上，RDEs/C的平均准确率分别为0.872和0.824，均大幅领先于所有基线。 * 结果逻辑关系：这些结果表明，无论模型本身性能如何（如豆包Lite-4k相对较弱），RDEs都能显著提升其ICL性能。这证明了RDEs框架本身的有效性，而不仅仅是依赖强大模型的固有能力。性能提升的一致性，为后续分析其内在机制（多样性平衡）提供了坚实的实证基础。
2. 开源模型上的性能表现 在开源模型上的实验进一步验证了RDEs的鲁棒性。如表2所示： * 尽管不同开源模型（从小型Gemma-2-2b到超大型Qwen-1.5-72b）的基线性能差异巨大，RDEs/C在大多数情况下仍能带来显著提升。 * 例如，在Banking77数据集上，Qwen-1.5-72b使用RDEs/C后准确率从0.775提升至0.892。即使是基线性能很差的Llama-3.2-1b，使用RDEs/C后准确率也从0.680大幅提升至0.744。 * 结果逻辑关系：这些结果排除了“性能提升仅源于特定（闭源）模型”的可能性，证明了RDEs作为一种通用方法的潜力。同时，结果也显示模型规模越大，通常能更好地利用RDEs选择的优质演示样本，产生更强的协同效应。
3. 平均性能与趋势分析 图3汇总了所有模型（闭源和开源）在各数据集上的平均结果。关键发现包括： * RDEs/C在四个数据集中的三个（Banking77， HWU64， Liu54）上取得了最高平均准确率。 * 在CLINC150数据集上，RDEs/b的平均准确率（0.812）略高于RDEs/C（0.788），但仍远高于所有基线。这表明Cot的集成效果可能因数据集特性而异，但RDEs的核心选择机制始终有效。 * 多样性驱动的泛化：在多个数据集中，强调多样性的ADA方法表现优于纯相似性的方法，而RDEs通过RL动态优化，性能又超越了静态的ADA。这直接证明了通过RL平衡相关性与多样性这一核心设计的价值。
4. 在复杂推理任务上的评估 补充实验（表5）显示，RDEs方法在更具挑战性的推理任务上依然表现优异。 * 在BigBenchHard的布尔表达式和Web of Lies任务上，使用DeepSeek-R1-32b模型时，RDEs/C和RDEs/PPO均取得了接近或达到1.00的完美准确率，远超基线方法。 * 在数学推理数据集GSM-8k上，RDEs/C也取得了有竞争力的结果。 * 结果逻辑关系：这些结果将RDEs的有效性从“文本分类”扩展到了“复杂推理”，证明了其方法论的普遍适用性。特别是RDEs/PPO在部分任务上表现突出，表明不同的RL算法可能适用于不同复杂度的任务，为未来的算法选择提供了参考。
5. 消融研究 图4和图5的消融研究直观地展示了多样性的重要性。对比“无多样性”基线、RDEs/b和RDEs/C，后两者在绝大多数模型和数据集上都带来了显著的性能提升。这为“多样性是提升ICL泛化能力的关键因素”这一核心论点提供了直接证据，并证明了RDEs成功地通过其奖励函数实现了对多样性的有效利用。
四、 结论与价值
本研究的核心结论是：提出的RDEs框架通过将演示样本选择问题形式化为一个RL任务，并设计一个同时优化准确性和多样性的奖励函数，能够动态、自适应地为每个查询选择最优的演示样本集。该方法在广泛的文本分类和复杂推理任务上，均能显著且一致地超越现有的提示工程和演示选择基线方法。
科学价值： 1. 理论贡献：为ICL研究提供了一个新颖的、基于强化学习的演示选择理论框架。它将选择过程建模为MDP，并明确了相关性与多样性的联合优化目标，为该领域的后续研究提供了新的思路和基准。 2. 方法论创新：首次将PPO等现代RL算法深入应用于ICL的演示选择问题，并展示了其潜力。提出的多样性奖励设计和状态表示方法具有启发性。 3. 实证贡献：通过在大规模、多样化的数据集和LLM上进行系统性实验，为“多样性对于ICL泛化至关重要”提供了强有力的实证支持，并定量展示了RL方法在实现这一目标上的优越性。
应用价值： 1. 提升LLM实际效能：RDEs提供了一种轻量级、无需修改模型参数的“后训练”优化手段，可立即应用于现有商业和开源LLM，显著提升其在少样本场景下的任务性能，降低对大量标注数据的依赖。 2. 增强模型鲁棒性：通过促进多样性，有助于减少模型因演示样本偏差而产生的错误，使其在面对分布外数据或对抗性样本时更加稳健。 3. 推动高效提示工程：为实现自动化、智能化的提示构建和优化提供了可行路径。
五、 研究亮点
核心创新点：研究的主要新颖性在于利用强化学习框架，显式地、动态地优化演示样本选择中的相关性与多样性权衡。这与多数静态的、仅关注单一目标（如相似性）的现有方法形成鲜明对比。
系统性的验证：实验设计极为全面，覆盖了多种任务类型（分类、推理）、海量模型（14个LLM）和众多基线方法（10种），使得结论具有很高的说服力和普适性。
灵活可扩展的框架：RDEs框架具有模块化特点，其RL算法（Q-Learning， PPO）、奖励函数、状态表示均可根据具体任务进行调整。它还能轻松集成如Cot等更高级的推理技术，展现了良好的扩展性。
对关键挑战的回应：研究直接针对了ICL领域公认的关键挑战——“如何选择有效的演示样本”，并提出了一个行之有效的解决方案。
六、 其他有价值的内容
论文还包含了影响声明，前瞻性地讨论了该技术可能带来的正面影响（如提升有限数据下的模型效能）和潜在风险（如计算成本高、可能被误用于增强监控或审查），并呼吁未来的研究应关注计算效率提升、设置防滥用保障措施以及进行用户体验研究，体现了负责任的科研态度。附录部分提供了详细的算法对比、收敛性理论分析、数据集和基线方法描述等补充材料，增强了研究的可复现性和深度。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问