NIPS2024最新: 大模型在噪声提示词下还能否正确推理？

AI 搜索引擎 2024-12-25

384

今天分享的是NIPS2024的一篇论文：

Can Language Models Perform Robust Reasoningin Chain-of-thought Prompting with Noisy Rationales?

语言模型能否在带有噪声的情况下中进行稳健的CoT推理？

论文链接：https://arxiv.org/pdf/2410.23856

代码链接：https://github.com/tmlr-group/NoisyRationales

摘要

这篇论文研究了大语言模型在带有噪声的输入下的推理鲁棒性这一未充分探讨的挑战。研究者构建了专门用于评估带噪声的数据情况下验证推理鲁棒性的NoRa数据集，并发现当前的大语言模型普遍容易受到这种噪声的影响，现有的鲁棒方法如自我修正和自我一致性在此方面的效果有限。

论文提出了一种对比去噪方法CD-CoT，通过将噪声数据与纯净数据的推理结果进行对比，增强了模型的去噪推理能力。CD-CoT方法遵循探索与利用的原则，在输入空间重写和选择理由以实现显式去噪，并在输出空间探索多样化的推理路径并对答案进行投票。

主要内容

对于朴素的CoT提示词，需要通过样例问题+样例推理链来教会模型如何采用思维链的方式来解题。上图展示了两张噪音情况，分别是输入的问题有错误和思维链有错误。

NoRA数据集

NoRa 数据集是一个专门用于评估LLM推理鲁棒性的数据集，包含了三种类型的推理任务：

数学推理 (NoRa-Math): 包括两种子任务：

九进制加法 (Base-9 Addition): 考察模型在不同进制下的计算能力。
十一进制加法 (Base-11 Addition): 进一步提升难度，考察模型对不同进制规则的理解和应用。

符号推理 (NoRa-Symbolic): 利用 SCAN 数据集，将自然语言转换为符号指令，包含两种子任务：

等长子任务 (Equal-length Subtask): 转换后的指令长度与示例和测试问题相同。
长长度子任务 (Longer-length Subtask): 转换后的指令长度比示例中的指令更长，更具挑战性。

常识推理 (NoRa-Commonsense): 基于 CLUTRR 数据集，考察模型对家庭关系路径的理解和推理能力。

NoRa 数据集通过在干净 CoT 示例中插入无关或错误信息来生成噪声 CoT 示例，从而模拟真实场景中可能遇到的噪声数据。噪声比例从 0.3 到 0.8 不等，以控制噪声的严重程度。

实验中使用的Baseline方法

本文实验设计中采用了三大类Baseline方法：自我纠错方法、自我一致性方法和外部监督方法，以探索不同角度提升LLM的推理能力。以下是各方法的总结及其作用分析：

1. 自我纠错方法

这些方法的核心思想是让LLM通过自身能力或提示进行改进，从而提升推理的准确性和连贯性。

1. Intrinsic Self-correction (ISC)

目标：鼓励LLM自主发现问题并改正。
实现方式：通过明确的提示语，要求模型审查自己的答案，找出错误并加以改进。
作用：考察模型在无额外信息情况下的自我反思与改进能力。

2. Self-polish (SP)

目标：通过多轮精炼，减少噪声信息并重组逻辑结构。
实现方式：对带噪声的CoT（思维链）示例多次单独优化，最终组合成更清晰的上下文作为任务输入。
作用：适用于消除上下文噪声对模型推理的干扰，同时提升逻辑结构的清晰度。

2. 自我一致性方法

这一类方法通过引入随机性或重复性，利用统计方法来提升模型的稳健性和一致性。

1. SmoothLLM (SM)

目标：通过对提示添加扰动来增强模型对输入噪声的鲁棒性。
实现方式：在每次推理中使用不同形式的带噪声提示，重复任务多次后采用多数投票选出答案。
作用：验证模型在面对不同形式输入时的一致性，同时提高抗干扰能力。

2. Self-denoise (SD)

目标：通过部分内容随机掩码并重建，减少推理过程中噪声的影响。
实现方式：对带噪声的示例进行掩码处理，要求模型推理并填补缺失部分，重复多次后通过多数投票确定答案。
作用：提高模型的推理连贯性，同时通过填补掩码部分来训练模型的细粒度理解能力。

3. Self-consistency (SC)

目标：通过‍采样多次模型输出来提升推理性能。
实现方式：对同一任务重复推理多次，选择最常见的答案作为最终输出。
作用：简单高效，适用于不需要对输入进行复杂处理的情况。

‍3. 外部监督方法

这类方法利用外部信息或特定的提示框架，帮助模型更准确地完成推理任务。

1. Self-correction with Oracle Feedback (SCO)

目标：结合ISC和真实答案的监督，进一步优化模型的输出。
实现方式：在每轮修正中提供真实答案，允许模型最多调整两次，直到获得正确答案。
作用：通过外部监督验证模型的修正能力，适用于任务中具有明确答案的场景。

2. Backtracking (BT)

目标：定位并纠正推理中的第一处错误。
实现方式：提供噪声推理中首个错误的具体位置，提示模型修正该错误并生成新的上下文。
作用：以较低的监督成本提高推理准确性，适用于复杂推理链条的优化。

3. ContrastiveCoT (CC)

目标：通过对比学习增强模型的泛化能力。
实现方式：提供干净推理（正示例）和带噪声推理（负示例）的对比示例，利用对比结构的提示引导模型推理。
作用：帮助模型更好地区分有效与无效推理过程，提升对新任务的适应性。

实验结论

实验结果如上图所示，作者在文章中给出的6个实验结论如下:

Observation 1: 自我纠错方法在带噪声推理任务上的表现较差

表现分析：

ISC 和 SP 方法过于依赖LLM的内在能力，但缺乏外部反馈的支持，容易导致错误修正（Miscorrection）。
SP 在常识任务中略有改进，但总体性能仍然低于基线模型。
结果表明，自我纠错方法难以有效应对噪声推理场景。

Observation 2: 自我一致性方法可以提升鲁棒性但无法真正去噪

表现分析：

SM 和 SD 方法原用于处理带噪声的问题输入（Noisy-Q），在处理带噪声推理步骤（Noisy-R）时，容易破坏逻辑链条的内在一致性。
SC 方法通过多次采样并进行投票，提升了模型在干净和带噪声任务下的表现，但未显式去噪。
代价：SC 需要较高的计算成本。

Observation 3: 调整温度对噪声推理有帮助

实验结果：

在3-shot 示例中，降低温度（例如从1降到更低值）可以提升噪声和干净推理的准确性。
但过低的温度（如0）会导致冗长、重复的响应，尤其在符号化任务中显著增加了Token消耗。

Observation 4: 使用更多带噪声示例可以提升大部分任务的推理准确性

表现分析：

增加带噪声的示例数量有助于模型在大多数任务中提高准确率。
限制性问题：在高噪声场景（如NoRa-Math任务）中，示例数量的增加反而会降低准确率，尤其在某些任务中表现甚至不如0-shot的水平。

Observation 5: 不同LLMs对噪声推理的脆弱性

实验结果：

Gemini-Pro 优于 GPT-3.5，但对噪声仍敏感，在不相关推理场景中性能下降2.4%-15.7%，在错误推理场下降7.8%-66.8%。
Mixtral 8x7B 表现略逊于 GPT-3.5，但噪声导致的性能下降范围较小。
Llama2-70B 表现相对较差，但对噪声的敏感性也更低。

总结：不同模型在面对噪声时表现各异，但总体上均表现出显著的脆弱性。

Observation 6: 提示示例的映射破坏会退化推理，但仍优于无提示的情况

实验方法：

对问题、推理步骤（Rationales）、答案进行三种随机打乱测试。
尽管打乱后退化了推理能力，但依然优于完全无提示的情况。

结论：

LLM更依赖提示中抽象任务信息的学习，而非仅仅记忆具体问题和答案。
然而，噪声引入的误导比映射打乱对性能的影响更大，说明推理步骤的质量对推理结果的影响更为关键。

CD-CoT框架

CD-CoT (Contrastive Denoising with noisy CoT) 是一种提升大语言模型在存在噪声的CoT提示下增强推理鲁棒性的方法。其核心思想是通过对比干净和噪声 CoT 示例，帮助模型识别和消除噪声，从而更准确地推理出答案。CD-CoT 主要包含以下四个步骤：

1. 理由重述 (Rationale Rephrasing):

输入一个干净 CoT 示例和一个噪声 CoT 示例。
通过对比学习，模型学习从干净示例中获取信息，并重述噪声示例中的理由。
生成多个重述后的理由，每个噪声示例生成 N 个重述理由。

2. 理由选择 (Rationale Selection):

对比重述后的理由与原始干净示例的答案。
选择那些重述后答案与原始答案一致的理由作为候选。
从每个候选集中随机选择 M 个理由。

3. 理由探索 (Rationale Exploration):

将 M 个理由与干净示例和测试问题组合成 M 个不同的输入。
使用 LLM 对每个输入进行推理，生成 D 个不同的答案。

4. 答案投票 (Answer Voting):

对 D 个答案进行投票，选择出现次数最多的答案作为最终答案。

通过以上步骤，CD-CoT 能够有效地消除噪声 CoT 示例中的无关或错误信息，并利用干净示例的指导，帮助 LLM 更准确地推理出答案，从而提升其在噪声环境下的推理鲁棒性。

总结

研究结果表明，现有的方法对LLMs在噪声推理的效果并不好。因此，文章设计了CD-CoT方法，通过对比去噪增强鲁棒性。

编者简介

李剑楠：华东师范大学硕士研究生，研究方向为向量检索。曾作为核心研发工程师参与向量数据库、RAG 等产品研发，代表公司参加 DTCC、WAIM 等会议进行主题分享。

▎往期推荐

OCR噪声会对RAG效果产生严重影响吗？

最新公开: 大规模视频CoT推理数据集及其制作流程

ACL2024: 生成器+阅读器，大幅提升大模型协作能力

文章转载自AI 搜索引擎，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

NIPS2024最新: 大模型在噪声提示词下还能否正确推理？

NoRA数据集

NoRa 数据集是一个专门用于评估LLM推理鲁棒性的数据集，包含了三种类型的推理任务：

实验中使用的Baseline方法

本文实验设计中采用了三大类Baseline方法：自我纠错方法、自我一致性方法和外部监督方法，以探索不同角度提升LLM的推理能力。以下是各方法的总结及其作用分析：

1. 自我纠错方法

2. 自我一致性方法

‍3. 外部监督方法

实验结论

Observation 1: 自我纠错方法在带噪声推理任务上的表现较差

Observation 2: 自我一致性方法可以提升鲁棒性但无法真正去噪

Observation 3: 调整温度对噪声推理有帮助

Observation 4: 使用更多带噪声示例可以提升大部分任务的推理准确性

Observation 5: 不同LLMs对噪声推理的脆弱性

Observation 6: 提示示例的映射破坏会退化推理，但仍优于无提示的情况

CD-CoT框架

评论