ICLR 2024：大模型的多项选择偏差（Llama偏向A/B GPT偏向C/D）

Coggle数据科学 2024-01-23

1011

ICLR 24, Large Language Models Are Not Robust Multiple Choice Selectors

https://openreview.net/forum?id=shr9PXz7T0

论文出发点

大型语言模型（LLMs）在多项选择题（MCQs）的选项位置的变化很容易受到影响，原因在于它们固有的“选择偏差”，即它们更倾向于选择特定的选项ID作为答案（如“选项A”）。

论文通过对三个基准测试中的20个LLMs进行广泛的实证分析，我们指出这种行为偏差主要源于LLMs的“标记偏差”，即在预测答案时，模型会先验地为特定的选项ID标记（例如A/B/C/D）分配更多的概率质量。

大模型的多项选择偏见

MCQ通常包括一个问题和多个备选选项，模型的任务是从中选择最合适的答案。当前LLM相关的场景广泛使用MCQ的任务格式，例如在评估LLMs的基准测试中以及LLM-based的自动评估框架中。

作者观察到LLMs对于MCQ中选项位置的改变是脆弱的。在0-shot MMLU评估中，通过简单的"answermoving attack"，将正确答案始终移动到特定位置会导致LLMs性能的剧烈波动。作者在表1中展示了这一现象，说明移动答案到特定位置会显著影响LLMs的准确性。

LLMs对选项位置变化的差异敏感主要是因为它们存在偏向性行为：它们倾向于选择特定选项ID作为答案，被称为选择偏差。

作者通过随机抽样了1000个MMLU测试样本进行简单验证，其中控制了正确答案为A/B/C/D的数量分别为250。结果显示，1lama-30B在这些样本中选择A/B/C/D的比例分别为34.6% / 27.3% / 22.3% / 15.8%，而gpt-3.5-turbo为22.5% / 25.6% / 32.3% / 19.6%，这些比例在统计上是不均匀的，与表1中的性能波动相符。

选择偏见的实验

选择偏差在各种LLMs中普遍存在

直观地说，选择偏差可能起源于LLMs的训练数据，其中一些答案（例如C）可能比其他答案更频繁出现。然而，在相同模型家族内，即使使用相同的训练数据进行训练（例如llama-7/13/30/65B、llama-2-7/13/70B），我们并未观察到一致的选择偏差模式。我们推测选择偏差是由训练数据组成和顺序、模型容量（参数数量）以及其他因素（如超参数）之间复杂交互的产物。

相同LLM内的选择偏差在呈现相似性

例如，在0-shot设置下，Llama-30B在各种基准测试中一致地偏爱A/B，而gpt-3.5-turbo更倾向于。尽管偏好排序可能在任务或领域之间不严格持续，但每个模型都有一种倾向于特定选项ID（例如A和B）而远离其他选项（例如C和D）的总体趋势。这表明选择偏差是LLMs的一种固有行为偏差，受任务或领域影响较小。

上下文示例可以减少但同时可能改变选择偏差

正如图3所示，1lama-30B在0-shot设置下对不利，但在5-shot设置下变得偏向于它。我们发现这种改变在相同模型家族内仍然没有显示出明显的模式。这表明上下文示例可能引入新的偏差，并与固有的选择偏差交织在一起，使得后者变得复杂且不规律。

偏见产生的来源

在对各种LLMs进行广泛评估之后，研究现在试图找出导致这种行为偏差的内在原因。作者提出两个假设：

令牌偏差。在标准的MCQ提示中（图1），当从选项ID中选择答案时，模型可能会在先验上给特定的ID令牌（如A或C）分配更多的概率质量。
位置偏差。模型可能更偏向于出现在特定排序位置的选项（比如第一个或第二个）。

为了区分两种假设原因的影响，作者进行了两个消融实验：

实验1：洗牌选项ID

随机洗牌默认的ID顺序，例如，洗牌成或等。通过这种方式，B可以表示任何排序位置的选项，从而消除了位置偏差的影响，只留下了令牌偏差。但是这种消融显然会影响MCQ提示的自然性和质量，并可能导致模型性能下降（如表2所示）。

实验2：去除选项ID并要求模型直接选择选项内容

这种方式下，选择偏差的变化将表明令牌偏差的影响，而剩余部分对应于位置偏差。在评估没有选项ID的LLMs时，我们要求gpt-3.5-turbo生成整个选项，然后与黄金答案进行比较。对于开源模型，我们计算选项的可能性，归一化为它们的长度，然后使用最大值作为模型的预测。

思考：通过去除选项ID来消除LLMs的选择偏差是否可行？

尽管选择偏差明显减少，但我们发现去除选项ID通常会降低模型性能（除了在5-shot设置下的少数情况），详见附录F的表4和表5。这种性能降级是因为我们利用LLMs在没有选项ID的情况下回答MCQs的方式，即计算和比较选项的可能性，这被称为Robinson & Wingate (2022)中的“填空提示”格式。

他们的研究表明，要求LLMs预测选项ID形成了比“填空提示”更好的MCQ提示，这与我们的观察一致。此外，通过计算和比较选项的可能性来选择答案不如直接预测选项ID方便和直接。因此，我们建议去除选项ID并不是缓解选择偏差的实际方法。

思考：简单的提示策略是否能够缓解选择偏差？

作为初步的去偏尝试，我们对gpt-3.5-turbo应用了两种简单的提示策略：

显式的去偏指导：我们在gpt-3.5-turbo的系统消息中附加了一个明确的去偏指导（"请注意，所提供的选项已经被随机洗牌，因此公正而没有偏见地考虑它们是至关重要的。"）。
思维链提示法（Wei et al. 2022, Kojima et al., 2022）：首先使用"让我们一步一步地思考："提示gpt-3.5-turbo生成其思考过程，然后产生最终答案。我们遵循OpenAI Evals中的实现，详见附录C的图10。

如表2所示，这两种提示策略不能很好地缓解选择偏差。这表明选择偏差是LLMs的固有行为偏差，无法通过简单的提示工程来解决。

编辑推荐

《深度学习与计算机视觉：核心算法与应用》内容翔实，实例丰富，适合人工智能初学者尤其是计算机视觉初学者阅读，也适合有一定基础的机器学习、深度学习和计算机视觉从业人员阅读，另外还适合作为高等院校人工智能相关专业的教材。

转发本文到朋友圈，集赞30个免费领书

只有三个名额！

# 联系👇小助手领书 #

△长按添加竞赛小助手

每天大模型、算法竞赛、干货资讯

与 36000+来自竞赛爱好者一起交流~

文章转载自Coggle数据科学，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。