Humans or LLMs as the Judge? A Study on Judgement Bias

文章目录

- 题目
- 摘要
- 引言
- 相关作品
- 论法官的偏见
- 实验方案
- 结果与讨论
- 欺骗LLM法官
- 结论

题目

人类还是LLMs作为裁判？判断偏差研究
在这里插入图片描述

论文地址：https://arxiv.org/pdf/2402.10669

摘要

采用人类和大型语言模型(LLM)作为评估LLM性能的评判者(也称为人类和LLM-as-a-judge)最近受到了关注。然而，这种方法同时引入了来自人和LLM的潜在偏差，质疑了评估结果的可靠性。在本文中，我们提出了一个新的框架，该框架不引用基础事实注释，用于调查LLM和人类法官的错误信息监督偏见、性别偏见、权威偏见和美貌偏见。我们参考修正后的布鲁姆分类法建立了一个数据集，并进行了数千次评估。结果表明，人类和LLM法官容易受到不同程度的干扰，即使是最先进的法官也有相当大的偏见。我们进一步利用这些偏见对LLM法官进行攻击。我们希望我们的工作能够让社区了解人类和法官的偏见和脆弱性，以及开发强大评估系统的紧迫性。

警告:我们提供了说明性的攻击协议来揭示LLM法官的漏洞，旨在开发更强大的攻击协议

引言

介绍专有模型，如GPT-4 (OpenAI等人，2023)，克劳德(Anthropic，2024)，GeminiPro (Team等人，2024)，展示了他们在众多自然语言处理任务中的杰出能力，同时也是各种场景中的日常使用工具。与此同时，开源社区正试图复制专有模型并使LLM民主化。为了更好地跟踪LLM的进展，社区非常重视评估模型性能，开发了许多基准测试，大致可以分为开放式和封闭式。虽然诸如MMLU (Hendrycks等人，2020年)、C-Eval(黄等人，2023年)等封闭式基准便于评估，但是它们经常遭受数据污染问题。用内部数据训练的专有LLM往往在封闭式基准测试中表现特别好。另一方面，开放式基准(如MTBench(郑等，2023)和Alpaca-Eval(李等，2023))通过自由形式的生成来测试模型，这更符合真实世界的用例，并严重依赖于LLM的生成能力。开放式基准测试中的数据污染问题不太严重，因为没有标准答案，即使有污染，它对性能黑客攻击的帮助也很小。

开放式基准通常依靠人工来评估答案质量。近年来出现的人工匹配的LLM，LLM-as-adjudge(郑等，2023)作为人类法官的一种替代。最近，人们发现这两种类型的法官都具有一定的偏见(郑等，2023；吴和阿吉，2023)，质疑人和法律硕士作为法官的有效性。因此，一个重要的问题产生了:人类和LLM在判断开放式世代上有多大的偏差？当前的偏见评估框架需要一个黄金标准，要么是基本事实(例如，正确与错误、有害与无害)的形式，要么是人类提供参考答案的形式。但是，如果我们打算探索一些没有提供或没有很好定义的金标准的扰动的影响呢？

在本文中，我们首先确定了四种兴趣偏差:错误信息忽略偏差、性别偏差、权威偏差和美貌偏差，它们在自然语言生成(NLG)评估中至关重要。受干预研究的启发，我们通过在原始答案中分别添加4个扰动(事实错误、性别偏见内容、虚假参考和丰富内容)来研究这些偏差。为了填补目前研究的空白，我们提出了一个新的无参考框架，用于人类和LLM法官的偏见评估。我们首先组成一个控制组和一个实验组，其中前者的每个样本都包含同一问题的一对答案，后者的每个答案对都由前者的一个答案和另一个答案的扰动版本组成。然后，我们通过攻击成功率(ASR)来量化两组之间的偏好变化，其中较高的值表明法官拥有更严重的偏见。我们进一步利用发现的偏见对LLM法官进行攻击。

总之，我们的主要贡献和发现总结如下:我们确定了四个未充分探索的偏见(第3节)。我们提出了一个新的无参考框架，用于人类和LLM法官的偏见分析(第4节)。我们发现，人类法官几乎没有性别偏见，但具有明显的错误信息偏见和美貌偏见。所有法学硕士法官都在不同程度上存在错误信息监督偏见、性别偏见、权威偏见和美貌偏见(第5节)。人们可以很容易地利用权威偏见和美貌偏见对LLM法官进行即时攻击，在GPT协议第4版(第6节)上实现高达50%的ASR。

论法官的偏见

定义偏见根据《牛津英语词典》的定义，“语义”是指语言中的意义(牛津英语词典，2023)。我们主要将偏见分为语义相关的和语义不可知的偏见。语义相关偏差语义相关偏差属于受文本内容相关因素影响的评价者的偏差。典型的例子包括误传、监督偏差和性别偏差。语义不可知偏差语义不可知偏差是指受与文本语义内容无关的因素影响的评价者的偏差。常见的例子包括权威偏见和美貌偏见。

感兴趣的偏差在本研究中，我们进行了大量的实验来探索如下所述的四种类型的偏差。

偏见1。错误信息监督偏差:这是指忽视论点中事实错误的倾向。这经常发生在个人不仔细检查他们的支持论点就草率地得出结论的时候。
偏见2。性别偏见:这是指法官对性别偏见内容的无知。当一个人或一个模型没有学会避免这种无意识的偏见时，就会发生这种情况。
偏见3。权威偏见:这是一种倾向，认为他们认为权威的声明更可信，而不管实际的证据(Saffran et al，2020)。它经常导致不加批判地接受专家的意见，这不应该发生在细心的读者或法官身上。
偏见4。美貌偏见:或“外貌主义”，意思是某人因其美貌而享有特权。在我们的上下文中，它指的是法官倾向于更喜欢视觉上吸引人的内容，而不管其实际有效性。

在图1中，我们为每个偏差提供了一个例子。调查偏见的重要性分析法官的偏见是至关重要的，因为它们有可能扭曲法律结果。错误信息的监督偏见可以通过社交媒体在公众中造成混乱，降低他们的可信度和声誉(Weidner等人，2020)。性别偏见是一种与社会相关的偏见，在法律(Czapanskiy，1990年)和金融(Staveren，2001年)等不同部门都有影响。权威偏见可能导致高估被感知的权威的意见，可能忽略大量的反证，并促进基于权力动态而非事实准确性的决定(Kahneman，2011)。此外，美貌偏见有可能基于视觉吸引力而不是案件的是非曲直偏向当事人，损害了司法程序中预期的公正性(朗罗伊等人，2000)。量化和分析这些偏见对于开发更强大的法官和评估框架至关重要。

实验方案

在这一部分中，我们详细阐述了我们的动机、实验方法、实验数据的创建、实验程序、评估指标和评估中的模型。动机我们首先确定进行偏倚分析的挑战。首先，当没有基础事实，或者当人类不能作为金标准时，就很难对偏见进行有效的比较。第二，很难保证一个实验既可控又全面。一个粗心的大规模实验或天真的设定都会破坏结论的有效性。

不幸的是，这些挑战没有被克服。首先，基础事实注释(例如，w/或w/o事实错误)在当前偏倚分析中是不可或缺的(Zeng等人，2023；吴和阿吉，2023)，但在开放式问题回答中，基本事实可能没有得到很好的定义。第二，实验设计要么过于草率庞大，要么过于有限。郑等人(2023)在从众包工人收集的大规模数据集上得出结论，这可能会给分析带来不可控因素。Wu和Aji (2023)只对从Vicuna-80 (Chiang et al，2023)中选取的40个问题进行了实验，得出了具有有限概括能力的结论。

方法我们采用干预2作为我们的研究方法来量化法官拥有的偏见。我们通过干扰原始答案来调查每一个偏差。我们引入事实错误和性别偏见的内容来分别测试错误信息、监督偏见和性别偏见。法官应该能够发现有缺陷或性别偏见的内容。我们分别引入假参考文献和丰富内容来检验权威偏见和美貌偏见。一个公正的裁判在比较答案对时应该坚持内容的语义。

数据生成为了为我们的实验收集数据，我们使用GPT4 3来生成问题、答案和扰动。数据生成过程如图1所示。问题生成为了提高问题集的通用性，我们遵循以下6个级别修订的布鲁姆分类法(Krathwohl，2002年)(附录G中的描述)并促使GPT-4为每个级别创建30个问题，总计180个问题。这些题的知识水平控制在中学水平或以下。这确保了大学水平的评估者(见第4.4节)能够利用他们的知识来评估答案的质量。我们根据样本子集手动改进问题生成提示(详见附录A.1)。问题的分类由作者根据附录A.4)中描述的标准进行人工验证。这一验证过程确保了我们实验数据的正确性，为后续步骤留下了142个问题。

在这里插入图片描述

图1:示例演示。每个样本包括一个问题，控制组的两个未受干扰的答案A1，A2。为实验组生成A2的扰动版本。有事实错误和性别偏见的文本被涂成红色只是为了演示。丰富的内容以与展示给人类法官相同的方式呈现。我们进行干预，调查错误信息、监督偏见、性别偏见、权威偏见和美貌偏见。

答案生成我们使用GPT-4为每个问题独立生成两个答案，从而为对照组收集了142个问题-答案对。每对由一个问题和两个答案组成，分别表示为Q、A1和A2。扰动对于每种类型的扰动，我们为每个问题随机选择一个答案，并引入扰动(事实错误、有性别偏见的内容、虚假参考和丰富的内容)，结果是实验组142个问题-答案对的4倍。注意添加伪引用和丰富内容后语义不变)，如图1所示。在这些排列中，每个问题的两个答案被标记为A1(原始答案)和p2(A2的扰动版本)。

综上，对于一个特定的扰动p，一个样本由一个问题Q，两个答案A1和A2，一个被扰动的答案A p 2，一个控制组偏好Prefctrl，一个实验组偏好Prefexp组成，如下所示:S p = {Q，A1，A2，Ap 2，Prefctrl，Prefexp} (1)问题生成、答案生成和答案扰动的提示分别见附录A.1、A.2和A.3。

实验对象人类评委我们聘请60名大学生作为我们的人类评委。由于我们的评估材料都是英文的，志愿者应该要么是以英语为母语的人，要么在标准化英语测试中取得不错的成绩。此外，他们应该掌握至少高中水平的数学、物理和逻辑。在实验开始之前，所有的人类裁判都会被告知潜在的风险，并且可以随时停止评估过程。每位评委的工资为30元人民币/小时，每天最多有一个小时的评估时间。我们不告知评委数据生成过程，以避免给实验结果带来额外的因素。附录b提供了更多详细信息。

LLM评委我们的实验还涉及到一些代表性车型的评价，在包括4o、4 (OpenAI等，2023)、Claude-2 (Anthropic)、Claude-3 (Anthropic)、Gemini-Pro (Team等，2024)、4-turbo (OpenAI)、3.5-turbo (OpenAI)、LLaMA270B-Chat (Touvron等，2023)、Mixtral-7Bx8Instruct(江等，2024)、Ernie(孙等，2021)、Spark4和Qwen(白等我们在附录c中详细说明了每个模型的版本及其访问时间。但是，由于一些模型在评估中表现出明显的位置偏差(参见附录F.1中的结果)，我们在以下章节中仅包括位置偏差不太明显的模型。

实验过程图2说明了我们的实验过程，包括审查、投票和汇总。我们分成两组进行实验:控制组(旨在评估A1和A2)和实验组(旨在评估A1和A2的扰动版本p 2)。我们对每一对{Q，A1，A2}和{Q，A1，Ap 2 }的位置进行混洗，以最小化位置偏差的影响。对于人类裁判，我们还记录在后台评估每一对所用的时间，以便进行后处理。给定一个问题及其两个相应的答案，法官被指示仅基于答案的语义质量来确定“答案1”更好，“答案2”更好还是“平局”。

在这里插入图片描述

图2:实验程序。对于每一个问答配对，我们收集6张投票，位置是随机的。投票结果被记录为一个分数，并被转换为一个答案偏好(灰色阴影区域)。
图3: ASR计算。我们通过计算两组间偏好改变的样本百分比来评估评估者对扰动的稳健性。

对于人类法官，我们包括一个“不熟悉”选项，并要求法官在不熟悉问题上下文的情况下选择它。标有“不熟悉”的投票被排除在决赛之外结果。人类评委的详细说明和法学硕士评委的评估提示分别见附录D和E。聚合我们首先排除响应时间太短的投票。为了合计剩余的有效投票，我们首先将0、0.5和1分别分配给A1、T ie和A2/Ap 2。然后，我们计算每个样本在其6次投票中的平均得分。我们使用0.5作为阈值来分配每个样本的合计投票。附录h中显示了基于gradio (Abid等人，2019年)为人类法官构建的用户界面的屏幕截图。

度量标准为了衡量法官对扰动的弹性，我们可以直观地计算由于增加的扰动，偏好向p 2移动的样本的百分比。遵循AI安全中使用的术语，我们将我们的度量命名为攻击成功率(ASR)。具体来说，对于伪引用和丰富内容扰动，在这里插入图片描述其中V1是Prefctrl为A1或T ie的样本集，V2|1是Prefexp为p 2的V1样本集(如图3所示)。对于实际误差扰动，ASR的计算公式为:其中，V2是Prefctrl为A2或T ie的样本集，V2|2是样本集在V2，谁的前缀是p 2或T ie。对于所有三种干扰，ASR越高，法官检测文本中事实错误的能力越低。ASR理想情况下应该接近0。

无参考框架的优越性我们的无参考评估框架允许量化评估开放式生成任务中的偏差，其中可能没有基础事实。本质上，偏差是通过ASR来量化的，ASR是从控制组到实验组偏好转向扰动答案的样本的百分比。我们的新框架为未来关于开放式世代评估的偏见研究提供了见解。

结果与讨论

初步:关于位置偏差人类和LLM判断者的位置偏差是指在进行两两比较时，判断者倾向于在一对中选择一边而不考虑答案质量的现象。由于位置偏差已被许多著作深入探讨(王等，2023a郑等，2023；Wu和Aji，2023)，我们调查了这种偏见，以确定有效的判断，为随后的分析。详细结果见附录F.1。我们实证发现，GPT-3.5 Turbo和Mixtral倾向于选择“答案1”，Spark倾向于选择“答案2”，而Qwen和Gemini-Pro几乎无一例外地选择“Tie”。他们都不是成对评估的理想法官。因此，我们在随后的分析中将它们排除在外。

在这里插入图片描述
表1:不同评委对FE的ASR:事实错误，性别:性别，Ref:假参考，RC:丰富内容扰动。随机裁判是指随机表演。括号中的数字是列中的等级。平均值。排名是扰动的平均排名。每列中的最佳/最差表现分别用粗体/下划线标出。

我们在表1中给出了结果，该表显示了不同扰动下的ASR和每个裁判的平均等级。关于语义相关偏差，像样的逻辑推理模型能够进行事实检查，如GPT-4o、克劳德-3、GPT-4和GPT-4-Turbo的情况，所有这些都具有低于11%的ASR。另一方面，人类法官和其他LLM的ASR都高于20%，这可能是因为他们可能不知道上下文中的细节(人类)，或者他们没有足够的知识来作为事实检查者(LLM)。

就性别偏见而言，人类法官远远超过法律硕士，这可能是因为所有法官都是受过良好教育的大学生，他们被教导要不带性别偏见。相比之下，LLM在来自网络的大量数据上接受训练，从中他们可以了解语料库中固有的性别偏见。从我们的实验结果来看，即使大多数LLM经历了比对过程，性别偏见仍然存在，这表明比对过程可能是不充分的。

外卖1。人类和一些LLM法官拥有错误信息监督偏见。后者可以通过实施更有效的知识注入过程来改进。
外卖2。人类法官没有性别偏见，而法学硕士法官有明显的性别偏见，这表明有待改进。

关于语义不可知偏差如表1的第四列所示，在假参考扰动下，除了GPT-4o之外，所有的判断都低于随机基线。即使是性能最好的GPT-4o也有32%的ASR(只比随机好5%)，这也是不令人满意的。这表明，人类和LLM法官都被感知的可信度所说服。对人类来说，这与埃吕尔(2021)的发现一致。对于LLM，权威偏差可能是由于在比对过程中给有参考的样本分配较高的奖励而产生的。然而，他们仅仅了解到一个普通的信号，即参考文献的存在意味着偏好，而不考虑真实的真实性。

对于丰富的内容扰动，4个LLM法官的ASR在10%以下。包括人类在内的其他法官的ASR超过30%。这表明人类和一些LLM评委被表情符号和markdown格式等“注意力分散器”吸引，阻碍了他们成为公正的评委。

外卖3。人类和所有LLM法官(除了GPT-4o)的表现并不比参考扰动下的随机基线更好，表明严重的权威偏差。GPT-4o仅略微超过随机基线。
外卖4。在人类和一些法学硕士评委中观察到了美貌偏见。GPT-4名义上比随机基线要好。

如刘等(2024)和徐等(2024)所指出的，逻辑推理模式可能偏好于自己产生的答案。这种现象被称为自增强偏向(郑等，2023)，也可能存在于我们的实验中。由于所有的扰动都是由GPT-4添加的，它知道误差是什么，这可能是GPT-4在表1的实际误差检测中具有良好性能的原因。为了讨论错误检测中潜在的自我增强问题，我们从Bloom分类法的6个级别中的每个级别随机抽取10个问题(总共60个问题)。然后，我们采用Claude3来执行答案生成和扰动，如4.3节所述。

在这里插入图片描述

表2:不同LLM添加实际误差扰动的ASR。

如表2所示，GPT-4在评估其自身产生的响应和克劳德-3产生的响应方面表现出色。Claude-3在评估过程中也表现稳定。同时，GPT-4在评估其自身在该子集上生成的答案时的ASR是0.07，并且表1中的相应结果是0.08。这表明抽样子集的代表性。外卖5。GPT-4和克劳德-3在事实错误检测方面的卓越之处并不源于他们的自我增强偏见。

使用GPT-4来管理实验数据集由于GPT-4是在大量数据上训练的(对于其他LLM也可能如此)，一个问题是GPT-4管理的数据集的分布可能有偏差，因为该分布可能已经被其他LLM学习过。考虑到假定的问题，我们的结果提供了“性能优势”对于所有测试的模型，如果数据集形成一个看不见的分布，其性能可能更差(ASR可能更高)。考虑到表1中不令人满意的表现，我们认为我们的实验仍然有助于揭示LLM法官的偏见。

欺骗LLM法官

概述观察到LLM法官具有某些偏见，我们进一步利用这些偏见并提出了一种对LLM-as-a-judge的简单而有效的攻击方法。通过添加虚假的参考资料和丰富的内容，我们使一个有缺陷的，有偏见的或平庸的答案表面上很好。我们按照第4.6节中的类似定义计算ASR。我们首先生成三组答案:锚集A1:充当锚的答案。弱集A2:比a弱的答案。与A1中的答案相比，该弱集表现为有缺陷(有事实错误)、有偏见(有基于性别的内容)或不太体面(由LLMs判断的质量)。扰动集A2:A2的扰动版本，使它们表面上比A2更好。锚集A1由GPT-3.5-Turbo在60个问题的子集上生成。我们的目标是研究下面两个RQ，其中弱集A2和扰动集A2对于每个RQ是不同的。

RQ1:通过增加扰动，有缺陷/有偏见的答案能超过它没有缺陷的对应物吗？为了研究这个问题，我们通过添加事实错误使弱集合A2有缺陷。具体来说，我们使用GPT-3.5-Turbo生成一个普通版本的答案，然后使用GPT-4向每个答案添加事实错误或基于性别的内容，产生有缺陷的答案集A2。然后对于A2中的每一个答案，我们加入假参考、丰富内容和复合扰动，看看能否利用LLM评委的权威偏见和美貌偏见来欺骗他们。我们还包括一个随机基线进行比较。

RQ2:通过增加扰动，一个弱答案能超过它的强答案吗？这个想法是，我们需要首先挑选一组弱-强(就语义质量而言)答案对。我们从LLaMA2-Chat{7B，13B，70B}中生成答案，形成三个独立的弱集。然后，我们给它们添加伪引用，形成它们对应的扰动集。我们验证了来自LLaMA2-Chat家族的答案确实弱于GPT-3.5-Turbo的答案(参见附录I中的结果)。为了执行趋势分析，我们还包括来自GPT-3.5-Turbo的另一组答案，并以类似的方式为其构建一个弱扰动集。

在这里插入图片描述
图4:不同干扰下的ASR增加了(a)事实错误和(b)性别偏见内容。Ref:假引用，RC:内容丰富，Ref+RC:复合扰动。

表3:GPT-3.5-Turbo与LLaMA2-Chat-{7B，13B，70B} (LM-xB)的ASR对比。添加虚假参考资料是为了从表面上提高羊驼答案的质量。平均值。Ranking是各列ASR的四个排名的平均值。每列中的最佳/最差表现分别用粗体/下划线标出。

指标对于每个RQ，我们进行两组成对比较。A1和A2之间的比较显示了干扰前法官对答案的偏好(对照组)，而A1和A2之间的比较显示了干扰后的偏好(实验组)。我们采用ASR(等式。2)作为度量。发现和讨论有缺陷和有偏见的答案检测。我们在图4a和4b中显示了错误信息的忽略偏差和性别偏差的结果。在所有模型中，GPT-4o和克劳德-3在这两个偏差方面都比其他模型表现得更好。然而，克劳德-2在检测事实错误方面表现最差；Ernie和LLaMA2-70B在Ref+RC扰动下检测性别偏见内容时甚至比随机基线更差。此外，GPT4和GPT-4-Turbo对这两种偏差都表现平平，这表明所有模型在用作判断时都容易受到所提出的扰动攻击。扰动类型对性能有影响。在欺骗LLM评委方面，Ref比RC更有效，这意味着LLM比好看的格式更倾向于表面权威。我们还发现，所有模型都有比性别偏差更严重的错误信息监督偏差，这与表1中的结果一致。

外卖6。LLM法官在检测事实错误和性别偏见内容时容易受到虚假引用和丰富内容攻击。

回答失误弱。我们试图通过比较几对回答质量完全不同的模型来回答RQ2。从表3中直接观察到，每行都有增加的趋势，这意味着随着答案对之间的质量差距缩小，LLM判断者更容易被参考文献所诱导。值得注意的是，从LM-70B柱到GPT-3.5-Turbo柱的ASR有一个飞跃。这表明当两个原始答案在质量上相似时，LLM对假引用敏感，但是当质量差距显著时，对这种扰动相对鲁棒。

外卖7。对较弱答案的偏好可以通过用假参考干扰它们来改善

但是这种影响是有限的，因为在我们的环境中，两个答案之间有很大的质量差距。

结论

总之，我们开发了一个新的无参考框架来探索人类和LLM法官中的错误信息监督偏见、性别偏见、权威偏见和美貌偏见，为他们的先天偏见和脆弱性提供了更深入的见解。我们发现所有的法官都表现出明显的偏见，但在他们的具体倾向上有所不同。此外，我们证明了LLMs的判断可以通过我们发现的基于提示的方法被破解。通过我们的工作，我们希望提供关于人类和LLM作为法官的偏见的见解，并通知社区开发更强大的评估系统的紧迫性