从虚构到现实!FAME助力模型编辑走向实际应用

234cbd7a2e7e2786f490cf3b5452f95c.png

5d966abac2c1aec4b7d91dd4e3b1b86d.png

论文:FAME: Towards Factual Multi-Task Model Editing  
链接:https://arxiv.org/abs/2410.10859
项目:https://github.com/BITHLP/FAME

前言

大语言模型中丰富的知识使得其在如智能助理,法律顾问,医疗咨询等多个领域中表现出色。但是大语言模型中过时的知识或事实错误会导致不正确的输出,进而在实际应用中导致严重后果。微调和重新训练都可以修正大语言模型中的事实,但是微调可能导致灾难性遗忘,而重新训练的代价过高。为了解决这一问题,之前的工作提出了模型编辑任务用于精准高效地修正大语言模型中的知识。

然而,之前的数据集如COUNTERFACT[1]或ZSRE[2]存在以下问题:

  • 使用虚构的数据:编辑的目标是虚构的,使得这些数据集不能真实用于提升模型能力。

  • 包含的任务单一:不能适应真实世界的复杂情景.

81b7ace2dc5ed0f61860e50711971854.png
大语言模型的回答可能因过时而错误,模型编辑可以修正这一错误。但是之前的数据集大多将错误的答案修改成了另一个虚构的错误答案,而本文的数据集使用真实世界的数据。

这些问题使得之前的数据集既不能真实地用于提升大语言模型的能力,也难以评价之前的模型编辑方法在真实世界中的有效性。

为了推动模型编辑在真实世界中的应用,作者提出了一个新的标准:实用性。这一标准包含以下两个方面:

  • 对于模型编辑数据集来说,它应该真实多样高质量

  • 对于模型编辑方法来说,它应该高效泛化性强能处理现实世界的复杂变化

为了解决模型编辑数据集和方法实用性不足的问题,推动模型编辑在现实世界中的应用,作者提出了具有实用性的模型编辑数据集 FAME 和模型编辑方法 SKEME

模型编辑

定义

设一个模型为 ,其中 代表输入集合, 代表输出集合,用 表示一个输入-输出对,特别地,用 表示正在被编辑的事实。

  • 设 为 语义上的等价领域,也即和 具有相同语义的输入输出对的集合,对于在这一集合内的输入,期望的输出即为 。(待编辑事实的输出即是期望输出)。

  • 设 为 将作为先验知识后,可以推导得出的事实的集合,对于这一集合内的输入,期望的输出为 。(模型基于待编辑事实可以推导得出新的输出)。

  • 设 为除 和 之外的输入-输出对,对于这一集合内的输入,期望的输出为 (模型的输出不应该改变)。

相关工作

模型编辑可以分为修改模型参数不修改模型参数两类方法。

  • 修改模型参数的方法包括元学习和定位然后编辑,前者训练一个超网络来预测编辑模型所需的参数更改;后者定位需要编辑的神经元,之后进行针对性修改。

  • 不修改模型参数可以分为基于额外参数和基于知识库的方法,前者冻结原有模型参数,并添加额外参数进行微调;后者类似于检索增强生成(RAG)模型,知识存储在一个外部知识库中。

FAME:一个实用的模型编辑数据集

为了解决模型编辑数据集实用性不足的问题,作者提出了 FAME (FActual Multi-task model Editing) 数据集。FAME 有以下优势:

  • 真实:FAME 的所有数据从两个在线数据库 Wikidata 和 DBpedia 收集,保证了数据符合真实世界事实。

  • 多样:FAME 包含 QA,句子补全,完形填空,多项选择,事实核查,对话等多种形式的任务。

  • 高质量:FAME 使用人工核查,抽查数据项并逐个核查数据模板,以确保数据的质量。

f583bb19af694c1c7036b39e38247c28.png
表 1: FAME和之前工作提出的模型编辑数据集的对比。“isC.”、“Cho.”、“FC”、“Clo.”、“Dia.”、“Com.”、“Re.”、“WD.”、“DB.”、“Si.” 和 “Mu.”分别表示数据是否真实、多项选择、事实核查、完形填空、对话、句子补全、关系数、Wikidata、DBpedia、单跳问题、多跳问题

上表展示了FAME和之前模型编辑数据集的对比,可以看出,FAME是少有的使用了真实数据的数据集之一。另外,FAME涵盖了多种任务,并在数据总数、包含的关系数、数据来源、包含的问题形式上均有优势,展现出了其多样性。

SKEME:为真实世界应用设计的模型编辑方法

为了适应模型编辑在现实世界中的需要,作者提出了模型编辑方法 SKEME (Structured Knowledge retrieved by Exact Matching and reranking Editing),这种方法创新地将缓存机制和 RAG 融合,使得其能应对现实世界的变化。

a22743e2d111da09f0484937006ff978.png

SKEME 分为以下三步:

  • 实体抽取

    • 实体抽取旨在从输入中抽取出关键实体,以使后续的检索过程不受输入形式的影响。

  • 知识检索

    • 受计算机系统中缓存系统的启发,作者设计了类似的机制来存储知识。

    • 知识以知识图谱(knowledge graph)的形式存储,当需要检索时,首先在本地知识库检索。如果在本地知识库未找到,则在外部数据库(如 Wikidata 和 DBpedia)检索,并将检索得到的知识存储在本地。

    • 本地知识库实际上是外部数据的一个缓存。

  • 知识排序和应用

    • 将检索得到的知识按照和输入的相关性重排,并使用 in-context learning 来修正模型的输出。

实验

评价指标

作者分以下几个方面来评价模型编辑方法的效果:

  • 正确率:编辑后的模型输出是否与目标输出精确匹配(EM)。

  • 副作用:作者使用 DDNKL 评价副作用。前者评价模型在不相关事实上的输出是否改变,后者评价编辑前后模型输出改变的剧烈程度。

  • 综合评价:作者提出了一个新的指标 SURE(Statistical and Unbiased Real-world Evaluation)。SURE 将 EM 和 DD 结合起来以评估编辑后模型的实际能力:其中 和 为数据量之比, 和 为指标的重要程度。

  • 效率:作者还评价了方法的时间(Ti)和显存(Me)消耗。

主实验

82942245fe806b5df064053cc41e62ed.png
在多个模型、多种任务上进行的实验。结果显示,SKEME 在各个指标上均有优势

表 2 展示了主实验的结果,结果显示:

  • base 模型(即未编辑的模型)在各个任务上都表现不佳,显示出这是模型的知识盲区,突出了进行编辑的必要性。

  • 模型在各个任务上的表现展现出了较大的差异。

  • SKEME仅需要较少的时间和较低的显存消耗,在达到较高准确率的同时有较低的副作用。另外,SKEME 在各个模型、各种任务上均展现出了一致的提升模型能力的效果。

分析实验

为了评价模型编辑方法在复杂的现实世界中的能力,作者设计了一系列的研究问题(Research Questions, RQs),通过模拟现实世界的模型编辑场景来评价模型编辑的能力。

RQ1:事实演变

真实世界中的同一个事实会经历多次变化,如美国总统经历了奥巴马→特朗普→拜登的变化,这要求模型编辑方法能对同一个事实进行多次更新。

278420c2ca92069b36432141ddfbc5e3.png
RQ1的结果,横轴表示同一个事实的编辑次数

如图所示,即使一个事实只编辑两次,之前的方法效果仍然会有较大下降。作者认为,基于修改参数的方法会因为累积误差而减低模型的能力,而不修改参数的方法因为没有更新机制而导致可能检索得到过时知识。

RQ2:事实推理

一个常见的事实推理情形是多跳问题,为了区分模型内部知识错误和模型推理错误,作者将多跳问题拆分为了多个子问题并将子问题重组为对话任务。

5513d3c194f63d13077019f0735d361d.png
RQ2的结果

结果显示,SKEME 能在问题跳数较少的时候较好地处理问题,但所有模型编辑方法都难以应对问题跳数较多的情况。

RQ3:大量待编辑的事实

由于真实世界是迅速变化的,可能有大量不同的事实需要编辑,这要求模型编辑方法能处理多个编辑请求。

629393b345d928bdb1e2537e8b0ce211.png
RQ3的结果,横轴表示总的事实个数

结果显示,修改模型参数的方法在事实数量较多时表现下降,而不修改模型参数的方法表现较为稳定。

RQ4:泛化能力

为了衡量模型编辑方法是否有在多个数据集上泛化的能力,作者使用了几个通用的数据集来评价模型编辑方法的效果。

b2ac6ea04ed065f8d629483b21a6bd32.png
RQ4的结果,“TQA”,“NQ”,“Vi”分别表示 TriviaQA, Natural Questions, 和 VitaminC

结果显示,SKEME 在多个数据集上展现出了一致的能力,显示出其在现实世界模型编辑上的通用性。

结论

  • 作者提出了模型编辑的实用性需求。

  • 作者提出了 FAME,一个真实多样高质量的模型编辑数据集。

  • 作者提出了 SKEME,一种高效泛化性强能处理现实世界的复杂变化的模型编辑方法

  • 作者提出了一系列实验来评价模型编辑方法在现实世界中的可用性,SKEME 在多数任务上表现得很好。

参考文献

[1] Meng K, Bau D, Andonian A, et al. Locating and editing factual associations in GPT[J]. Advances in Neural Information Processing Systems, 2022, 35: 17359-17372.
[2] Levy O, Seo M, Choi E, et al. Zero-shot relation extraction via reading comprehension[J]. arXiv preprint arXiv:1706.04115, 2017.


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

2f674990c6900ac25046324af0894483.png

id:DLNLPer,记得备注呦

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/14031.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

无需Photoshop即可在线裁剪和调整图像大小的工具

Bitmind是一个灵活且易于使用的批量图像本地化处理器,经过抓包看,这个工具在浏览器本地运行,不会上传图片到服务器,所以安全性完全有保证。 它可以将图像调整到任何特定尺寸,并在必要时按比例裁剪。 这是一个在线工具…

计算两个结构的乘法

在行列可自由变换的平面上,2点结构有3个 3点结构有6个 计算2*2 2a1*2a14a6 2a1*2a24a8 2a1*2a34a12 显然2a1*2a14a6因为这3个结构都分布在同一列上,就是整数乘法。2a1*2a2的结果有2种写法,一种外形像2a1细节为2a2,一种外形为2…

短剧项目全流程花费项目详解:从软件采购到OSS流量

一、引言 随着网络视频的兴起,短剧项目作为一种新兴的内容形式,受到了广泛关注。然而,短剧项目运营过程中涉及诸多费用,本文将对短剧项目的各项花费进行明细分析,以帮助相关从业者更好地规划预算和控制成本。 二、软…

Vector Optimization – Vector Mask Register

文章目录 Vector优化 – Vector掩码寄存器 Vector优化 – Vector掩码寄存器 One of the reasons for low levels of vectorization is the presence of conditionals (IF statements) inside loops. IF statements introduce control dependencies into a loop. 矢量化水平低的…

冗余连接2 hard题 代随C#写法

此题在卡码网109与力扣685题亦有记载 有一说一C#写法我没咋搞懂 就看明白了思路 这里贴一个答案待后续我醒悟了再来看罢 难就难在对整体数据结构classUnion(并查集)的理解不熟并且 对于输入输出这个迭代过程理解上也比较吃力 109. 冗余连接II 题…

MySQL:CRUD

MySQL表的增删改查(操作的是表中的记录) CRUD(增删改查) C-Create新增R-Retrieve检查,查询U-Update更新D-Delete删除 新增(Create) 语法: 单行数据全列插入 insert into 表名[字段一,字段…

【stable diffusion部署】手把手教你从0基础入门Stable Diffusion

前言 在开始学之前,我想提前说一下,我所理解的AI绘画的本质,就是手替,人提出方案,AI帮你完成具体的作画过程。 写这篇文章的初衷,网上的Stable Diffusion教程太多了,但是我真正去学的时候发现…

前端单元测试框架 引入说明

1. 背景: 2. 如何选择: 2.1. 流行框架 Jest:由Facebook开源的JavaScript测试框架,应用于脸书系以及 ReactJs 系Mocha:适用于 NodeJs 和 浏览器、简易、灵活、有趣的JavaScript 测试框架Jasmine:BDD&#…

有效提升网站流量的SEO技巧分享

内容概要 在数字时代,SEO(搜索引擎优化)已经成为提升网站曝光度和吸引访问者的重要工具。SEO的核心目标是通过优化网站的各个方面,提高在搜索引擎结果页面上的排名,从而获得更多的自然流量。有效的SEO策略能够让您在激…

MacBook不额外安装软件,怎样投屏到安卓手机上?

提起iPhone或MacBook的投屏,人们总会想到airplay功能。但离开了苹果生态,其他品牌的手机电脑就未必配备airplay功能了。 如果想要将MacBook的电脑屏幕共享到安卓手机或平板上,到底要怎样做?需要安装什么软件吗? 不需要…

自定义面板,高效的游戏性能分析利器

为了更有效地聚焦并解决性能问题,UWA报告采用了分模块监控策略,确保每个模块独立成章,各司其职。然而,随着对性能分析需求的不断升级,我们已经意识到,在深入分析某些跨模块的性能瓶颈或优化点时&#xff0c…

2024第四次随堂测验参考答案

从第四次开始答案会以c语言提供&#xff0c;自行了解&#xff0c;学习 6-1 报数 报数游戏是这样的&#xff1a;有n个人围成一圈&#xff0c;按顺序从1到n编好号。从第一个人开始报数&#xff0c;报到m&#xff08;<n&#xff09;的人退出圈子&#xff1b;下一个人从1开始报…

CTF杂项基本题目思路(图片文件隐写-压缩文件-流量取证)

一、文件隐写 1.当遇到文件类型未知的文件时怎么办&#xff1f; ①linux系统可以使用file命令查看文件的类型&#xff0c;格式&#xff1a;file 文件名 ②使用winhex或者010editor查看文件头&#xff0c;从而判断文件的类型&#xff0c;①中file命令的本质也是查看文件的文件…

sa-token使用及与spring-security的对比

sa-token相关资料地址 官网: https://sa-token.cc/ gitee: https://gitee.com/dromara/sa-token github: https://github.com/dromara/sa-token 快速开始: https://sa-token.cc/doc.html#/ sa-token典型应用 这里我直接拿SpringBoot_v2&#xff08;springboot的开源后台脚手…

MySQL:left join后用on与where的区别

一、前言 前几天项目中&#xff0c;写SQL时本想通过 A left B join on and 后面的条件来使查出的两条记录变成一条&#xff0c;奈何发现还是有两条。在此记录一下&#xff0c;on与where的区别。 二、ON 原始数据展示 SELECT t1.*,t2.* FROM t_test_staff t1 left join t_te…

ANX9833FN-AA-R ANX9833 ANALOGIX QFN48 VGA视频转换器件

ANX9833概述:ANX9833是VGA显示接口适配器集成电路设计一个显示端口1.2/1.1源连接到一个VGA显示。与芯片上的单片机和记忆,ANX9833不需要任何外部配置或设置。它自动引导VGA显示接口适配器的输出,有效地处理所有类型的遗产显示器、投影仪,和电视。ANX9833提供Gbps带宽在两车道到…

2025全平台短剧系统 : 快手、抖音、微信全覆盖

之前&#xff0c;我曾详细阐述过公司短剧系统的一些功能&#xff0c;它们共同构建了一个全面、高效的短剧制作与运营平台。这些功能&#xff0c;无论是媒资管理、剧场设定&#xff0c;还是后期运营&#xff0c;都是经过深思熟虑、精心设计的&#xff0c;是一个成熟的短剧系统所…

机圈白刃战,vivo聚势成风

金秋十月&#xff0c;国产手机市场进入了空前激烈的竞争局势&#xff0c;几乎每天都有发布会&#xff0c;甚至隔段时间就有新机话题登上热搜。网友戏称&#xff0c;发布会密度高到“工作日都不够用了”。 10月14日&#xff0c;vivo X200系列率先登场&#xff0c;拉开了国产旗舰…

scp 或 ssh 报错no matching host key type found. Their offer: ssh-rsa 解决方案

报错如下&#xff1a; 解决方案&#xff1a; 在 scp 或 ssh 命令后面增加参数&#xff1a; -o HostKeyAlgorithmsssh-rsa 可以解决此问题&#xff0c; scp格式如下&#xff1a; scp -o HostKeyAlgorithmsssh-rsa [local_file_path] [user][hosts]:[remote_path]

ElasticSearch概述

ElasticSearch概述 Elaticsearch&#xff0c;简称为es&#xff0c; es是一个开源的高扩展的分布式全文检索引擎&#xff0c;它可以近乎实时的存储、检索数据&#xff1b;本身扩展性很好&#xff0c;可以扩展到上百台服务器&#xff0c;处理PB级别的数据。es也使用Java开发并使…