清华、国科大、智谱团队提出LongReward:利用AI反馈改进长文本大语言模型

长文本(Long-context)大模型性能的优劣,在很大程度上取决于其能否全面理解长上下文场景下的复杂信息。

然而,现有的合成有监督微调(SFT)数据由于缺少人类核验,往往会影响长文本大模型的性能,导致 SFT 模型存在固有的缺陷,如幻觉和无法充分利用上下文信息等。

原则上,通过适当的奖励信号进行强化学习已被证明能有效地减少 SFT 模型的缺陷,使其更好地与人类偏好对齐,但在长上下文场景下如何获得可靠的奖励信号,仍是一个未被探索的问题

如今,来自清华大学、中国科学院大学和智谱的研究团队在这一领域迈出了重要一步——

他们提出了一个名为 LongReward 的新方法,旨在利用现有的大语言模型(LLM)从四个人类价值维度(帮助性、逻辑性、忠实性和完整性)为长文本模型的回复提供奖励,并结合强化学习进一步提升模型的性能,从而有效地改进 SFT 模型

论文链接:

https://arxiv.org/abs/2410.21252

GitHub 地址:

https://github.com/THUDM/LongReward

Hugging Face:

https://huggingface.co/datasets/THUDM/LongReward-10k

研究表明,LongReward 不仅可以显著提高模型的长文本性能,还能够增强它们遵循简短指令的能力。另外,带有 LongReward 的长文本 DPO 和传统的短文本 DPO 可以同时使用,而不会影响任何一方的性能。

研究方法

LongReward 通过奖励信号解决了 SFT 在长文本模型中因缺少人类标注而导致的数据质量问题。

具体而言,LongReward 利用一个现有的大模型(M_judge,该研究中使用的 GLM-4)从四个人类重视的价值维度——有用性、逻辑性、忠实性和完整性——为长文本模型的回复提供奖励。这些维度覆盖了模型输出的各个关键方面,确保在长文本情境下对生成内容进行全面评估。每个维度的评分范围是 0 到 10,最终奖励是这些分数的平均值。

图|LongReward 图示

1.帮助性(Helpfulness)

  • 评估模型回复是否与问题相关,是否提供了有用的信息,是否满足了用户的需求和要求。

  • 由于帮助性主要依赖于问题和回复内容,基本与上下文无关,研究团队让 M_judge 通过少样本学习和思维链 (CoT) 对问题和回答进行评分。

2.逻辑性(Logicality)

  • 评估模型回复的不同部分是否逻辑一致,观点是否一致,推理和计算是否正确,是否存在自相矛盾。

  • 与帮助性类似,研究团队让 M_judge 通过少样本学习和思维链(CoT)对回答进行评分,找出可能的逻辑错误。

3.忠实性(Faithfulness)

  • 评估模型回答中事实信息的比例是否与上下文一致。

  • 要求 M_judge 首先将回答分解为事实性陈述,再判断每个陈述是否由最相关的上下文支持。

  • 为了适应长上下文场景,将回答分解为句子级别的事实性陈述,并忽略不含事实信息的功能性句子。

4.完整性(Completeness)

  • 评估模型回答是否涵盖了上下文中与问题相关的所有关键点,是否提供了足够的信息和细节来满足用户的需求。

  • 首先将上下文分解为粗粒度的块,并让 M_judge 从每个块中提取与问题相关的信息。

  • 然后将所有提取的相关信息拼接起来,再利用 M_judge 评估模型回复的完整性,即是否涵盖了所有重要信息。

在评分机制基础上,LongReward 与离线强化学习(RL)算法 DPO 结合,形成一个完整的 RL 框架。DPO 的目标是通过偏好数据集优化模型输出,使其更符合偏好要求。

具体来说,通过多次采样长文本 SFT 模型的回答并使用 LongReward 给每个回答打分,研究团队可以自动构建 DPO 所需的偏好数据集。

实验结果

他们的实验表明,LongReward 不仅显著提高了模型的长文本性能,还增强了它们遵循简短指令的能力。在 Llama-3.1-8B 和 GLM-4-9B 模型上进行的实验显示,使用 LongReward 的 DPO 模型在长文本任务上的性能分别比 SFT 模型提高了 4.9% 和 5.5%,超过了所有基线方法。

图|使用 GPT-4o 对长文本基准进行自动评估的结果

图|以 GPT-4o-mini 为评判标准,随机抽取了 260 道来自 LongBench-Chat 和 LongBench 的问题,得出 SFT 和 dLongReward+DPO 版本的事实分数。

图|在一组 464 个人工标注的长文本偏好对中,将不同评分方法与人类偏好进行比对,其中的提问和回答分别来自 LongBench-Chat 和 Llama-3.1-8B 的 SFT 检查点。

此外,人类评估进一步验证了 LongReward 与人类偏好的良好一致性,并从所有维度(即有用性、逻辑性、忠实性和完整性)帮助改善了长文本模型,比 SFT 基线高出 46%。

图|LongReward+DPO 版本的 Llama-3.1-8B 在 LongBench Chat 上与 SFT 基线对比的人工评估结果

同时,他们发现 LongReward 也有助于模型的简短指令遵循能力,并且可以很好地融入标准的短文本 DPO 中,共同提升长文本和短文本性能。

图|不同模型在短文本指令跟随 benchmarks 上的表现

图|使用不同偏好数据集的 DPO 模型性能

不足与展望

当然,这一研究也存在一定的局限性,主要包括以下三点:

首先,LongReward 的评估依赖于高精度、对齐良好的 LLM 模型(如 GLM-4),并且每个 QA 实例需要花费数十次 API 调用。未来,还需要尝试训练更小的长文本奖励模型,从而实现更快、更便宜的奖励计算。

此外,由于计算资源有限,该研究只在最大训练长度为 64k 的 10B 级模型上进行,限制了对更大规模模型和长序列的探索。

最后,从数据角度来看,该研究主要关注用户密集型的长上下文场景,如长文档 QA 和总结。未来可以尝试将 LongReard 推广到其他更高级的长指令任务,如终身对话和长历史 agent 任务,也是一个很有前景的方向。

在这里插入图片描述

大模型&AI产品经理如何学习

求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。

1.学习路线图

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

2.视频教程

网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。

在这里插入图片描述

在这里插入图片描述

(都打包成一块的了,不能一一展开,总共300多集)

因篇幅有限,仅展示部分资料,需要点击下方图片前往获取

3.技术文档和电子书

这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。
在这里插入图片描述

4.LLM面试题和面经合集

这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
在这里插入图片描述

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/13847.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

2024 年 10 款替代 Postman 的工具,有免费有开源

10 款替代 Postman 的工具,有免费有开源: 工具名称支持的系统是否免费是否开源ApifoxWindows, macOS, Linux免费否Yapi无限制是是InsomniaWindows, macOS, Linux免费版付费版是Hoppscotch浏览器是是SoapUIWindows, macOS, Linux免费版付费版是Katalon S…

IDEA报包不存在,但实际存在

IDEA版本2024.2.1 现象 在IDEA里启动运行项目,报某个类有问题,引入的包不存在。 点击这个引入的包,可以看到它在左侧外部库里存在。 试过的无效方法 双击ctrl,在弹出框中mvn idea:idea在文件里,清空缓存并重启在右…

从词向量到多模态嵌入:大型语言模型的技术、应用及未来方向

索引词—大型语言模型、词嵌入、上下文嵌入、多模态表示、自然语言处理 摘要—词嵌入和语言模型通过将语言元素表示在连续向量空间中,彻底改变了自然语言处理(NLP)。本综述回顾了分布假设和上下文相似性等基础概念,追溯了从稀疏表…

超越传统:探索ONLYOFFICE的革命性办公新纪元

目录 🍁引言 🍁一、ONLYOFFICE产品简介 (一)、介绍 (二)、基本功能简介 🍁二、核心功能具体介绍 1、编辑操作 2、文本与段落: 3、样式与图形: 4、表格与图表&…

【GESP】C++一级真题(202406)luogu-B4001,立方数

2024年6月GESP一级真题。循环类问题。 题目题解详见:【GESP】C一级真题(202406)luogu-B4001,立方数 | OneCoder https://www.coderli.com/gesp-1-luogu-b4001/https://www.coderli.com/gesp-1-luogu-b4001/ C GESP专项交流频道:GESP学习交…

SAP 创建物料主数据报错:估价范围3010还没有生产式的物料帐簿

通过接口创建物料主数据(模拟MM01),报错如图: 处理方案1:(我的不行,提示已经是生产的) 将评估范围的物料分类账设置为生产 事务码: CKMSTART - 物料分类帐的生产开始 处理方案2&a…

Python | Leetcode Python题解之第560题和为K的子数组

题目: 题解: class Solution:def subarraySum(self, nums: List[int], k: int) -> int:dic{0:1}sums,res0,0for num in nums:sumsnumresdic.get(sums-k,0)dic[sums]dic.get(sums,0)1return res

sql注入之二次注入(sqlilabs-less24)

二阶注入(Second-Order Injection)是一种特殊的 SQL 注入攻击,通常发生在用户输入的数据首先被存储在数据库中,然后在后续的操作中被使用时,触发了注入漏洞。与传统的 SQL 注入(直接注入)不同&a…

AOA-LSTM多输入回归预测|算术优化算法-长短期神经网络|Matlab

目录 一、程序及算法内容介绍: 基本内容: 亮点与优势: 二、实际运行效果: 三、方法原理介绍: 四、完整代码数据下载: 一、程序及算法内容介绍: 基本内容: 本代码基于Matlab平…

认知战认知作战:郑成功收复台湾的认知作战分析与策略

认知战认知作战:郑成功收复台湾的认知作战分析与策略 认知战认知作战:郑成功收复台湾的认知作战分析与策略 关键词:认知作战,新质生产力,人类命运共同体,认知战,认知域,认知战研究中心,认知战争,认知战战术,认知战战略,认知域作战研究,认知…

单细胞技术加持,扩增子测序重回高大上| 一区微生物多组学研究新思路!

俗称“万金油”的扩增子技术已经再难发出好文章了?实则不然!关联高端霸气上档次的单细胞转录组技术,扩增子研究依旧可以焕发新生机,重回高大上。 近日,檀国大学在《communications biology》上最新发表的文章打破了传统微生物组分…

遗传算法与深度学习实战(23)——利用遗传算法优化深度学习模型

遗传算法与深度学习实战(23)——利用遗传算法优化深度学习模型 0. 前言1. 神经进化2. 使用遗传算法作为深度学习优化器小结系列链接 0. 前言 神经进化涵盖了所有用于改进深度学习的进化算法。更具体地说,神经进化用来定义应用于深度学习的特…

Hbase入门

目录 Hbase逻辑结构 一、基础知识 1. Hbase逻辑结构 行键(Rowkey)&#xff1a;唯一标识一行数据&#xff0c;按照字典序(row_key1 < row_key11 < rowkey2)排列.列Col&#xff1a;数据记录的一条属性列族&#xff1a;将多列划分为一类&#xff0c;视为一个列族。例如上图…

三维模型-管道-建模规范

一、阀门模型处理 Max中的阀门模型,备份之前可拆分的阀门模型。 将需要选择的阀门,合并(不打组)成一个模型。 材质在不同模型上,按照需求分好不同的材质 例如:阀门、管道,需要分成不同的材质和相对应的不同模型。 二、管道模型处理 1) 普通管道 默认展开UV ;2) 流…

golang go语言 组建微服务架构详解 - 代码基于开源框架grpc+nacos服务管理配置平台

整体介绍&#xff1a; 本文主要介绍如何用go语言 来组建微服务的框架&#xff0c;grpc服务管理 示例框架 代码由grpcnacos go sdk 组成。 grpc负责将调用序列化并传递到远端&#xff0c;nacos负责服务发现和服务管理。 grpc和nacos都是开源产品。代码复制下来就能跑。 微服…

open3d

open3d open3d用于 3D 数据处理的现代库。 简介 Open3D 是一个开源库&#xff0c;支持快速开发处理 3D 数据的软件。Open3D 前端公开了一组精心挑选的 C 和 Python 数据结构和算法。后端经过高度优化&#xff0c;并设置为并行化。Open3D 是从零开始开发的&#xff0c;具有一更…

一个轻量级RAG文本切块项目Chonkie

**Chonkie&#xff1a;**实用的RAG分块库&#xff0c;轻量级、速度快&#xff0c;可随时对文本进行分块 支持的方法 Chonkie 提供了多个分块器&#xff0c;可高效地为RAG应用程序拆分文本。以下是可用分块器的简要概述&#xff1a; TokenChunker&#xff1a;将文本分割成固定大…

如何通过AB测试找到最适合的Yandex广告内容

想要在Yandex上找到最能吸引目标受众的广告内容&#xff0c;A/B测试是一个不可或缺的步骤。通过对比不同版本的广告&#xff0c;我们可以发现哪些元素最能引起用户的共鸣。首先&#xff0c;设计两个或多个广告版本&#xff0c;确保每个版本在标题、文案、图片等关键元素上有所不…

车载空气净化器语音芯片方案

开发背景&#xff1a; 随着人们生活质量的不断提升和环保意识的日益增强&#xff0c;车内空气质量成为了广大车主关注的焦点。长时间封闭的车厢环境&#xff0c;加之城市空气污染、新车内饰材料释放的有害气体等因素&#xff0c;使得车内空气质量往往不尽如人意&#xff0c;严重…

JUC-locks锁

JUC-locks锁 1、JUC-locks锁概述2、管程模型3、ReentrantLock可重入锁3.1 ReentrantLock源码3.2 Sync静态内部类3.3 NonfairSync非公平锁3.4 FairSync公平锁 如有侵权&#xff0c;请联系&#xff5e; 如有错误&#xff0c;也欢迎批评指正&#xff5e; 1、JUC-locks锁概述 java…