NLP论文速读|ScPO:自我一致性的偏好优化(Self-Consistency Preference Optimization)

论文速读|Self-Consistency Preference Optimization

论文信息:

图片

简介:

      这篇论文试图解决的问题是如何在没有人类标注数据的情况下,提高大型语言模型(LLMs)在复杂推理任务上的性能。现有的自我对齐技术往往因为难以分配正确的奖励而未能在这些任务上取得进展。此外,这些技术在处理需要复杂推理的问题时,由于模型难以评估自身响应的正确性,导致自我评估方法效果不佳。动机在于现有的训练方法依赖于人类数据,而这些数据的收集过程在成本、时间和专业知识方面都非常耗费资源。为了克服这些限制,研究者们开始探索通过自我训练的方式,从模型生成的数据中迭代训练模型。然而,这种方法在评估模型自身响应的正确性时遇到了困难,尤其是在面对复杂问题求解任务时。因此,本文提出了一种新的方法——自我一致性偏好优化(SCPO),旨在通过自我一致性的概念来改善模型的训练过程。

论文方法:

图片

      自我一致性偏好优化(SCPO)是一种无监督的迭代训练方法,它利用自我一致性的概念来训练模型,以便在推理任务中更倾向于选择一致的答案而非不一致的答案。

      具体方法如下:

      假设我们有一个初始的基础模型M0和一些高质量的未标记查询。模型将在每次训练迭代中被训练和更新,产生M1, M2, ..., MT等模型,其中T是迭代的总次数。SCPO不依赖于响应的金标签(答案),而是使用模型Mt的一致性来评估和排名每个响应的质量。使用少量示例问题作为种子集,随机选择多个示例问题并放置在上下文中以生成新问题。SCPO不依赖于准确生成相应的答案,允许模型生成更多样化的问题,只要问题是结构良好且至少有一些是可以回答的。对于训练数据Dt中的每个问题x,使用当前模型Mt基于温度采样生成k个响应。然后,根据响应的一致性创建偏好对Dpairs t,选择最一致的响应作为被选中(获胜)响应,选择最不一致的响应作为被拒绝(失败)响应。SCPO假设当多个响应映射到同一个答案时,预测的答案可能是正确的。因此,使用一致性作为一个代理来创建偏好对。同时,一个响应获得的投票数也可以反映模型对该响应的信心,这意味着投票差距更大的对是更高质量的。从初始种子模型M0开始,训练一系列模型M1, M2,即进行T=2次迭代。每个模型Mt+1都使用LSCPO在Dpairs t上进行训练,这些数据由第t个模型生成。

论文实验:

图片

      实验旨在评估SCPO在数学推理任务上的有效性。具体来说,实验使用了GSM8K数据集,该数据集包含了小学级别的数学问题,分为训练集、验证集和测试集。实验中,SCPO方法在无监督(SCPOUnsup.)和半监督(SCPOSemi-Sup.)两种设置下进行了测试。

      在无监督设置中,SCPO不依赖于金标准答案,而是通过模型生成的数据来自我训练。在半监督设置中,SCPO结合了金标准答案和模型生成的问题。在GSM8K数据集上,经过一次迭代的SCPO(M1)在贪婪解码下将零样本准确率从41.17%提高到61.03%,提高了22.74%。经过两次迭代(M2)后,准确率进一步提高到63.91%,提高了5.26%。使用基于自我一致性的推理(SC),经过一次迭代的SCPO(M1)将准确率从51.80%提高到71.49%,提高了19.69%。经过两次迭代(M2)后,准确率进一步提高到71.11%,提高了3.31%。在GSM8K数据集上,经过一次迭代的SCPO(M1)在贪婪解码下将准确率从41.17%提高到63.61%,提高了22.44%。经过两次迭代(M2)后,准确率进一步提高到66.64%,提高了5.47%。

论文链接:

https://arxiv.org/abs/2411.04109

原文来自:

NLP论文速读|ScPO:自我一致性的偏好优化

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/11076.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

Java定时任务

业务场景: 系统凌晨1点数据备份。用户下单半小时未支付订单,需要自动取消订单。每10min动态抓取某网站的数据。博客定时发送文章。每晚定时计算用户当日收益情况并推送给用户最新的数据。 分布式定时任务 Redis Redis过期事件监听。Redisson内置延时…

Data Grouping 数据分组

Goto Data Grid 数据网格 Data Grouping 数据分组 分组功能将具有相同列值的行合并到相同的数据组中。它受 Grid View 和 Banded Grid View 支持。 Apply Grouping 应用分组 数据分组最初在 Data Grid 中启用(默认设置)。要按列对数据进行分组&#…

对于大根堆的计算时间复杂度的过程

目录 第一步 第二步 第三步 第四步 第一步 首先进行假设 第二步 然后求解出每一层的节点个数这一层节点需要调整的所在高度 第三步 接着每一层节点需要调整的次数 (每一层的节点个数 * 这一层节点需要调整的所在高度)再全部相加起来 利用*2T&…

ANNOVAR下载

1.官网 https://annovar.openbioinformatics.org/en/latest/user-guide/startup/ 都填英文 要不然会报错 tar -xzvf annovar.latest.tar.gztree . ├── annotate_variation.pl ├── coding_change.pl ├── convert2annovar.pl ├── example │ ├── ex1.avinput…

【电子通识】TINA-TI中怎么用分段线性源做周期性波形

在文章【电子通识】TINA-TI 如何产生动态电流波形?中我们讲到我们可以用piecewise linear分段性线源做一个动态脉冲。 但是这个动态脉冲只能保持一定的时间,那么如何做成周期性的动态脉冲呢? 我们使用以下关键字,来完成周期性动态负载创建 Repeat Forever ....周期…

Llamaindex RAG 实践

大模型支持的最强大的应用程序之一是复杂的问答聊天机器人。这些应用程序可以回答有关特定源信息的问题。这些应用程序使用一种称为检索增强生成 (RAG) 的技术。 1. 什么是RAG? 当你需要给模型注入新的知识时,有两种方法&#xf…

外包干了2个月,技术明显退步

回望过去,我是一名普通的本科生,于2019年通过校招有幸加入了南京某知名软件公司。那时的我,满怀着对未来的憧憬和热情,投入到了功能测试的岗位中。日复一日,年复一年,转眼间,我已经在这个岗位上…

Sigrity SPEED2000 Power Ground Noise Simulation模式如何进行信号时域仿真操作指导(一)-单个信号

Sigrity SPEED2000 Power Ground Noise Simulation模式如何进行信号时域仿真操作指导(一)-单个信号 Power Ground Noise Simulation模式除了可以对电源进行时域仿真外,同样支持对信号进行时域仿真,以下图为例进行说明 2D视图 3D view 本例中观测信号D2从…

String模拟实现【C++】【STL】

String模拟实现【C】【STL】 构造函数拷贝构造赋值重载析构函数<<赋值重载插入函数reserveappend函数push_back函数 earse函数完整代码string.hstring.cpp STL中有两个属性capacity和size&#xff0c;capacity是真正STL容器的真正内存大小&#xff0c;size是STL容器中数据…

前端CSS3 渐变详解

文章目录 CSS3 渐变详解一、引言二、CSS3 渐变基础1、线性渐变1.1、基本线性渐变1.2、改变渐变方向 2、径向渐变2.1、基本径向渐变2.2、设置径向渐变的中心 三、高级渐变技巧1、重复渐变1.1、重复线性渐变1.2、重复径向渐变 四、总结 CSS3 渐变详解 一、引言 在现代网页设计中…

Ubuntu系统安装minicom软件连接交换机

安装minicom&#xff1a; 电脑主机串口线连接上交换机的console口。开打乌班图系统终端&#xff0c;输入sudo -i切换为root用户 方法一&#xff1a; 输入 sudo apt-get install minicom 命令&#xff0c;安装minicom软件。 minicom 必须带有安装包的完整路径 文件名称 后…

异星工厂_1

经验 首次体验异星工厂这款游戏&#xff0c;得出了以下经验。 1. 基地的构建顺序&#xff1a;煤&#xff0c;电&#xff0c;原料&#xff0c;传送流&#xff0c;组装器&#xff0c;防御武器&#xff0c;其他 2. 永远不要让采集&#xff08;生产者&#xff09;停止&#xff0…

前端面试题每日一学_6

今日一题&#xff1a; 下面的CSS代码中&#xff0c;定义了一个帧动画&#xff0c;请问该帧动画能否正常流畅的执行&#xff1f; keyframes move {50% {/* 改变自定义变量的值 */--x: 100px;/* 改变元素的背景颜色 并使用!important */background: yellow !important;} } .d {…

QScrollArea应用范例,包含完整代码

QScrollArea使用案例,如果只是拖控件,做简单的布局那应该不难,但如果在复杂的布局中,用纯代码的方式来应用QScrollArea还是有点繁琐的,下面我写一段话,可能会有点绕 你需要先将widget添加到scrollArea,然后再将scrollArea添加到它要去的layout然后再设置scrollArea里的w…

【操作系统】每日 3 题(十四)

✍个人博客&#xff1a;https://blog.csdn.net/Newin2020?typeblog &#x1f4e3;专栏地址&#xff1a;https://blog.csdn.net/newin2020/category_12820365.html &#x1f4da;专栏简介&#xff1a;在这个专栏中&#xff0c;我将会分享操作系统面试中常见的面试题给大家~ ❤️…

销售管理SCRM助力企业高效提升业绩与客户关系管理

内容概要 在当今这个快速变化的市场环境中&#xff0c;企业面临着日益加剧的竞争&#xff0c;寻找更高效的销售管理工具显得尤为重要。销售管理SCRM不仅是一个单纯的客户关系管理工具&#xff0c;更是推动企业业绩提升的重要助力。在这一背景下&#xff0c;SCRM以其独特的优势…

JAVA基础-多线程线程池

文章目录 1. 多线程1.1什么是多线程&#xff08;1&#xff09;并发和并行&#xff08;2&#xff09;进程和线程 1.2多线程的实现方式1.2.1 方式一&#xff1a;继承Thread类1.2.2 方式二&#xff1a;实现Runnable接口1.2.3方式三: 实现Callable接口 1.3 常见的成员方法1.3.1 设置…

【日记】清仓了三个基金(1199 字)

正文 今天好忙。而且是瞎忙。主要是办公室找的家具厂不靠谱&#xff0c;上次桌子尺寸量错了&#xff0c;得换。今天拿了新的来&#xff0c;又要腾一遍东西。上午时间就没了。 那个疑似洗钱的客户又来了。他开户意愿真的好强烈。没办法&#xff0c;上午把账号给他开了出来&#…

微服务的注册中心Nacos

前言 Nacos是阿里巴巴开源的服务注册中心以及配置中心&#xff0c;致力于给开发者提供一款便捷、简单上手的开源框架。 Nacos究竟有什么惊人的地方呢&#xff1f;看下图&#xff1a; 从上图不难看出阿里巴巴的野心&#xff0c;一个Nacos干掉了Spring Cloud的三大组件&#xf…