LIMA模型——大模型对齐的新方法

 人工智能咨询培训老师叶梓 转载标明出处

大模型通常在两个阶段进行训练:首先是从原始文本中进行无监督预训练,以学习通用表示;其次是通过大规模的指令微调和强化学习,以更好地适应最终任务和用户偏好。来自Meta AI、卡内基梅隆大学和特拉维夫大学研究人员提出了,通过LIMA模型,对这两种训练阶段的重要性进行了量化。

LIMA(Less Is More for Alignment)是一个65B参数的LLaMa语言模型,它仅通过1,000个精心策划的提示和响应进行标准监督损失微调,而不使用任何强化学习或人类偏好建模。这项研究的核心观点是,大模型的几乎所有知识都是在预训练阶段学到的,而进行高质量的输出只需要有限的指令调整数据。

数据与训练

研究者们提出了“表面对齐假设”,认为大模型的知识和能力几乎完全在预训练期间获得,而对齐则是教会模型在与用户互动时使用哪种格式的子分布。基于这一假设,研究团队收集了1,000个提示和响应的数据集,其中输出(响应)风格一致,但输入(提示)则多样化,旨在模拟一个乐于助人的AI助手的风格。

研究者们从三个社区问答网站收集数据:Stack Exchange、wikiHow和Pushshift Reddit数据集。Stack Exchange包含179个在线社区,每个社区专注于特定主题,其中最受欢迎的是编程(Stack Overflow)。研究者们在采样时应用了质量和多样性控制,从每个分类中抽取200个问题和答案,并对答案进行了自动过滤,以符合有用AI助手的风格。例如,过滤掉那些太短或太长、使用第一人称或引用其他答案的回答。同时,从wikiHow抽取了200篇文章,使用标题作为提示,文章正文作为响应。对于Reddit数据集,研究者们手动选择了r/AskReddit和r/WritingPrompts子集中的示例,因为Reddit上高赞回答往往更倾向于娱乐性内容。

为了进一步多样化数据,研究者们还收集了来自自身(论文作者)的提示。两个作者组分别创建了250个提示,这些提示受到作者自身兴趣或朋友的启发。在200个训练提示中补充了高质量的答案,这些答案由作者自己编写,以保持一致的语气。另外还包括了13个带有毒性或恶意的培训提示。

表格1 展示了不同数据源的概览,并提供了一些统计数据。表格详细列出了训练提示(输入)和响应(输出)的来源,以及测试提示的分布情况。通过这些精心策划的数据,旨在验证即使是数量有限的训练示例,只要质量足够高,也能够有效地对大模型进行对齐。

训练过程始于LLaMa 65B模型,并使用1,000个示例的对齐训练集进行微调。为了区分每个说话者(用户和助手),在每次发言的末尾引入了一个特殊的回合结束标记(EOT)。微调过程中使用了标准的超参数设置,包括15个训练周期、AdamW优化器以及残差连接上的dropout。发现困惑度(perplexity)与生成质量并不相关,因此使用50个示例的开发集手动选择在第5到第10周期之间的检查点。

想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具(限时免费)。

1小时实战课程,您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型,以发挥其最大潜力。

CSDN教学平台录播地址:https://edu.csdn.net/course/detail/39987 

人类评估与对齐效果分析

在实验设置方面,为了评估LIMA与其他模型的性能,针对每个测试提示生成单一响应,并由众包工人对LIMA与其他基线模型的输出进行比较和偏好选择。此外,还利用GPT-4重复了这一评估过程,以确保评估的一致性。

在生成响应时,采用了核心采样技术,并施加了重复惩罚,同时限制了最大令牌长度。在评估方法上,向评估者展示了每个提示的两个可能响应,并要求他们判断哪个响应更佳或两者是否相当。

图1和图2分别展示了人类和GPT-4的偏好评估结果。尽管Alpaca 65B的训练数据量远超LIMA,但其输出质量却不及LIMA。DaVinci003虽然采用了RLHF训练,但与LIMA相比,只在较小程度上表现更优。Bard在42%的情况下优于LIMA,但LIMA也有58%的情况至少与Bard持平。尽管Claude和GPT-4通常优于LIMA,但LIMA在19%的情况下也优于GPT-4。

在分析部分,通过对50个随机示例的深入分析,进一步评估了LIMA的性能。这些示例被分为未达到要求、满足要求和优秀的三个等级。图3显示了对LIMA在50个测试提示上的分析结果,其中50%的回答被评为优秀,并且能够遵循50个分析提示中的44个。未观察到失败案例中的显著趋势。

图4展示了LIMA模型在不同测试提示下的输出示例,包括分布内、分布外和安全性挑战的示例。这些示例展示了LIMA在遵循训练集内相关示例、处理训练集中不存在的类似任务以及拒绝不安全行为的能力。

在多样性测试中,通过比较Stack Exchange和wikiHow的数据,发现更多样化的Stack Exchange数据能显著提升模型性能。图5展示了使用不同来源的2,000个示例训练的7B模型的性能,其中经过质量过滤的Stack Exchange数据训练的模型性能更高。在质量测试中,使用经过质量过滤的Stack Exchange数据训练的模型比未过滤的数据训练的模型表现更佳。图5同样展示了这一结果。

在数量测试中,即使训练数据量增加16倍,性能也未见显著提升,表明对齐的效果不仅仅取决于数据量,而是更依赖于保持高质量响应的同时增加提示的多样性。图6展示了随着训练示例数量指数级增加,模型性能却趋于平稳的现象。

在多轮对话测试中,尽管LIMA仅在1,000个单轮互动上进行了微调,但其在多轮对话中的表现令人惊讶地连贯。为了进一步提升对话能力,增加了30个多轮对话链到训练集中,并进行了新一轮的微调。图7显示了响应质量的分布,添加对话示例显著提高了生成质量,优秀响应的比例显著提升,失败率也有所下降。这一发现进一步证实了预训练期间学到的能力和通过有限监督调用这些能力的可能性。

这些结果表明,预训练的强大功能以及其相对于大规模指令调整和强化学习方法的重要性。

论文链接:https://arxiv.org/pdf/2305.11206

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/13762.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

向量数据库PGVECTOR安装

文章目录 前提向量数据库介绍PGVECTOR安装1、pgvector下载2、编译安装3、创建vector扩展 前提 已经安装好了pg14版本。 其他版本也可以。 pg安装教程:https://blog.csdn.net/yushaoyyds/article/details/138855306?spm1001.2014.3001.5502 向量数据库介绍 向量数…

Spring Boot框架助力电商系统设计

2 相关技术 2.1 SpringBoot框架介绍 Spring Boot是一种不需要代码生成的一种框架,并且可以不需要配置任何的XML文件就可以,因为Spring Boot里面自带了很多接口,只需要配置不同的接口就会自动的应用并且识别需要的依赖,在配置方面非…

双十一之夜:珠海体育中心悲剧,极端行为下的反思

双十一,这个原本充满购物狂欢与期待的节日,在珠海市香洲区的珠海市体育中心,被一场突如其来的极端事件所笼罩,让欢乐的氛围即刻凝固。62岁男子的一时冲动,驾车冲撞行人,导致35条宝贵生命戛然而止&#xff0…

常用环境部署(二十三)——Docker部署ERPNext

1、介绍 ERPNext 是一种业务财务集成一体的现代管理关键。 与传统会计和 ERP 相比,它具有许多优势。相对于传统记账软件的优势: ​不仅仅是会计! 管理库存、账单、报价、销售线索、工资单等。所有数据存放在同一个地方安全存储, 所有用户都在…

黑马程序员——Vue3小兔鲜项目(5. Home页)

静态结构搭建和分类实现 1. 整体结构创建 1- 按照结构新增五个组件&#xff0c;准备最简单的模版&#xff0c;分别在Home模块的入口组件中引入 HomeCategoryHomeBannerHomeNewHomeHotHomeProduct <script setup> </script><template><div> HomeCate…

nginx部署H5端程序与PC端进行区分及代理多个项目及H5内页面刷新出现404问题。

在项目中会碰见需要在nginx代理多个项目&#xff0c;如果在加上uniapp开发的H5端的项目&#xff0c;你还要在nginx中区分PC端和手机H5端&#xff0c;这就会让人很头大&#xff01;网上大部分的资料都是采用在nginx的conf配置文件中添加区分pc和手机端的变量例如&#xff1a;set…

【miniMax开放平台-注册安全分析报告-无验证方式导致安全隐患】

前言 由于网站注册入口容易被黑客攻击&#xff0c;存在如下安全问题&#xff1a; 暴力破解密码&#xff0c;造成用户信息泄露短信盗刷的安全问题&#xff0c;影响业务及导致用户投诉带来经济损失&#xff0c;尤其是后付费客户&#xff0c;风险巨大&#xff0c;造成亏损无底洞…

除了 Postman,还有什么好用的 API 调试工具吗

尽管 Postman 拥有团队协作等实用特性&#xff0c;其免费版提供的功能相对有限&#xff0c;而付费版的定价可能对小团队或个人开发者而言显得偏高。此外&#xff0c;Postman 的访问速度有时较慢&#xff0c;这可能严重影响使用体验。 鉴于这些限制&#xff0c;Apifox 成为了一…

缓存(四)指标

这张图总结了缓存性能的三个主要指标&#xff1a;未命中率&#xff08;Miss Rate&#xff09;、命中时间&#xff08;Hit Time&#xff09; 和 未命中惩罚&#xff08;Miss Penalty&#xff09;。这些指标用于评估缓存系统的效率和性能。 1. 未命中率&#xff08;Miss Rate&am…

AI赋能电商:提升用户体验与销售效率的创新应用与未来展望

目录 前言1. AI在电商中的核心应用领域1.1 智能购物推荐1.2 精准的会员分类1.3 智能定价系统1.4 提升用户体验的智能客服系统 2. AI应用中的挑战与应对策略2.1 数据安全与隐私保护2.2 算法的公平性与透明度 3. AI在电商行业的未来发展趋势3.1 虚拟购物助手与元宇宙体验3.2 基于…

苹果音乐因为忘记续期,禁用了自己服务器...

我在《从零开始搭建博客》中有提到如何续费 SSL 证书&#xff0c;以及如何自动续费。当时我只是顺带提一嘴&#xff0c;没想到这么快&#xff0c;就有大厂因为忘记续费证书了… 然后&#xff0c;苹果是第一个被打脸的&#xff0c;忘记续期了&#xff0c;而且影响是非常重要的 …

CACTER诚邀您参加2024高交会

11月14-16日 第二十六届中国国际高新技术成果交易会 于深圳国际会展中心&#xff08;宝安&#xff09; 隆重开幕 CACTER于12号馆D12展位诚邀各位莅临 关于高交会 中国国际高新技术成果交易会&#xff08;简称“高交会”&#xff09;由深圳市人民政府主办&#xff0c;是目前…

微信多账号管理,让你的管理更轻松,效率更高!

现在微信账号越来越多&#xff0c;工作生活里头的微信一多&#xff0c;管理起来就头疼。各种消息、好友请求、群发消息一大堆&#xff0c;手忙脚乱的。 这时候&#xff0c;有个给力的微信管理工具就太重要了&#xff0c;它能帮你搞定社交&#xff0c;管理起来也轻松。 先说说…

Unity图形学之Shader2.0 OutLine实例

1.轮廓&#xff1a; &#xff08;1&#xff09;直接 渲染两个物体&#xff1a;一个大 一个小&#xff0c;大的是轮廓&#xff0c;直接返回一个颜色&#xff1b;小的物体按照纹理采样返回颜色 两个Pass { } 第一个Pass 渲染大的物体边缘第二个Pass 渲染小的物品 Shader "…

基于Springboot+微信小程序的农产品销售小程序 (含源码数据库)

1.开发环境 开发系统:Windows10/11 架构模式:MVC/前后端分离 JDK版本: Java JDK1.8 开发工具:IDEA 数据库版本: mysql5.7或8.0 数据库可视化工具: navicat 服务器: SpringBoot自带 apache tomcat 主要技术: Java,Springboot,mybatis,mysql,vue 2.视频演示地址 3.功能 这个系…

LabVIEW大数据处理

在物联网、工业4.0和科学实验中&#xff0c;大数据处理需求逐年上升。LabVIEW作为一款图形化编程语言&#xff0c;凭借其强大的数据采集和分析能力&#xff0c;广泛应用于实时数据处理和控制系统中。然而&#xff0c;在面对大数据处理时&#xff0c;LabVIEW也存在一些注意事项。…

OLED 显示画面的变换操作——上下、左右翻转

OLED 画面旋转 OLED 写入函数定义 OLED_WR_Byte(0xA1,OLED_CMD);//--Set SEG/Column Mapping 0xa0左右反置 0xa1正常 OLED_WR_Byte(0xC8,OLED_CMD);//Set COM/Row Scan Direction 0xc0上下反置 0xc8正常OLED 显示界面转换函数如下 void OLED_DisplayTurn(u8 i) {if(i0…

关于 JavaScript 对象不变性,你了解吗?

1. 基本概念 在 JavaScript 语言中&#xff0c;不变性&#xff08;Immutability&#xff09;是一个重要的概念。它指的是对象一旦创建后其状态就不能改变。在函数式编程中&#xff0c;不变性是实现纯函数的基础&#xff0c;因为它可以确保函数的输出只依赖于输入参数&#xff…

AOA-LSTM多输入时序预测|算术优化算法-长短期神经网络|Matlab

目录 一、程序及算法内容介绍&#xff1a; 基本内容&#xff1a; 亮点与优势&#xff1a; 二、实际运行效果&#xff1a; 三、方法原理介绍&#xff1a; 四、完整程序数据下载&#xff1a; 一、程序及算法内容介绍&#xff1a; 基本内容&#xff1a; 本代码基于Matlab平…

【金猿案例展】上海汽检——智能网联自动驾驶交通事故原因分析服务平台

‍ 零数科技案例 本次项目案例由零数科技投递并参与“数据猿年度金猿策划活动——2024大数据产业年度创新服务企业榜单/奖项”评选。 大数据产业创新服务媒体 ——聚焦数据 改变商业 智能网联汽车作为未来交通出行的重要载体&#xff0c;其自动驾驶功能的快速发展为车辆的安全…