LIMA模型——大模型对齐的新方法

人工智能咨询培训老师叶梓 转载标明出处

大模型通常在两个阶段进行训练:首先是从原始文本中进行无监督预训练,以学习通用表示;其次是通过大规模的指令微调和强化学习,以更好地适应最终任务和用户偏好。来自Meta AI、卡内基梅隆大学和特拉维夫大学研究人员提出了,通过LIMA模型,对这两种训练阶段的重要性进行了量化。

LIMA(Less Is More for Alignment)是一个65B参数的LLaMa语言模型,它仅通过1,000个精心策划的提示和响应进行标准监督损失微调,而不使用任何强化学习或人类偏好建模。这项研究的核心观点是,大模型的几乎所有知识都是在预训练阶段学到的,而进行高质量的输出只需要有限的指令调整数据。

数据与训练

研究者们提出了“表面对齐假设”,认为大模型的知识和能力几乎完全在预训练期间获得,而对齐则是教会模型在与用户互动时使用哪种格式的子分布。基于这一假设,研究团队收集了1,000个提示和响应的数据集,其中输出(响应)风格一致,但输入(提示)则多样化,旨在模拟一个乐于助人的AI助手的风格。

研究者们从三个社区问答网站收集数据:Stack Exchange、wikiHow和Pushshift Reddit数据集。Stack Exchange包含179个在线社区,每个社区专注于特定主题,其中最受欢迎的是编程(Stack Overflow)。研究者们在采样时应用了质量和多样性控制,从每个分类中抽取200个问题和答案,并对答案进行了自动过滤,以符合有用AI助手的风格。例如,过滤掉那些太短或太长、使用第一人称或引用其他答案的回答。同时,从wikiHow抽取了200篇文章,使用标题作为提示,文章正文作为响应。对于Reddit数据集,研究者们手动选择了r/AskReddit和r/WritingPrompts子集中的示例,因为Reddit上高赞回答往往更倾向于娱乐性内容。

为了进一步多样化数据,研究者们还收集了来自自身(论文作者)的提示。两个作者组分别创建了250个提示,这些提示受到作者自身兴趣或朋友的启发。在200个训练提示中补充了高质量的答案,这些答案由作者自己编写,以保持一致的语气。另外还包括了13个带有毒性或恶意的培训提示。

表格1 展示了不同数据源的概览,并提供了一些统计数据。表格详细列出了训练提示(输入)和响应(输出)的来源,以及测试提示的分布情况。通过这些精心策划的数据,旨在验证即使是数量有限的训练示例,只要质量足够高,也能够有效地对大模型进行对齐。

训练过程始于LLaMa 65B模型,并使用1,000个示例的对齐训练集进行微调。为了区分每个说话者(用户和助手),在每次发言的末尾引入了一个特殊的回合结束标记(EOT)。微调过程中使用了标准的超参数设置,包括15个训练周期、AdamW优化器以及残差连接上的dropout。发现困惑度(perplexity)与生成质量并不相关,因此使用50个示例的开发集手动选择在第5到第10周期之间的检查点。

想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。9月22日晚,实战专家1小时讲解让您轻松上手,学习如何使用 Llama Factory 微调模型。

加下方微信或评论留言,即可参加线上直播分享,叶老师亲自指导,互动沟通,全面掌握Llama Factory。关注享粉丝福利,限时免费录播讲解。

LLaMA Factory 支持多种预训练模型和微调算法。它提供灵活的运算精度和优化算法选择,以及丰富的实验监控工具。开源特性和社区支持使其易于使用,适合各类用户快速提升模型性能。

人类评估与对齐效果分析

在实验设置方面,为了评估LIMA与其他模型的性能,针对每个测试提示生成单一响应,并由众包工人对LIMA与其他基线模型的输出进行比较和偏好选择。此外,还利用GPT-4重复了这一评估过程,以确保评估的一致性。

在生成响应时,采用了核心采样技术,并施加了重复惩罚,同时限制了最大令牌长度。在评估方法上,向评估者展示了每个提示的两个可能响应,并要求他们判断哪个响应更佳或两者是否相当。

图1和图2分别展示了人类和GPT-4的偏好评估结果。尽管Alpaca 65B的训练数据量远超LIMA,但其输出质量却不及LIMA。DaVinci003虽然采用了RLHF训练,但与LIMA相比,只在较小程度上表现更优。Bard在42%的情况下优于LIMA,但LIMA也有58%的情况至少与Bard持平。尽管Claude和GPT-4通常优于LIMA,但LIMA在19%的情况下也优于GPT-4。

在分析部分,通过对50个随机示例的深入分析,进一步评估了LIMA的性能。这些示例被分为未达到要求、满足要求和优秀的三个等级。图3显示了对LIMA在50个测试提示上的分析结果,其中50%的回答被评为优秀,并且能够遵循50个分析提示中的44个。未观察到失败案例中的显著趋势。

图4展示了LIMA模型在不同测试提示下的输出示例,包括分布内、分布外和安全性挑战的示例。这些示例展示了LIMA在遵循训练集内相关示例、处理训练集中不存在的类似任务以及拒绝不安全行为的能力。

在多样性测试中,通过比较Stack Exchange和wikiHow的数据,发现更多样化的Stack Exchange数据能显著提升模型性能。图5展示了使用不同来源的2,000个示例训练的7B模型的性能,其中经过质量过滤的Stack Exchange数据训练的模型性能更高。在质量测试中,使用经过质量过滤的Stack Exchange数据训练的模型比未过滤的数据训练的模型表现更佳。图5同样展示了这一结果。

在数量测试中,即使训练数据量增加16倍,性能也未见显著提升,表明对齐的效果不仅仅取决于数据量,而是更依赖于保持高质量响应的同时增加提示的多样性。图6展示了随着训练示例数量指数级增加,模型性能却趋于平稳的现象。

在多轮对话测试中,尽管LIMA仅在1,000个单轮互动上进行了微调,但其在多轮对话中的表现令人惊讶地连贯。为了进一步提升对话能力,增加了30个多轮对话链到训练集中,并进行了新一轮的微调。图7显示了响应质量的分布,添加对话示例显著提高了生成质量,优秀响应的比例显著提升,失败率也有所下降。这一发现进一步证实了预训练期间学到的能力和通过有限监督调用这些能力的可能性。

这些结果表明,预训练的强大功能以及其相对于大规模指令调整和强化学习方法的重要性。

论文链接:https://arxiv.org/pdf/2305.11206

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/143592.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

MySQL函数:日期函数

先贴一张黑马程序员的听课截图 1.返回当前日期 CURDATE(); select CURDATE(); //获取当前日期2. 返回当前时间 CURTIME(); select CURTIME(); //获取当前时间3.返回当前日期和时间NOW() select NOW(); //获取当前日期和时间 4.获取指定date的年份YEAR(date) select YEAR…

【赵渝强老师】Kubernetes中的控制器

Kubernetes通过创建控制器来管理Pod的生命周期。为了满足不同需求的场景,Kubernetes开发了 不同的控制器,如:Deployment、DaemonSet、Job、CronJob、StatefuleSet等。 视频讲解如下: Kubernetes中的控制器 【赵渝强老师】Kuberne…

Mistral 推出免费套餐 供开发人员测试其 AI 模型

法国AI初创公司Mistral于9月17日宣布了一系列重大更新,意在吸引开发者并扩大其市场份额。这家估值60亿美元的公司推出的新举措包括免费测试套餐、大幅降价和新增多模态功能,展现了其在日益激烈的AI模型提供商领域的进取心。 Mistral通过其API服务平台la…

Cortex_M0开发学习_1

一、简介 意法半导体基于Arm Cortex-M0的STM32F0系列器件实现了32位性能,同时传承了STM32系列的重要特性,特别适合成本敏感型应用。STM32F0 MCU集实时性能、低功耗运算和STM32平台的先进架构及外设于一身。 STM32F0系列产品基于Cortex-M0内核&#xff0c…

阿里 Qwen2.5 开源发布;YouTubeVeo 引入 Google DeepMind Veo 模型丨 RTE 开发者日报

开发者朋友们大家好: 这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文…

4路同步AD模拟量采集卡800K采样频率—PCIe9757

阿尔泰科技 概述: 信息社会的发展,在很大程度上取决于信息与信号处理技术的先进性。数字信号处理技术的出现改变了信息与信号处理技术的整个面貌,而数据采集作为数字信号处理的必不可少的前期工作在整个数字系统中起到关键性、乃至决定性的…

平替WordPress/Zendesk,3分钟零代码用HelpLook建立一个企业网站

您是否正寻找一个能同时接入网站、小程序、App的内容管理系统?是否希望无需后端技能也能轻松接入,且无需搭建服务器?尤其是有出海需求的企业,希望搭建一个国内外访问速度都快而稳定的在线帮助中心? 企业对于在线内容管…

【neo4j】neo4j和Cypher 查询语言相关知识点

【neo4j】neo4j和Cypher 查询语言相关知识点 1.什么是neo4j Neo4j 是一个广泛使用的图形数据库管理系统(Graph Database Management System)。它是一种NoSQL数据库,专为存储和查询图形数据而设计。Neo4j 支持图形数据模型,允许用…

[论文笔记]MRRNET

这是一篇河大的论文 感觉跟SANET很像 摘要 摘要:随着物联网(IoT)的大规模部署,道路场景中实时感知和环境理解的需求变得越来越迫切。 同时,语义分割作为像素级场景解析得到了广泛的研究。 然而,资源有限…

异常中的常见方法

成员方法 getMessage package trycatch;public class TrycatchDemo {public static void main(String[] args) {int[] arr {1,2,3,4,5,6,7};try {System.out.println(arr[10]);} catch (ArrayIndexOutOfBoundsException e) {String message e.getMessage();System.out.print…

9.19工作笔记

怎么做多空对冲 脚本2怎么实现多空对冲的 首先读取factors和periods中的文件,然后read_coin得到结果strategy里面的cal_factor的作用是将所有的因子排名加权得到一个新的因子,这个就是多因子的做法。其中因子权重为factor_list里面的因子的最后一个元素…

数据处理与统计分析篇-day05-Pandas详解

创建DaraFrame对象 概述 DataFrame是一个表格型的结构化数据结构,它含有一组或多组有序的列(Series),每列可以是不同的值类型(数值、字符串、布尔值等)。 DataFrame是Pandas中的最基本的数据结构对象&…

CRM客户管理系统如何帮你做好客户分类

CRM客户管理系统通过一系列功能和策略帮助企业有效地进行客户分类,从而优化资源配置,提升客户满意度和忠诚度,进而推动业务增长。 以下是CRM系统如何帮助企业做好客户分类的详细阐述: 一、全面数据收集与整合 CRM系统能够全面收…

通过知识图谱自动生成和丰富加速医学知识发现 - 哈佛大学等

KGGPT Accelerating Medical Knowledge Discovery through Automated Knowledge Graph Generation and Enrichment 摘要 知识图谱(KGs)作为组织和表示结构化知识的强大工具,广受认可。尽管它们的实用性广泛被认可,但在自动化和完…

“码”上中秋 · 与 豆包 MarsCode 共赏家乡月

《水调歌头》(宋苏轼) (丙辰中秋,欢饮达旦。大醉,作此篇,兼怀子由) 明月几时有? 把酒问青天。 不知天上宫阙,今夕是何年。 我欲乘风归去,又恐琼楼玉宇,高处不胜寒。 起舞弄清影,何似在人间? 转…

VR全景摄影制作中的常见问题及解决方案

随着VR全景摄影技术的普及,越来越多的摄影师和企业开始尝试使用这种方式来展示产品、场景或服务。虽然VR全景摄影有着强大的视觉表现力和沉浸式体验,但在制作过程中也会遇到各种挑战。为了帮助大家更好地掌握VR全景摄影的制作技巧,今天给分享…

Hi3559A/C V100 集成了双核 A73 和双核 A53,支持 8K30/4K120 视频录制

1.1 概述 Hi3559AV100 是专业的 8K Ultra HD Mobile Camera SOC ,它提供了 8K30/4K120 广播级图像质量的数字视频录制,支持多路 Sensor 输入,支持 H.265 编码输出或影视 级的 RAW 数据输出,并集成高性能 ISP 处理&…

上架谷歌安卓APP完整图文流程

本节包含以下内容: 第一步:登录Google play开发者后台第二步:创建应用第三步:设置应用第四步:开启通知第五步:发布应用第六步:查看审核结果第七步:配置app支付参数第八步&#xff1…

windows环境安装Elasticsearch和图形化界面head插件

废话少说ES相关的用法可以参考文档:https://www.elastic.co/guide/cn/elasticsearch/guide/current/index.html 注意:elasticsearch是使用java开发的,且本版本的ES需要的jdk版本要是1.8以上,所以安装elasticsearch之前保证jdk1.8以…

换个手机IP地址是不是不一样?

在当今这个信息爆炸的时代,手机已经成为我们生活中不可或缺的一部分。而IP地址,作为手机连接网络的桥梁,也时常引起我们的关注。你是否曾经好奇,换个手机,IP地址会不会也跟着变呢?本文将深入探讨这个问题&a…