大模型微调方法(非常详细),收藏这一篇就够了!

引言

众所周知,大语言模型(LLM)正在飞速发展,各行业都有了自己的大模型。其中,大模型微调技术在此过程中起到了非常关键的作用,它提升了模型的生成效率和适应性,使其能够在多样化的应用场景中发挥更大的价值。

那么,今天这篇文章就带大家深入了解大模型微调。其中主要包括什么是大模型微调、什么时候需要大模型微调、大模型微调方法总结、大模型微调最佳实践等。

LLM项目生命周期

在介绍大模型微调方法之前,首先带大家了解一下大语言模型的项目生命周期,它大致可以分为以下几个步骤,如下图所示「1、项目目标」:首先,明确项目目标。决定LLM是作为一个通用工具还是专注于特定任务(如命名实体识别)。明确的目标有助于节省时间和资源。

「2、模型选择」:在从头开始训练模型和修改现有模型之间做出选择。在许多情况下,适应性调整现有模型是高效的,但在某些情况下,可能需要通过新模型进行微调。

「3、模型性能与调优」:准备模型后,评估其性能。如果性能不佳,尝试进行提示工程(prompt engineering)或进一步微调。确保模型输出与人类偏好保持一致。

「4、评估与迭代」:定期使用指标和基准进行评估。在提示工程、微调和评估之间进行迭代,直到达到期望的结果。

「5、模型部署」:当模型表现符合预期时,进行部署。在这个阶段,优化计算效率和用户体验。

LLM微调

LLM微调是一个将预训练模型在较小、特定数据集上进一步训练的过程,目的是精炼模型的能力,提高其在特定任务或领域上的性能。「微调的目的是将通用模型转变为专用模型,弥合通用预训练模型与特定应用需求之间的差距,确保语言模型更贴近人类的期望」

以OpenAI的GPT-3为例,这是一个为广泛的自然语言处理(NLP)任务设计的先进LLM。假设一家医疗组织希望使用GPT-3来帮助医生从文本笔记生成患者报告。虽然GPT-3能理解和创建一般文本,但它可能没有针对复杂的医学术语和特定医疗术语进行优化。

为了提高GPT-3在这一专业角色中的性能,该组织会在包含医疗报告和患者笔记的数据集上对GPT-3进行微调。它可能会使用像SuperAnnotate的LLM定制编辑器这样的工具来构建具有所需界面的模型。通过这个过程,模型变得更加熟悉医学术语、临床语言的微妙之处和典型的报告结构。微调后,GPT-3能够协助医生生成准确且连贯的患者报告,展示了它对特定任务的适应性。

尽管微调听起来对每个LLM都很有价值,但请记住,这并非没有代价。接下来,将会详细讨论这些成本。

什么时候需要LLM微调

说起LLM,总会涉及到上下文学习、零样本、单样本和少样本推理等话题。我们先快速了解一下它们主要的功能。

上下文学习(In-context learning) 是一种通过在提示中加入特定任务示例来改进提示的方法,为LLM提供了完成任务的蓝图。

「零样本(Zero-shot)、单样本(One-shot)和少样本(Few-shot)推理」 零样本推理是在提示中直接使用输入数据,不添加额外示例。如果零样本推理未能达到预期结果,可以使用单样本或少样本推理。这些策略涉及在提示中添加一个或多个已完成的示例,帮助较小的LLM表现得更好。

「上下文学习的问题」 将以上这些技术直接应用于用户提示,旨在优化模型输出,使其更符合用户偏好。问题是它们并不总是有效,尤其是对于较小的LLM。除此之外,在提示中包含的任何示例都会占用宝贵的上下文窗口空间,减少了包含其他有用信息的空间。

「当以上方式无法解决相关问题时,这就需要LLM微调」。但它与预训练阶段使用大量非结构化文本数据不同,微调是一个监督学习过程。这意味着你使用标记好的示例数据集来更新LLM的权重。这些标记好的示例通常是prompt-response,使得模型能更好地完成特定任务。

有监督微调(SFT)

有监督微调意味着使用标记数据更新预先训练的语言模型来完成特定任务。所使用的数据已提前检查过。这与不检查数据的无监督方法不同。「通常语言模型的初始训练是无监督的,但微调是有监督的」。接下来将为您介绍大模型微调具体流程,如下图所示:

「1、数据准备」 有许多开源数据集可以提供关于用户行为和偏好的洞察,即使它们没有直接格式化为指令性数据。例如,我们可以利用亚马逊产品评论的大量数据集,将其转化为微调的指令提示数据集。提示模板库包含了许多针对不同任务和不同数据集的模板。

「2、执行微调」 将数据集分为训练、验证和测试部分。在微调过程中,你会从训练数据集中选择提示,并将它们传递给LLM,然后模型会生成完成的文本。

具体来说,当模型接触到针对目标任务的新标记数据集时,它会计算其预测与实际标签之间的误差或差异。然后,模型使用这个误差来调整其权重,通常通过梯度下降等优化算法。权重调整的幅度和方向取决于梯度,梯度指示了每个权重对误差的贡献程度。对误差贡献更大的权重会被更多地调整,而贡献较小的权重则调整较少。

「3、迭代调整」 在数据集的多次迭代(或称为周期)中,模型继续调整其权重,逐渐找到一种配置,以最小化特定任务的误差。目标是将之前学到的一般知识适应到新数据集中的细微差别和特定模式,从而使模型在目标任务上更加专业化和有效。

「4、模型更新」 在这个过程中,模型会根据标记数据进行更新。它根据其猜测与实际答案之间的差异进行改变。这有助于模型学习标记数据中的细节。通过这样做,模型在微调的任务上的表现会得到提升。

举个简单的例子,针对“天空为什么是蓝色?”这个问题,模型微调之前给出的答案为:“因为大气层散射阳光的方式。”,但是如果将该模型应用到科教平台,这个答案就显得太简短了。收集相关数据进行模型微调之后,给出的答案为:“天空之所以呈现蓝色,是因为一种叫做瑞利散射的现象。当阳光进入地球大气层时,它包含了不同颜色的光,每种颜色都有其特定的波长。蓝光波长较短,被大气中的气体和颗粒物向各个方向散射。这种散射使得直射阳光看起来是白色的,而天空本身则呈现出蓝色。”,上面的这个回答很全面就非常适合科教平台了。

微调方法

LLM微调是一个有监督学习过程,主要使用标注数据集来更新LLM的权重,并使模型提高其特定任务的能力。接下来将为大家介绍一些值得注意的微调方法。

「1、指令微调」 一种提高模型在各种任务上表现的策略是指令微调。这涉及到使用示例来训练机器学习模型,展示模型应该如何响应查询。用于微调大型语言模型的数据集必须符合你的指令目的。

例如,如果你想提高模型的摘要能力,你应该构建一个包含摘要指令和相关文本的数据集。在翻译任务中,应包含“翻译这段文本”等指令。这些提示有助于让模型以新的专业方式“思考”,并服务于特定任务。如下图所示

「2、全微调(FFT)」 即更新模型所有权重的过程,被称为全微调。这个过程会产生一个具有更新权重的新模型版本。需要注意的是,与预训练一样,全微调需要足够的内存和计算预算来存储和处理训练过程中的所有梯度、优化器和其他更新组件。

「3、参数高效微调(PEFT )」 训练语言模型是一项计算密集型任务。对于LLM全微调,内存不仅来存储模型,还要存储训练过程中必要的参数。你的计算机可能能够处理模型权重,但在训练过程中为优化状态、梯度和前向激活分配多余的内存可能会存在挑战。

简单的硬件无法处理这种挑战。这就是参数高效微调(PEFT)的关键所在。「虽然全LLM微调在监督学习过程中更新每个模型的权重,但PEFT方法只更新一小部分参数」。这种迁移学习技术选择特定的模型组件并“冻结”其余参数。结果是,与原始模型相比,参数数量显著减少(在某些情况下,仅为原始权重的15-20%;2021年微软提出的 LORA,斯坦福提出的 Prefix-Tuning,谷歌提出的 Prompt Tuning,2022年清华提出的 P-tuning v2、2023年华盛顿大学提出的QLoRA、2024年英伟达提出DoRA等基本上都是属于该范畴)。

这使得内存需求更加可管理。不仅如此,「PEFT还解决了灾难性遗忘问题。由于它不触及原始LLM,模型不会忘记之前学到的信息」。全微调会为每个训练任务产生一个新版本的模型,每个新版本都与原始模型大小相同,如果你在多个任务上进行微调,这可能会造成昂贵的存储问题。

其它微调类型

「1、迁移学习」:迁移学习是将已在通用、大规模数据集上训练过的模型,应用于特定任务的数据集上。这种方法适用于数据不足或时间紧迫的情况,优势在于训练后能获得更高的学习率和准确性。你可以使用像GPT-3和BERT这样在大量数据上预训练过的LLMs,并根据你的用例进行定制。

「2、任务特定微调」:任务特定微调是在特定任务或领域上,使用为该领域设计的数据集对预训练模型进行微调。这种方法比迁移学习需要更多的数据和时间,但可以在特定任务上获得更高的性能。

「3、灾难性遗忘」:在全微调过程中,模型在单一任务上的权重被修改,可能导致在其他任务上的性能下降。例如,模型在微调后可能在情感分析等NLP任务上表现更好,但可能忘记如何执行其他任务。

「4、多任务学习」:多任务微调是单任务微调的扩展,训练数据集包含多个任务的输入和输出示例。这种方法可以同时提高模型在所有任务上的性能,避免灾难性遗忘的问题。训练过程中,通过多个周期的损失计算来更新模型权重,最终得到一个擅长多种任务的微调模型。但多任务微调模型需要大量数据,可能需要5万到10万个示例。

「5、顺序微调」:顺序微调是将预训练模型按顺序适应多个相关任务。在初步迁移到一般领域后,LLM可能针对更具体的子集进行微调,例如从通用语言到医学语言,再到儿科心脏病学。

注意,其实还有其它的微调类型,如自适应、行为和指令、强化微调,这些涵盖了训练语言模型的一些重要特定情况。

检索增强RAG

说到模型微调,这里就必须要提一下检索增强RAG了。RAG是微调的一种替代方法,它结合了自然语言生成和信息检索。RAG确保语言模型通过外部最新知识或相关文档提供信息来源。「这种技术弥合了通用模型广泛知识与最新知识信息需求之间的差距」。因此,RAG是事实随时间演变情况下的重要技术。「RAG的优势」 RAG相较于微调的一个优势在于信息管理。传统的微调将数据嵌入到模型架构中,实质上是“硬编码”知识,这不容易修改。而RAG允许训练数据的持续更新,并允许数据的移除或修订,确保模型保持准确。

「RAG与微调的关系」 在语言模型的背景下,RAG和微调通常被视为竞争方法。然而,它们的结合使用可以显著提高性能。特别是,微调可以应用于RAG系统,以识别和改进其较弱的组件,帮助它们在特定LLM任务上表现出色。

微调最佳实践

「明确任务」:在微调大型语言模型的过程中,明确任务是基础步骤。它可以提供清晰的方向,确保模型的强大能力被引导用于实现特定目标,并为性能测量设定明确基准。

「选择合适的预训练模型」:使用预训练模型进行微调至关重要,因为它利用了从大量数据中获得的知识,确保模型不会从零开始学习。这种方法既计算效率高又节省时间。此外,预训练捕捉了通用语言理解,使微调能够专注于领域特定的细节,通常能在专业任务中带来更好的模型性能。

「设置超参数」:超参数是模型训练过程中可调整的变量,对找到适合任务的最优配置至关重要。学习率、批量大小、周期数、权重衰减等是关键的超参数,需要调整以优化模型。

「评估模型性能」:微调完成后,通过测试集评估模型性能。这提供了对模型在未见数据上预期表现的无偏评估。如果模型仍有改进空间,也应考虑迭代优化模型。

如何学习AI大模型 ?

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

😝有需要的小伙伴,可以VX扫描下方二维码免费领取🆓

👉1.大模型入门学习思维导图👈

要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。

对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。

在这里插入图片描述
在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)

在这里插入图片描述

👉4.大模型落地应用案例PPT👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)

在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
img

在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)

在这里插入图片描述
👉学会后的收获:👈
基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1549154.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

如果只能保留一个复制粘贴软件,那一定是它pastemate

下载地址:Pastemate 在日常的工作和生活中,使用电脑必离不开的功能中,一定有复制粘贴。传统的复制粘贴方式效率不那么高,Windows内置的剪切板功能感觉又差那么些意思。 🧐对于功能和颜值都有要求的你,一定…

大模型推理任务Nvidia GPU选型指南

大型语言模型 (LLM)(如 GPT-4、BERT 和其他基于 Transformer 的模型)彻底改变了 AI 格局。这些模型需要大量计算资源来进行训练和推理。选择合适的 GPU 进行 LLM 推理可以极大地影响性能、成本效益和可扩展性。 在本文中,我们将探索最适合 L…

你们猜!吊打Oracle的国产数据库有哪几家?

今天闲暇之余看到某vx群聊得很火热,这个群聚集了国内不少数据库大咖,其中大家聊到国产数据库遥遥领先了。 最开始主要是一个朋友提到目前很多企业拍板的人并不懂数据库,甚至很多知名数据库都没听过。 然后大家就开始聊到国产数据库了&#xf…

LeetCode[中等] 17. 电话号码的字母组合

给定一个仅包含数字 2-9 的字符串,返回所有它能表示的字母组合。答案可以按 任意顺序 返回。 给出数字到字母的映射如下(与电话按键相同)。注意 1 不对应任何字母。 思路 回溯法 log:当前结果数组;level&#xff1a…

书生·浦语大模型全链路开源开放体系-笔记

推理能力领先 与社区开源模型相比,InternLM2的性能提升了20%,这表明模型在处理复杂推理任务时更加高效和准确。 支持100万字上下文 该模型能够理解和精确处理长达100万字的文本,这在开源模型中处于领先地位。这种能力对于处理长篇文章、学…

html+css+js实现Pagination 分页

效果图 HTML部分 <body><div class"pagination"><button class"prev"><</button><ul><li class"active">1</li><li>2</li><li>3</li><li>4</li><li>5…

解压视频素材下载网站推荐

在制作抖音小说推文或其他短视频时&#xff0c;找到合适的解压视频素材非常重要。以下是几个推荐的网站&#xff0c;可以帮助你轻松下载高质量的解压视频素材&#xff1a; 蛙学网 蛙学网是国内顶尖的短视频素材网站&#xff0c;提供大量4K高清无水印的解压视频素材&#xff0c;…

Midjourney中文版:解锁AI艺术创作的无限潜能

在数字化时代&#xff0c;艺术创作与科技的融合正以前所未有的速度推进&#xff0c;而Midjourney中文版正是这一趋势下的璀璨明星。作为一款专为中文用户设计的AI绘图工具&#xff0c;它不仅集成了最先进的深度学习技术&#xff0c;还通过本地化优化&#xff0c;为国内设计师和…

心理咨询展示网站建设渠道拓展

心理问题长期以来都受到关注&#xff0c;每个城市里也都有相关服务商家&#xff0c;除了进店外&#xff0c;线上也可以开展咨询服务&#xff0c;对需求者来说需要找到靠谱的品牌&#xff0c;而商家也需要触达到更多客户获取转化。 网站是品牌线上工具&#xff0c;利于商家通过…

昇思MindSpore进阶教程-优化器

大家好&#xff0c;我是刘明&#xff0c;明志科技创始人&#xff0c;华为昇思MindSpore布道师。 技术上主攻前端开发、鸿蒙开发和AI算法研究。 努力为大家带来持续的技术分享&#xff0c;如果你也喜欢我的文章&#xff0c;就点个关注吧 模型训练过程中&#xff0c;使用优化器更…

什么是期望最大化算法?

一、期望最大化算法 期望最大化&#xff08;EM&#xff09;算法是一种在统计学和机器学习中广泛使用的迭代方法&#xff0c;它特别适用于含有隐变量的概率模型参数估计问题。在统计学和机器学习中&#xff0c;有很多不同的模型&#xff0c;例如高斯混合模型&#xff08;GMM&…

LeetCode讲解篇之3. 无重复字符的最长子串

文章目录 题目描述题解思路代码实现 题目描述 题解思路 因为我们需要求无重复字符的最长子串&#xff0c;这个我们首先需要想到使用滑动窗口&#xff0c;窗口内记录无重复的子串的所有字符&#xff0c;移动窗口的右边界时&#xff0c;发现当前字符在窗口内已经出现&#xff0c…

unreal engine5制作动作类游戏时,我们使用刀剑等武器攻击怪物或敌方单位时,发现攻击特效、伤害等没有触发

UE5系列文章目录 文章目录 UE5系列文章目录前言一、问题分析二、使用步骤2.玩家角色碰撞设置3.怪物角色碰撞预设 最终效果 前言 在使用unreal engine5制作动作类游戏时&#xff0c;我们使用刀剑等武器攻击怪物或敌方单位时&#xff0c;发现攻击特效、伤害等没有触发。检查动画…

二叉树进阶oj题【二叉树相关10道oj题的解析和c++代码实现】

目录 二叉树进阶oj题1.根据二叉树创建字符串2.二叉树的层序遍历3.二叉树的层序遍历 II4.二叉树的最近公共祖先5.二叉搜索树和双向链表6.从前序与中序遍历序列构造二叉树7.从中序和后序遍历序列来构造二叉树8.二叉树的前序遍历&#xff0c;非递归迭代实现9.二叉树中序遍历 &…

烟雾污染云层检测系统源码分享

烟雾污染云层检测检测系统源码分享 [一条龙教学YOLOV8标注好的数据集一键训练_70全套改进创新点发刊_Web前端展示] 1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 项目来源AACV Association for the Advancement of Computer…

ssh方式连接上GitHub(超详细的哦)

目录 先检查本地有无生成过SSH key 生成 SSH Key&#xff08;如果没有的话&#xff09; 查看新生成的 SSH 公钥 添加新的 SSH Key 测试 SSH 连接 先检查本地有无生成过SSH key ls -al ~/.ssh终端输入以上命令查看 如果有应该能看到以下列表 id_rsa id_rsa.pub id_ed2551…

端侧Agent系列 | 端侧AI Agent任务拆解大师如何助力AI手机?(详解版)

引言 简介 Octo-planner 规划和执行Agent框架 规划数据集 基准设计 实验设计 结果 全量微调与LoRA 多LoRA训练与合并 不同基础模型的全量微调 不同数据集大小的全量微调 总结 实战 英文 中文示例1&#xff1a; 中文示例2&#xff1a; 0. 引言 人生到处知何似…

PREDATOR: Registration of 3D Point Clouds with Low Overlap

Abstract 这篇文章介绍了一种新的点云配准模型-Predator。该模型专注于处理低重叠的点云对&#xff0c;它更加关注于重叠区域的处理&#xff0c;其新颖之处在于一个重叠的注意块&#xff0c;作用是用于两个点云的潜在编码之间的早期信息交换。该模型大大提高了低重叠场景下的配…

【博弈强化学习】——UAV-BS 的联合功率分配和 3D 部署:基于博弈论的深度强化学习方法

【论文】&#xff1a;Joint Power Allocation and 3D Deployment for UAV-BSs: A Game Theory Based Deep Reinforcement Learning Approach 【引用】&#xff1a;Fu S, Feng X, Sultana A, et al. Joint power allocation and 3D deployment for UAV-BSs: A game theory based…

C++深入学习string类成员函数(3):访问与修饰

引言 在 C 中&#xff0c;std::string 提供了丰富的成员函数来访问和修改字符串中的字符。通过这些函数&#xff0c;程序员可以灵活地处理字符串中的各个元素&#xff0c;无论是读取特定位置的字符&#xff0c;还是修改字符串的内容。此外&#xff0c;std::string 类还确保了访…