永远学习:为什么人工智能难以适应新挑战

理解深度学习的局限性并追求真正的持续适应

欢迎来到雲闪世界。

“智者适应环境,正如水适应水瓶。”——中国谚语

“适应或灭亡,现在和以往一样,是大自然的必然法则。”——赫伯特·乔治·威尔斯

近年来,人工智能取得了长足的进步。所有这些系统都以某种形式使用了人工神经元。这些算法的灵感来自它们的生物对应物。例如,神经元会聚合来自先前神经元的信息,如果信号超过某个阈值,它会将信息传递给其他神经元。这个想法由权重矩阵和激活函数表示。其他示例可以在卷积网络(受视觉皮层启发)或遗传算法中找到。在训练过程中,各种神经元之间的连接(由权重表示)会加强或减弱,类似于神经元突触的强度。这个过程是随机梯度下降(SGD)和反向传播算法的基础,几十年来几乎没有发生任何变化。

描述智力和生物成分之间的这些相似性有助于更好地理解,但也很危险。首先,生物系统比人们想象的要复杂得多,而且人们使用了强迫性的简化。其次,其中一些比较是不准确的。持续学习就是这种情况

在本文中,我们将回答以下问题:

  • 什么是持续学习?它为什么重要?

  • 所有的深度学习架构都会丧失可塑性吗?

  • 什么原因导致可塑性丧失?

  • 如何解决?

TL;DR 和参考资料位于文章末尾。

什么是持续学习?

大脑非常灵活,能够适应新任务和新类型的信息。相比之下,神经网络在适应数据流的变化方面存在问题。

例如,大型语言模型 (LLM)是通用模型,在预训练期间使用大量数据进行训练。微调是一种让模型学习新知识或技能的系统。但是,微调存在两个问题:

  • 在微调过程中,大多数权重都保持冻结。

  • 它可能导致忘记技能和知识,增加出现幻觉的风险新旧数据之间的这种动荡关系目前尚未完全理解

  • 这使得持续学习在实践中无法实现。我们冒着损害模型功能的风险。很难平衡新数据对模型预先获得的知识的影响。

结果是这些微调技术远非完美。因此,人们通常更愿意从头开始训练新模型或使用其他策略,例如检索增强生成 (RAG)。

然而,从头开始训练新模型的成本很高,但有时这被认为是唯一的选择。这远非最佳选择,许多现实世界的应用需要模型适应变化(预测金融市场、市场、物流需求、控制系统等)。

          为什么神经网络无法获取新信息?

主要有两个问题:

  • 灾难性遗忘。模型会忘记之前学到的东西

我们将重点关注可塑性的丧失

当我们尝试训练一个预先训练好的模型时,它无法学习新信息或新技能,这就失去了可塑性。更技术性地说:

理想情况下,这个新的训练过程是从昨天的模型的参数初始化的,也就是说,它是从这些参数“热启动”的,而不是重新初始化。然而,热启动似乎会损害深度神经网络的泛化。

使用热启动(持续学习期间)[10] 训练的模型在测试集中表现较差。因此,持续学习似乎会损害模型的泛化能力,从而损害其适应新数据的能力。

一些研究表明,这是因为学习有一个关键阶段,这个阶段在训练的早期阶段(记忆阶段)和后期阶段都会出现信息减少(重组)。改变这个初始阶段会损害训练和泛化本身。

其他研究似乎证实了学习有两个阶段(记忆和细化)[3]。然而,这并不能解释为什么在呈现新数据时会失去可塑性。其他研究表明梯度下降、损失表面和架构选择(规范化将促进更好地维持可塑性)[4] 发挥了作用。然而,这个问题仍然悬而未决,我们将在本文后面详细讨论。

可塑性的丧失是所有深度学习模型中普遍存在的现象

灾难性遗忘的研究比可塑性丧失要多得多。不幸的是,很少有研究关注它。因此,我们不知道可塑性丧失是一个普遍问题还是某些参数选择的特殊情况。

为了证明可塑性损失影响所有深度学习模型,可塑性损失应该在所使用的不同架构、参数和算法之间保持一致。然而,当今的模型有数十亿个参数,使得系统操作变得复杂。在这项研究 [5] 中,他们试图通过在两个主要数据集上进行测试来弥补这一缺陷:ImageNet 和 CIFAR。

ImageNet 包含 1000 个图像类别(总共 100 万张图像),是最著名的图像分类基准。作者进行了 0.5 M 个二元分类任务(每次处理两个类别)来测试持续学习中可塑性的丧失。换句话说,作者训练一个模型来区分“狗”和“猫”,然后训练它进行一项新任务(区分“叶子”和“花”),依此类推。在第一个任务结束后测量准确度,然后在每个后续任务结束后测量准确度。任务的难度相同,但如果模型的性能下降,则意味着它已经丧失了可塑性。

作者在这些设置中测试了不同类型的深度学习网络和不同的参数。使用标准反向传播,模型在前几个任务中表现良好,但随后它们很快失去可塑性,直到它们的表现与线性模型相似。因此,一个针对一项任务进行良好调整的模型在面对新任务时开始迅速失去性能,直到它低于基线。

研究证实,正则化有助于维持神经可塑性。更一般地说,正则化方法旨在保持网络权重较小。L2正则化似乎有助于维持可塑性,但原因尚不清楚。

      在后来的实验中,作者使用了CIFAR(最流行的图像数据集之一,包含 100 个类别)。他们采用包含残差连接的 18 层ResNet模型 [11](实际上是计算机视觉领域使用最广泛的模型之一),并开始在 5 个类别上进行训练。之后,他们开始添加更多类别,直到达到 100 个类别。

每次添加后,都会在所有可用类别上测试模型的性能。这可以视为在数据集不断扩大的同时训练模型的情况(就像随着时间的推移而扩大的社交网络)。由于作者关注的是可塑性而不是遗忘,因此在添加新类别时不会删除旧类别。与此同时,作者训练从头开始在所有可用类别上训练的模型(如果模型首先在五个类别上进行训练,然后在第二次迭代中在另外 5 个类别上进行训练,则从头开始的模型直接在 10 个类别上进行训练)

最初,增量训练似乎比重新训练更好,但随着类别的增加,模型失去了可塑性。添加图像类别后,性能开始越来越差。经过几个类别之后,基线(从头开始训练的模型)的改进就消失了,而通过添加类别,性能会显著下降。同样,在使用规范化技术的情况下,性能下降较少(Shrink and Perturb [12] 是一种也使用 L2 规范化的算法)。

持续学习在强化学习中有着重要的用途代理必须能够探索和学习环境,而环境是可以改变的。例如,在视频游戏中,前几关可能与后几关有很大不同,需要代理适应新的挑战。

在这项研究 中,作者分析了蚂蚁类机器人探索周围环境并获得奖励的行为。他们每隔几百万步就改变摩擦系数,这样模型就必须重新学习如何行走(模拟机器人的新任务)。

再次,该模型显示性能下降和缺乏可塑性。有趣的是,即使在这些设置中,正则化技术也能提高可塑性。

我们现在知道,可塑性的丧失是普遍存在的,但为什么会发生呢?

塑性丧失的原因

正则化技术有助于保持可塑性,这一事实表明可塑性与模型权重的某些属性有关。毕竟,正则化技术对权重施加了限制。

从某种意义上说,模型中真正随时间变化的是它的权重。这些权重是随机初始化的,但随后在模型学习任务时会优化权重。稍后,如果我们为另一项任务进行训练,这些权重应该针对下一个任务进行优化(依此类推)。但这不会发生,因为模型会失去可塑性。因此,最初这些权重可以针对一项任务进行优化,这意味着在第一个时期,它们必须具有某些允许它们学习的特定属性(一个或多个属性在训练过程中会丢失)。

这些特性的丧失应该可以解释可塑性的丧失。

我们可以研究在训练过程中权重的哪些属性会发生变化,尤其是当模型开始失去可塑性时。这应该有助于我们了解原因。

在训练过程中,在失去可塑性的同时,恒定单位的比例也在增加。当一个神经元变为恒定时,由它产生的梯度变为零或接近零。同样,这个权重不再变化,我们可以将其定义为不再具有自适应性或可塑性。在ReLU 激活的情况下,当神经元对每个输入产生零时,它们被定义为死神经元 [6–7]。我们可以注意到,可塑性的丧失伴随着死神经元的增加

一旦一个单元死亡,它就永远死亡了。这意味着死亡神经元的增加对应于网络学习能力的下降(活跃神经元越少,神经网络的容量就越小)。

另一个有趣的现象是,权重的平均幅度会增加,而性能则会下降。一般来说,权重幅度的增长与梯度下降中的学习速度变慢和收敛速度降低有关。

与可塑性丧失同时出现的第三个有趣现象是表示的有效秩下降。有效秩考虑每个维度如何影响矩阵引起的变换。简而言之,有效秩与信息量有关。包含重要信息的维度越少,矩阵中填充的冗余信息就越多。对于神经网络的权重矩阵,隐藏层的有效秩表示产生该层输出所需的神经元数量。它越低,产生该层输出所需的神经元就越少(因此大多数神经元不会产生有用的信息)。随着训练的增加,网络的有效秩会降低,因此产生相关信息的神经元就会减少,网络的表示能力也会降低。这无助于学习新信息,因为我们可以依赖少数有用的神经元。

这些因素解释了为什么我们以前经常看到正则化技术带来的改进。L2 正则化确实降低了权重的大小,但不会影响死单元和有效排名。收缩和扰动是 L2 正则化和随机高斯噪声注入的组合,因此它也可以减少死单元的数量。然而,这两种技术都无法解决第三个问题。

我们如何在模型中提高神经元的可塑性?

提高网络可塑性

我们需要一种方法,让我们拥有较小的权重、较少的死神经元(减少休眠),并保持网络的可变性。通过了解需求是什么,我们可以修改神经网络学习保持可塑性的方式。

在反向传播的初始步骤中,权重被随机初始化,这允许高度可变性。这种可变性随后在训练过程中消失(连同可塑性)。然后我们可以通过重新初始化一些权重来增加可变性。但是,我们必须小心,以免破坏网络所学到的东西。因此,我们应该只重新初始化少数几个网络未使用的权重。一般来说,神经元的激活会告诉我们它有多有价值。如果一个神经元对其他神经元的贡献很小,它就不会传递重要信息,因此我们可以重新初始化它们

这种方法称为连续反向传播,可以保持更多的可塑性。

因此,持续反向传播似乎可以在很长一段时间内保持网络可塑性。遗憾的是作者没有在 LLM 上进行测试。

临别感想

总体而言,大多数持续学习研究都集中于保持网络稳定性(保留在先前任务中学到的信息,从而避免灾难性遗忘)。然而,可塑性的缺乏会影响网络获取新信息和新技能的能力,在持续学习中同样重要。最近的研究阐明了这种可塑性丧失的原因。有趣的是,可塑性的丧失是反向传播算法本身固有的。事实上,可塑性的缺乏在各种架构和任务中普遍存在,这一事实就证明了这一点 [5]。

一方面,正则化技术促进了可塑性,而其他常见参数选择显然会使问题恶化(dropout、ADAM 优化器)。直到最近我们才知道原因;今天我们知道这是权重爆炸、神经元休眠和效率等级之间的微妙平衡 [5、8、9]。因此,我们可以修改反向传播以考虑这些因素。

持续反向传播 [5] 是一种保持可塑性的有趣方法。它是一种简单的方法,并且计算量不大,它重新初始化通常贡献较小的神经元(这些神经元通常是在试图减小模型尺寸的技术中被修剪的神经元)。

持续反向传播使用效用度量来查找和替换低效用单元,这意味着它基于启发式方法,因此不是最佳方法。此外,大多数这些研究都是在玩具模型上进行的(即使它们是广泛的基准),而不是在 LLM 等模型上进行的。看看持续反向传播等方法如何作用于 LLM,以及它们是否允许这些模型学习新知识或新技能,将会很有趣。

无论如何,可塑性的丧失是自然神经元和人工神经元之间的一个显著区别。持续学习对于许多应用都很重要,例如机器人遇到新地形,或将 LLM 应用于专业领域和新任务。今天,我们更好地了解了问题的根源以及如何提高模型的可塑性,但仍然存在悬而未决的问题(需要进一步研究)。

感谢关注雲闪世界。(Aws解决方案架构师vs开发人员&GCP解决方案架构师vs开发人员)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1527547.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

认知杂谈54

I I 内容摘要: 这篇内容主要有以下几个要点:首先,沟通不在一个调时可学习人际交往心理学知识、线上课程及关注名师来改善。其次,挑房子、工作、搭档和人生伴侣要谨慎,找心灵相通能共同进步的人。再者,远离…

主窗口的设计与开发(二)

主窗口的设计与开发(二) 前言 在上一集当中,我们完成了主窗口的初始化,主窗口包括了左中右三个区域。我们还完成了对左窗口的初始化,左窗口包括了用户头像、会话标签页按钮、好友标签页按钮以及好友申请标签页按钮。对…

【英语】前缀 与 后缀

文章目录 前言一、表示否定二、表示方向1. 表示 "前"2. 表示 "后","回"3. 低,下4. 高,上,超出,向外5. 表示 “内” 总结参考文献 前言 进行英语前后缀的复习 一、表示否定 a-, ab- amo…

机器学习模型中的因果关系:引入单调约束

单调约束是使机器学习模型可行的关键,但它们仍未被广泛使用欢迎来到雲闪世界。 碳ausality 正在迅速成为每个数据科学家工具包中必不可少的组成部分。 这是有充分理由的。 事实上,因果模型在商业中具有很高的价值,因为它们为“假设”情景提…

【详解 Java 注解】

前言: 注解(Annotation)是Java中的一种特殊符号,用来为代码提供额外的信息。它不会改变程序的逻辑,只是用来给编译器或工具提供指示。例如,Override 表示一个方法是重写了父类的方法,Deprecated…

# AI企业是否会被国有化?——基于SB 1047法案的讨论与Anthropic创始人Dario Amodei访谈分析

随着人工智能(AI)技术的快速发展,政府、企业和公众逐渐认识到AI的潜在影响力,尤其是在国家安全、经济竞争力以及社会变革等方面。近日,Anthropic创始人Dario Amodei在一档访谈中深入探讨了AI产业的未来发展&#xff0c…

python 中使用tkinter构建一个图片的剪切器-附源码

由于项目需要,需要构建一个间的软件,方便查看图片的剪切的位置,并对其中的图像进行分析,实现如下的功能 简单的UI加载图片剪切图片显示剪切后的图片 针对图片的内容进行识别 图片质量分析 前端的具体代码如下, 有需…

频谱分析仪和人工电源网络

安泰小课堂里面有详细的频谱分析仪的教程,可以学习: 【快速上手实操秘籍|频谱分析仪超详细基础操作|建议收藏】https://www.bilibili.com/video/BV1Wu4y197LW?vd_source3cc3c07b09206097d0d8b0aefdf07958 、、、、、、、、、、、、、、、、、、、、、…

Java 面试题:通过JProfile排查OOM问题 内存溢出与内存泄漏问题 --xunznux

文章目录 如何通过JProfile排查OOM或内存泄漏问题1、启动工具观测程序执行状态2、使用默认设置采样3、查看memory,Run GC无效4、查看 Live Memory发现两个byte大数组存在5、通过快照查看堆中的内存使用情况6、找到Full GC无法清除的对象通过大对象列表定位内存泄漏问…

Linux-【组管理、权限管理、定时任务调度】

目录 前言 Linux组基本介绍 文件/目录 所有者 查看文件 所有者 修改文件所有者 文件/目录 所在组 修改文件/目录 所在组 其它组 改变用户所在组 权限的基本介绍 rwx权限 rwx作用到文件 rwx作用到目录 修改权限 第一种方式:、-、变更权限 第二种方式…

openwrt的旁路模式无法访问国内网站

防火墙: 常规设置-> 区域: lan-> wan :编辑 IP 动态伪装:勾选

关于 QImage原始数据格式与cv::Mat原始数据进行手码数据转换 的解决方法

若该文为原创文章,转载请注明原文出处 本文章博客地址:https://hpzwl.blog.csdn.net/article/details/141996117 长沙红胖子Qt(长沙创微智科)博文大全:开发技术集合(包含Qt实用技术、树莓派、三维、OpenCV…

久久公益节||“携手万顺叫车一起做公益”

99公益日是由腾讯公益联合多家公益组织、企业及社会各界爱心人士共同举办的年度大型公益活动。随着99公益日的到来,同悦社工诚挚地邀请了万顺叫车一起参与今年的公益活动,共同为社会公益事业贡献力量。 在本次公益倡导活动中,万顺叫车将发挥其…

无人机飞控之光流知识小结

要完成飞行器的定位,则必须要有位置的反馈数据。在户外,我们一般使用GPS作为位置传感器,然而,在室内,GPS无法使用,要完成定位功能,可以选用光流传感器。 本讲主要介绍如何通过下视摄像头估计飞…

AtCoder ABC 359 F 题解

本题要看出性质并进行验证,程序难度低。(官方 Editorial 似乎没有写证明过程?难道是过于显而易见了吗…) 题意 给你一个数组 a a a,对于一棵 n n n 个节点的树 T T T, d i d_i di​ 为每个节点的度&am…

Gitness 基础安装

文章目录 Docker 安装注册账户创建项目导入已有仓库配置 Github Token同步源代码仓库 官方链接 Gitness was the next step in the evolution of Drone, from continuous integration to source code hosting, bringing code management and pipelines closer together. Gitnes…

八、Maven总结

1.为什么要学习Maven? 2.Maven 也可以配华为云和腾讯云等。 3.IDEA整合Maven 4.IDEA基于Maven进行工程的构建 5.基于Maven进行依赖管理(重点) 6. Maven的依赖传递和依赖冲突 7. Maven工程继承和聚合 8.仓库及查找顺序

解决面板安装Node.js和npm后无法使用的问题

使用面板(BT)安装Node.js和npm后,可能会遇到如下问题:即使成功安装了Node.js和npm,服务器仍提示“未安装”,在命令行中使用 node -v 或 npm -v 也没有任何响应。这种问题通常是由于环境变量配置错误或路径问…

【Hot100】LeetCode—215. 数组中的第K个最大元素

目录 1- 思路快速选择 2- 实现⭐215. 数组中的第K个最大元素——题解思路 3- ACM实现 原题连接:215. 数组中的第K个最大元素 1- 思路 快速选择 第 k 大的元素的数组下标: int target nums.length - k 1- 根据 partition 分割的区间来判断当前处理方式…

使用Node-API进行线程安全开发

一、Node-API线程安全机制概述 Node-API线程安全开发主要用于异步多线程之间共享和调用场景中使用,以避免出现竞争条件或死锁。 1、适用场景 异步计算:如果需要进行耗时的计算或IO操作,可以创建一个线程安全函数,将计算或IO操作放…