内存:生成式AI带来全新挑战与机遇

之前小编也写过多篇AI存储相关的文章,包括AI背景与分层存储的分析,以及AI存储重点从训练转向推理等内容。具体参考:

  • 深度剖析:AI存储架构的挑战与解决方案

  • 存储正式迈入超大容量SSD时代!

  • 这可能是最清晰的AI存储数据流动图解

  • 机器学习中的内存优化


一、生成式人工智能对存储市场的影响

生成式人工智能(Generative AI)是近年来发展迅猛的领域之一,其能够根据提示生成文本、图像、视频、音频、代码及三维模型等多种类型的内容。生成式AI背后的技术基础包括机器学习(ML)、深度神经网络(DNN)以及转换器模型等,这些技术共同推动了自然语言处理(NLP)领域的进步,使得如生成、总结及翻译文字等应用得以实现。

图片

  • 人工智能(Artificial Intelligence, AI)的主要目标是创建一个能够自主运作的系统。为了实现这个目标,大量的研究集中在使系统能够理解和在环境中导航。这包括感知环境中的物体、理解其动态以及规划路径等能力,以便系统能够有效地在物理或虚拟空间中移动和互动。

  • 机器学习(Machine Learning, ML)是实现上述目标的关键领域之一。机器学习的核心理念是通过向算法展示解决方案的例子来教导算法如何解决问题,而不是直接解释解决问题的具体步骤。这种方法允许算法从示例中学习并识别模式,从而找到解决问题的方法。

  • 人工神经网络是由被称为神经元的基本单元构成的网络,它是机器学习的一种方法。神经元按照层级组织,当网络包含多个层级时,就称之为深度神经网络(Deep Neural Network, DNN)。当我们把机器学习的原则应用于DNN时,就进入了深度学习(Deep Learning, DL)的领域。深度学习通过多层神经网络捕捉输入数据中的复杂特征,从而实现更高级的任务处理能力。

  • 转换器(Transformer)神经网络是一种使用自注意力机制(Self-Attention Mechanism)的深度神经网络架构。这种架构专为处理顺序输入数据而设计,由两个主要组件构成:编码器网络(Encoder Network)和解码器网络(Decoder Network)。编码器负责处理输入序列并提取其特征,而解码器则根据编码器传递的信息生成输出序列。

  • 大型语言模型(Large Language Models, LLMs)是一类具有转换器架构并且包含大量参数的网络。它们通过无监督或半监督学习方法,在大量的未标注文本上进行训练。这类模型支持多种自然语言处理(Natural Language Processing, NLP)应用,如文本生成、摘要生成和机器翻译等。

  • 生成式AI是一种能够根据提示生成文本、图像、视频、音频、代码、三维模型等内容的人工智能。这种类型的AI可以根据需求创造出新的、原创的内容。生成式AI的应用场景十分广泛,从艺术创作到软件开发,再到娱乐产业,都有着广泛的应用潜力。

二、AI处理器需求的增长与市场变化

随着生成式AI模型复杂度的增加,训练这些模型所需的计算资源也呈指数级增长。从AlexNet到GPT-4等模型的发展过程中,可以看到用于训练模型的浮点运算次数(FLOPs)从2009年的1E+14增长到了接近1E+27。这一增长不仅体现在算法复杂度上,还体现在所需的处理器性能、训练时间和成本上。

图片

例如,对于某些大型语言模型(LLM),如PaLM-2或Llama2-70B,它们需要成千上万的高性能GPU进行几个月的训练,并且耗资巨大,达到数百万美元。此外,这些模型的训练还会消耗大量的电力,这在环境可持续性方面提出了新的挑战。

随着技术的发展,数据中心AI处理器的性能不断提高,同时功耗也逐渐降低。未来的处理器将会拥有更高的性能和更低的功耗,以满足日益增长的数据中心需求。

图片

  • Google TPU v2:早期的谷歌张量处理单元,性能较低。

  • AMD MI250X:AMD的MI250X处理器,性能比Google TPU v2要好。

  • Intel Gaudi 2:英特尔的第二代海豚ICP处理器,性能更高。

  • Nvidia A100 80GB SXM:英伟达A100 80GB SXM处理器,性能更强。

  • Tesla Dojo:特斯拉的Dojo超级计算机,性能更高。

  • Nvidia H100 SXM:英伟达的H100 SXM处理器,性能强。

  • Nvidia B200:英伟达的B200处理器,性能最高。

还有一些其他的处理器,如AMD MI210、Google TPU v3、Google TPU v4、Baidu Kunlun I、Baidu Kunlun II等,它们的位置都在Google TPU v2和AMD MI250X之间,表示它们的性能介于两者之间。

GPU的内存容量对人工智能至关重要。内存主要有两个作用:存储AI模型参数、存储K-V缓存。

图片

这两个功能都是AI运行过程中必不可少的部分,因此GPU的内存容量越大,能够处理的模型规模也就越大,能够支持更多的并发用户数。

图片

三、数据中心GPU和AI ASIC市场预测

从2019年至2029年,数据中心GPU和AI ASIC的收入预计将持续增长。特别是AI ASIC,其收入将从2019年的32亿美元增长至2029年的711亿美元,复合年增长率CAGR为35.0%,而GPU的收入则预计在2029年达到162亿美元,CAGR为26.9%。总体而言,数据中心GPU和AI ASIC的总收入预计将超过230亿美元,并在2029年前保持29.0%的CAGR。

图片

四、AI服务器将成为服务器市场的主导力量

2022年至2029年期间,AI服务器与传统服务器的需求对比:可以看到,AI服务器的需求增速明显快于整体服务器市场,其复合年增长率(CAGR)达到43%,而传统服务器仅为21%。这意味着AI服务器将在未来几年内成为服务器市场的主导力量,并且其需求的增长速度远超其他类型的服务器。此外,从2022年开始,AI服务器的需求量就已经超过了所有其他类型服务器的总和,预计到2029年将达到近250艾字节(Eb),而传统服务器则保持在150至200 Eb之间。这一趋势表明AI正在推动整个服务器市场的发展,并且在未来几年内将继续引领市场增长。

图片

五、AI对存储市场的影响

HBM(高带宽内存)的生产相比DDR5更为复杂,因为它需要几乎三倍的晶圆启动次数来获得相同的位输出。这是由于以下几个原因:

  • Die尺寸:HBM的Die尺寸较大,需要更多的晶圆来制造。

  • TSV区域和TSV工艺良率:TSV(硅通孔)是HBM的关键技术之一,它使得多层堆叠成为可能。然而,TSV的制作过程较为复杂,导致了较低的良率。

  • 封装良率和累积良率效应:HBM的封装过程也比DDR5复杂,因为要实现多层堆叠,所以封装良率较低。而且,随着层数的增加,累积良率效应也会变得更加显著,进一步增加了生产难度。

这些因素共同导致了HBM的生产成本较高,同时也要求更高的技术水平和更严格的品质控制。

图片

在HBM生产过程中,即使很小的良率变化也可能大大影响产品成本。例如,在8层高的封装中,如果良率下降1个ppm(百万分之1),那么每比特的成本就会增加9%;而在16层高的封装中,同样的良率下降会导致每比特成本增加18%。这就意味着HBM的生产必须非常精确和稳定,以确保成本可控并满足市场需求。

图片

AI发展对内存需求的巨大影响,特别是随着模型规模的扩大和精度要求的变化,对高性能内存的需求也在不断增加。

图片

训练通常需要大量的浮点运算能力,因此消耗的内存资源更多,例如使用FP32精度进行训练时,需要40TB的内存。通过量化(Quantization)技术,可以在一定程度上降低内存需求,但仍然需要较大的内存空间。推理阶段则可以根据应用的不同选择不同的精度级别,如INT8或INT4,对应的内存需求也随之减少。例如,使用INT8精度进行推理时,所需内存约为训练阶段的十分之一左右。

参考文献:FMS2024-Generative AI – Memory Market Impacts | www.yolegroup.com 


如果您看完有所受益,欢迎点击文章底部左下角“关注”并点击“分享”、“在看”,非常感谢!

精彩推荐:

  • 这可能是最清晰的AI存储数据流动图解

  • DWPD指标:为何不再适用于大容量SSD?

  • 突破内存墙:DRAM的过去、现在与未来

  • E1.S接口如何解决SSD过热问题?

  • ZNS SSD是不是持久缓存的理想选择?

  • 存储正式迈入超大容量SSD时代!

  • FMS 2024: 带来哪些存储技术亮点?

  • IEEE报告解读:存储技术发展趋势分析

  • 什么?陶瓷也可以用来存储数据了?

  • 都说固态硬盘寿命短,那么谁把使用寿命用完了吗?

  • 内存原生CRAM技术将会颠覆计算存储的未来?

  • 浅析SSD性能与NAND速率的关联

  • 关于SSD LDPC纠错能力的基础探究

  • 存储系统如何规避数据静默错误?

  • PCIe P2P DMA全景解读

  • 深度解读NVMe计算存储协议

  • 浅析不同NAND架构的差异与影响

  • SSD基础架构与NAND IO并发问题探讨

  • 字节跳动ZNS SSD应用案例解析

  • CXL崛起:2024启航,2025年开启新时代

  • NVMe SSD:ZNS与FDP对决,你选谁?

  • 浅析PCI配置空间

  • 浅析PCIe系统性能

  • 存储随笔《NVMe专题》大合集及PDF版正式发布!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/145760.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

stack和queue(一)

接下来讲解一些stack栈和queue的简单使用 stack的概念 stack是一种容器适配器&#xff0c;专门用在具有后进先出操作的上下文环境中&#xff0c;其删除只能从容器的一端进行 元素的插入与提取操作。 特性是先进先出 后进后出 构造一个栈堆 int main() {deque<int>…

vue项目加载cdn失败解决方法

注释index.html文件中 找到vue.config.js文件注释、

Spring IDEA 2024 自动生成get和set以及toString方法

1.简介 在IDEA中使用自带功能可以自动生成get和set以及toString方法 2.步骤 在目标类中右键&#xff0c;选择生成 选择Getter和Setter就可以生成每个属性对应的set和get方法&#xff0c; 选择toString就可以生成类的toString方法&#xff0c;

快速响应:提升前端页面加载速度技巧的必知策略方案

在本文中&#xff0c;我们将深入探讨导致页面加载缓慢的常见原因&#xff0c;并分享一系列切实可行的优化策略&#xff0c;无论你是刚入门的新手&#xff0c;还是经验丰富的开发者&#xff0c;这些技巧都将帮助你提升网页性能&#xff0c;让你的用户体验畅快无阻。 相信作为前端…

网页与微信小程序:一场轻量化应用的博弈

网页与微信小程序&#xff1a;一场轻量化应用的博弈 在如今的信息时代&#xff0c;移动互联网已然成为主流&#xff0c;而在这一趋势的驱动下&#xff0c;应用形态也在不断演变。微信小程序与传统网页&#xff0c;作为两种不同的应用形态&#xff0c;正如两条并行却又交织的道…

PY+MySQL(等先完成mysql的学习)

第一章&#xff1a;准备工作&#xff08;重点关于mysql&#xff09; win安装 下载&#xff1a; 网址&#xff1a;MySQL :: Download MySQL Community Server版本&#xff1a;我的是8.0&#xff0c;但是建议5.7 下载&#xff1a;安装&#xff0c;因为是zip文件所以直接解压就好了…

2024/9/21 leetcode 21.合并两个有序链表 2.两数相加

目录 21.合并两个有序链表 题目描述 题目链接 解题思路与代码 2.两数相加 题目描述 题目链接 解题思路与代码 --------------------------------------------------------------------------- 21.合并两个有序链表 题目描述 将两个升序链表合并为一个新的 升序 链表并返…

模版结构体没有可用成员(C3203)

没有typedef模版结构体而导致。 并且_tables[index]无法访问HashData内部的成员。

任务管理与守护进程【Linux】

文章目录 进程组前台进程&后台进程守护进程daemon 进程组 组长是多个进程的第一个&#xff0c;组长进程的标识是&#xff0c;其进程组ID等于其进程ID 前台进程&后台进程 前台进程&#xff1a;能获取键盘输入&#xff0c;即拥有键盘文件 后台进程&#xff1a;不能获取…

无人机之激光避障篇

无人机的激光避障技术是通过激光传感器来感知和避开周围障碍物的一种高级技术。以下是关于无人机激光避障技术的详细解析&#xff1a; 一、技术原理 激光避障技术利用激光束的直线传播和反射特性&#xff0c;通过发送激光束并接收反射回来的信号&#xff0c;来检测和计算周围障…

Unity数据持久化4——2进制

概述 基础知识 各类型数据转字节数据 文件操作相关 文件相关 文件流相关 文件夹相关 练习题 using System; using System.Collections; using System.Collections.Generic; using System.IO; using System.Text; using UnityEngine;public class Exercises1 : MonoBehaviour {/…

Java项目实战II基于Java+Spring Boot+MySQL的车辆管理系统(开发文档+源码+数据库)

目录 一、前言 二、技术介绍 三、系统实现 四、论文参考 五、核心代码 六、源码获取 全栈码农以及毕业设计实战开发&#xff0c;CSDN平台Java领域新星创作者&#xff0c;专注于大学生项目实战开发、讲解和毕业答疑辅导。获取源码联系方式请查看文末 一、前言 "随着…

【d45】【Java】【力扣】203.移除链表元素

思路 由于删除操作&#xff0c;需要&#xff1a;pre.nextcur.next 但是单链表无法获得 前面节点&#xff0c; 所以&#xff1a;定义指针 cur 指向当前节点&#xff0c;判断cur.next 的val值&#xff0c;是否等于传入的val值 cur &#xff1a;从head 到倒数第二个 最后单独…

【大屏方案】可视化综合展示系统解决方案(Word原件2024)

2.系统架构设计 2.1.系统架构图 2.2.关键技术 2.3.接口及要求 3.系统功能设计 3.1.功能清单列表 3.2.数据源管理 3.3.数据集管理 3.4.视图管理 3.5.仪表盘管理 3.6.移动端设计 3.1.系统权限设计 3.2.数据查询过程设计 软件资料清单列表部分文档清单&#xff1a;工作安排任务书&…

理解JAVA中的Native内存追踪(NMT)机制

JVM 具有多个内部内存区域。本机内存(native)跟踪 (NMT) 通过提供每个内存区域的详细信息&#xff0c;帮助 Java 开发人员识别这些内部内存区域上的内存泄漏、内存过度使用和其他相关问题。在本文中&#xff0c;让我们学习如何使用 NMT 来解决与 JVM 内存相关的问题。 什么是本…

旺店通ERP集成用友U8(旺店通主供应链)

源系统成集云目标系统 用友U8介绍 用友U8是一套企业级的解决方案&#xff0c;可满足不同的制造、商务模式下&#xff0c;不同运营模式下的企业经营管理。它全面集成了财务、生产制造及供应链的成熟应用&#xff0c;并延伸客户管理至客户关系管理&#xff08;CRM&#x…

prometheus监控linux虚拟机

前提条件已安装好prometheus和grafana&#xff0c;如果未安装请移步到docker部署prometheus 安装部署Prometheus,docker安装grafana安装部署Grafana。 1.二进制部署node-exporter采集器 2.1 采集器node-exporter下载 链接&#xff1a;https://pan.baidu.com/s/1hDmckSSl5X36…

Java语言程序设计基础篇_编程练习题***18.32 (游戏:骑士的旅途)

目录 题目&#xff1a;***18.32 (游戏:骑士的旅途) 习题思路 代码示例 输出结果 题目&#xff1a;***18.32 (游戏:骑士的旅途) 骑士的旅途是一个古老的谜题&#xff0c;它的目的是使骑从棋盘上的任意一个正方 形开始移动&#xff0c;经过其他的每个正方形一次&#xff0c;如…

Vue3:v-model实现组件通信

目录 一.性质 1.双向绑定 2.语法糖 3.响应式系统 4.灵活性 5.可配置性 6.多属性绑定 7.修饰符支持 8.defineModel使用 二.使用 1.父组件 2.子组件 三.代码 1.父组件代码 2.子组件代码 四.效果 一.性质 在Vue3中&#xff0c;v-model指令的性质和作用主要体现在…

【漏洞复现】Casbin casdoor static 任意文件读取漏洞

漏洞描述 Casdoor 是 Casbin 开源社区推出的基于 OAuth 2.0 / OIDC 的中心化的单点登录(SSO)身份验证平台。 Casdoor static 存在任意文件读取漏洞,攻击者通过发送特殊的请求包可以获取服务器中的敏感文件。 免责声明 技术文章仅供参考,任何个人和组织使用网络应当遵…