英伟达GPU和互联路线发展分析

958b7438a73f498cd585059b6fabeb23.jpeg

英伟达最新GPU和互联路线图

Nvidia在计算、网络和图形领域独树一帜,雄厚资金助力其在生成式AI市场领跑,可自由探索创新路线图。

21世纪,Nvidia虽无需拓展数据中心计算,却因HPC研究人员引领进入加速计算。AI研究人员借助GPU计算开辟全新市场,四十年之期待,以合理价格实现大规模计算与数据碰撞,让更像思考机器的设备成为现实。

向 Danny Hillis、Marvin Minksy 和 Sheryl Handler 致敬,他们在 20 世纪 80 年代尝试制造这样的机器,当时他们创立了 Thinking Machines 来推动 AI 处理,而不是传统的 HPC 模拟和建模应用程序,以及 Yann LeCun,他当时在 AT&T 贝尔实验室创建了卷积神经网络。他们既没有数据,也没有计算能力来制造我们现在所知道的 AI。当时,Jensen Huang 是 LSI Logic 的董事,该公司生产存储芯片,后来成为 AMD 的 CPU 设计师。就在 Thinking Machines 在 20 世纪 90 年代初陷入困境(并最终破产)时,黄仁勋在圣何塞东侧的 Denny's 与 Chris Malachowsky 和Curtis Priem 会面,他们创立了 Nvidia。正是 Nvidia 看到了来自研究和超大规模社区的新兴人工智能机遇,并开始构建系统软件和底层大规模并行硬件,以实现自第一天起就一直是计算一部分的人工智能革命梦想。

这是计算的终极境界,我们所趋近的奇点。若他星存在生命,它们将进化至掌握大规模毁灭武器与人工智能。这两者若同时出现,世界如何驾驭将决定其在灭绝危机中的存续。

Nvidia联合创始人兼CEO黄仁勋将生成式AI革命比作“第二次工业革命”,展望AI未来。他透露了GPU和互连路线图,这些内容是临时加入演讲的惊喜亮点。

革命不可避免

ChatGPT突破关键在于提升GPU性能并扩大规模。Nvidia成功提升GPU性能,对AI训练与推理至关重要。更令人惊喜的是,它大幅降低生成大型语言模型响应所需能量。

31f99a30c0dfb7d96f36871c60f48bff.jpeg

历经八载,“Pascal”P100至“Blackwell”B100,GPU性能飞跃1053倍!今年晚些时起,B100将引领市场至2025年。数据虽显示1000倍,但实情更胜一筹。

部分性能是通过降低浮点精度来实现的——降低了 4 倍,从 Pascal P100、Volta V100 和 Ampere A100 GPU 中的 FP16 格式转变为 Blackwell B100s 中使用的 FP4 格式。如果没有这种精度的降低,性能提升将只有 263 倍,而这不会对 LLM 性能造成太大影响——这要归功于数据格式、软件处理和硬件中的大量数学魔法。请注意,对于 CPU 市场的八年来说,这已经相当不错了,每个时钟的核心性能提高 10% 到 15%,核心数量增加 25% 到 30% 都是正常的。如果升级周期为两年,那么在同样的八年里,CPU 吞吐量将增加 4 到 5 倍。

系统供电至关重要,每单位工作量功耗下降是关键。令牌能源成本需降低,LLM每令牌能源消耗下降速度须超越性能提升。

在他的主题演讲中,为了给你提供更深入的背景知识,在 Pascal P100 GPU 上生成一个 token 需要 17000 焦耳的能量,这大致相当于点亮两个灯泡两天,平均每个单词需要大约三个 token。

所以如果你要生成很多单词,那就需要很多灯泡!现在你开始明白为什么八年前甚至不可能以能够使其在任务上表现良好的规模运行 LLM。看看在 1.8 万亿个参数 8 万亿个 token 数据驱动模型的情况下训练 GPT-4 专家混合模型 LLM 所需的能力:

ef64bac9424f8e71d3e7d5921fca487a.jpeg

P100 集群的耗电量超过 1000 千兆瓦时,这真是太惊人了。

黄仁勋透露,借助Blackwell GPU,公司仅需约10天,即可在10,000个GPU上完成GPT-4 1.8T MoE模型的训练。

在摩尔定律末期,降低能源与系统成本皆不易。随着晶体管缩小,芯片价格下跌,但光罩技术限制下,晶体管成本上升,设备随之昂贵。HBM内存与先进封装成成本关键。

SXM系列GPU插槽(非PCI-E版)中,P100定价约5000美元,V100约10000美元,A100约15000美元,H100约25000-30000美元。B100预计售价高达35000-40000美元——正如黄仁勋在CNBC采访中所言,Blackwell价格与此相当。

黄仁勋未透露GPT-4 1.8T MoE基准测试所需GPU数量及能耗成本。据此,我们推算需约10,000个B100 GPU,耗时十天训练,并制作成本分析电子表格。

de4b4f94f0e907e3a0ec46b169f378fb.jpeg

在这八年中,GPU 价格上涨了 7.5 倍,但性能却提高了 1,000 多倍。因此,现在可以想象使用 Blackwell 系统在十天左右的时间内训练出具有 1.8 万亿个参数的大型模型,比如 GPT-4,而两年前 Hopper 一代刚开始时,也很难在数月内训练出具有数千亿个参数的模型。

现在,系统成本将与该系统两年的电费相当。(GPU 约占 AI 训练系统成本的一半,因此购买 10,000 个 GPU 的 Blackwell 系统大约需要 8 亿美元,运行十天的电费约为 540,000 美元。如果购买更少的 GPU,您可以减少每天、每周或每月的电费,但您也会相应增加训练时间,这会使成本再次上涨。)

你不可能赢,但你也不能放弃。

即便Hopper H100 GPU平台被誉为“史上最成功的数据中心处理器”,黄仁勋在Computex演讲中强调,Nvidia仍需持续奋进。Nvidia,挑战不止!

附注:我们很乐意将 Hopper/Blackwell 的这次投资周期与六十年前 IBM System/360 的发布进行比较,正如我们去年所解释的那样,当时 IBM 做出了至今仍是企业历史上最大的赌注。1961 年,当 IBM 启动其“下一个产品线”研发项目时,它是一家年收入 22 亿美元的公司,在整个 60 年代花费超过 50 亿美元。蓝色巨人是华尔街第一家蓝筹公司,正是因为它花费了两年的收入和二十年的利润来创建 System/360。是的,它的一些部分有些晚了,表现也不佳,但它彻底改变了企业数据处理的性质。IBM 认为它可能会在 60 年代后期带来 600 亿美元的销售额(以我们调整后的 2019 年美元计算),但他们的销售额只有 1,390 亿美元,利润约为 520 亿美元。

抵抗是徒劳的

Nvidia与对手、客户均无法抗拒生成性人工智能的利润与生产力承诺,这一变革已从耳语变为屋顶上的呐喊。

Nvidia蓄势待发,将突破科技极限!凭借250亿美元存款、超千亿收入及潜在500亿存款,引领我们迈向未来。

在激增时期,我们致力于提升性能,降低训练与推理成本,扩展AI功能,惠及每家企业。性能提升,成本同步降低。

更新的 Nvidia 平台路线图:

8c17807ac1fba477eee9dacc7b0e31ba.jpeg

在 Hopper 一代中,最初的 H100 于 2022 年推出,具有六层 HBM3 内存,并配有一个具有 900 GB/秒端口的 NVSwitch 将它们连接在一起,并配有 Quantum X400(以前称为 Quantum-2)InfiniBand 交换机,具有 400 Gb/秒端口和 ConnectX-7 网络接口卡。2023 年,H200 升级为六层 HBM3E 内存,具有更高的容量和带宽,这提高了 H200 封装中底层 H100 GPU 的有效性能。BlueField 3 NIC 也问世了,它为 NIC 添加了 Arm 内核,以便它们可以执行附加工作。

2024年,Blackwell GPU将搭载八层HBM3e内存,实现1.8TB/s极速传输。它将与NVSwitch 5、800Gb/s ConnectX-8 NIC及Spectrum-X800、Quantum-X800交换机强强联手,共筑高性能网络新篇章。

我们现在可以看到,到 2025 年,B200(上图称为 Blackwell Ultra)将拥有 8 堆叠 HBM3e 内存,每叠有 12 个die高。B100 中的叠层大概是 8 堆叠,因此这应该代表 Blackwell Ultra 上的 HBM 内存容量至少增加 50%,甚至可能更多,具体取决于所使用的 DRAM 容量。HBM3E 内存的时钟速度也可能更高。

Nvidia 对 Blackwell 系列的内存容量一直含糊其辞,但我们在 3 月份 Blackwell 发布会上估计,B100 将拥有 192 GB 内存和 8 TB/秒带宽。随着未来的 Blackwell Ultra 的推出,我们预计会有更快的内存,如果看到 288 GB 内存和 9.6 TB/秒带宽,我们也不会感到惊讶。

Nvidia将于2025年发布Spectrum-X800以太网交换机,搭载六个ASIC,打造无阻塞架构。带宽翻倍,端口带宽或数量也将翻倍。

2026 年,我们将看到“Rubin” R100 GPU,它在去年发布的 Nvidia 路线图中曾被称为 X100,正如我们当时所说,我们认为 X 是一个变量,而不是任何东西的缩写。事实证明确实如此。Rubin GPU 将使用 HBM4 内存,并将有 8 个堆栈,大概每个堆栈都有 12 个 DRAM,而 2027 年的 Rubin Ultra GPU 将有 12 个 HBM4 内存堆栈,并且可能还有更高的堆栈(尽管路线图没有提到这一点)。

我们要等到 2026 年,也就是当前“Grace”CPU 的后续产品“Vera”CPU 问世时,Nvidia 才会推出一款更强大的 Arm 服务器 CPU。NVSwitch 6 芯片与这些芯片配对,端口速度为 3.6 TB/秒,ConnectX-9 的端口速度为 1.6 Tb/秒。有趣的是,还有一种名为 X1600 IB/以太网交换机的产品,这可能意味着 Nvidia 正在融合其 InfiniBand 和以太网 ASIC,就像 Mellanox 十年前所做的那样。

或许Nvidia只是想激发我们的好奇心?2027年,超级以太网联盟或全面支持NIC及交换机,UALink交换机更可能连接GPU,内跨机架无缝。

 

-对此,您有什么看法见解?-

-欢迎在评论区留言探讨和分享。-

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1551459.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

C/C++ 中的未定义行为(Undefined Behavior, UB)

0. 简介 在 C/C 编程中,理解未定义行为(UB)及其相关概念至关重要。本文将对未定义行为进行详细解析,并通过实例展示其影响与处理方法。 1. 概念辨析 在 C/C 中,未定义行为容易与以下两个概念混淆: 1.1 …

广西容县霞烟鸡,品牌兴农,助力乡村振兴!

在两广与港澳地区,流传着一句深入人心的饮食谚语——“无鸡不成宴”,它不仅是一种习俗的体现,更是对餐桌礼仪与待客之道的深刻诠释。每逢家宴欢聚、祭祖庆典或盛宴宾客,一只精心烹制的鸡总是不可或缺的主角,其缺席往往被视为对宾客的不敬。在这片美食文化的沃土上,广西容县的霞…

YashanDB Docker镜像制作

本文作者:YashanDB中级服务工程师鲍健昕 为什么需要Docker部署数据库 常规使用 yasboot 部署数据库的方法,操作流程复杂,需要配置许多配置文件以及环境变量,不同用户使用的环境不同,那么环境配置也会存在差异&#x…

聊一下数据脱敏

背景 随着信息社会高速发展,大家对隐私数据的安全越来越重视,现在市面上各种搜集个人信息的网站,app层出不穷,你也不知道你的信息提交上去后,提供服务的那边,是不是会妥善保管好你的个人数据,包…

Web和UE5像素流送、通信教程

一、web端配置 首先打开Github地址:https://github.com/EpicGamesExt/PixelStreamingInfrastructure 找到自己虚幻引擎对应版本的项目并下载下来,我这里用的是5.3。 打开项目找到PixelStreamingInfrastructure-master > Frontend > implementat…

【pytorch】pytorch入门5:最大池化层(Pooling layers )

文章目录 前言一、定义概念 缩写二、参数三、最大池化操作四、使用步骤总结参考文献 前言 使用 B站小土堆课程 一、定义概念 缩写 池化(Pooling)是深度学习中常用的一种操作,用于降低卷积神经网络(CNN)或循环神经网…

GWAS分析中显著位点如何注释基因:excel???

大家好,我是邓飞。 今天星球的小伙伴问了一个问题: 我现在在做GWAS分析,现在已经找到性状关联的SNP位点,下一步我如何根据position 找到基因呢? 关于基因注释,之前写过一些博客,可以用到的软件…

windows全局配置pip镜像源

在Windows系统中,可以在用户目录下创建一个名为pip的文件夹,然后创建一个名为pip.ini的配置文件,其中输入镜像源信息。 [global] index-url http://mirrors.aliyun.com/pypi/simple/ [install] trusted-hostmirrors.aliyun.com

什么是reactor以及其三种版本

写在前面 本文来看下什么是reactor以及其三种版本。 1:什么是reactor以及其三种版本 为了更好的理解什么是reactor,我们结合现实生活中的例子来看下。 翠花是个貌美如花的姑娘,人称赛东施,她的梦想是嫁给王子,可是天…

AI产品经理如何做好职业规划❓

AI如何做好职业规划❓ 一、认识AI产品经理的角色 AI产品经理是连接技术与市场的桥梁,需要具备以下核心能力: 1)技术理解力 深入理解AI技术,包括机器学习、深度学习、自然语言处理等。 2)市场洞察力 敏锐捕捉市场动态,理解用户需求和行业趋…

中概股浪潮中暴涨20%的知乎,被低估了吗?

“在未来,要么被AI统治,要么成为AI的创造者”——埃隆马斯克 9月27日以来,受政策以及AI应用前景的利好,中概股开启了一轮强力的反弹。其中,知乎涨超10%,领涨一众中概股,花旗、福瑞集团均给出了…

企业内训|AI助力智能办公与职场效能提升-青岛某国资平台

9月25日,TsingtaoAI派驻讲师进驻现场,为青岛市某国资平台公司员工交付“AI助力智能办公与职场效能提升”企业内训,整个培训通过AIGC的实际应用案例,帮助学员掌握智能办公的常用工具,提升工作流程优化和决策效率。课程涵…

拯救华为秘盒M310

这个盒子当年宣传得比较厉害, 当时确实也没有什么可选的,当年是高价入的,这个盒子有二切一的hdmi切换功能, 这点从今天来看, 都是一个亮点 华为秘盒M310是一款小巧但功能强大的网络机顶盒。它搭载了基于安卓系统的操作平台&#x…

golang 获取证书的生效及过期时间

测试样例 func TestGetCertVaildTime(t *testing.T) {certPEM, err : ioutil.ReadFile("aa.bbb.com.crt")if err ! nil {fmt.Println("读取证书文件出错:", err)return}// 解码PEM格式的证书block, _ : pem.Decode(certPEM)if block nil {fmt.Println(&q…

智源研究院推出全球首个中文大模型辩论平台FlagEval Debate

近日,智源研究院推出全球首个中文大模型辩论平台FlagEval Debate,旨在通过引入模型辩论这一竞争机制对大语言模型能力评估提供新的度量标尺。该平台是智源模型对战评测服务FlagEval大模型角斗场的延展,将有助于甄别大语言模型的能力差异。 F…

vector中push_back和emplace_back的区别

push_back 在引入右值引用,转移构造函数,转移复制运算符之前,通常使用push_back()向容器中加入一个右值元素(临时对象)的时候,首先会调用构造函数构造这个临时对象,然后需要调用拷贝构造函数将…

Redis入门第一步:认识Redis与快速安装配置

认识Redis与快速安装配置🍃 Redis是什么🐲 1.Redis的背景🎍 Redis(Remote Dictionary Server)译为"远程字典服务",它是一款基于内存实现的键值型 NoSQL 数据库, 通常也被称为数据结…

pytorch线性/非线性回归拟合

一、线性回归 1. 导入依赖库 import numpy as np import matplotlib.pyplot as plt import torch from torch import nn, optim from torch.autograd import Variable numpy:用来构建数据matplotlib.pyplot: 将构建好的数据可视化torch.nn&#xff1a…

2024还在拼多多赚钱的,无不满足这几个条件

拼多多只是我棋盘上的一小步,整个棋局几人看懂了? 如果我说我做拼多多,其实是另有目的,拼多多只是我棋局里的一小步,你们信吗?认真看文章,后面会为大家揭秘! 先来客观公正的回答下…

Queued Synchronous Peripheral Interface (QSPI)

文章目录 1. 介绍2. Feature List3. 概述3.1 QSPI框图3.2 操作模式3.3 三线模式3.4 时钟极性和时钟相位 4. Master模式4.1 状态机4.2 采样点4.3 波特率4.4 通信模式4.4.1 短数据模式4.4.2 长数据模式4.4.3 短连续模式4.4.4 长连续模式4.4.5 单配置多帧模式4.4.6 XXL模式4.4.7 M…