人工智能英伟达越来越“大”的GPU

0aec70e3df085b3add588db9b4fb5953.jpeg

 

英伟达:让我们遇见越来越“大”的GPU

   

在2024年台北ComputeX大会上,英伟达CEO黄仁勋发表了题为《揭开新工业革命序幕》的演讲。他手持一款游戏显卡(很有可能是4090),自豪地宣称:“这是目前最先进的游戏GPU。”紧接着,他走到一台DGX Blackwell NV72前,再次强调:“这也是一个GPU。”

a86dc18f24acd45f708587f06e80d65f.jpeg

确实,老黄背后的一整套机柜就像一个强大的"GPU"。与手中的4090相比,DGX Blackwell NV72显得非常庞大。英伟达正通过NVlink、IB和以太网等技术,构建更大规模的"GPU"集群。

英伟达GPU的崛起之路,独步天下的是“规模换性能”的并行计算之道。历经图形渲染、游戏加速与AI领域的广泛运用,其核心理念始终如一:将复杂任务分解为基本算术操作,如加法与乘法,再由高度优化的计算单元进行并行处理,从而挖掘出前所未有的计算潜力。

在CPU领域,英特尔与AMD依然致力于提升单核性能,如架构优化、指令集丰富和频率提升。然而,英伟达却独树一帜,将目光投向并行计算。英伟达GPU的核心竞争力在于其微小核心的协同作业,完美适应深度学习、科学仿真、图像渲染和高性能计算(HPC)等数据密集型任务,展现出卓越的计算效率和灵活性。

867002929caae64c56cf8cbdd4c5a5ed.jpeg

随着摩尔定律逐渐放缓,芯片制程的效益递减,单一GPU的并行计算能力达到极限。然而,英伟达凭借前瞻性视野和创新精神,通过融合高速互联技术,成功构建了多GPU协同计算的桥梁。这不仅突破了单芯片性能的限制,还推动了GPU规模的持续扩张,让我们见证了越来越强大的GPU,预示着超大规模并行计算新时代的到来。

Transformer模型是一种基于自注意力机制的神经网络,它可以处理序列数据,如文本、语音和图像等。在AIGC时代,Transformer模型使得无监督学习成为可能,所需算力不断增长,需要更大的GPU。英伟达并非简单的芯片厂商,持续致力于为客户提供一整套AI解决方案,如Blackwell系列产品。

英伟达的Blackwell B200是一款新型GPU,它由两颗TSMC制造的最大的芯片组成,单个Die晶粒的最大光照面积为10TB。这款芯片拥有前所未有的性能表现和革命性的技术创新,再次证明了英伟达在人工智能领域的领先地位 。

Blackwell B200芯片是英伟达首款采用MCM(Multi-Chip Module,多芯片模块)封装的GPU,集成了惊人的2080亿个晶体管,堪称英伟达迄今为止最为庞大的单一计算单元。

Blackwell架构的GPU采用了四个HBM接口,相比于H100架构采用的六个HBM接口,巧妙地节省了宝贵的芯片空间,而不牺牲存储带宽。自2016年Pascal架构首度亮相以来,GPU算力已从19TFLOPS(FP16)跃升至Blackwell架构的20PFLOPS(FP4),实现了千倍的性能跨越 。

Blackwell架构以六大创新技术,将Hopper平台性能提升至FP8精度的2.5倍。不仅如此,它还支持FP4和FP6精度,使计算效率提升至Hopper平台的5倍。这一突破性进展使Blackwell能够轻松驾驭拥有高达10万亿参数的巨型模型,为人工智能领域带来革命性的进步。

0704d3ab68d0e4cd9c7861dc7bfc1d5b.jpeg

GB200:

由两个B200和一个Grace CPU结合形成,通过900GB/s的超低功耗NVLink芯片间互连技术连接在一起,提供40PFLOPS(FP4)的算力,384GB内存,1.6TB/s带宽。搭载两个GB200的元件作为Blackwell计算节点,18个计算节点在NVLink Switch的支持下构成GB200 NVL72,最终用Quantum InfiniBand交换机连接,配合散热系统组成新一代DGX SuperPod集群。

GB200 NVL72全部采用铜链接用以密集封装、互联GPU,无需采用光学收发器,可以简化操作,同时节省20kw用于计算,大幅提升其AI效能。

d164fcf68097b21fa29d9561c4f18afd.jpeg

NVLink是一种高速互连技术,用于连接GPU和其他设备。第五代NVLink为每个GPU提供了1.8TB/s双向吞吐量,确保最多576个GPU之间的无缝高速通信,适用于最复杂的LLM 。

1f8dd4b4a460f0bcf7a00e01d0ff1f67.jpeg

英伟达针对大型人工智能工厂的数据高效交换需求,巧妙地将InfiniBand的卓越性能融入以太网架构中。在数据中心环境中,特别是面对人工智能工厂场景,GPU间数据交互频繁且密集,远超与外部互联网用户通信需求。

在AI训练过程中,GPU不仅要收集部分结果,还需进行规约和重新分配,这种工作模式催生了高度突发性的网络流量。因此,确保网络中最后一个数据包的准时到达变得至关重要。然而,传统的以太网架构并未针对这种低延迟需求进行专项优化。

GPU(图形处理单元)是AI计算的关键技术之一。在AI大模型算力的概念中,GPU在其中的核心作用和工作原理被深入探讨。

为了解决这一难题,英伟达巧妙地运用了四种关键技术:RDMA(远程直接内存访问)、先进的拥塞控制机制、自适应路由技术和噪声隔离技术。这些技术的综合应用,不仅显著提升了网络的整体性能,还大幅降低了延迟,使得网络成本在数据中心整体运营成本中几乎可以忽略不计。

英伟达(NVIDIA)的Spectrum-X以太网技术,如同AI领域的"黑科技",为人工智能工厂注入了强大的生命力。作为全球首个专为AI设计的以太网网络平台,其卓越性能较传统网络平台提升高达1.6倍,令人叹为观止。Spectrum-X能显著加速AI工作负载的处理、分析与执行效率,从而极大地推动了AI解决方案的开发和部署速度,让我们在AI领域中迈出了关键一步。

目前,英伟达的Spectrum-X平台已经推出了速度惊人的Spectrum-X800版本,其传输速率高达每秒51.2Tbps,并配备了256个端口。展望未来,英伟达计划在未来几年内推出更多强大的产品。首先是预计将拥有512个端口的Spectrum-X800 Ultra,然后是性能更为卓越的X1600版本。
这些新产品针对不同的应用场景进行了优化。X800和X800 Ultra主要服务于大规模GPU集群的需求,而X1600则是为处理数百万级GPU的超级计算环境而设计。这些产品的性能之强大,确实让人印象深刻。

Blackwell是英伟达的一款AI产品,标志着生成式AI时代的到来和新工业革命的开始。Blackwell平台通过GPU、CPU、NV Link、网卡以及连接所有GPU的大型高速交换机,可以组成超大型GPU集群。

Blackwell GPU的核心是B200芯片,这款芯片拥有2080亿个晶体管,采用台积电定制的4NP工艺制造。B200芯片将两个die连接成一个统一的GPU,通信速度可达10TB/秒。 它使用192GB的HBM3E内存,具有极高的内存带宽和数据处理能力。

英伟达GPU的演进之路:遵循年年升级节奏,融合台积电先进工艺、封装、存储和光学技术,追求极致性能。软件生态持续壮大,支持向后兼容,与现有软件架构相融。让我们共同期待GPU从“大”到“更大”的华丽蜕变。

  • 2024年Blackwell芯片现已开始投产;
  • 2025年,Blackwell将推出8S HBM3e 12H Ultra GPU,引领高性能计算新时代。
  • 2026年,推出Rubin GPU(8S HBM4);
  • 在2027年,我们将推出革命性的Rubin Ultra GPU(12S HBM4),这款强大的处理器基于先进的Arm Vera CPU,并配备了高速的NVLink 6 Switch(3600GB/s),为用户带来前所未有的计算性能和流畅体验。

0ceee75702b481a4d72c60ceb9fe2972.jpeg

 

-对此,您有什么看法见解?-

-欢迎在评论区留言探讨和分享。-

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/18829.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

知识库搭建:高科技行业的智慧基石与未来展望

一、引言 在科技日新月异的今天,知识密集型作业已成为高科技企业竞争力的核心。面对快速的技术迭代和激烈的市场竞争,如何高效地管理和运用知识资源,成为高科技企业必须面对的挑战。知识库,作为知识管理的核心平台,正…

算法编程题-删除子文件夹

算法编程题-删除子文件夹 原题描述设计思路代码实现复杂度分析 前一段时间面试字节的时候,被问到gin框架的路由结构。gin框架的路由结构采用的一般是前缀树来实现,于是被要求手写前缀树来实现路由的注册和查找。 本文以 leetcode 1233为例介绍一下前缀树…

利用SSH中的弱私钥

import paramiko import argparse import os from threading import Thread, BoundedSemaphore # 设置最大连接数 maxConnections 5 # 创建一个有界信号量,用于控制同时进行的连接数 connection_lock BoundedSemaphore(valuemaxConnections) # 用于控制是否停止所…

力扣整理版七:二叉树(待更新)

满二叉树:如果一棵二叉树只有度为0的结点和度为2的结点,并且度为0的结点在同一层上,则这棵二叉树为满二叉树。深度为k,有2^k-1个节点的二叉树。 完全二叉树:在完全二叉树中,除了最底层节点可能没填满外&am…

如何使用可靠UDP协议(KCP)

希望这篇文章&#xff0c;对学习和使用 KCP 协议的读者&#xff0c;有帮助。 1. KCPUDP 流程图 2. 示例代码 #include <iostream>int main() {// 代码太多&#xff0c;暂存仓库return 0; } 具体使用&#xff0c;请参考代码仓库&#xff1a;https://github.com/ChivenZha…

论文复述:(TRPCA)t-Shatten-p

一个基于TNN-TRPCA的简单创新的论文&#xff0c;Tensor Robust PCA主要是将一个tensor分解为low-rank和sparse两个component&#xff0c;主要思想是引入了weighted tensor Schatten-p norm进行建模。

6_协议与层次划分

在计算机网络中要做到有条不紊地交换数据&#xff0c;就必须遵守一些事先约定好的规则。这些规则明确规定了所交换的数据的格式以及有关的同步问题。这里所说的是狭义的(即同频或同频同相) 而是广义的&#xff0c;即在一定的条件下应当发生什么事件 (例如&#xff0c;应当发送一…

微服务--Gateway网关--全局Token过滤器【重要】

全局过滤器 GlobalFilter&#xff0c; 注入到 IOC里面即可 概念&#xff1a; 全局过滤器&#xff1a; 所有的请求 都会在执行链里面执行这个过滤器 如添加日志、鉴权等 创建一个全局过滤器的基本步骤&#xff1a; 步骤1: 创建过滤器类 首先&#xff0c;创建一个实现了Globa…

Kafka进阶_1.生产消息

文章目录 一、Controller选举二、生产消息2.1、创建待发送数据2.2、创建生产者对象&#xff0c;发送数据2.3、发送回调2.3.1、异步发送2.3.2、同步发送 2.4、拦截器2.5、序列化器2.6、分区器2.7、消息可靠性2.7.1、acks 02.7.2、acks 1(默认)2.7.3、acks -1或all 2.8、部分重…

STL C++ CookBook 7:迭代器简论

目录 兼容的迭代器 迭代器概念 使用迭代器来填充STL的容器 将一些序列算法包装成可迭代的 构建 zip 迭代器适配器 兼容的迭代器 迭代器是 STL 中的一个基本概念。迭代器使用 C 指针的语义实现&#xff0c;使用相同的递增、递减和解引用运算符。 大多数 C/C 程序员都熟悉指…

【Python图解】 常量与变量及基本运算

【图解python】 常量与变量及基本运算 Python 常量与变量教程 可能你现在会产生疑惑&#xff0c;代码中的 print 代表什么意义&#xff1f;括号又是什么作用&#xff1f;为什么 hello world 外面有个双引号&#xff1f;没关系&#xff0c;下面我们就来了解 Python 语法的奥秘…

「漏洞复现」全新优客API接口管理系统 index/doc SQL注入漏洞

0x01 免责声明 请勿利用文章内的相关技术从事非法测试&#xff0c;由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失&#xff0c;均由使用者本人负责&#xff0c;作者不为此承担任何责任。工具来自网络&#xff0c;安全性自测&#xff0c;如有侵权请联系删…

java ssm 健康医馆管理系统 中医馆管理 健康平台 药店 源码jsp

一、项目简介 本项目是一套基于SSM的健康医馆管理系统&#xff0c;主要针对计算机相关专业的和需要项目实战练习的Java学习者。 包含&#xff1a;项目源码、数据库脚本、软件工具等。 项目都经过严格调试&#xff0c;确保可以运行&#xff01; 二、技术实现 ​后端技术&#x…

Python - jieba库的使用

文章目录 jieba库概述jieba分词的三种模式jieba库的安装 jieba分词的原理jieba库常用函数实例 : 文本词频统计 jieba库概述 jieba是优秀的中文分词第三方库 中文文本需要通过分词获得单个的词语jieba是优秀的中文分词第三方库&#xff0c;需要额外安装jieba库提供三种分词模式…

一个简单的图像分类项目(九)并行训练的学习:多GPU的DP(DataParallel数据并行)

将电脑装成Ubuntu、Windows双系统&#xff0c;并在Ubuntu上继续学习。 在现代深度学习中&#xff0c;多主机多GPU训练已经变得非常常见&#xff0c;尤其是对于大规模模型和数据集。最简单和早期的并行计算比如NVIDIA的SLI&#xff0c;从NVIDIA 450系列驱动开始&#xf…

本草智选:中药实验管理的智能推荐

摘要 随着信息技术在管理上越来越深入而广泛的应用&#xff0c;管理信息系统的实施在技术上已逐步成熟。本文介绍了中药实验管理系统的开发全过程。通过分析中药实验管理系统管理的不足&#xff0c;创建了一个计算机管理中药实验管理系统的方案。文章介绍了中药实验管理系统的系…

凸优化理论和多模态基础模型研究

文章目录 摘要Abstract1. 拉格朗日对偶问题1.1 弱对偶问题1.2 强对偶问题&#xff08;P*D*&#xff09;1.3 KKT条件 2. 论文阅读3. 总结 摘要 本周从拉格朗日对偶理论出发&#xff0c;系统学习了优化问题中凸函数、强对偶条件以及 KKT 条件的应用&#xff0c;并将其与机器学习…

nginx+vconsole调试网页在vivo浏览器无法显示图片问题

一、问题描述 昨天测试小伙伴提了一个特殊的bug&#xff0c;在安卓vivo手机浏览器上访问网页&#xff0c;网页的图片按钮和录播图一闪而过后便消失不见&#xff1a; 二、问题排查 项目采用Nuxt框架&#xff0c;排查的方向大致如下&#xff1a; 1.其它手机浏览器是否有复现&am…

草本追踪:中药实验管理的数字化转型

2相关技术 2.1 MYSQL数据库 MySQL是一个真正的多用户、多线程SQL数据库服务器。 是基于SQL的客户/服务器模式的关系数据库管理系统&#xff0c;它的有点有有功能强大、使用简单、管理方便、安全可靠性高、运行速度快、多线程、跨平台性、完全网络化、稳定性等&#xff0c;非常…

【Linux】虚拟地址空间,页表,物理内存

目录 进程地址空间&#xff0c;页表&#xff0c;物理内存 什么叫作地址空间&#xff1f; 如何理解地址空间的区域划分&#xff1f; 地址空间结构体 为什么要有地址空间&#xff1f; 页表 cr3寄存器 权限标记位 位置标记位 其他 每个存储单元是一个字节&#xff0c;一…