CUDA并行架构

一、CUDA简介

CUDA(Compute Unified Device Architecture)是一种由NVIDIA推出的通用并行计算架构,该架构使GPU(Graphics Processing Unit)能够对复杂的计算问题做性能速度优化。

二、串并行模式

高性能计算的关键是利用多核处理器进行并行计算。

串行模式:将任务分成很多小任务,逐个依次进行。

串并行模式:利用多核处理器同时处理多个子任务(前提是这些子任务不需要相互依赖,比如线程1的计算任务不需要用到线程2的计算结果)。为了加快大任务的计算速度,可以把一些独立的模块分配到不同的处理器上进行同时计算(这就是并行),最后再将这些结果进行整合,完成一次任务计算。

拆分计算模块进行并行加速。强依赖计算采用串行。

CPU需要很强的通用性来处理各种不同的数据类型,比如整型、浮点数等,同时它又必须擅长处理逻辑判断所导致的大量分支跳转和中断处理,而GPU面对的则是类型高度统一的、相互无依赖的大规模数据和不需要被打断的纯净的计算环境。

CPU:擅长流程控制和逻辑处理,不规则数据结构,不可预测存储结构,单线程程序,分支密集型算法。
GPU:擅长数据并行计算,规则数据结构,可预测存储模式。

异构计算:不同体系结构的处理器相互协作完成计算任务。当GPU各个线程完成计算任务后,我们就将GPU计算的结果拷贝到CPU端,完成一次计算任务。

 其中蓝色表示串行部分,绿色表示并行部分。

三、GPU参数讲解

线程是程序执行的最基本单元,CUDA的并行计算就是通过成千上万个线程的并行执行来实现的。

CUDA的线程模型从小到大来总结为:

        1.Thread:线程,并行的基本单位
        2.Thread Block:线程块,互相合作的线程组,线程块有如下几个特点:
                (1)允许彼此同步
                (2)可以通过共享内存快速交换数据
                (3)以1维、2维或者三维组织
        3.Grid:一组线程块
                (1)以1维、2维组织
                (2)共享全局内存
        4.Kernel:在GPU上执行的核心程序,这个kernel函数是运行在某个Grid上的。
                (1)One kernel 对应 One Grid
                (2)每一个block和每一个thread都有自己的ID,我们可以通过相应的索引找到相应的线程块和线程。
                        a.threadIdx, blockIdx
                        b.Block ID:1D, 2D or 3D
                        c.Thread ID:1D, 2D or 3D

型号RTX 4090
核心代号AD102-300
架构Ada Lovelace
晶体管数目(亿)763
核心面积(mm2)608.5
制程工艺TSMC 4N NVIDIA定制工艺
GPCs11
TPCs64
SMs/CUs128
Tensor Cores512(第四代)
RT Cores128(第三代)
纹理单元512
光栅单元176
峰值纹理填充速度 (GT/s)    1290.2
L2缓存(kb)73728
有效显存速度/显存数据速率(Gbps)21
显存频率(MHz)10501
最大显存带宽 (GB/s)1008
发售时建议零售价12999
CUDA Cores/流处理器

16384

SP:最基本的处理单元,streaming processor
SM:多个SP加上其他的一些资源组成一个streaming multiprocessor,也叫GPU大核

Boost频率(MHz)2520
基础频率(MHz)2235
显存24GB
显存位宽(bit)384
支持 NVIDIA NVLink™ (SLI-Ready)
显示器接口3×DisplayPort
1×HDMI
多显示器4
插槽占用3 插槽
最高 GPU 温度 (℃)90
TDP/TGP/TBP (W)450
推荐电源(W)850
供电接口16-Pin
(含1个4×8-Pin转16针接口适配器)
PCIe接口PCIe 4.0×16

四、编程注意事项

在CUDA编程中,核函数(kernel functions)是设计来在GPU上并行执行的函数。当核函数被调用时,它的执行是分配给GPU上的多个CUDA核心(也称为流处理器或SPs)来并行处理的。这包括核函数内的所有操作,包括条件分支语句。

条件分支语句的执行

在CUDA核函数中,条件分支语句(如ifelseswitch等)是在GPU上执行的,而不是在CPU上。这意味着每个并行执行的线程(在CUDA中,线程通常组织成线程块(blocks)和网格(grids))都会独立地评估条件分支语句,并根据其自己的局部状态(如线程索引、数据值等)来决定执行哪个分支。

分支发散(Branch Divergence)

虽然条件分支语句是在GPU上执行的,但分支条件的不同结果(即不同线程执行不同的分支)可能导致所谓的“分支发散”(Branch Divergence)。当GPU上的多个线程在同一时间点上需要执行不同的代码路径时,就会发生分支发散。

分支发散会影响GPU的性能,因为GPU硬件通常设计来同时执行大量相同的指令(SIMD,单指令多数据)。当发生分支发散时,GPU必须处理不同的指令流,这可能会降低并行执行的效率。为了最小化分支发散的影响,开发者应当尽量设计算法和数据结构,使得条件分支的预测更加一致,或者通过重新组织代码来减少分支的复杂度。

五、CUDA并行化改造建议

假设算法模型包含了神经网络、控制语句(如if-else)以及串行迭代计算过程,可以通过如下的分析过程加速你的算法模型:

  1. 识别可并行化的部分
    • 首先,分析你的算法模型,确定哪些部分是可以并行化的。通常,神经网络的各层计算(如矩阵乘法、激活函数应用等)是高度可并行化的。
    • 控制语句(if-else)和串行迭代计算过程可能不那么容易并行化,但如果迭代内部的计算可以独立进行,或者可以通过某种方式重新组织以减少依赖关系,则仍然有可能实现部分并行化。
  2. 设计CUDA核函数
    • 为神经网络的每一层设计一个或多个CUDA核函数。这些核函数将负责在GPU上执行矩阵乘法、激活函数应用等计算任务。
    • 如果可能,尝试将控制语句和串行迭代计算过程融入到并行化的框架中。例如,如果迭代内部的计算是独立的,你可以考虑使用不同的线程来处理不同的迭代。
  3. 优化内存访问
    • 优化CUDA核函数中的内存访问模式,以减少全局内存的访问延迟和带宽限制。这通常涉及到合并内存访问、使用共享内存(如果适用)以及优化数据布局等策略。
    • 尽量避免在核函数内部进行不必要的内存分配和释放,因为这会导致额外的开销。
  4. 处理分支发散
    • 如果你的CUDA核函数中包含if-else语句,并且这些语句导致不同的线程执行不同的代码路径,那么可能会出现分支发散。尽量减少分支发散的影响,例如通过重新组织代码、使用位掩码或条件计算等技术来减少分支的复杂度。
  5. 并行和串行部分的协调
    • 如果你的算法模型中既包含并行部分也包含串行部分,你需要仔细设计这些部分的协调机制。这通常涉及到在CPU和GPU之间传输数据、同步线程以及管理计算流程等任务。
    • 使用CUDA的流(Streams)和事件(Events)等特性来优化并行和串行部分的执行顺序和效率。
  6. 性能测试和调优
    • 在GPU上实现你的算法模型后,进行性能测试以评估其加速效果。使用NVIDIA的Nsight Compute、Nsight Systems或CUDA Profiler等工具来分析和优化你的CUDA程序。
    • 根据测试结果调整并行策略、优化内存访问模式以及改进算法设计以提高执行效率。
  7. 性能测试和调优
    • Isaac Gym:NVIDIA的Isaac Gym是一个高效的并行仿真环境,可以在单个GPU上同时运行数千个环境实例。它特别适用于需要大规模并行采样的强化学习任务。(仿真环境的矩阵化改造)

六、一些运行案例说明

python中pytorch用法


PyTorch的Tensor操作和神经网络层是在GPU上通过调用CUDA库来并行执行的,但控制流(如循环、条件判断等)则是由Python解释器在CPU上处理的。这是因为PyTorch(和大多数Python库)的设计是基于高层次的抽象,它们隐藏了底层的CUDA编程细节,以便用户能够以更直观的方式编写代码。

对于一个算法模型,其中存在神经网络、控制语句if else以及串行迭代计算过程。在PyTorch中,使用torch.multiprocessing来创建多个进程,并将模型和数据移至GPU上时,处理方式会根据不同部分的性质而有所不同:

  1. 神经网络部分:神经网络的计算(即前向传播、反向传播和参数更新)会发生在指定的GPU上,前提是模型的Tensor和数据都已经被.to(device)(其中device是指向GPU的torch.device对象)正确地移动到了GPU上。PyTorch会自动管理这些计算,在GPU上执行时利用GPU的并行计算能力。

  2. 控制语句if else:这些控制语句是由Python的CPU执行的。在PyTorch的上下文中,控制语句用于控制模型的逻辑流程,如条件分支或循环。由于这些操作不涉及到大量的数值计算,因此它们不需要在GPU上执行。相反,Python解释器(在CPU上运行)会处理这些控制语句。

  3. 串行迭代计算过程:如果这里的“串行迭代计算过程”指的是在Python中编写的循环或迭代操作,那么这些操作也是由CPU执行的。这些迭代过程可能涉及对Tensor的操作,但只要这些Tensor在GPU上,那么涉及Tensor的数值计算(如加法、乘法等)就会被发送到GPU上执行。然而,迭代本身(即循环的迭代逻辑)是在CPU上由Python解释器控制的。

CudaC中
 

__global__ void vector_add(float* vec1, float* vec2, float* vecres, int length)
{int tid = threadIdx.x;int a=100;if(a>1000){if (tid < length) {vecres[tid] = vec1[tid] + vec2[tid];}}
}

该代码的条件逻辑都是在GPU中执行的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/145183.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

使用Anaconda安装pyTorch

1.Anaconda简介 Anaconda 是一个流行的 Python 数据科学和机器学习平台&#xff0c;它简化了包管理和部署&#xff0c;使得安装、运行和升级包及其依赖变得非常容易。Anaconda 通过其内置的 Conda 包和环境管理器&#xff0c;提供了一个强大的环境&#xff0c;用于科学计算&…

鸿蒙手势交互(四:多层手势)

四、多层手势 指父子组件嵌套时&#xff0c;父子组件均绑定了手势或事件。有两种&#xff0c;一种默认多层级手势事件&#xff0c;一种自定义多层级手势事件。 默认多层级手势事件&#xff1a;需要分清两个概念&#xff0c;触摸事件&#xff0c;手势与事件 触摸事件&#xf…

介绍个酷炫,适合装逼的命令

Hollywood - 给你的命令行加点魔法般的动画效果 作为命令行的重度用户,你是否想让枯燥的终端界面来点生动有趣的元素?Hollywood来了!这是一个无比诙谐、小巧玲珑而又功能强大的动画效果命令行工具。 Hollywood可以为文本添加各种动画效果,让你的输出显示得像电影般生动活泼。…

powerbi -L10-文件夹内的文件名

powerbi -L10-文件夹内的文件名 Folder.Contents letSource Folder.Contents("\\your_folder\ your_folder "),#"Removed Other Columns" Table.SelectColumns(Source,{"Name", "Date modified", "Folder Path"}), in#&q…

小新-13 2019 Intel款IML版【81UQ】原装出厂Win10系统镜像下载

恢复lenovo联想开箱状态&#xff0c;自带预装OEM系统安装包 链接&#xff1a;https://pan.baidu.com/s/1wwPriBoIwNOAfL-YcX1F7g?pwdg7ki 提取码&#xff1a;g7ki 联想原装出厂系统自带所有驱动、出厂主题壁纸、系统属性联机支持标志、系统属性专属LOGO标志、Office办公软…

视频单目标跟踪研究

由于对视频单目标跟踪并不是很熟悉&#xff0c;所以首先得对该领域有个大致的了解。 视频目标跟踪是计算机视觉领域重要的基础性研究问题之一&#xff0c;是指在视频序列第一帧指定目标 后&#xff0c;在后续帧持续跟踪目标&#xff0c;即利用边界框&#xff08;通常用矩形框表…

solana项目counter,测试过程中执行报错记录分享

跟随HackQuest部署counter项目&#xff0c;使用 Solana 官方提供的 playgroud 。这个平台让我们的部署和测试过程变得更加简便高效。 合约代码 lib.rs中复制以下代码 use anchor_lang::prelude::*; use std::ops::DerefMut;declare_id!("CVQCRMyzWNr8MbNhzjbfPu9YVvr97…

扣子智能体实战:一键生成公众号图文,AI时代文盲也能写公众号,赚钱秘籍

文章目录 一&#xff0c;需求简述二&#xff0c;智能体制作1&#xff0c;智能体人设和技能2&#xff0c;流程开发2.1 设置开始节点2.2 增加一个生成标题的大模型节点2.3 增加一个代码节点 2.4 增加一个插件节点用以生成文章配图2.4 增加一个大模型节点-根据标题和思路生成文章大…

树与图的深度优先遍历(dfs的图论中的应用)

模板题 846. 树的重心 给定一颗树&#xff0c;树中包含 nn 个结点&#xff08;编号 1∼n&#xff09;和 n−1条无向边。 请你找到树的重心&#xff0c;并输出将重心删除后&#xff0c;剩余各个连通块中点数的最大值。 重心定义&#xff1a;重心是指树中的一个结点&#xff…

EmptyDir-数据存储

1.EmptyDir EmptyDir是最基础的Volume类型&#xff0c;一个EmptyDir就是Host上的一个空目录。 EmptyDir是在Pod被分配到Node时创建的&#xff0c;它的初始内容为空&#xff0c;并且无须指定宿主机上对应的目录文件&#xff0c;因为kubernetes会自动分配一个目录&#xff0c;当…

无监督神经组合优化的扩散模型框架

文章目录 Abstract1. Introduction2. Problem Description2.1 无监督神经组合优化3. Neural Probabilistic Optimization Objective for Approximate Likelihood Models3.1 具有联合变分上界的训练扩散模型Abstract 从离散集合的不可处理分布中进行采样,而不依赖相应的训练数据…

基于Springboot的助学金管理系统设计与实现

文未可获取一份本项目的java源码和数据库参考。 一、研究背景 利用计算机来实现助学金管理系统&#xff0c;已经成为一种趋势&#xff0c;相比传统的手工管理方式&#xff0c;利用软件进行助学金管理系统&#xff0c;有着执行快&#xff0c;可行性高、容量存储大&#xff0c;…

15.多线程概述一(下篇)

目录 1.进程与线程 2.实现多线程方式一&#xff1a;继承Thread类【应用】 3.实现多线程方式二&#xff1a;实现Runnable接口【应用】 4.实现多线程方式三&#xff1a;实现Callable接口【应用】 5.三种实现方式的对比与套路 6.设置和获取线程名称/线程对象【应用】 7.线程优先级…

devops的道法术器

devops的道法术器 道、法、术、器自上而下是系统思考的层次&#xff0c;自下而上是解决问题的层次 “道”是目标、价值观&#xff0c;对价值的定位。 快速交付价值&#xff0c;灵活响应变化&#xff0c;这是从价值层面的追求&#xff0c;或者是从第一性原理的角度来讲&#xf…

赋能企业沟通:2024年专业IM即时通讯软件的重要性不可小觑!

随着数字经济的快速发展&#xff0c;企业的沟通与协作方式正以前所未有的速度发生着变化。特别是在经历了全球疫情之后&#xff0c;远程工作和灵活办公成为了常态&#xff0c;而即使在疫情结束后&#xff0c;这种趋势也没有消退。企业对于高效、便捷、实时的沟通需求日益增长&a…

13_Python的高阶函数

高阶函数 高阶函数是Python编程中一个非常强大和有用的特性&#xff0c;它们允许程序员编写更简洁、更抽象的代码。 Python中的高阶函数是那些至少满足以下一个条件的函数&#xff1a; 接受一个或多个函数作为输入&#xff08;也就是说&#xff0c;它的参数之一是函数&#…

EI-BISYNCH协议,欧陆2000系列设备读取数据

EI-Bisynch是一种基于ANSI X3.28-2.5 A4标准的专有协议&#xff0c;用于消息框架。尽管其名称中包含“Bisynch”&#xff0c;但它实际上是一种基于ASCII的异步协议。数据通过7位数据位、偶校验和1个停止位进行传输。 4.1 术语解释 4.1.1 地址 每个仪器都有一个可配置的地址&…

大模型推理性能优化

LLM 推理的核心指标 首 Token 延迟(决定了用户体验) 延迟:从输入到输出最后一个 token 的延迟 吞吐量:每秒针对所有请求生成的 token 数(针对所有并发请求) 推理的性能卡点 1. KV-Cache 大小导致并发能力受限 LLM推理的过程是一个自回归的过程,前 i 次的token会作为…

Linux StableDiffusion下载外网插件失败, 自己下载安装

(sd) zhouyueubun:/data/sd-webui-aki-v4.9$ python webui.py 先看看使用插件时报的错 看截图就知道是SmilingWolf/wd-v1-4-vit-tagger-v2包不存在 先加载本地包&#xff0c;由于本地包没有&#xff0c;自动下载外网的包&#xff0c;需要科学上网访问外网网站哈。 https://h…

【千帆AppBuilder】零代码+组件+代码节点方式实现AI应用《法定退休年龄计算器》

欢迎来到《小5讲堂》 这是《千帆》系列文章&#xff0c;每篇文章将以博主理解的角度展开讲解。 温馨提示&#xff1a;博主能力有限&#xff0c;理解水平有限&#xff0c;若有不对之处望指正&#xff01; 目录 背景创建应用基本信息角色指令引导信息 组件整体界面开始节点代码节…