gpu-V100显卡相关知识

一、定义

  1. RuntimeError: FlashAttention only supports Ampere GPUs or newer.
  2. torch attention注意力接口学习
  3. V100 架构是什么?

二、实现

  1. RuntimeError: FlashAttention only supports Ampere GPUs or newer.
    报错原因分析:
    GPU机器配置低,不支持 特斯拉 V100;
    flash attention是一个用于加速模型训练推理的可选项,且仅适用于Turing、Ampere、Ada、Hopper架构的Nvidia GPU显卡(如H100、A100、RTX 3090、T4、RTX 2080)

    解决: 方式一、原因是自动安装的transformers(4.40.0) 和 torch(2.2.2)版本太高,自动调用FlashAttention ,将版本分别降到4.30.0和2.1.0问题解决。
    方式二、 不让其调用FlashAttention, 修改config.json 中的配置, 看配置中是否有该参数。
    方式三: 禁用flashattention: torch.backends.cuda.enable_flash_sdp(False)

import torchquery = torch.rand(1, 32, 1, 128, dtype=torch.float16, device="cuda:3")
key = torch.rand(1, 32, 145, 128, dtype=torch.float16, device="cuda:3")
value = torch.rand(1, 32, 145, 128, dtype=torch.float16, device="cuda:3")res = torch.nn.functional.scaled_dot_product_attention(query, key, value)
print(res.shape)

torch:2.2.1 : 自动加载 flashattention

 
Traceback (most recent call last):
File "test1.py", line 7, in <module>
res = torch.nn.functional.scaled_dot_product_attention(query,key,value)
RuntimeError: FlashAttention only supports Ampere GPUs or newer.

torch:2.1.0 : 未报错

  1. torch attention注意力接口学习
    torch 实现注意力方法: torch.nn.functional.scaled_dot_product_attention
    点乘注意力机制支持三种模块,并根据最优原则自动选择哪种模式。
    Flash Attention2内核(sdpa_flash,用于在Nvidia GPU上进行16位浮点训练和推理,适用于SM80+架构级别的GPU),
    xFormers内存高效注意力内核(sdpa_mem_eff,用于在广泛范围的Nvidia GPU上进行16位和32位浮点训练和推理)。
    当自定义内核不适用时,还提供了一个通用的内核sdpa_math的实现。
    如果发生报错,可手动禁用。如 torch.backends.cuda.enable_flash_sdp(False)

  2. V100架构
    https://www.nvidia.cn/data-center/v100/
    NVIDIA V100 Tensor Core 第一代gpu。其采用 NVIDIA Volta 架构,并带有 16 GB 和 32GB 两种配置。
    运行速度:
    在这里插入图片描述
    计算能力:
    https://developer.nvidia.com/cuda-gpus在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/14129.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

【go从零单排】HTTP客户端和服务端

&#x1f308;Don’t worry , just coding! 内耗与overthinking只会削弱你的精力&#xff0c;虚度你的光阴&#xff0c;每天迈出一小步&#xff0c;回头时发现已经走了很远。 &#x1f4d7;概念 在 Go 语言中&#xff0c;net/http 包提供了强大的 HTTP 客户端和服务器功能。 &…

从Web2到Web3:区块链推动的数字进化之路

互联网的演变从最初的Web1到如今的Web3&#xff0c;代表了技术和用户需求的深刻变化。Web3是一个基于区块链技术的全新互联网架构&#xff0c;旨在解决传统互联网&#xff08;即Web2&#xff09;中数据集中化和隐私保护等问题。通过去中心化的机制&#xff0c;Web3不仅能够增强…

vue自定义计算器组件

自定义组件实现以下简单的计算器功能&#xff1a; 创建计算器组件文件calculator.vue&#xff0c;代码如下&#xff1a; <template><div class"calculator"><!-- 当前运算过程显示区域 --><div class"expression">{{ currentExpr…

希音面试:亿级用户 日活 月活,如何统计?(史上最强 HyperLogLog 解读)

本文原文链接 尼恩说在前面 在40岁老架构师 尼恩的读者交流群(50)中&#xff0c;最近有小伙伴拿到了一线互联网企业如得物、阿里、滴滴、极兔、有赞、希音、百度、网易、美团的面试资格&#xff0c;遇到很多很重要的面试题&#xff1a; 如何 统计一个 网站 的日活、月活数&a…

2023年MathorCup数学建模B题城市轨道交通列车时刻表优化问题解题全过程文档加程序

2023年第十三届MathorCup高校数学建模挑战赛 B题 城市轨道交通列车时刻表优化问题 原题再现&#xff1a; 列车时刻表优化问题是轨道交通领域行车组织方式的经典问题之一。列车时刻表规定了列车在每个车站的到达和出发&#xff08;或通过&#xff09;时刻&#xff0c;其在实际…

Python数据分析NumPy和pandas(三十一、数据聚合)

聚合是指从数组生成标量值的数据转换。上一次学习的代码示例使用了其中几个聚合函数&#xff0c;包括 mean、count、min 和 sum。常见的聚合见下图列表&#xff0c;但是&#xff0c;不仅限于列表中的这组方法。在 GroupBy 对象上调用聚合函数&#xff08;例如&#xff1a; mean…

公链数字钱包开发与加密钱包App原生开发

随着区块链技术的不断发展&#xff0c;数字货币和去中心化金融&#xff08;DeFi&#xff09;的兴起&#xff0c;公链数字钱包的需求日益增加。数字钱包不仅为用户提供存储、管理和交易数字资产的工具&#xff0c;而且也为区块链技术的应用提供了一个重要的入口。开发一个安全、…

0. 0:《跟着小王学Python·新手》

《跟着小王学Python新手》系列 《跟着小王学Python》 是一套精心设计的Python学习教程&#xff0c;适合各个层次的学习者。本教程从基础语法入手&#xff0c;逐步深入到高级应用&#xff0c;以实例驱动的方式&#xff0c;帮助学习者逐步掌握Python的核心概念。通过开发游戏、构…

HTTPTomcatServle之HTTP详解

✨博客主页&#xff1a; https://blog.csdn.net/m0_63815035?typeblog &#x1f497;《博客内容》&#xff1a;.NET、Java.测试开发、Python、Android、Go、Node、Android前端小程序等相关领域知识 &#x1f4e2;博客专栏&#xff1a; https://blog.csdn.net/m0_63815035/cat…

「数据要素」行业简报|2024.11.上刊

纵观数据要素行业动态&#xff0c;洞察行业风向&#xff0c;把握行业脉搏&#xff01; 一、政策发布 1、《山东省公共数据资源登记管理工作规范(试行)》公开征求意见 11月7日&#xff0c;为认真贯彻落实《中共中央办公厅 国务院办公厅关于加快公共数据资源开发利用的意见》《…

NFS Write IO 不对齐深度分析

背景 最近团队小伙伴弗曼统计了线上用户数据写入对齐情况&#xff0c;通过统计数据发现了一个有趣的现象: 用户写入请求中近 70% 的数据块 4K 不对齐&#xff0c;这也就是说 NFSClient 对大多数的应用写入没有做对齐优化。 下面会从 NFSClient BufferWrite 实现流程的维度解释…

微型导轨在自动化生产线中起什么作用?

在现代制造业的飞速跃进中&#xff0c;自动化生产线的蓬勃发展引领了一场效率与质量的双重革命。微型导轨作为传动领域的重要零部件&#xff0c;可用于工业自动化生产线上的零件运输、加工设备定位等&#xff0c;实现自动化生产和减少人力成本。那么&#xff0c;微型导轨在自动…

【ESP32】DIY一个电子测光仪

这里写目录标题 0 前言1 开箱2 过程2.1 下载固件2.2 烧录固件2.3 编程环境 Thonny2.4 点灯大师2.5 TFT屏幕2.6 BH1750传感器 成果展示 0 前言 开发板&#xff1a;ESP32-S3-5691 开发环境&#xff1a;circuitpythonthony 1 开箱 2 过程 2.1 下载固件 使用circuitpython的方式开…

MSA+抑郁症模型总结

✨✨ 欢迎大家来访Srlua的博文&#xff08;づ&#xffe3;3&#xffe3;&#xff09;づ╭❤ &#x1f31f;&#x1f31f; 欢迎各位亲爱的读者&#xff0c;感谢你们抽出宝贵的时间来阅读我的文章。 我是Srlua小谢&#xff0c;在这里我会分享我的知识和经验。&#x1f3a5; 希望在…

解决Jenkins使用 Git 参数插件拉取 commit 列表缓慢问题

Jenkins使用 Git 参数插件拉取 commit 列表缓慢问题 项目问题问题描述解决方案具体实现 项目问题 在 Jenkins 中使用 Git 参数插件 进行参数化构建&#xff0c;具有多方面的重要性和好处。这不仅提高了构建的灵活性和透明度&#xff0c;还能大大提升开发和运维效率。以下是使用…

黑马智数Day7

获取行车管理计费规则列表 封装接口 export function getRuleListAPI(params) {return request({url: parking/rule/list,params}) } 获取并渲染数据 import { getRuleListAPI } from /apis/carmounted() {this.getRuleList() }methods: {// 获取规则列表async getRuleList(…

员工电脑怎么监控?这些电脑监控软件必备

在当今远程办公、灵活工时盛行的时代&#xff0c;如何掌握员工的在线活动、确保工作效率和数据安全成为许多企业关注的焦点。电脑监控软件作为管理工具中的关键一环&#xff0c;可以有效帮助企业了解员工的在线行为&#xff0c;避免效率低下和数据泄露等风险。今天我们就来介绍…

学习干货|实战学习应急响应之Windows日志分析,网络安全零基础入门到精通教程!

前言 本次环境将从大赛内与实战环境相结合去了解在应急响应中Windows日志分析的几个关键点&#xff0c;符合大赛及真实环境案例&#xff0c;本次环境将从WEB层面的日志分析到主机内的几种关键日志分析和重点功能进行排查 题目描述&#xff1a;某台Windows服务器遭到攻击者入侵…

零基础光伏人,数据计算轻松拿捏

在可再生能源领域&#xff0c;光伏产业以其清洁、可再生的特点日益受到全球关注。然而&#xff0c;对于初学者或“零基础光伏人”而言&#xff0c;光伏项目涉及的一系列数据计算和专业知识往往显得复杂而难以入手。幸运的是&#xff0c;随着技术的进步&#xff0c;一系列光伏计…

一文搞懂链表相关算法

目录 链表的逆序和截断 逆序 截断 查找链表的中间节点 力扣题 博主主页&#xff1a;东洛的克莱斯韦克-CSDN博客 链表的逆序和截断 逆序 推荐使用头插法逆序&#xff0c;首先要 new 一个虚拟头节点——newNode。如下图 链表的头节点为head&#xff0c;由cur指针指向head&a…