昇腾大模型推理解决方案MindIE部署

MindIE大模型推理套件

MindIE(Mind Inference Engine,昇腾推理引擎)是华为公司针对AI全场景推出的整体解决方案,包含丰富的推理加速套件。通过开放各层次AI能力,支撑客户多样化的AI业务需求,使能百模千态,释放昇腾设备的澎湃算力。向上支持多种主流AI框架,向下服务昇腾AI处理器,提供多层次编程接口,帮助用户快速构建基于昇腾平台的推理业务。昇腾推理引擎,基于昇腾硬件的运行加速、调试调优、快速迁移部署的高性能深度学习推理框架,分层开放满足各类需求,统一接口使能极简开发,沉淀能力构筑极致性能。

官方地址:MindIE-昇腾社区 (hiascend.com)

运行硬件环境要求:

推理服务器

Atlas 800I A2推理产品

加速卡

Atlas 300I Duo 推理卡+Atlas 800 推理服务器(型号:3000)

一、准备数据以及启动docker环境

1.1 下拉docker

镜像地址:镜像仓库网

查看最新的mindie的镜像:

参考上面的连接进行docker下拉:

举个例子,拉取docker:

docker pull swr.cn-central-221.ovaijisuan.com/wh-aicc-fae/mindie-ascend_24.1.rc2-cann_8.0.t13-py_3.10-ubuntu_22.04-aarch64:v1.0.t59.03 (其中swr.cn-central-221.ovaijisuan.com/wh-aicc-fae/mindie-ascend_24.1.rc2-cann_8.0.t13-py_3.10-ubuntu_22.04-aarch64:v1.0.t59.03为你选择的docker镜像)

创建容器并启动

docker run -itd --ipc=host --network=host --name mindie \

--privileged \

-p 1025:1025 \

--device=/dev/davinci0 \

--device=/dev/davinci1 \

--device=/dev/davinci2 \

--device=/dev/davinci3 \

--device=/dev/davinci4 \

--device=/dev/davinci5 \

--device=/dev/davinci6 \

--device=/dev/davinci7 \

--device=/dev/davinci_manager \

--device=/dev/devmm_svm \

--device=/dev/hisi_hdc \

-v /usr/local/Ascend/driver:/usr/local/Ascend/driver \

-v /usr/local/Ascend/add-ons/:/usr/local/Ascend/add-ons/ \

-v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi \

-v /usr/local/sbin/:/usr/local/sbin/ \

-v /var/log/npu/conf/slog/slog.conf:/var/log/npu/conf/slog/slog.conf \

-v /var/log/npu/slog/:/var/log/npu/slog \

-v /var/log/npu/profiling/:/var/log/npu/profiling \

-v /var/log/npu/dump/:/var/log/npu/dump \

-v /var/log/npu/:/usr/slog \

-v /home/:/home \

d07bfd46c4fa   #这个是镜像的id

注:其中卡的id可根据自己的环境进行修改。

查看已创建的容器 docker ps

启动容器并进入: 

docker exec -it -u 0 2c5 /bin/bash

备注:不同的版本显示不一样的环境,可根据自己所选的环境查看相关的mindie版本。

二、Qwen1.5 7B推理测试

2.1下载到modelscope社区下载Qwen1.5 7B Chat的模型

ModelScope:魔搭社区

下载模型及相关文件

启动python终端:

Python

依次输入如下命令。

from modelscope import snapshot_download

model_dir = snapshot_download('qwen/Qwen1.5-7B-Chat',cache_dir='/home')

如果modelscope没安装,记得先pip安装,cache_dir表示会把模型文件下载到该路径下。

注:如果模型下载报错,请继续执行download操作。

2.2修改下载的模型配置文件

进入/home/qwen/Qwen1___5-7B-Chat,编辑目录下的config.json 修改成"torch_dtype": "float16"

2.3执行推理性能测试

执行如下命令切换到mindie代码仓目录

cd /usr/local/Ascend/atb-models/tests/modeltest

安装下依赖:pip install –r requirements.txt

执行如下命令进行推理性能测试。具体参数请根据实际修改。

bash run.sh pa_fp16 performance [[512,512]] 16 qwen /home/qwen/Qwen1___5-7B-Chat 2

参数说明:

[[512,512]]:输入输出长度

16:batchsize大小

qwen:模型名称

/home/qwen/Qwen1___5-7B-Chat 2:权重所在目录

2:npu卡数量

测试结果存放在回显提示路径:

/usr/local/Ascend/atb-models/tests /tests/modeltest/result/

注:性能测试或者是精度测试可参考:/usr/local/Ascend/atb-models/readme.md文件或至少/usr/local/Ascend/atb-models/test/readme.md

2.4执行推理测试
  1. 切换到mindie-server所在目录。

cd /usr/local/Ascend/mindie/latest/mindie-service/

修改config.json文件中的如下内容。

vim conf/config.json

步骤2、启动mindie-server。

cd bin

./mindieservice_daemon

回显提示如下说明服务启用成功:

注:如果启动报错,可以查看/usr/local/Ascend/mindie/1.*/mindie-service/logs下的log文件。

步骤3、调用接口

使用curl调用接口(示例一):

​
time curl -H "Accept: application/json" -H "Content-type: application/json" -X POST -d '{"prompt": "我有五天假期,我想去海南玩,请给我一个攻略","max_tokens": 512,"repetition_penalty": 1.03,"presence_penalty": 1.2,"frequency_penalty": 1.2,"temperature": 0.5,"top_k": 10,"top_p": 0.95,"stream": false}' http://127.0.0.1:1025/generate  #其中127.0.0.1以实际ip地址为准

使用curl调用接口(示例二):

​
time curl -H "Accept: application/json" -H "Content-type: application/json" -X POST -d '{"model": "qwen","messages": [{"role": "user","content": "我有五天假期,我想去海南玩,请给我一个攻略"}],"max_tokens": 512,"presence_penalty": 1.03,"frequency_penalty": 1.0,"seed": null,"temperature": 0.5,"top_p": 0.95,"stream": false}' http://127.0.0.1:1025/v1/chat/completions     #其中127.0.0.1以实际ip地址为准​

使用curl调用接口(示例三):

​
curl -H "Accept: application/json" -H "Content-type: application/json" -X POST -d '{"model": "qwen","messages": [{"role": "system","content": "You are a student who is good at math."},{"role": "user","content": "事业单位职工食堂食材采购资金部分来自职工福利基金补助,适用《政府采购法》吗?"}],"max_tokens": 512,"presence_penalty": 1.03,"frequency_penalty": 1.0,"seed": null,"temperature": 0.5,"top_p": 0.95,"stream": true}' http://127.0.0.1:1025/v1/chat/completions #其中127.0.0.1以实际ip地址为准​

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/144839.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

4G 网络下资源加载失败?一次运营商封禁 IP 的案例分享

在工作中,网络问题是不可避免的挑战之一。最近,我们在项目中遇到了一起网络资源加载异常的问题:某同事在使用 4G 网络连接公司 VPN 时,云服务的前端资源居然无法加载!通过一系列的排查和分析,我们发现问题的…

数字产业中心:技术赋能产业,如何重塑行业格局!

在数字化浪潮的推动下,数字产业中心正逐步成为推动经济转型升级的重要引擎。这里,技术不仅仅是工具,更是重塑行业格局、引领未来发展的核心力量。 一、技术融合创新,打破传统边界 数字产业中心通过云计算、大数据、人工智能等前沿…

冬瓜排骨汤的做法

1、准备食材‌: 排骨:选择新鲜的排骨,最好使用肋排,因为肋排肉多,适合炖汤。 冬瓜:去皮去瓤,切成适当大小的块状。 姜片、葱段:用于去腥增香。 调味料:盐、胡椒粉、鸡精…

Simapps新版上线:诚邀广大用户体验,参与有奖调查问卷

Hi~朋友,在使用仿真软件时,是否有过以下困扰呢? Simapps是云道智造匠心打造的互联网时代的科学计算中心、基于云的仿真APP商店,承载海量面向场景和模型的仿真APP,为广大中小企业、高校及科研院所提供普惠仿真工具。 Si…

java框架

Oozie任务调度框架 Hue hadoop的WEB工具 seatunnel 数据同步框架 TIDB 大数据库支持事物 StreamX fink和spark的集成 OceanBase 阿里巴巴数据库 dooringx-lib、AntV 可视化H5工具 lowcode、Appsmith(推荐)、nocoBase 、Budibase、taskbuilder 低代…

创客匠人案例故事|闭关 20 天,私域大爆发,高额发售秘诀是什么?

不是你的能力决定了你的命运,而是你的决定改变了你的人生 王龙老师心赏教养法创始人心赏家园家庭“心生态”发起人国家二级心理咨询师 他是一名致力于解决家庭困境的老师,通过心赏转化五步法,帮助身陷家庭困境的父母,解决自我关系…

故障:ad18导入板框图后无法按外形生成板框

选择设计-板子形状-按照选择对象定义后 无法顺利生产板框,而是如下提示: could not board outline using primitives centerline due to the following errors: multiple paths found from location:(xxxmm,xxxmm) would you like to try finding bo…

Linux入门学习:Linux调试器gdb使用

1. 背景 程序的发布方式有两种,debug模式和release模式,debug是添加调试信息,release是取消调试信息, Linux gcc/g出来的二进制程序,默认是release模式,要使用gdb调试,必须在源代码生成二进制程…

展会上想要留住俄罗斯客户,柯桥成人俄语培训

展品 экспонат 模型 макет 证明(书) свидетельство 预算 бюджет 确认订单 подтверждение заказа 缺点,毛病,缺陷 недостаток 退换 возвращать 更换 заменять 调整 урегулир…

2024好评的开放式耳机排行榜10强?四款开放式蓝牙耳机推荐

在2024年的耳机市场上,有不少的开放式耳机因其高性价比和多功能性而受到关注。这些耳机不仅音质出色,而且舒适度也很高,能够适应多种使用场景,无论是日常通勤、跑步运动还是在家办公,都很能满足使用者的需求。 虹觅 Fi…

CCRC-CDO首席数据官引领构建活数据引擎

在数字化浪潮的强劲推动下,数据已然成为企业不可或缺的宝贵资产,它不仅记录着历史的足迹,更指引着未来发展的方向。 随着大数据、人工智能、云计算等技术的迅猛发展,数据的潜力获得了前所未有的激发。 首席数据官(CD…

实习生上班摸鱼刷题,被开除了!

大家好,我是程序员鱼皮,之前分享过我们团队开发的程序员面试刷题工具 - 面试鸭,已经有 10 万多名同学在这里刷题了。 我们通过分析近期的系统用量发现,每天的 9 - 12 点、14 - 18 点,是刷题用户数的高峰: 这…

Sui Builder House: 新加坡的五大难忘时刻

新加坡Sui Builder House刚刚落幕,社区的参与热情空前高涨!活动现场充满了令人振奋的公告、有趣的互动活动,以及社区成员和行业领袖之间的热烈讨论。仅一天时间内,超过600位来自各个社区和行业的参与者齐聚新加坡,纷纷…

【后端开发】JavaEE初阶——计算机是如何工作的???

前言: 🌟🌟本期讲解计算机工作原理,希望能帮到屏幕前的你。 🌈上期博客在这里:【MySQL】MySQL中JDBC编程——MySQL驱动包安装——(超详解) 🌈感兴趣的小伙伴看一看小编主…

蓝队技能-应急响应篇Web内存马查杀JVM分析Class提取诊断反编译日志定性

知识点: 1、应急响应-Web内存马-定性&排查 2、应急响应-Web内存马-分析&日志 注:传统WEB类型的内存马只要网站重启后就清除了。 演示案例-蓝队技能-JAVA Web内存马-JVM分析&日志URL&内存查杀 0、环境搭建 参考地址:http…

fastadmin后台自定义按钮,并且刷新页面

效果图&#xff1a; index.html部分 <a href"javascript:;" class"btn btn-primary btn-refresh" title"{:__(Refresh)}" ><i class"fa fa-refresh"></i> </a>//自定义按钮<a href"javascript:;&qu…

无人机之4G模块的主要功能和优势

一、增强图传 在无人机飞行过程中&#xff0c;传统的图传方式可能会受到信号遮挡或干扰的影响&#xff0c;导致图像传输不稳定甚至中断。而4G模块通过结合4G网络技术&#xff0c;能够在原有图传技术的基础上提供增强的图传功能。当传统图传信号不佳时&#xff0c;无人机可以自动…

零基础入门:小白也能轻松掌握的AI大模型学习指南(含全套资源)

什么是AI大模型&#xff1f; AI大模型&#xff0c;即大规模预训练模型&#xff0c;是指拥有数亿乃至数百亿参数的深度学习模型&#xff0c;如BERT、GPT-3等。这些模型通过在互联网规模的数据集上进行自我学习&#xff0c;能捕捉到语言、图像、声音等多模态数据的复杂特征&…

红日药业携手实在智能,构建RPA数字员工平台满足业务一体化需求 | 实在RPA案例

近日&#xff0c;天津红日药业股份有限公司&#xff08;简称“红日药业”&#xff09;与实在智能达成合作&#xff0c;依托实在智能业内领先的AIRPA技术&#xff0c;红日药业着手构建企业数字员工平台&#xff0c;满足业务一体化需求&#xff0c;培育新质生产力&#xff0c;为企…

DrawingSpinUp:单个平面2D角色绘图的3D动画转换

【AI论文与新生技术】DrawingSpinUp&#xff1a;单个平面2D角色绘图的3D动画转换 DrawingSpinUp能够将简单的人物画变成三维动画。这个系统特别适合处理业余爱好者绘制的人物画&#xff0c;因为这些画作通常比较简化&#xff0c;而且风格多样。DrawingSpinUp通过一系列步骤&…