开源模型应用落地-glm模型小试-glm-4-9b-chat-批量推理(二)

一、前言

    GLM-4是智谱AI团队于2024年1月16日发布的基座大模型,旨在自动理解和规划用户的复杂指令,并能调用网页浏览器。其功能包括数据分析、图表创建、PPT生成等,支持128K的上下文窗口,使其在长文本处理和精度召回方面表现优异,且在中文对齐能力上超过GPT-4。与之前的GLM系列产品相比,GLM-4在各项性能上提高了60%,并且在指令跟随和多模态功能上有显著强化,适合于多种应用场景。尽管在某些领域仍逊于国际一流模型,GLM-4的中文处理能力使其在国内大模型中占据领先地位。该模型的研发历程自2020年始,经过多次迭代和改进,最终构建出这一高性能的AI系统。

    在前一篇开源模型应用落地-glm模型小试-glm-4-9b-chat-快速体验(一)已经掌握了glm-4-9b-chat的基本入门,本篇将介绍如何进行批量推理。


二、术语

2.1.GLM-4-9B

    是智谱 AI 推出的一个开源预训练模型,属于 GLM-4 系列。它于 2024 年 6 月 6 日发布,专为满足高效能语言理解和生成任务而设计,并支持最高 1M(约两百万字)的上下文输入。该模型拥有更强的基础能力,支持26种语言,并且在多模态能力上首次实现了显著进展。

GLM-4-9B的基础能力包括:

- 中英文综合性能提升 40%,在特别的中文对齐能力、指令遵从和工程代码等任务中显著增强

- 较 Llama 3 8B 的性能提升,尤其在数学问题解决和代码编写等复杂任务中表现优越

- 增强的函数调用能力,提升了 40% 的性能

- 支持多轮对话,还支持网页浏览、代码执行、自定义工具调用等高级功能,能够快速处理大量信息并给出高质量的回答

2.2.GLM-4-9B-Chat

    是智谱 AI 在 GLM-4-9B 系列中推出的对话版本模型。它设计用于处理多轮对话,并具有一些高级功能,使其在自然语言处理任务中更加高效和灵活。

2.3.推量推理

    是指在一次模型推理过程中同时处理多个输入样本,而不是逐个处理。通过这种方式,可以充分利用计算资源,提高处理效率,降低延迟。


三、前置条件

3.1.基础环境及前置条件

     1. 操作系统:centos7

     2. NVIDIA Tesla V100 32GB   CUDA Version: 12.2 

    3.最低硬件要求

3.2.下载模型

huggingface:

https://huggingface.co/THUDM/glm-4-9b-chat/tree/main

ModelScope:

魔搭社区

使用git-lfs方式下载示例:

3.3.创建虚拟环境

conda create --name glm4 python=3.10
conda activate glm4

3.4.安装依赖库

pip install torch>=2.5.0
pip install torchvision>=0.20.0
pip install transformers>=4.46.0
pip install huggingface-hub>=0.25.1
pip install sentencepiece>=0.2.0
pip install jinja2>=3.1.4
pip install pydantic>=2.9.2
pip install timm>=1.0.9
pip install tiktoken>=0.7.0
pip install numpy==1.26.4 
pip install accelerate>=1.0.1
pip install sentence_transformers>=3.1.1
pip install gradio==4.44.1
pip install openai>=1.51.0
pip install einops>=0.8.0
pip install pillow>=10.4.0
pip install sse-starlette>=2.1.3
pip install bitsandbytes>=0.43.3

四、技术实现

4.1.批量推理

# -*- coding: utf-8 -*-
from typing import Unionimport torch
from transformers import AutoTokenizer, LogitsProcessorList, AutoModelForCausalLMmodelPath = "/data/model/glm-4-9b-chat"def loadTokenizer():tokenizer = AutoTokenizer.from_pretrained(modelPath, trust_remote_code=True)return tokenizerdef loadModel():model = AutoModelForCausalLM.from_pretrained(modelPath,torch_dtype=torch.float16,trust_remote_code=True,device_map="auto").eval()return modeldef process_model_outputs(inputs, outputs, tokenizer):responses = []for input_ids, output_ids in zip(inputs.input_ids, outputs):response = tokenizer.decode(output_ids[len(input_ids):], skip_special_tokens=True).strip()responses.append(response)return responsesdef batch(model,tokenizer,messages: Union[str, list[str]],max_input_tokens: int = 8192,max_new_tokens: int = 8192,num_beams: int = 1,do_sample: bool = True,top_p: float = 0.8,temperature: float = 0.8,logits_processor=None,
):if logits_processor is None:logits_processor = LogitsProcessorList()messages = [messages] if isinstance(messages, str) else messagesbatched_inputs = tokenizer(messages,return_tensors="pt",padding="max_length",truncation=True,max_length=max_input_tokens).to(model.device)gen_kwargs = {"max_new_tokens": max_new_tokens,"num_beams": num_beams,"do_sample": do_sample,"top_p": top_p,"temperature": temperature,"logits_processor": logits_processor,"eos_token_id": model.config.eos_token_id}batched_outputs = model.generate(**batched_inputs, **gen_kwargs)batched_response = process_model_outputs(batched_inputs, batched_outputs, tokenizer)return batched_responseif __name__ == "__main__":batch_message = [[{"role": "system", "content": "你是一位专业的导游"},{"role": "user", "content": "请推荐一些广州的特色景点?"}],[{"role": "system", "content": "你是一位专业的算命先生"},{"role": "user", "content": "请给我儿子取一个名字?"}],[{"role": "system", "content": "你是一位专业的数学老师"},{"role": "user", "content": "请解这道计算题:3.1*9.9+10.1=?"}]]tokenizer = loadTokenizer()model = loadModel()batch_inputs = []max_input_tokens = 1024for i, messages in enumerate(batch_message):new_batch_input = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)max_input_tokens = max(max_input_tokens, len(new_batch_input))batch_inputs.append(new_batch_input)gen_kwargs = {"max_input_tokens": max_input_tokens,"max_new_tokens": 8192,"do_sample": True,"top_p": 0.9,"temperature": 0.6,"num_beams": 1,}batch_responses = batch(model, tokenizer, batch_inputs, **gen_kwargs)for response in batch_responses:print("-" * 30)print(response)

调用结果:

(glm4) [root@gpu test]# python -u glm4_9b_chat_test.py 
Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████| 10/10 [00:10<00:00,  1.01s/it]
------------------------------
当然可以!广州作为我国历史文化名城,拥有众多特色景点。以下是广州的一些著名景点推荐:1. **广州塔(小蛮腰)**:广州的地标性建筑,可以登塔观光,俯瞰整个广州城市风貌。2. **白云山**:广州市内著名的风景区,有多个登山步道和观景台,是徒步和休闲的好去处。3. **广州动物园**:位于越秀山内,是中国最早建立的动物园之一,拥有丰富的动物种类。4. **陈家祠**:位于荔湾区,是一座具有岭南特色的传统建筑,是了解岭南建筑风格的好地方。5. **长隆旅游度假区**:包括长隆野生动物世界、长隆水上乐园、长隆国际大马戏等多个主题公园,适合家庭游玩。6. **珠江夜游**:乘坐游船夜游珠江,欣赏两岸的夜景,感受广州的繁华。7. **广州博物馆**:位于越秀山内,可以了解广州的历史文化。8. **广州起义纪念馆**:纪念1927年广州起义,了解这段历史。9. **南越王墓博物馆**:位于越秀山,是西汉南越王赵眜的陵墓,是研究岭南地区古代文化的宝贵资料。10. **上下九步行街**:广州著名的购物街,汇集了各种小吃和购物场所,是体验广州传统商业文化的好地方。这些景点各有特色,可以让您全面了解广州的历史、文化和现代风貌。希望您在广州的旅行愉快!
------------------------------
当然可以。根据中国传统命名文化,我为您的儿子取名为“瑞宇”。其中,“瑞”字寓意吉祥如意,好运连连;“宇”字则代表宇宙、广阔,希望您的儿子能够胸怀宽广,前程似锦。这个名字既富有文化内涵,又充满美好祝愿。
------------------------------
好的,我们来解这个计算题。首先计算乘法部分:
3.1 * 9.9 = 30.69然后将乘法的结果加上10.1:
30.69 + 10.1 = 40.79所以,3.1 * 9.9 + 10.1 的结果是 40.79。

五、附带说明

5.1.问题一: undefined symbol: __nvJitLinkComplete_12_4, version libnvJitLink.so.12

解决:

export LD_LIBRARY_PATH=/usr/local/miniconda3/envs/glm4/lib/python3.10/site-packages/nvidia/nvjitlink/lib:$LD_LIBRARY_PATH

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/8115.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

第七部分:1. STM32之ADC实验--单通道实验(滑动变阻器调节电压)

主要利用一个模拟量的电位器来实时改变电压值&#xff0c;通过STM32自带的ADC通道来采集这个数据&#xff0c;并打印出来&#xff01;本实验是单通道实验 一句话&#xff0c;学完STM32&#xff0c;我就往南走&#xff0c;我的工资只有5000.~~~~Whappy 实验代码&#xff1a; A…

50岁+人群月活超1亿,短剧迎来新对手,小程序游戏“收割”中老年

抢夺中老年流量&#xff1a;微短剧向左&#xff0c;小游戏向右 作者&#xff5c;AgeClub 干货抢先看 1.《黑神话&#xff1a;悟空》走红&#xff0c;吸引大量玩家入坑单机市场。与硬核单机游戏不同&#xff0c;在渗透率更高的小游戏领域&#xff0c;聚集了更多“网瘾”中老年…

MySQL OnlineDDL添加字段

alter 添加字段 5.7 默认是algorithminplace以及locknone来进行DDL操作&#xff0c;但是添加列整个执行过程中也会部分涉及到Copy Table。 如果有碎片比较大&#xff0c;因为会copy表会碎片整理&#xff0c; 添加字段成功后有可能磁盘使用空间降低&#xff0c;添加过程中磁盘…

WPF中如何简单的使用MvvmLight创建一个项目并进行 增删改查

目录 第一步&#xff1a;创建项目后下载如下两个NuGet程序包&#xff0c;然后删除删掉using Microsoft.Practices.ServiceLocation; 并且引入using CommonServiceLocator; 第二步&#xff1a;删除原来的XAML文件并创建如下的包结构然后创建一个在View文件夹中创建一个Main窗体 …

ssm校园媒体信息发布系统—计算机毕业设计源码42272

目 录 摘要 1 绪论 1.1研究背景与意义 1.2国内外研究现状 1.3研究内容 1.4 ssm框架介绍 1.5论文结构与章节安排 2 校园媒体信息发布系统系统分析 2.1 可行性分析 2.2 系统流程分析 2.2.1数据增加流程 2.2.2数据修改流程 2.2.3数据删除流程 2.3 系统功能分析 2.3…

【北京迅为】《STM32MP157开发板嵌入式开发指南》-第七十一章 制作Ubuntu文件系统

iTOP-STM32MP157开发板采用ST推出的双核cortex-A7单核cortex-M4异构处理器&#xff0c;既可用Linux、又可以用于STM32单片机开发。开发板采用核心板底板结构&#xff0c;主频650M、1G内存、8G存储&#xff0c;核心板采用工业级板对板连接器&#xff0c;高可靠&#xff0c;牢固耐…

【数据结构】线性表——链表

写在前面 本篇笔记记录线性表——链表的主要形式&#xff0c;虽然链表有8种形式&#xff0c;但是只要精通笔记中编写的两种&#xff0c;即可触类旁通。 文章目录 写在前面一、链表的概念及结构二、链表的分类三、无头单向非循环链表3.1、链表的实现3.1.1、链表的结构体定义3.1…

Java:168 springboot小区团购管理

作者主页&#xff1a;舒克日记 简介&#xff1a;Java领域优质创作者、Java项目、学习资料、技术互助 文中获取源码 项目介绍 ​ 系统有管理员&#xff0c;用户两个角色。 主要的功能有用户信息管理、商品信息管理、商品类型管理、商品订单管理、公告信息管理、公告类型管理 …

CSS如何改变滚动条的颜色样式粗细?

默认滚动条很丑怎么办&#xff1f;如何改版滚动条的粗细&#xff0c;颜色&#xff0c;让它更美观&#xff1f;CSS如何改变滚动条的粗细&#xff1f; 干货来了 /* Webkit内核浏览器的滚动条样式 */ ::-webkit-scrollbar {width: 4px; /* 设置滚动条的宽度 */ }::-webkit-scroll…

idea连接docker并构建镜像

安装docker 安装docker idea连接docker 安装docker插件 设置docker连接 设置docker.exe 这个docker.exe是为了运行docker&#xff0c;可以通过安装docker desktop获取 docker desktop下载地址 右键图标找到文件位置 在同级的resource中 编写Dockerfile # 使用官方 Nginx…

你竟然赶我走

目录 解题思路 题目设计原理 总结 解题思路 拿到图看属性没问题&#xff0c;格式是 jpg 的&#xff0c;但是这张图片肯定不简单。 文件分离不出东西。 使用 stegsolve 打开&#xff0c;使用文件格式分析功能&#xff0c;拉到最底下&#xff0c;flag 浮出水面。好吧&#xff…

ssm065基于JAVA WEB技术大健康综合咨询问诊平台的设计与实现+jsp(论文+源码)_kaic

毕 业 设 计&#xff08;论 文&#xff09; 题目&#xff1a;健康综合咨询问诊平台设计与实现 摘 要 现代经济快节奏发展以及不断完善升级的信息化技术&#xff0c;让传统数据信息的管理升级为软件存储&#xff0c;归纳&#xff0c;集中处理数据信息的管理方式。本健康综合咨询…

masm汇编字符输入换行输出演示

从键盘读取一个字符并换行输出 assume cs:codecode segmentstart:mov ah, 1int 21hmov bl, almov dl, 10 mov ah, 2int 21h mov dl, blmov ah, 2int 21hmov ah, 4chint 21hcode ends end start 效果演示&#xff1a;

设备管理网关(golang版本)

硬件设备&#xff1a;移远EC200A-CN LTE Cat 4 无线通信模块 操作系统&#xff1a;openwrt 技术选型&#xff1a;layui golang sqlite websocket 工程结构 界面展示 区域管理 设备管理 运行监控 系统参数 资源文件 版本信息

变电站接地电阻监测装置-输电铁塔接地电阻监测装置:实时监测,预防故障

变电站接地电阻监测装置 接地电阻对电力系统的安全和稳定性至关重要&#xff0c;但在高压环境和极端气候下&#xff0c;接地系统可能出现性能下降&#xff0c;增加故障和跳闸的风险。传统的人工检测方法常常无法及时发现这些问题&#xff0c;并且操作繁琐。为此&#xff0c;我…

【ArcGIS】绘制各省碳排放分布的中国地图

首先&#xff0c;准备好各省、自治区、直辖市及特别行政区&#xff08;包括九段线&#xff09;的shp文件&#xff1a; 通过百度网盘分享的文件&#xff1a;GS&#xff08;2022&#xff09;1873 链接&#xff1a;https://pan.baidu.com/s/1wq8-XM99LXG_P8q-jNgPJA 提取码&#…

maven plugin:在自定义插件中获取当前项目的依赖库列表

我的项目中需要在自定义maven插件中调用javadoc获取java源码的注释,就需要为了javadoc能正常解析源码,还需要源码所在项目的依赖库列表(java 9以上版本的javadoc这是必须的)作为-classpath. 方案一:dependency:build-classpath 如果在项目安装(install)阶段(phase),这个参数通…

linux基础2

声明 学习视频来自B站UP主泷羽sec,如涉及侵权马上删除文章 笔记的只是方便各位师傅学习知识,以下网站只涉及学习内容,其他的都与本人无关,切莫逾越法律红线,否则后果自负 一&#xff0c;linux目录简介 1&#xff0c;根目录&#xff08;/&#xff09; 根目录是Linux文件系统的…

Leecode热题100-78.子集

给你一个整数数组 nums &#xff0c;数组中的元素 互不相同 。返回该数组所有可能的 子集 &#xff08;幂集&#xff09;。 解集 不能 包含重复的子集。你可以按 任意顺序 返回解集。 示例 1&#xff1a; 输入&#xff1a;nums [1,2,3] 输出&#xff1a;[[],[1],[2],[1,2]…

【NRM】npm镜像源地址管理

【NRM】npm镜像源地址管理 1.背景 因为公司有npm内网源地址&#xff0c;很多外网依赖拉取很慢。使用nrm管理npm的源地址&#xff0c;更方便切换使用 2.NRM是什么 nrm(npm registry manager&#xff0c;nrm )是npm的镜像源管理工具&#xff0c;有时候国外资源太慢&#xff0…