大模型部署实战之部署 Llama3.1-部署与使用

大模型（LLM）狭义上指基于深度学习算法进行训练的自然语言处理（NLP）模型，主要应用于自然语言理解和生成等领域，广义上还包括机器视觉（CV）大模型、多模态大模型和科学计算大模型等。

Llama3.1

2024 年 7 月 23 日 Meta宣布推出迄今为止最强大的开源模型——Llama 3.1 405B，同时发布了全新升级的 Llama 3.1 70B 和 8B 模型。

Llama 3.1 405B支持上下文长度为128K Tokens，在基于15万亿个Tokens、超1.6万个H100 GPU上进行训练，这也是Meta有史以来第一个以这种规模进行训练的Llama模型。

部署流程

创建实例

NVIDIA-GeForc-RTX-4090，该配置为60GB内存，24GB的显存（本次测试的LLaMA3.1 8B 版本至少需要GPU显存16G）

本次测试环境：

ubuntu 22.04 python 3.12 cuda 12.1 pytorch 2.4.0

conda create -n llama3 python=3.12

conda activate llama3

pip install langchain==0.1.15
pip install streamlit==1.36.0
pip install transformers==4.44.0
pip install accelerate==0.32.1

wget http://file.s3/damodel-openfile/Llama3/Llama-3.1-8B-Instruct.tar
tar -xf Llama-3.1-8B-Instruct.tar

使用教程

模型下载好后，准备加载模型及启动Web服务等工作，新建 llamaBot.py 文件并在其中输入以下内容

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
import streamlit as st# 创建一个标题和一个副标题
st.title("💬 LLaMA3.1 Chatbot")
st.caption("🚀 A streamlit chatbot powered by Self-LLM")# 定义模型路径
mode_name_or_path = '/root/workspace/Llama-3.1-8B-Instruct'# 定义一个函数，用于获取模型和tokenizer
@st.cache_resource
def get_model():# 从预训练的模型中获取tokenizertokenizer = AutoTokenizer.from_pretrained(mode_name_or_path, trust_remote_code=True)tokenizer.pad_token = tokenizer.eos_token# 从预训练的模型中获取模型，并设置模型参数model = AutoModelForCausalLM.from_pretrained(mode_name_or_path, torch_dtype=torch.bfloat16).cuda()return tokenizer, model# 加载LLaMA3的model和tokenizer
tokenizer, model = get_model()# 如果session_state中没有"messages"，则创建一个包含默认消息的列表
if "messages" not in st.session_state:st.session_state["messages"] = []# 遍历session_state中的所有消息，并显示在聊天界面上
for msg in st.session_state.messages:st.chat_message(msg["role"]).write(msg["content"])# 如果用户在聊天输入框中输入了内容，则执行以下操作
if prompt := st.chat_input():# 在聊天界面上显示用户的输入st.chat_message("user").write(prompt)# 将用户输入添加到session_state中的messages列表中st.session_state.messages.append({"role": "user", "content": prompt})# 将对话输入模型，获得返回input_ids = tokenizer.apply_chat_template(st.session_state["messages"],tokenize=False,add_generation_prompt=True)model_inputs = tokenizer([input_ids], return_tensors="pt").to('cuda')generated_ids = model.generate(model_inputs.input_ids,max_new_tokens=512)generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)]response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]# 将模型的输出添加到session_state中的messages列表中st.session_state.messages.append({"role": "assistant", "content": response})# 在聊天界面上显示模型的输出st.chat_message("assistant").write(response)print(st.session_state)

streamlit run llamaBot.py --server.address 0.0.0.0 --server.port 1024

在这里插入图片描述
参考链接

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.xdnf.cn/news/1547994.html

如若内容造成侵权/违法违规/事实不符，请联系一条长河网进行投诉反馈，一经查实，立即删除！

大模型部署实战之部署 Llama3.1-部署与使用

大模型（LLM）狭义上指基于深度学习算法进行训练的自然语言处理（NLP）模型，主要应用于自然语言理解和生成等领域，广义上还包括机器视觉（CV）大模型、多模态大模型和科学计算大模型等。

Llama3.1

部署流程

NVIDIA-GeForc-RTX-4090，该配置为60GB内存，24GB的显存（本次测试的LLaMA3.1 8B 版本至少需要GPU显存16G）

ubuntu 22.04 python 3.12 cuda 12.1 pytorch 2.4.0

使用教程

相关文章

【智能算法应用】樽海鞘群算法求解二维路径规划问题

java项目之健身房管理系统源码(springboot)

2024年【茶艺师（高级）】考试资料及茶艺师（高级）考试总结

带摄像头的挖耳勺好用吗？5款好用的可视挖耳勺！

【程序员必读】近年来编程提效工具大合集。小白必看！

liunx系统虚拟机

HT5169内置BOOST升压的11W I2S输入D类音频功放

企业代码补全增强使用实践

DeepSpeed Chat: 一键式RLHF训练，让你的类ChatGPT千亿大模型提速省钱15倍

雷达系统中杂波信号的建模与仿真

1,2,3-TBMB作为接头获得不同的双环肽构象；TBMB；TBAB,TATA不同linker

Modbus调试工具和源码分享

共享盘显示脱机/无法访问

PowerBI-l7-如何为Power BI报表设计动画背景

RLHF 的启示：微调 LSTM 能更好预测股票？

设计模式、系统设计 record part01

数据结构 ——— 编写函数，删除有序数组中的重复项

两步飞跃办公室，2024年常备远程控制神器，居家办公真轻松

探索 Midjourney 中文版：开启人工智能绘画新征程

SOLIDWORKS 2025新版本揭秘 | 设计、协作和数据管理篇

大模型部署实战 之 部署 Llama3.1-部署与使用

大模型（LLM）狭义上指基于深度学习算法进行训练的自然语言处理（NLP）模型，主要应用于自然语言理解和生成等领域，广义上还包括机器视觉（CV）大模型、多模态大模型和科学计算大模型等。

Llama3.1

部署流程

NVIDIA-GeForc-RTX-4090，该配置为60GB内存，24GB的显存（本次测试的LLaMA3.1 8B 版本至少需要GPU显存16G）

ubuntu 22.04 python 3.12 cuda 12.1 pytorch 2.4.0

使用教程

相关文章

大模型部署实战之部署 Llama3.1-部署与使用