【记录】大模型|Windows 下 Hugging Face 上的模型的通用极简调用方式之一

这篇文是参考了这篇,然后后来自己试着搭了一下,记录的全部过程:【翻译】Ollama|如何在 Ollama 中运行 Hugging Face 中的模型_ollama 导入 huggingface-CSDN 博客
另外还参考了这篇:无所不谈,百无禁忌,Win11 本地部署无内容审查中文大语言模型 CausalLM-14B - 知乎

文章目录

    • 步骤 1:下载 GGUF 格式模型
      • 1 示例
      • 2 如何查找 GGUF 模型
    • 步骤 2:部署
      • 1 安装 Visual Studio installer 的 C++ 桌面开发组件
      • 2 安装 cmake
      • 3 安装 CUDA(一般显卡都装了驱动,不过可能没装nvcc这些命令工具,nvcc没装就再装装)
      • 4 下载llama.cpp
      • 5 解压llama-b3772-bin-win-cuda-cu12.2.0-x64.zip
      • 6 运行指令
    • 步骤3:展示

步骤 1:下载 GGUF 格式模型

这个格式才是量化版本,不用自己编译了。

具体内存或显存的要求你们可以自己考虑,我的电脑独显 3060 6G 的 14B 的量化模型没啥问题。

1 示例

  1. https://huggingface.co/TheBloke/CausalLM-14B-GGUF
    在这里插入图片描述
  2. https://huggingface.co/hfl/chinese-llama-2-13b-gguf/tree/main
    在这里插入图片描述

2 如何查找 GGUF 模型

  1. 一般情况你在链接后面加-gguf就有量化版本了;
  2. 找不到的话可以去 Github 的 README 里搜 GGUF 关键词,比如下图:
    在这里插入图片描述

步骤 2:部署

1 安装 Visual Studio installer 的 C++ 桌面开发组件

Visual Studio 2022 IDE - 适用于软件开发人员的编程工具
在这里插入图片描述

2 安装 cmake

https://cmake.org/download/

3 安装 CUDA(一般显卡都装了驱动,不过可能没装nvcc这些命令工具,nvcc没装就再装装)

https://developer.nvidia.com/cuda-downloads

4 下载llama.cpp

https://github.com/ggerganov/llama.cpp/releases,选自己的版本,我下载的是llama-b3772-bin-win-cuda-cu12.2.0-x64.zip。
在这里插入图片描述

5 解压llama-b3772-bin-win-cuda-cu12.2.0-x64.zip

进入目录,在这个目录下打开命令行工具,创建一个目录models,把gguf模型放进去(你也可以选择用绝对路径,一个意思)。
在这里插入图片描述

6 运行指令

.\llama-cli.exe -m models/causallm_14b.Q4_0.gguf -p "You are a helpful assistant" -cnv(改成你自己的模型名字)

步骤3:展示

在命令行去运行:

在这里插入图片描述

会运行得到这种东西:
在这里插入图片描述

运行的时候还能加上一些额外的参数,比如这样:.\llama-cli.exe -m models/causallm_14b.Q4_0.gguf -p "You are a helpful assistant" -cnv --chat-template llama2,这时指令模板就会发生变化,如下所示:

在这里插入图片描述

好了。

本账号所有文章均为原创,欢迎转载,请注明文章出处:https://shandianchengzi.blog.csdn.net/article/details/142438818。百度和各类采集站皆不可信,搜索请谨慎鉴别。技术类文章一般都有时效性,本人习惯不定期对自己的博文进行修正和更新,因此请访问出处以查看本文的最新版本。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/147806.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

【大模型】AutoDL部署AI绘图大模型Stable Diffusion使用详解

目录 一、前言 二、AI绘图大模型概述 2.1 AI绘图大模型介绍 2.2 AI绘图大模型特点 2.3 AI绘图大模型优势 三、主流的AI绘图大模型介绍 3.1 Midjourney 3.1.1 Midjourney介绍 3.1.2 Midjourney功能特点 3.1.3 Midjourney使用场景 3.2 Stable Diffusion 3.2.1 Stable …

【WRF运行第二期(Ubuntu)】ARWpost安装

WRF运行第二期:ARWpost安装 1 ARWpost介绍2 ARWpost安装2.1 ARWpos_V3安装前准备2.2 安装ARWpos2.3 修改Makefile文件2.4 修改configure.arwp文件2.5 生成可执行文件EXE2.6 修改namelist.ARWpost 参考 1 ARWpost介绍 ARWpost 是WRF模型后处理程序之一,用…

前端组件库Element UI 的使用

一、准备工作 1.确保安装了开发软件 VS Code(此处可查阅安装 VS Code教程),确保相关插件安装成功 2.安装Node.js 和创建Vue项目(此处可查阅安装创建教程) 3.成功在VS Code运行一个Vue项目(此处可查阅运行…

技术周总结 09.16~09.22 周日(架构 C# 数据库)

文章目录 一、09.16 周一1.1)问题01: 软件质量属性中"质量属性场景"、"质量属性环境分析"、"质量属性效用树"、"质量属性需求用例分析"分别是什么?1.2)问题02: 软件质量属性中…

MOS工作的三种状态及其分析——亚阈值区(截至区),深三极管区(又叫深线性区)和饱和区

1.MOS工作的三种状态及其分析——亚阈值区(截至区),深三极管区(又叫深线性区)和饱和区。 1.1亚阈值区(现代深亚微米工艺下的部分截至区) 现代深亚微米工艺下,亚阈值区是指在Vgs小于阈…

WebLogic远程代码执行漏洞CVE-2020-14882

1.环境搭建 cd vulhub-master/weblogic/CVE-2020-14882 docker-compose up -d 2.登录后台 使用以下url绕过登录认证 主页 - base_domain - WLS 控制台http://47.121.211.205:7001/console/css/%252e%252e%252fconsole.portal 3.在目标服务器创建文件 http://47.121.211.…

Linux-gcc/g++

系列文章目录 C语言中的编译和链接 文章目录 系列文章目录一、编译过程gcc如何完成过程在这里涉及到一个重要的概念:函数库 二、动态库、静态库2.1 函数库一般分为静态库和动态库两种。 三、gcc选项gcc选项记忆 一、编译过程 具体过程在这一片c语言文章中讲解过:C语言中的编…

【记录】Excel|不允许的操作:合并或隐藏单元格出现的问题列表及解决方案

人话说在前:这篇的内容是2022年5月写的,当时碰到了要批量处理数据的情况,但是又不知道数据为啥一直报错报错报错,说不允许我操作,最终发现是因为存在隐藏的列或行,于是就很无语地写了博客,但内容…

STM32系统时钟

时钟为单片机提供了稳定的机器周期,从而使我们的系统能够正常的运行 时钟就像我们人的心脏,一旦有问题就整个都会崩溃 stm32有很多外设,但不是所有的外设都使用同一种时钟频率工作,比如我们的内部看门狗和RTC 只要30几k的频率就…

【PLW003】设备器材云端管理平台v1.0(SpringBoot+Mybatis+NodeJS+MySQL前后端分离)

设备器材云端管理平台是一种专为各种设备(如教育行业中的实验设备、建筑行业中的施工设备等)租赁或共享孵化的数字化管理工具,旨在融合数字化手段,提高各种设备器材的管理效率、 确保设备的安全稳定运行,并优化资源使用…

【Godot4.3】基于状态切换的游戏元素概论

提示 本文的设想性质比较大,只是探讨一种设计思路。完全理论阶段,不可行就当是闹了个笑话O(∩_∩)O哈哈~但很符合我瞎搞的气质。 概述 一些游戏元素,其实是拥有多个状态的。比如一个宝箱,有打开和关闭两个状态。那么只需要设定两个状态的图…

日志系统第五弹:同步日志器模块

日志系统第五弹:同步日志器模块 一、Logger类的设计1.功能2.如何打印日志3.设计 - - - 成员变量1.日志输出限制等级2.资源整合3.唯一标识4.互斥锁 4.设计 - - - 成员函数1.对外的日志打印接口2.抽象的日志实际落地接口3.其他接口 5.Logger类的框架 二、Logger类的实…

springboot地方特色美食分享系统-计算机毕业设计源码02383

摘要 本论文主要论述了如何使用SpringBoot技术开发一个地方特色美食分享系统,本系统将严格按照软件开发流程进行各个阶段的工作,采用B/S架构,面向对象编程思想进行项目开发。在引言中,作者将论述地方特色美食分享系统的当前背景以…

DHCP服务器搭建

1. DHCP工作原理 DHCP动态分配IP地址,客户端广播,服务端单播 2. DHCP服务器安装 2.1 安装DHCP # yum install -y dhcp-server 2.2 修改配置文件 # cd /etc/dhcp/ # ls # vi dhcpd.conf dhcpd.conf 主配置文件 第一行:全局dhcp服务器地…

240922-Ollama使用Embedding实现RAG

A. 最终效果 B. 参考代码 # [嵌入模型 Ollama 博客 - Ollama 中文](https://ollama.org.cn/blog/embedding-models)# 步骤1:生成嵌入import ollama import chromadbdocuments ["Llamas are members of the camelid family meaning theyre pretty closely re…

Golang | Leetcode Golang题解之第423题从英文中重建数字

题目: 题解: func originalDigits(s string) string {c : map[rune]int{}for _, ch : range s {c[ch]}cnt : [10]int{}cnt[0] c[z]cnt[2] c[w]cnt[4] c[u]cnt[6] c[x]cnt[8] c[g]cnt[3] c[h] - cnt[8]cnt[5] c[f] - cnt[4]cnt[7] c[s] - cnt[6]…

手势识别-Yolov5模型-自制数据集训练

1、源码下载: 大家可以直接在浏览器搜索yolov5即可找到官方链接,跳转进github进行下载: 这里对yolov5模型补充说明一下,它是存在较多版本的,具体信息可在master->tags中查看,大家根据需要下载。这些不同…

二叉树(链式存储)

文章目录 一、树的基础概念二、二叉树2.1 概念 性质2.2 二叉树的存储2.2 二叉树的基本操作手动创建一棵二叉树遍历:前、中、后、层序获取树中节点的个数获取叶子节点的个数获取第K层节点的个数获取二叉树的高度检测值为value的元素是否存在判断一棵树是不是完全二叉…

青岛特某电新能源有限公司-充电业务流程及数据交互规范-集控前置-精简版V1.0

1 范围 本流程规定了特某电充电终端所属的集控器与特某电云平台前置之间的充电相关业务流程,明确两端之间的请求和响应。 2 术语 云平台:云平台是提供包括充电设备接入,充电设备信息采集,充电设备管 理,充电设备运维…

Gin框架入门(1)--路由搭建与Json处理

背景知识 为什么要使用Go框架 如果不使用框架,在创建服务器和调用端口时会遇到各种各样“奇怪”的问题(就是出错的排查方向可能达到十几种),而且这些问题很难有相似性。同时作为适应于微服务的一门语言,代码的规范化…