当前位置: 首页 > news >正文

大模型转换为 GGUF 以及使 用 ollama 运行

什么是 GGUF

GGUF 格式的全名为(GPT-Generated Unified Format),提到
GGUF 就不得不提到它的前身 GGML(GPT-Generated Model
Language)。GGML 是专门为了机器学习设计的张量库,最早可
以追溯到 2022/10。其目的是为了有一个单文件共享的格式,并
且易于在不同架构的 GPU 和 CPU 上进行推理。但在后续的开发
中,遇到了灵活性不足、相容性及难以维护的问题。

GGUF 的核心特点

1.统一且高效:
将模型架构、权重、超参数、tokenizer信息等整合到单个文件中,简化部署流程。
采用二进制格式,加载速度更快,内存占用更低。

2.量化支持:

支持多种量化级别(如4-bit、5-bit、8-bit等),显著减小模型体积(例如,70B参数的模型可压缩到几十GB甚至更小),同时保持合理的推理精度。

3.跨平台兼容性:

设计为硬件无关,可在CPU/GPU(通过CUDA、Metal等)上运行,适合边缘设备(如树莓派、手机等)。
被llama.cpp、Alpaca.cpp等轻量级推理框架原生支持。

4.扩展性:
支持嵌入额外信息(如训练配置、作者信息等),便于模型分发和版本管理。

GGUF vs GGML

GGML是早期格式,功能有限࿰

http://www.xdnf.cn/news/22897.html

相关文章:

  • 初识 Firebase 与 FPM
  • STL常用算法
  • vue3中使用拖拽组件vuedragable@next
  • C++指针与内存管理深度解析
  • 天梯赛树学合集
  • nuxt3路由切换页面出不来,刷新可以
  • Windows suwellofd 阅读器-v5.0.25.0320
  • C++保存和读取txt格式的点云数据文件
  • strings.SplitAfterN 使用详解
  • 国产三维CAD皇冠CAD(CrownCAD)在「轨道交通行业」建模教程:轨道列车
  • 初始图像学(6)
  • C++ 贪吃蛇 Greedy Snake
  • 影楼精修-高低频磨皮算法解析
  • 第 7 期:DDPM 采样提速方案:从 DDPM 到 DDIM
  • NOIP2013提高组.货车运输
  • 智能产线07期-能耗监控:数据驱动的智慧能源管理系统
  • DOM TreeWalker API 详解
  • 5.常用控件-QWidget|enabled|geometry|window frame(C++)
  • Java 如何保证线程安全
  • 运营商二要素认证接口如何对接?
  • Enovia许可证管理与监控工具
  • 五款小众工作软件
  • 【LLMs篇】09:白话PPO训练
  • 提示词阶段总结
  • 基于用户的协同过滤推荐系统实战项目
  • webgl入门实例-12WebGL 投影矩阵 (Projection Matrix)基本概念
  • 工业安卓主板在智能电子秤设备中的应用
  • 使用人工智能大模型,如何免费快速把录音转成文本,并形成会议纪要
  • AIP目录
  • HCIP-H12-821 核心知识梳理 (4)