huggingface-cli下载数据(含下载指定数据教程)

在国内,推荐使用:HF-Mirror

1.尝试下载大模型相关文件

在huggingface镜像首页,可以看到如图:

2.使用huggingface-cli下载文件

2.1 首先激活自己的虚拟环境,然后安装环境,使用如下命令:

pip install -U huggingface_hub

2.2 接着设置系统环境变量

Linux使用如下命令:

export HF_ENDPOINT=https://hf-mirror.com

Windows在powershell中输入:

$env:HF_ENDPOINT = "https://hf-mirror.com"

注意:上述配置环境变量代码,每次下载前均需要配置。可以理解为配置下载对应文件时候要使用的源。如果要避免这个情况,请将上面这一行写入Linux中的 ~/.bashrc。Windows环境没测试过。


2.3 下载指定的模型

huggingface-cli download --resume-download gpt2 --local-dir gpt2

2.4 下载指定的数据集

huggingface-cli download --repo-type dataset --resume-download wikitext --local-dir wikitext

3. 命令解释和其他情况

3.1 下载全部文件,需要添加--resume-download参数,此时将保存至/root/.cache/.../文件夹中

3.2 当需要下载指定文件夹中,需要添加--local-dir参数,此时将保存至wikitext文件夹中

3.3 当需要下载指定文件时,使用如下命令:

huggingface-cli download --repo-type dataset 指定数据目录 指定特定文件 --local-dir wikitext

3.4 当下载多个文件,且非数据文件时候,使用如下命令:

huggingface-cli download 指定数据目录 指定文件A 指定文件B 指定文件C --local-dir wikitext

3.5 当想下载一个仓库的文件,一部分内容不下载,使用参数--include--exclude命令,如下:

huggingface-cli download 指定数据目录 --include "*.safetensors" --exclude "*.bin"

表示下载指定数据目录,以safetensors结尾的,不下载.bin结尾的文件。

为什么会要这么做,tmd下载一半电脑挂了,头大。

3.6 当下载时候需要token,则添加参数--token,命令如下:

huggingface-cli download 指定数据目录 --include "*.safetensors" --exclude "*.bin" --token hf_****

注意:使用wget命令并不会得到下载好的大文件内容,这点需要注意。

参考

huggingface-cli下载数据(含国内镜像源方法)_huggingface-cli download-CSDN博客)

在 hf 上下载指定仓库的指定文件 - 立体风 - 博客园

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/35661.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

生产慎用之调试日志对空间矢量数据批量插入的性能影响-以MybatisPlus为例

目录 前言 一、一些缘由 1、性能分析 二、插入方式调整 1、批量插入的实现 2、MP的批量插入实现 3、日志的配置 三、默认处理方式 1、基础程序代码 2、执行情况 四、提升调试日志等级 1、在logback中进行设置 2、提升后的效果 五、总结 前言 在现代软件开发中&…

Linux下编译安装METIS

本文记录Linux下编译安装METIS的流程。 零、环境 操作系统Ubuntu 22.04.4 LTSVS Code1.92.1Git2.34.1GCC11.4.0CMake3.22.1 一、安装依赖 1.1 下载GKlib sudo apt-get install build-essential sudo apt-get install cmake 2.2 编译安装GKlib 下载GKlib代码, …

数据链路层总结

- - 链路、物理链路:两节点间物理线路(有线、无线),中间没有任何其他的交换节点 数据链路、逻辑链路: 链路 协议需要的硬件、软件 网络适配器(网卡):包含物理层、数据链路层 网络适配器软件驱动程…

基于Java和Vue开发的漫画阅读软件漫画阅读小程序漫画APP

前景分析 受众广泛:漫画的受众群体广泛,不仅限于青少年,还涵盖了成年人等多个年龄层和社会阶层。漫画文化在全球范围内的影响力不断扩大,未来漫画软件创业可以考虑全球市场的拓展。 市场需求大:数字化阅读趋势下&…

LoRa无线空调计费系统都应用在哪里

中央空调计费系统由于布线方式需要消耗大量的人力及成本,LoRa在楼宇自控及智能家居中的应用越来越广泛,成为当前普遍应用的通信技术。 LoRa模块无线传输技术的不断完善,逐步解决了温控器通信方面布线困难、施工成本高的问题,促进…

4.STM32通信接口之SPI通信---硬件SPI的介绍

上一节,我们学会软件的SPI,本节,我们将学习STM32的SPI硬件收发电路,虽然STM32的硬件收发电路很强大,但是,很多我们都用不到,我们只需会最基本的就可以。硬件的好处就是稳定,功能模块…

Open AI 推出 ChatGPT Pro

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

洛谷P1030 [NOIP2001 普及组] 求先序排列(c嘎嘎)

题目链接:P1030 [NOIP2001 普及组] 求先序排列 - 洛谷 | 计算机科学教育新生态 题目难度:普及 解题思路:这道题和之前做过的一道题很像,举一反三就行 相似题目:P1827 [USACO3.4] 美国血统 American Heritage - 洛谷 |…

创意型广告如何配音梨花声音研修院退费

张弛播音5天训练营靠谱吗,在当今竞争激烈的广告市场中,创意型广告以其独特的构思和表现形式脱颖而出。而配音作为广告的重要组成部分,对于创意型广告的成功起着至关重要的作用。 在为创意型广告配音之前,首先要深入理解广告的创意…

探索 Python 应用的分层依赖:解决 UOS 环境中的 libvirt-python 安装问题

探索 Python 应用的分层依赖:解决 UOS 环境中的 libvirt-python 安装问题 背景Python 版本升级 问题描述原因分析与解决方案 Python 应用的分层依赖:安装与部署的视角libvirt-python的分层依赖尝试的解决方案 使用编译好的 .whl 文件"嫁接"整个…

SpringBoot+ENC实现密钥加密及使用原理

?? 作者: ?? 主页: https://blog.csdn.net/zhuocailing3390 ?? 社区: Java技术栈交流 ?? 主题: SpringBootENC实现密钥加密及使用原理 创作时间: 2024年06月23日 目录 前言1、整合SpringBoot 1.1、POM…

多源多汇流网络的等价转换与证明

多源多汇流网络的等价转换与证明 引言流的性质和定义推广转换方法等价性证明伪代码与C代码实现结论引言 在经典的流网络问题中,我们通常考虑的是单源单汇(即一个源节点和一个汇节点)的网络流。然而,在实际应用中,我们经常会遇到具有多个源节点和多个汇节点的情况。本文将…

如何制作“优美”PPT

目录 1.免费PPT模板网站: 2.免费有较好质量的图片网站: 免费图片资源 免费透明PNG图片资源: 免费icon图片资源: 3.选择好的图片: 图片底色 4.要与不要 千万不要: 一定要: 6.一些建议…

R中利用ggplot2绘制气泡图

闲来无事,整理了一下自己的绘图笔记,顺便分享到CSDN上。 一、介绍 气泡图(Bubble Plot)是一种常用的数据可视化方法,用于展示三个变量之间的关系。气泡图的特点是通过气泡的大小、颜色和位置来表达数据中的多维信息。…

腾讯新版滑块识别/滑块识别

最新的腾讯滑块也是进行了一小部分更新,滑块也变的非常千奇百怪。 之前写的处理图像的方法可能太粗糙,有的背景图无法识别,可以在模板匹配之前,加个图像处理。 with open(f"./img/sprite_{random_num}.png", "rb&…

Oracle系统性能监控工具oswatcher演示

1、关于 OSW OSWatcher 的使用符合 Oracle 的标准许可条款,并且不需要额外的许可即可使用!!!! OSWatcher (oswbb) 是一种 UNIX shell 脚本的集合,主要用于收集和归档操作系统和网络的度量,以便…

PowerShell install 一键部署postgres17

postgres 前言 PostgreSQL 是一个功能强大的开源对象关系数据库系统,拥有超过 35 年的积极开发经验 这为其赢得了可靠性、功能稳健性和性能的良好声誉。 通过官方文档可以找到大量描述如何安装和使用 PostgreSQL 的信息。 开源社区提供了许多有用的地方来熟悉PostgreSQL, 了…

Elasticsearch vs 向量数据库:寻找最佳混合检索方案

图片来自Shutterstock上的Bakhtiar Zein 多年来,以Elasticsearch为代表的基于全文检索的搜索方案,一直是搜索和推荐引擎等信息检索系统的默认选择。但传统的全文搜索只能提供基于关键字匹配的精确结果,例如找到包含特殊名词“Python3.9”的文…

【Qt在线安装器】不能下载Qt5

qt在线下载不显示以前的版本时: 勾选”Archive“,点击”筛选“ 然后就会显示出QT5的版本, 按流程下载即可

【Unity高级】如何获取着色器(Shader)的关键词

在动态设置Shader时,会需要通过EnableKeyword, DisableKeyword来完成。但一个Shader有哪些关键词呢?Unity的文档中并没有列出来,但我们可以通过遍历Shader的KeywordSpace来查看。 1. 代码如下 using UnityEngine;public class KeywordExamp…