在国内,推荐使用:HF-Mirror
1.尝试下载大模型相关文件
在huggingface镜像首页,可以看到如图:
2.使用huggingface-cli下载文件
2.1 首先激活自己的虚拟环境,然后安装环境,使用如下命令:
pip install -U huggingface_hub
2.2 接着设置系统环境变量
Linux使用如下命令:
export HF_ENDPOINT=https://hf-mirror.com
Windows在powershell中输入:
$env:HF_ENDPOINT = "https://hf-mirror.com"
注意:上述配置环境变量代码,每次下载前均需要配置。可以理解为配置下载对应文件时候要使用的源。如果要避免这个情况,请将上面这一行写入Linux中的 ~/.bashrc
。Windows环境没测试过。
2.3 下载指定的模型
huggingface-cli download --resume-download gpt2 --local-dir gpt2
2.4 下载指定的数据集
huggingface-cli download --repo-type dataset --resume-download wikitext --local-dir wikitext
3. 命令解释和其他情况
3.1 下载全部文件,需要添加--resume-download
参数,此时将保存至/root/.cache/.../
文件夹中
3.2 当需要下载指定文件夹中,需要添加--local-dir
参数,此时将保存至wikitext文件夹中
3.3 当需要下载指定文件时,使用如下命令:
huggingface-cli download --repo-type dataset 指定数据目录 指定特定文件 --local-dir wikitext
3.4 当下载多个文件,且非数据文件时候,使用如下命令:
huggingface-cli download 指定数据目录 指定文件A 指定文件B 指定文件C --local-dir wikitext
3.5 当想下载一个仓库的文件,一部分内容不下载,使用参数--include
和--exclude
命令,如下:
huggingface-cli download 指定数据目录 --include "*.safetensors" --exclude "*.bin"
表示下载指定数据目录,以safetensors结尾的,不下载.bin结尾的文件。
为什么会要这么做,tmd下载一半电脑挂了,头大。
3.6 当下载时候需要token,则添加参数--token,命令如下:
huggingface-cli download 指定数据目录 --include "*.safetensors" --exclude "*.bin" --token hf_****
注意:使用wget命令并不会得到下载好的大文件内容,这点需要注意。
参考
huggingface-cli下载数据(含国内镜像源方法)_huggingface-cli download-CSDN博客)
在 hf 上下载指定仓库的指定文件 - 立体风 - 博客园