1.linux安装
curl -fsSL https://ollama.com/install.sh | sh
ollama serve # 启动ollama
ollama create # 从模型文件创建模型
ollama show # 显示模型信息
ollama run # 运行模型,会先自动下载模型
ollama pull # 从注册仓库中拉取模型
ollama push # 将模型推送到注册仓库
ollama list # 列出已下载模型
ollama ps # 列出正在运行的模型
ollama cp # 复制模型
ollama rm # 删除模型
可以修改配置文件更改:
OLLAMA_HOST The host:port to bind to (default "127.0.0.1:11434")
OLLAMA_ORIGINS A comma separated list of allowed origins.
OLLAMA_MODELS The path to the models directory (default is "~/.ollama/models"
2.下载模型并部署
ollama run qwen2.5-coder:7b
支持多个模型推理,有切换的时间,模型会重新载入到显存。
3.测试
curl http://localhost:11434/v1/chat/completions
-H "Content-Type: application/json"
-d '{"model": "qwen2.5-coder:7b","stream":true,"messages": [{"role": "user","content": "你好"}]}'
curl http://localhost:11434/v1/chat/completions
-H "Content-Type: application/json"
-d '{"model": "llama3.2", "messages": [{"role": "user","content": "你好"}]}'
python调用
pip install ollama
import ollamahost = "127.0.0.1"
port = "11434"
client = ollama.Client(host=f"http://{host}:{port}")
res = client.chat(model="llama3.2",messages=[{"role": "user", "content": "你是谁"}],options={"temperature": 0})print(res)
model='llama3.2' created_at='2024-12-04T07:17:04.134093457Z' done=True done_reason='stop' total_duration=869011240 load_duration=60456476 prompt_eval_count=28 prompt_eval_duration=38000000 eval_count=92 eval_duration=768000000 message=Message(role='assistant', content='我是GPT-4,一个高级的语言模型。我的前身是GPT-3,它是一种强大的语言生成模型,能够理解和处理自然语言。GPT-4是GPT系列中的一员,拥有更高的性能和能力。\n\n我可以回答问题、提供信息、创作文本和图片等多种任务。我的目标是帮助用户找到答案、解决问题和完成任务。', images=None, tool_calls=None)
4.导入本地模型如:GGUF
下载模型
pip install modelscope
modelscope download --model Qwen/Qwen2.5-3B-Instruct-GGUF --local_dir /root/autodl-tmp/models/Qwen2.5-3B-Instruct-GGUF
下载好模型创建一个txt
FROM your_path/qwen2.5-3b-instruct-q2_k.gguf
FROM /root/autodl-tmp/models/Qwen2.5-3B-Instruct-GGUF/qwen2.5-3b-instruct-q2_k.gguf
执行
ollama create 模型名称 -f ./my_model.txt
查看模型