大模型部署之ollama

wyw0000

500人浏览 · 2025-10-24 08:49:01

wyw0000 · 2025-10-24 08:49:01 发布

1. Linux安装

1.1 命令安装

curl -fsSL https://ollama.com/install.sh | sh

1.2 手动安装

curl -LO https://ollama.com/download/ollama-linux-amd64.tgz
sudo rm -rf /usr/lib/ollama
sudo tar -C /usr -xzf ollama-linux-amd64.tgz

1.3 验证安装

ollama serve #运行服务
ollama -v #查看版本

3.运行模型

3.1 拉取并运行模型

#拉取远端llama3.1模型并运行
ollama run llama3.1

3.2 拉取后通过Modelfile创建

拉取模型

ollama pull llama3.2

创建Modelfile

FROM llama3.2

创建并运行模型

ollama create mario -f ./Modelfile
ollama run mario
>>> hi
Hello! It's your friend Mario.

3.2 运行本地模型

ollama支持通过Modelfile引入GGUF模型

创建Modelfile
新建一个Modelfile文件，添加如下内容即可

FROM ./vicuna-33b.Q4_0.gguf

创建一个模型

ollama create example -f Modelfile

运行模型

ollama run example

4. ollama常用命令

创建模型

ollama create mymodel -f ./Modelfile

拉取模型

ollama pull llama3.2

删除模型

ollama rm llama3.2

拷贝模型

ollama cp llama3.2 my-model

多行输入

>>> """Hello,
... world!
... """
I'm a basic program that prints the famous "Hello, world!" message to the console.

多模态模型

ollama run llava "What's in this image? /Users/jmorgan/Desktop/smile.png"

prompt作为参数传入

ollama run llama3.2 "Summarize this file: $(cat README.md)"

显示模型信息

ollama show llama3.2

显示模型列表

ollama list

10.停止当前运行的模型

ollama stop llama3.2

11.启动ollama服务

ollama serve

12.运行模型

ollama run llama3.2

13.查看当前加载的模型

ollama ps

5. REST API

5.1 生成一个响应

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt":"Why is the sky blue?"
}'

5.2 创建一个模型会话

curl http://localhost:11434/api/chat -d '{
  "model": "llama3.2",
  "messages": [
    { "role": "user", "content": "why is the sky blue?" }
  ]
}'

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

25.TCO 成本测算：训练与推理的完整成本模型

AI Agent技术社区

AI Agent Harness Engineering 的“黑箱”拆解：使用 LangSmith 进行全链路追踪与可视化

核心概念：AI Agent Harness Engineering（，下文简称）是 2023-2024 年大语言模型（LLM）、多模态模型（MMM）技术落地企业级复杂任务时的核心分支之一——它不再满足于让单个 LLM 执行简单的问答、文本生成，而是设计、开发、调试、部署、监控、迭代。问题背景：2022 年底 ChatGPT 的发布让“LLM 通用智能”的想象空间爆发，但当开发者和企业尝试将其应用到

AI Agent技术社区

RAG（检索增强生成）与 AI Agent Harness Engineering 的完美结合

过去两年，生成式AI的技术演进已经形成了两条清晰的主线：一条是检索增强生成（RAG），通过外挂知识库的方式，完美解决了大模型知识截止、幻觉、可溯源性三大问题，已经成为知识密集型场景的标配方案；另一条是AI Agent，通过赋予大模型工具调用、规划推理、记忆管理的能力，让大模型从“信息查询工具”进化为“可以自主完成复杂任务的智能代理”。但两者的单独落地都存在明显的短板：纯RAG系统只能做问答交互，无