Llama-3.2-3B镜像部署教程:ollama部署本地大模型+Docker Compose编排

想在自己的电脑上跑一个智能助手,但又担心网络问题或者隐私泄露?今天,我们就来手把手教你,如何用最简单的方式,在本地部署一个功能强大的开源大模型——Llama-3.2-3B。

你不需要是技术大牛,也不用担心复杂的配置。我们将使用一个叫 ollama 的工具,它能让部署大模型变得像安装普通软件一样简单。更棒的是,我们还会用 Docker Compose 来管理整个服务,确保环境干净、稳定,并且可以一键启动。

学完这篇教程,你将能:

  1. 在自己的电脑上搭建一个私有的Llama-3.2-3B模型服务。
  2. 通过网页界面或API,像使用ChatGPT一样与模型对话。
  3. 掌握使用Docker Compose编排服务的基本方法,方便后续管理和扩展。

准备好了吗?让我们开始吧。

1. 环境准备:安装必要的工具

在开始部署模型之前,我们需要先准备好“工具箱”。整个过程只需要安装两个核心工具:Docker 和 Docker Compose。

1.1 安装 Docker

Docker 是一个容器化平台,它能把我们的应用和它需要的所有环境打包在一起,确保在任何电脑上运行的效果都一样。你可以把它理解为一个超级轻量级的虚拟机。

对于 Windows/macOS 用户: 访问 Docker 官网,下载对应系统的 Docker Desktop 安装包。安装过程基本是“下一步”到底,安装完成后,记得启动 Docker Desktop 应用。

对于 Linux 用户(以 Ubuntu 为例): 打开终端,依次执行以下命令:

# 更新软件包列表
sudo apt-get update

# 安装必要的依赖包
sudo apt-get install ca-certificates curl

# 添加 Docker 的官方 GPG 密钥
sudo install -m 0755 -d /etc/apt/keyrings
sudo curl -fsSL https://download.docker.com/linux/ubuntu/gpg -o /etc/apt/keyrings/docker.asc
sudo chmod a+r /etc/apt/keyrings/docker.asc

# 设置 Docker 的软件源
echo \
  "deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.asc] https://download.docker.com/linux/ubuntu \
  $(. /etc/os-release && echo "$VERSION_CODENAME") stable" | \
  sudo tee /etc/apt/sources.list.d/docker.list > /dev/null

# 再次更新软件包列表
sudo apt-get update

# 安装 Docker 引擎及相关组件
sudo apt-get install docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin

# 验证安装是否成功
sudo docker run hello-world

如果看到“Hello from Docker!”的欢迎信息,说明 Docker 安装成功。

1.2 安装 Docker Compose

Docker Compose 是一个用来定义和运行多容器 Docker 应用的工具。我们用一个简单的配置文件,就能描述整个服务(模型+Web界面)的构成,然后一条命令启动所有。

对于 Docker Desktop 用户: Docker Compose 已经包含在 Docker Desktop 中,无需单独安装。

对于 Linux 用户: 如果你按照上面的命令安装了 docker-compose-plugin,那么 docker compose 命令已经可用。如果没有,可以单独安装:

# 下载 Docker Compose 的二进制文件
sudo curl -L "https://github.com/docker/compose/releases/latest/download/docker-compose-$(uname -s)-$(uname -m)" -o /usr/local/bin/docker-compose

# 赋予执行权限
sudo chmod +x /usr/local/bin/docker-compose

# 验证安装
docker-compose --version

2. 一键部署:使用 Docker Compose 启动服务

工具装好了,现在进入最核心的一步。我们不需要手动去下载模型、配置环境,一切都通过一个配置文件搞定。

2.1 创建项目目录和配置文件

首先,在你电脑上找个合适的位置(比如桌面或文档里),新建一个文件夹,例如叫做 llama-ollama。然后在这个文件夹里,创建一个名为 docker-compose.yml 的文件。

用你喜欢的文本编辑器(如记事本、VS Code等)打开这个文件,将以下内容复制进去:

version: '3.8'

services:
  ollama:
    image: ollama/ollama:latest
    container_name: llama-ollama
    restart: unless-stopped
    ports:
      - "11434:11434"
    volumes:
      - ./ollama_data:/root/.ollama
    command: serve

  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: open-webui
    restart: unless-stopped
    ports:
      - "3000:8080"
    environment:
      - OLLAMA_BASE_URL=http://ollama:11434
    volumes:
      - ./webui_data:/app/backend/data
    depends_on:
      - ollama

这个配置文件做了什么? 它定义了两个“服务”:

  1. ollama服务:使用官方 ollama/ollama 镜像,它会自动拉取并运行我们需要的环境。我们把它的内部端口 11434 映射到电脑的 11434,这样外部才能访问。volumes 这一行是把模型数据保存在本地文件夹 ./ollama_data 里,即使容器删除,模型也不会丢。
  2. open-webui服务:这是一个非常漂亮的、开源的大模型Web聊天界面,类似于ChatGPT的网页版。它通过环境变量 OLLAMA_BASE_URL 连接到我们刚刚启动的 ollama 服务。我们把它的端口 8080 映射到电脑的 3000 端口。

2.2 启动所有服务

保存好 docker-compose.yml 文件后,打开终端(或命令提示符/PowerShell),进入到你刚才创建的 llama-ollama 文件夹。

执行一条简单的命令:

docker-compose up -d

-d 参数表示在“后台”运行。执行后,你会看到终端开始拉取镜像、创建容器。第一次运行需要下载两个镜像,可能会花几分钟时间,请耐心等待。

当看到类似下面这样的提示,并且没有报错时,就说明服务启动成功了:

[+] Running 3/3
 ✔ Network llama-ollama_default    Created
 ✔ Container llama-ollama          Started
 ✔ Container open-webui            Started

3. 拉取并运行 Llama-3.2-3B 模型

服务框架搭好了,现在我们需要把“大脑”——也就是Llama-3.2-3B模型——放进去。

3.1 进入 Ollama 容器内部

模型需要通过 ollama 的命令来拉取。我们需要先进入到正在运行的 ollama 容器内部。

在终端执行:

docker exec -it llama-ollama ollama pull llama3.2:3b

这条命令做了两件事:docker exec -it llama-ollama 是进入名为 llama-ollama 的容器;ollama pull llama3.2:3b 是告诉容器里的 ollama 工具去下载 llama3.2:3b 这个模型。

注意:模型大小约1.7GB,下载速度取决于你的网络。你可以去喝杯咖啡,等待下载完成。成功后会显示 “pulling manifest”、“pulling digest...”、“success” 等信息。

3.2 验证模型是否就绪

模型拉取完成后,我们可以验证一下它是否已经在运行。

docker exec -it llama-ollama ollama list

如果看到列表中有 llama3.2:3b,并且显示 latest 标签,就说明模型已经准备就绪了。

4. 开始使用:通过Web界面与模型对话

最激动人心的部分来了!现在,打开你电脑上的浏览器(Chrome、Edge、Firefox等都可以)。

在地址栏输入:http://localhost:3000

你会看到 Open WebUI 的登录/注册页面。因为是第一次使用,点击“Sign Up”注册一个新账户,设置一个用户名和密码即可。

注册并登录后,你就进入了主界面。接下来需要简单设置一下,让 WebUI 知道我们的模型在哪里。

4.1 在WebUI中选择模型

  1. 在WebUI主界面,找到模型选择的下拉菜单(通常在输入框上方或侧边栏)。
  2. 点击下拉菜单,你应该能看到一个名为 llama3.2:3b 的选项。这就是我们刚刚拉取的模型。
  3. 选择 llama3.2:3b

4.2 开始你的第一次对话

现在,页面下方的输入框已经跃跃欲试了。你可以像使用任何聊天软件一样,向它提问。

试试这些开场白:

  • “你好,请介绍一下你自己。”
  • “用Python写一个简单的计算器程序。”
  • “帮我写一封感谢面试官的邮件。”
  • “讲一个关于太空探险的短故事。”

输入问题,按下回车,稍等几秒钟,模型就会开始生成回答。第一次回答可能会慢一点,因为模型需要加载到内存中,后续的对话就会快很多。

5. 进阶使用与管理技巧

基础功能已经实现了,下面是一些能让你的使用体验更好的小技巧。

5.1 管理你的服务

  • 停止所有服务:在项目目录 (llama-ollama) 下运行 docker-compose down。这会停止并移除容器,但不会删除你本地的模型数据(ollama_data文件夹)和聊天记录(webui_data文件夹)。
  • 重新启动服务:再次运行 docker-compose up -d 即可。
  • 查看服务日志:如果你想看看后台发生了什么,可以运行 docker-compose logs -f ollama 来查看模型服务的日志。-f 参数可以实时滚动显示。
  • 彻底清理(谨慎操作):如果你想从头开始,可以运行 docker-compose down -v注意-v 参数会删除上面提到的数据卷,你的模型和聊天记录都会被清空。

5.2 尝试其他模型

Ollama 支持非常多的开源模型。如果你想换一个试试,比如更小的 llama3.2:1b 或者其他的,可以这样操作:

  1. 停止服务:docker-compose down
  2. 进入项目目录,编辑 docker-compose.yml,找到 ollama 服务的 command: serve 这一行。实际上,我们不需要修改这里。更简单的方法是直接通过命令拉取新模型。
  3. 启动服务:docker-compose up -d
  4. 拉取新模型,例如:docker exec -it llama-ollama ollama pull llama3.2:1b
  5. 在 Open WebUI 的模型选择下拉菜单中,就可以切换到新模型了。

5.3 模型保存在哪里?

我们之前通过 volumes 把数据挂载到了本地。

  • 模型文件:保存在你项目目录下的 ollama_data 文件夹里。
  • WebUI数据和聊天记录:保存在 webui_data 文件夹里。

这意味着,只要你备份好这两个文件夹,即使重装系统,也可以快速恢复你的整个AI助手环境。

6. 总结

恭喜你!至此,你已经成功在本地部署了一个功能完整的 Llama-3.2-3B 大模型服务,并拥有了一个美观易用的聊天界面。

我们来快速回顾一下今天的成果:

  1. 环境搭建:安装了 Docker 和 Docker Compose,为一切奠定了基础。
  2. 服务编排:通过一个 docker-compose.yml 文件,定义并一键启动了模型服务和Web界面。
  3. 模型部署:使用一条命令拉取了 Llama-3.2-3B 模型。
  4. 交互体验:通过浏览器访问 localhost:3000,就能像使用在线服务一样与私有模型对话。

这套方案的优点非常明显:部署简单、环境隔离、数据持久、易于管理。无论是用于学习、开发,还是作为个人私密的写作助手、编程伙伴,它都是一个非常棒的选择。

现在,你的个人AI助手已经就位。你可以尽情地向它提问、让它协助你工作、激发你的创意。享受这段与私有智能对话的旅程吧!


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐