Llama-3.2-3B镜像部署教程:ollama部署本地大模型+Docker Compose编排
本文介绍了如何在星图GPU平台上自动化部署【ollama】Llama-3.2-3B镜像,快速搭建本地大模型服务。通过该平台,用户可轻松实现模型的自动化部署与Docker Compose编排,并利用该模型进行智能对话、文本生成等应用,为个人学习与开发提供便捷的私有AI助手。
Llama-3.2-3B镜像部署教程:ollama部署本地大模型+Docker Compose编排
想在自己的电脑上跑一个智能助手,但又担心网络问题或者隐私泄露?今天,我们就来手把手教你,如何用最简单的方式,在本地部署一个功能强大的开源大模型——Llama-3.2-3B。
你不需要是技术大牛,也不用担心复杂的配置。我们将使用一个叫 ollama 的工具,它能让部署大模型变得像安装普通软件一样简单。更棒的是,我们还会用 Docker Compose 来管理整个服务,确保环境干净、稳定,并且可以一键启动。
学完这篇教程,你将能:
- 在自己的电脑上搭建一个私有的Llama-3.2-3B模型服务。
- 通过网页界面或API,像使用ChatGPT一样与模型对话。
- 掌握使用Docker Compose编排服务的基本方法,方便后续管理和扩展。
准备好了吗?让我们开始吧。
1. 环境准备:安装必要的工具
在开始部署模型之前,我们需要先准备好“工具箱”。整个过程只需要安装两个核心工具:Docker 和 Docker Compose。
1.1 安装 Docker
Docker 是一个容器化平台,它能把我们的应用和它需要的所有环境打包在一起,确保在任何电脑上运行的效果都一样。你可以把它理解为一个超级轻量级的虚拟机。
对于 Windows/macOS 用户: 访问 Docker 官网,下载对应系统的 Docker Desktop 安装包。安装过程基本是“下一步”到底,安装完成后,记得启动 Docker Desktop 应用。
对于 Linux 用户(以 Ubuntu 为例): 打开终端,依次执行以下命令:
# 更新软件包列表
sudo apt-get update
# 安装必要的依赖包
sudo apt-get install ca-certificates curl
# 添加 Docker 的官方 GPG 密钥
sudo install -m 0755 -d /etc/apt/keyrings
sudo curl -fsSL https://download.docker.com/linux/ubuntu/gpg -o /etc/apt/keyrings/docker.asc
sudo chmod a+r /etc/apt/keyrings/docker.asc
# 设置 Docker 的软件源
echo \
"deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.asc] https://download.docker.com/linux/ubuntu \
$(. /etc/os-release && echo "$VERSION_CODENAME") stable" | \
sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
# 再次更新软件包列表
sudo apt-get update
# 安装 Docker 引擎及相关组件
sudo apt-get install docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin
# 验证安装是否成功
sudo docker run hello-world
如果看到“Hello from Docker!”的欢迎信息,说明 Docker 安装成功。
1.2 安装 Docker Compose
Docker Compose 是一个用来定义和运行多容器 Docker 应用的工具。我们用一个简单的配置文件,就能描述整个服务(模型+Web界面)的构成,然后一条命令启动所有。
对于 Docker Desktop 用户: Docker Compose 已经包含在 Docker Desktop 中,无需单独安装。
对于 Linux 用户: 如果你按照上面的命令安装了 docker-compose-plugin,那么 docker compose 命令已经可用。如果没有,可以单独安装:
# 下载 Docker Compose 的二进制文件
sudo curl -L "https://github.com/docker/compose/releases/latest/download/docker-compose-$(uname -s)-$(uname -m)" -o /usr/local/bin/docker-compose
# 赋予执行权限
sudo chmod +x /usr/local/bin/docker-compose
# 验证安装
docker-compose --version
2. 一键部署:使用 Docker Compose 启动服务
工具装好了,现在进入最核心的一步。我们不需要手动去下载模型、配置环境,一切都通过一个配置文件搞定。
2.1 创建项目目录和配置文件
首先,在你电脑上找个合适的位置(比如桌面或文档里),新建一个文件夹,例如叫做 llama-ollama。然后在这个文件夹里,创建一个名为 docker-compose.yml 的文件。
用你喜欢的文本编辑器(如记事本、VS Code等)打开这个文件,将以下内容复制进去:
version: '3.8'
services:
ollama:
image: ollama/ollama:latest
container_name: llama-ollama
restart: unless-stopped
ports:
- "11434:11434"
volumes:
- ./ollama_data:/root/.ollama
command: serve
open-webui:
image: ghcr.io/open-webui/open-webui:main
container_name: open-webui
restart: unless-stopped
ports:
- "3000:8080"
environment:
- OLLAMA_BASE_URL=http://ollama:11434
volumes:
- ./webui_data:/app/backend/data
depends_on:
- ollama
这个配置文件做了什么? 它定义了两个“服务”:
- ollama服务:使用官方
ollama/ollama镜像,它会自动拉取并运行我们需要的环境。我们把它的内部端口11434映射到电脑的11434,这样外部才能访问。volumes这一行是把模型数据保存在本地文件夹./ollama_data里,即使容器删除,模型也不会丢。 - open-webui服务:这是一个非常漂亮的、开源的大模型Web聊天界面,类似于ChatGPT的网页版。它通过环境变量
OLLAMA_BASE_URL连接到我们刚刚启动的ollama服务。我们把它的端口8080映射到电脑的3000端口。
2.2 启动所有服务
保存好 docker-compose.yml 文件后,打开终端(或命令提示符/PowerShell),进入到你刚才创建的 llama-ollama 文件夹。
执行一条简单的命令:
docker-compose up -d
-d 参数表示在“后台”运行。执行后,你会看到终端开始拉取镜像、创建容器。第一次运行需要下载两个镜像,可能会花几分钟时间,请耐心等待。
当看到类似下面这样的提示,并且没有报错时,就说明服务启动成功了:
[+] Running 3/3
✔ Network llama-ollama_default Created
✔ Container llama-ollama Started
✔ Container open-webui Started
3. 拉取并运行 Llama-3.2-3B 模型
服务框架搭好了,现在我们需要把“大脑”——也就是Llama-3.2-3B模型——放进去。
3.1 进入 Ollama 容器内部
模型需要通过 ollama 的命令来拉取。我们需要先进入到正在运行的 ollama 容器内部。
在终端执行:
docker exec -it llama-ollama ollama pull llama3.2:3b
这条命令做了两件事:docker exec -it llama-ollama 是进入名为 llama-ollama 的容器;ollama pull llama3.2:3b 是告诉容器里的 ollama 工具去下载 llama3.2:3b 这个模型。
注意:模型大小约1.7GB,下载速度取决于你的网络。你可以去喝杯咖啡,等待下载完成。成功后会显示 “pulling manifest”、“pulling digest...”、“success” 等信息。
3.2 验证模型是否就绪
模型拉取完成后,我们可以验证一下它是否已经在运行。
docker exec -it llama-ollama ollama list
如果看到列表中有 llama3.2:3b,并且显示 latest 标签,就说明模型已经准备就绪了。
4. 开始使用:通过Web界面与模型对话
最激动人心的部分来了!现在,打开你电脑上的浏览器(Chrome、Edge、Firefox等都可以)。
在地址栏输入:http://localhost:3000
你会看到 Open WebUI 的登录/注册页面。因为是第一次使用,点击“Sign Up”注册一个新账户,设置一个用户名和密码即可。
注册并登录后,你就进入了主界面。接下来需要简单设置一下,让 WebUI 知道我们的模型在哪里。
4.1 在WebUI中选择模型
- 在WebUI主界面,找到模型选择的下拉菜单(通常在输入框上方或侧边栏)。
- 点击下拉菜单,你应该能看到一个名为
llama3.2:3b的选项。这就是我们刚刚拉取的模型。 - 选择
llama3.2:3b。
4.2 开始你的第一次对话
现在,页面下方的输入框已经跃跃欲试了。你可以像使用任何聊天软件一样,向它提问。
试试这些开场白:
- “你好,请介绍一下你自己。”
- “用Python写一个简单的计算器程序。”
- “帮我写一封感谢面试官的邮件。”
- “讲一个关于太空探险的短故事。”
输入问题,按下回车,稍等几秒钟,模型就会开始生成回答。第一次回答可能会慢一点,因为模型需要加载到内存中,后续的对话就会快很多。
5. 进阶使用与管理技巧
基础功能已经实现了,下面是一些能让你的使用体验更好的小技巧。
5.1 管理你的服务
- 停止所有服务:在项目目录 (
llama-ollama) 下运行docker-compose down。这会停止并移除容器,但不会删除你本地的模型数据(ollama_data文件夹)和聊天记录(webui_data文件夹)。 - 重新启动服务:再次运行
docker-compose up -d即可。 - 查看服务日志:如果你想看看后台发生了什么,可以运行
docker-compose logs -f ollama来查看模型服务的日志。-f参数可以实时滚动显示。 - 彻底清理(谨慎操作):如果你想从头开始,可以运行
docker-compose down -v。注意:-v参数会删除上面提到的数据卷,你的模型和聊天记录都会被清空。
5.2 尝试其他模型
Ollama 支持非常多的开源模型。如果你想换一个试试,比如更小的 llama3.2:1b 或者其他的,可以这样操作:
- 停止服务:
docker-compose down - 进入项目目录,编辑
docker-compose.yml,找到ollama服务的command: serve这一行。实际上,我们不需要修改这里。更简单的方法是直接通过命令拉取新模型。 - 启动服务:
docker-compose up -d - 拉取新模型,例如:
docker exec -it llama-ollama ollama pull llama3.2:1b - 在 Open WebUI 的模型选择下拉菜单中,就可以切换到新模型了。
5.3 模型保存在哪里?
我们之前通过 volumes 把数据挂载到了本地。
- 模型文件:保存在你项目目录下的
ollama_data文件夹里。 - WebUI数据和聊天记录:保存在
webui_data文件夹里。
这意味着,只要你备份好这两个文件夹,即使重装系统,也可以快速恢复你的整个AI助手环境。
6. 总结
恭喜你!至此,你已经成功在本地部署了一个功能完整的 Llama-3.2-3B 大模型服务,并拥有了一个美观易用的聊天界面。
我们来快速回顾一下今天的成果:
- 环境搭建:安装了 Docker 和 Docker Compose,为一切奠定了基础。
- 服务编排:通过一个
docker-compose.yml文件,定义并一键启动了模型服务和Web界面。 - 模型部署:使用一条命令拉取了 Llama-3.2-3B 模型。
- 交互体验:通过浏览器访问
localhost:3000,就能像使用在线服务一样与私有模型对话。
这套方案的优点非常明显:部署简单、环境隔离、数据持久、易于管理。无论是用于学习、开发,还是作为个人私密的写作助手、编程伙伴,它都是一个非常棒的选择。
现在,你的个人AI助手已经就位。你可以尽情地向它提问、让它协助你工作、激发你的创意。享受这段与私有智能对话的旅程吧!
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
更多推荐


所有评论(0)