零成本玩转本地大模型：Ollama新手实战指南

滕亚炯

587人浏览 · 2025-08-03 09:08:23

滕亚炯 · 2025-08-03 09:08:23 发布

零成本玩转本地大模型：Ollama新手实战指南

【免费下载链接】handy-ollama 动手学Ollama，CPU玩转大模型部署，在线阅读地址：https://datawhalechina.github.io/handy-ollama/ 项目地址: https://gitcode.com/datawhalechina/handy-ollama

你是否还在为云端API费用高昂而却步？是否担心数据隐私泄露不敢使用在线大模型？本文将带你从零开始，用Ollama在本地部署高性能大模型，无需昂贵显卡，普通电脑也能流畅运行。读完本文，你将掌握多系统安装配置、模型优化、API开发和实战应用全流程，让AI真正为你所用。

一、Ollama：本地大模型革命

1.1 什么是Ollama

Ollama是一款开源的本地大模型管理工具，它将模型权重、配置和运行环境打包成统一格式，通过简单命令即可实现模型的下载、运行和管理。与传统方案相比，Ollama具有三大优势：

mermaid

硬件门槛低：自动适配CPU/GPU，最低8GB内存即可运行轻量模型
操作简单：一条命令完成模型下载与启动，无需复杂配置
全平台支持：兼容Windows/macOS/Linux及Docker容器化部署

1.2 支持的模型矩阵

Ollama提供丰富的模型库，覆盖从微型到巨型的各类模型：

模型系列	参数规模	典型应用	硬件要求
Llama 3.1	8B-405B	通用对话、代码生成	8GB-24GB显存
Gemma 2	2B-27B	教育场景、轻量任务	4GB-16GB显存
Qwen2	0.5B-72B	多语言处理、数学推理	2GB-32GB显存
DeepSeek-R1	7B-671B	专业领域知识、长文本理解	8GB-48GB显存
Nomic-Embed-Text	1.5B	文本嵌入、向量生成	2GB内存

提示：首次使用建议选择7B参数级模型（如llama3.1:8b），平衡性能与资源消耗

二、多系统安装指南

2.1 Windows系统安装

环境准备：Windows 10/11 64位系统，至少8GB内存

# 1. 下载安装包
# 访问 https://ollama.com/download 下载Windows版本

# 2. 自定义安装路径（避免C盘占用）
.\OllamaSetup.exe /DIR="D:\Ollama"

# 3. 设置环境变量（推荐）
# 变量名: OLLAMA_MODELS
# 变量值: D:\Ollama\Models

# 4. 验证安装
ollama --version

Windows安装流程

关键配置：修改系统环境变量提升性能

变量名	推荐值	作用
OLLAMA_KEEP_ALIVE	24h	模型驻留内存24小时，加速重复访问
OLLAMA_NUM_PARALLEL	2	并发处理请求数，根据CPU核心数调整
OLLAMA_HOST	0.0.0.0	允许局域网访问，便于多设备共享

2.2 Linux系统安装

Ubuntu快速部署：

# 1. 一键安装
curl -fsSL https://ollama.com/install.sh | sh

# 2. 启动服务并设置开机自启
sudo systemctl enable ollama --now

# 3. 验证服务状态
systemctl status ollama

手动安装指定版本：

# 安装0.5.7版本（如需特定版本）
curl -fsSL https://ollama.com/install.sh | OLLAMA_VERSION=0.5.7 sh

# 查看日志
journalctl -e -u ollama

2.3 macOS系统安装

图形化安装：

从官网下载Ollama.dmg
拖入应用程序文件夹
启动后在菜单栏可见状态图标

命令行安装：

# 使用Homebrew安装
brew install ollama

# 启动服务
ollama serve

三、模型管理实战

3.1 基础操作命令

# 拉取模型（首次运行自动下载）
ollama pull llama3.1:8b

# 运行模型
ollama run llama3.1:8b "介绍一下你的功能"

# 查看本地模型
ollama list

# 显示模型详情
ollama show llama3.1:8b

# 删除模型
ollama rm llama3.1:8b

3.2 自定义模型存储位置

Windows系统迁移模型：

# 1. 停止Ollama服务
taskkill /F /IM ollama.exe

# 2. 迁移默认模型文件夹
move C:\Users\<用户名>\.ollama\models D:\Ollama\Models

# 3. 设置环境变量
setx OLLAMA_MODELS "D:\Ollama\Models"

Linux系统配置：

# 编辑系统服务文件
sudo nano /etc/systemd/system/ollama.service

# 添加环境变量
Environment="OLLAMA_MODELS=/data/ollama/models"

# 重启服务
sudo systemctl daemon-reload
sudo systemctl restart ollama

3.3 GPU加速配置

NVIDIA显卡优化：

# 设置GPU层（0-20，越高GPU使用越多）
export OLLAMA_GPU_LAYER=15

# 多GPU指定
export CUDA_VISIBLE_DEVICES=0,1

AMD显卡支持：

# 安装ROCm版本
curl -L https://ollama.com/download/ollama-linux-amd64-rocm.tgz -o ollama-linux-amd64-rocm.tgz
sudo tar -C /usr -xzf ollama-linux-amd64-rocm.tgz

四、API开发指南

4.1 Python客户端

基础安装：

pip install ollama

聊天功能实现：

from ollama import chat

response = chat(
    model='llama3.1',
    messages=[
        {'role': 'user', 'content': '用Python写一个冒泡排序'},
    ]
)
print(response['message']['content'])

流式响应：

from ollama import chat

stream = chat(
    model='llama3.1',
    messages=[{'role': 'user', 'content': '生成100字的科幻故事开头'}],
    stream=True,
)

for chunk in stream:
    print(chunk['message']['content'], end='', flush=True)

4.2 结构化输出

from ollama import chat
import json

response = chat(
    model='llama3.1',
    messages=[{'role': 'user', 'content': '列出3个Python常用库及其用途，返回JSON'}],
    format='json',
    options={'temperature': 0}
)

data = json.loads(response['message']['content'])
print(data)

4.3 异步调用

import asyncio
from ollama import AsyncClient

async def main():
    message = {'role': 'user', 'content': '异步调用测试'}
    response = await AsyncClient().chat(model='llama3.1', messages=[message])
    print(response['message']['content'])

asyncio.run(main())

五、实战应用案例

5.1 本地RAG知识库

环境准备：

pip install langchain langchain_community langchain_chroma langchain_ollama

实现代码：

from langchain_chroma import Chroma
from langchain_ollama import OllamaEmbeddings, ChatOllama
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import TextLoader

# 1. 加载文档
loader = TextLoader("docs/handbook.txt")
documents = loader.load()

# 2. 文档分块
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
splits = text_splitter.split_documents(documents)

# 3. 创建向量库
embeddings = OllamaEmbeddings(model="nomic-embed-text")
vectorstore = Chroma.from_documents(documents=splits, embedding=embeddings)

# 4. 初始化模型
llm = ChatOllama(model="llama3.1:8b")

# 5. 构建RAG链
from langchain_core.runnables import RunnablePassthrough
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

prompt = ChatPromptTemplate.from_template("""
Answer the question based only on the following context:
<context>
{context}
</context>
Question: {question}
""")

chain = (
    {"context": vectorstore.as_retriever() | (lambda docs: "\n".join([d.page_content for d in docs])), 
     "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

# 6. 提问
response = chain.invoke("文档中提到的核心技术有哪些？")
print(response)

5.2 本地AI Copilot搭建

Continue插件配置：

在VSCode中安装Continue插件
打开设置，添加Ollama配置：

{
  "models": [
    {
      "title": "Ollama",
      "provider": "ollama",
      "model": "llama3.1:8b"
    }
  ],
  "tabAutocompleteModel": {
    "title": "CodeLlama",
    "provider": "ollama",
    "model": "codellama:7b"
  }
}

Aider命令行工具：

# 安装Aider
pip install aider-chat

# 设置Ollama API
export OLLAMA_API_BASE=http://127.0.0.1:11434

# 启动Aider
aider --model ollama/llama3.1:8b

六、性能优化与高级技巧

6.1 内存优化策略

mermaid

6.2 常见问题排查

问题	解决方案
模型下载慢	配置代理或手动下载模型文件到models目录
启动报端口占用	检查11434端口占用进程并结束：netstat -ano	findstr 11434
GPU不工作	确认CUDA安装：nvcc --version，检查驱动版本
中文乱码	设置环境变量：LC_ALL=zh_CN.UTF-8

七、总结与展望

通过本文的学习，你已经掌握了Ollama从安装配置到实战开发的全流程。从单一模型运行到RAG知识库构建，从API调用到IDE插件集成，Ollama为本地AI应用提供了无限可能。

随着硬件性能提升和模型优化，本地大模型将在更多场景发挥作用。下一步，你可以尝试：

构建多模型协作系统
开发自定义模型微调流程
实现模型量化与压缩优化

收藏本文，关注项目仓库获取最新教程，让我们一起探索本地AI的无限可能！

项目地址：https://gitcode.com/datawhalechina/handy-ollama 下期预告：《Ollama模型微调实战》

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

从AI代理支付（AI Agent）到自动化付款：Antom全球收单如何支持新型数字交易

AI Agent技术社区

普通话听得准之后，ASR真正难的是这些声音

我一直觉得，语音识别真正尴尬的时刻，不是完全听不见，而是听见了但理解错了。你说的是「蔚来适合家用吗」，它给你写成「未来适合家用吗」。你讲一句带口音的方言，它努力了一下，然后生成了一段看起来很流畅、但跟原意没太大关系的普通话。更麻烦的是，有时候它不是错得很离谱，而是错得非常像真的。你如果不回听原音，甚至很难第一时间发现问题。这才是语音识别后半场最有意思的地方。标准普通话、清晰录音、安静环境，这些场景

AI Agent技术社区

拆解OpenManus四大核心模块：Orchestrator、Agents、Memory、Tools全公开

Manus是一款2025年3月上线的通用AI Agent，由蝴蝶效应团队开发，支持自主完成市场研究、编码等任务。其功能与国内Coze、dify等低代码平台类似，可通过浏览器自动化执行查询机票等操作。SandboxManus是Manus的云端沙箱版本，提供完全隔离的执行环境，内置浏览器、文件系统、Shell等工具，支持VNC远程监控。Daytona作为安全沙盒执行器，确保代码在隔离容器中运行，保障宿