本地跑大模型,从学会 Ollama 开始

一、什么是 Ollama?

Ollama 是一个轻量级的本地大模型运行工具,可以让我们在自己的电脑上轻松下载、运行各种开源大模型(比如 Qwen2、DeepSeek-Coder 等)。不用联网,也不用担心隐私问题,非常适合学习和实验。

下面是我整理的常用命令,大部分都在PowerShell下亲测有效。


二、常用命令详解

1. ollama run – 运行模型

bash

ollama run MODEL[:版本] [提示词] [flags]

示例:运行通义千问 0.5B 参数的小模型

ollama run qwen2:0.5b

如果省略版本号,默认使用 :latest

ollama run qwen2   # 等同于 ollama run qwen2:latest

带提示词直接运行

ollama run qwen2:0.5b "您好"
# 输出:您好!有什么问题我可以帮助您?

常用参数

参数 说明
--format json 让模型输出 JSON 格式
--insecure 忽略 HTTPS 证书(下载模型时用)
--keepalive 设置模型在内存中的存活时间
--nowordwrap 关闭自动换行
--verbose 显示 token 统计信息(耗时、速率等)

--verbose 示例

bash

ollama run qwen2:0.5b --verbose
>>> 您好
欢迎光临...
total duration: 1.23s
prompt eval count: 10 token(s)
eval rate: 17.22 tokens/s

2. ollama show – 查看模型信息

bash

ollama show MODEL [flags]

常用 flags

flag 作用
--license 查看模型许可
--modelfile 查看 Modelfile 源文件
--parameters 查看内置参数
--system 查看系统提示词
--template 查看提示词模板

示例:查看 qwen2 的模板

bash

ollama show qwen2 --template

输出类似:

text

{{ if .System }}<|im_start|>system
{{ .System }}<|im_end|>
{{ end }}...

3. ollama pull – 下载模型

模型可以从 Ollama 官网 搜索。

bash

ollama pull MODEL[:版本]

示例

bash

ollama pull qwen2               # 下载最新版
ollama pull qwen2:0.5b          # 下载指定版本
ollama pull qwen2 --insecure    # 忽略证书下载

4. ollama list / ollama ls – 查看已安装模型

bash

ollama list

输出示例:

text

NAME                    ID              SIZE    MODIFIED      
qwen2:latest            e0d4e1163c58    4.4 GB  10 minutes ago
deepseek-coder:latest   3ddd2d3fc8d2    776 MB  3 hours ago
qwen2:0.5b              6f48b936a09f    352 MB  8 hours ago

字段说明:名称、模型ID、大小、最后修改时间。


5. ollama ps – 查看正在运行的模型

bash

ollama ps

输出示例:

text

NAME                    ID              SIZE    PROCESSOR       UNTIL
deepseek-coder:latest   3ddd2d3fc8d2    1.3 GB  100% CPU        About a minute from now

字段说明:名称、ID、内存占用、处理器(CPU/GPU)、剩余存活时间。


6. ollama rm – 删除模型

bash

ollama rm MODEL[:版本]

示例

bash

ollama rm qwen2:0.5b   # 删除后就不再显示了

三、对话内指令(在 ollama run 交互界面中使用)

进入模型对话后,输入 / 可以看到所有指令:

bash

ollama run qwen2:0.5b
>>> /?

可用指令:

指令 作用
/set 设置会话变量
/show 显示模型信息
/load <model> 切换模型
/save <model> 保存当前会话为模型
/clear 清除上下文(重置记忆)
/bye 退出对话
/?, /help 帮助

还有一些快捷键:Ctrl + l 清屏,Ctrl + d 退出等。


/show 子指令

在对话中输入 /show info 可以查看当前模型的基本信息:

text

>>> /show info
Model details:
Family              qwen2
Parameter Size      494.03M
Quantization Level  Q4_0

其他子指令:/show license/show modelfile/show parameters/show system/show template


/set 子指令 – 调整参数

/set 可以控制输出格式、上下文、温度等。

常用设置

命令 作用
/set format json 输出 JSON 格式
/set noformat 取消格式要求
/set verbose 显示 token 统计
/set quiet 关闭统计
/set history / /set nohistory 开启/关闭对话历史
/set wordwrap / /set nowordwrap 自动换行开关

设置参数示例(控制生成多样性):

text

/set parameter temperature 0.7
/set parameter top_p 0.9
/set parameter num_predict 512
/set parameter stop "."

常用参数解释:

参数 作用 默认值
temperature 创造性(越高越随机) 0.8
top_k 候选词范围(越高越多变) 40
top_p 核采样阈值 0.9
num_predict 最大生成 token 数 128
num_ctx 上下文窗口大小 2048
repeat_penalty 重复惩罚强度 1.1

/clear – 清空上下文

模型默认有记忆,会记住之前的对话。如果需要重新开始对话(不切换模型),用 /clear 清除上下文。

示例

text

>>> 请帮我出1道Java list的单选题
(模型出题)
>>> 再出1道
(模型继续出题)
>>> /clear
Cleared session context
>>> 再出1道
(模型不记得刚才的题目了)

/load – 切换模型

在同一个对话中动态切换模型(不用退出重新 ollama run):

text

>>> /load deepseek-coder
Loading model 'deepseek-coder'
>>> 你是什么大模型
我是 Deepseek Coder,编程专用助手...

/save – 保存当前会话为模型

可以把当前会话(包括设置的系统提示词、参数等)保存成一个新模型:

text

>>> /save my-qwen
Created new model 'my-qwen'

保存的模型位于 ~/.ollama/models/manifests/registry.ollama.ai/library/ 下。


""" – 多行输入

如果提示词包含换行,可以用三个双引号包裹:

text

>>> """
... 你好
... 你是什么模型?
... """
模型会正常响应。

四、个人总结

通过这几天的学习,我体会到 Ollama 真的是本地玩大模型的利器。它把复杂的模型下载、运行、切换、参数调整都封装成了简单的命令,在没有wifi的时候,也可以调用本地的模型,对初学者非常友好。

我的建议

  • 先从小的模型开始(比如 qwen2:0.5b 只有 352MB),跑通了再尝试更大的。

  • 多用 --verbose 观察 token 消耗和速率,了解模型性能。

  • 多试试 /set parameter 调整温度、top_p 等,感受生成文本的变化。

当然,我还在学习中,很多地方理解得不一定准确。如果大家发现问题,欢迎在评论区指出,我会认真修正的!也希望能和同样对 AI 感兴趣的同学多多交流~ 🤝

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐