safetensors转为gguf，并在ollama中部署

码上上班

523人浏览 · 2025-11-03 20:10:04

码上上班 · 2025-11-03 20:10:04 发布

1. 模型下载

2. 开始转换hf模型为gguf，需要用|lama.cpp仓库的convert_hf_to_gguf.py脚本来转换

git clone https://github.com/ggerganov/llama.cpp.git
pip install -r llama.cpp/requirements.txt

3.执行转换

#不量化,保留模型的效果

python llama.cpp/convert_hf_to_gguf.py /mnt/workspace/.cache/modelscope/models/LLM-Research/Meta-Llama-3-8B-Instruct --outtype f16 --verbose --outfile Meta-Llama-3-8B-Instruct_f16.gguf

#需要量化(加速并有损失效果)

python llama.cpp/convert_hf_to_gguf.py /mnt/workspace/.cache/modelscope/models/LLM-Research/Meta-Llama-3-8B-Instruct --outtype q8_0 --verbose --outfile Meta-Llama-3-8B-Instruct_f16.gguf

4.启动ollama

nohup ollama serve &

5.创建Modelfile

# 基础模型：指定本地Llama 3 8B Instruct模型路径
FROM ./Meta-Llama-3-8B-Instruct_f16.gguf

# 模型参数配置（根据需求调整）
# 温度值：0~1，越低回答越严谨，越高越灵活
PARAMETER temperature 0.7
# 采样范围：0~1，控制回答多样性（0.8适合大多数场景）
PARAMETER top_p 0.8
# 重复惩罚：>1 防止重复生成，1.05为轻微惩罚
PARAMETER repeat_penalty 1.05
# 停止符：遇到这些字符时停止生成（适配Llama 3格式）
PARAMETER stop <|im_end|>

# 对话模板（严格遵循Llama 3的<|im_start|>格式）
TEMPLATE """{{ if .System }}<|im_start|>system
{{ .System }}<|im_end|>
{{ end }}{{ if .Prompt }}<|im_start|>user
{{ .Prompt }}<|im_end|>
{{ end }}<|im_start|>assistant
{{ .Response }}<|im_end|>"""

# 系统提示词（定义模型角色和行为）
SYSTEM """
你是一个由Llama 3驱动的智能助手，擅长清晰、准确地回答各类问题。
- 回答需符合中文表达习惯，简洁易懂；
- 遇到不确定的内容，会明确说明“不确定”，不编造信息；
- 支持多轮对话，会结合上下文理解用户需求。
"""

6.创建自定义模型

ollama create Meta-Llama-3-8B-Instruct_f16  --file ./Modelfile

7.运行模型

 ollama run Meta-Llama-3-8B-Instruct_f16

8.open-webui界面集成使用

pip install open-webui
open-webui serve

访问端口 8080

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

GSV2231@ACP# 旗舰三屏 AI 多任务显示扩展芯片

AI Agent技术社区

AI Agent Harness故障自愈：自动恢复机制

首先，我们得明确几个在全文中会反复出现、必须先建立共识的极简定义AI Agent：一个具备“感知（Perceive）- 思考（Reason）- 行动（Act）- 记忆（Memory）”四阶闭环能力的智能体，它不是单个大模型，而是由 LLM/ChatGLM/Qwen 等大模型底座、工具链调用模块、长期/短期记忆系统、对话/任务状态机、多模态感知接口等组件拼接而成的“智能协作单元”。：我更愿意把它翻译

AI Agent技术社区

AI Agent Harness Engineering 的定价模型：从成本导向到价值导向的完整策略设计

AI Agent Harness Engineering是一个新兴领域，专注于设计、构建和维护能够有效"驾驭"AI智能体的框架、工具和方法论。它涵盖了从智能体的部署、监控、治理到价值评估的全生命周期管理。随着企业对AI Agent依赖程度的增加，如何为这些"驾驭"系统定价，成为了一个既关键又复杂的问题。传统的软件定价模型（如许可证、订阅制）在AI时代面临着新的挑战。AI Agent的运行成本不仅包