ollama运行qwen2.5-coder:7b

我的前身是GPT-3，它是一种强大的语言生成模型，能够理解和处理自然语言。GPT-4是GPT系列中的一员，拥有更高的性能和能力。\n\n我可以回答问题、提供信息、创作文本和图片等多种任务。我的目标是帮助用户找到答案、解决问题和完成任务。

Mooczx

1862人浏览 · 2024-12-04 15:22:59

Mooczx · 2024-12-04 15:22:59 发布

1.linux安装

curl -fsSL https://ollama.com/install.sh | sh

ollama serve    # 启动ollama
ollama create    # 从模型文件创建模型
ollama show        # 显示模型信息
ollama run        # 运行模型，会先自动下载模型
ollama pull        # 从注册仓库中拉取模型
ollama push        # 将模型推送到注册仓库
ollama list        # 列出已下载模型
ollama ps        # 列出正在运行的模型
ollama cp        # 复制模型
ollama rm        # 删除模型

可以修改配置文件更改：

OLLAMA_HOST       The host:port to bind to (default "127.0.0.1:11434")
OLLAMA_ORIGINS    A comma separated list of allowed origins.
OLLAMA_MODELS     The path to the models directory (default is "~/.ollama/models"

2.下载模型并部署

ollama run qwen2.5-coder:7b

支持多个模型推理，有切换的时间，模型会重新载入到显存。

3.测试

curl http://localhost:11434/v1/chat/completions     
-H "Content-Type: application/json"     
-d '{
        "model": "qwen2.5-coder:7b","stream":true,
        "messages": [
            {
                "role": "user",
                "content": "你好"
            }
        ]
    }'

curl http://localhost:11434/v1/chat/completions     
-H "Content-Type: application/json"     
-d '{
        "model": "llama3.2",              
        "messages": [
            {
                "role": "user",
                "content": "你好"
            }
        ]
    }'

python调用

pip install ollama

import ollama
 
host = "127.0.0.1"
port = "11434"
client = ollama.Client(host=f"http://{host}:{port}")
res = client.chat(model="llama3.2",
                  messages=[{"role": "user", "content": "你是谁"}],
                  options={"temperature": 0})
 
print(res)

model='llama3.2' created_at='2024-12-04T07:17:04.134093457Z' done=True done_reason='stop' total_duration=869011240 load_duration=60456476 prompt_eval_count=28 prompt_eval_duration=38000000 eval_count=92 eval_duration=768000000 message=Message(role='assistant', content='我是GPT-4，一个高级的语言模型。我的前身是GPT-3，它是一种强大的语言生成模型，能够理解和处理自然语言。GPT-4是GPT系列中的一员，拥有更高的性能和能力。\n\n我可以回答问题、提供信息、创作文本和图片等多种任务。我的目标是帮助用户找到答案、解决问题和完成任务。', images=None, tool_calls=None)

4.导入本地模型如:GGUF

下载模型

pip install modelscope

modelscope download --model Qwen/Qwen2.5-3B-Instruct-GGUF  --local_dir /root/autodl-tmp/models/Qwen2.5-3B-Instruct-GGUF

下载好模型创建一个txt

FROM your_path/qwen2.5-3b-instruct-q2_k.gguf

FROM /root/autodl-tmp/models/Qwen2.5-3B-Instruct-GGUF/qwen2.5-3b-instruct-q2_k.gguf

执行

ollama create 模型名称 -f ./my_model.txt

查看模型

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

让 Codex 桌面版拥抱 DeepSeek-V4：协议桥接与模型网关接入实践

4SAPI 提供了一套标准的 Chat Completions 接口，完全兼容 DeepSeek V4 Pro 等模型，使用时只需将 base URL 和密钥替换为平台分配的值即可。这样一来，既保留了桥接层的协议转换能力，又获得了网关带来的额外弹性。这样的模型网关，则进一步提升了链路的稳定性和密钥管理的便捷度，尤其适合团队或对服务可用性有更高要求的场景。│Codex 桌面版│ ──────────

AI Agent技术社区

别再迷信“突破限制”：Gemini 3.5-flash 边界测试实战复盘

AI Agent技术社区

Hermes Agent 上下文压缩机制深度剖析：长对话场景下的有损压缩策略

大语言模型的上下文窗口是有限资源。在长对话场景中，Token 数量不可避免地逼近模型的上下文长度上限，此时系统面临两难选择：截断历史导致信息丢失，或超出限制导致 API 报错。Hermes Agent 的上下文压缩引擎（`ContextCompressor`）实现了一套三阶段有损压缩算法，在保持对话连续性的同时将 Token 消耗控制在安全阈值内。本文从源码层面详细分析该机制的算法设计、边界处理、