Ollama+grainte-4.0-h-350m：函数调用任务详解

高杉峻

949人浏览 · 2026-02-12 10:40:09

高杉峻 · 2026-02-12 10:40:09 发布

Ollama+granite-4.0-h-350m：函数调用任务详解

1. 引言：为什么函数调用是AI落地的关键一步

想象一下，你正在开发一个智能助手，用户问：“帮我查一下北京明天下午三点的天气，然后告诉我穿什么衣服合适。” 这是一个典型的复合任务。一个简单的文本生成模型可能会给你一段描述天气的文字，但它无法真正“执行”查询天气和推荐穿搭这两个动作。这就是函数调用（Function Calling）的价值所在——它让AI模型从“能说会道”的聊天伙伴，变成了“能动手做事”的智能代理。

今天，我们要深入探讨的，就是如何在轻量级模型 granite-4.0-h-350m 上，利用 Ollama 部署，来实现强大且实用的函数调用能力。这个仅有3.5亿参数的“小个子”模型，在函数调用任务上展现出了令人惊喜的潜力，尤其适合资源有限但希望快速集成智能交互能力的中小企业和开发者。

2. 理解函数调用：从概念到价值

2.1 什么是函数调用？

简单来说，函数调用就是让大语言模型（LLM）学会识别用户的意图，并将其转化为对预定义工具或API的调用指令。模型不再仅仅生成一段文本作为回答，而是输出一个结构化的请求，比如：

用户输入：“播放周杰伦的《七里香》。”
模型输出（结构化）：{"function": "play_music", "arguments": {"artist": "周杰伦", "song": "七里香"}}

然后，你的应用程序接收到这个结构化输出，去真正执行“播放音乐”这个函数，并将结果返回给用户。这实现了从“对话”到“行动”的跨越。

2.2 granite-4.0-h-350m 在函数调用上的优势

你可能会问，很多百亿、千亿参数的大模型都支持函数调用，为什么我们要关注这个3.5亿参数的模型？

极致的轻量化与低成本：granite-4.0-h-350m 可以在消费级显卡（如RTX 3060）甚至CPU上流畅运行，部署和推理成本极低，让函数调用能力不再是大企业的专属。
快速的响应速度：小参数模型推理速度快，对于需要低延迟交互的场景（如实时客服、智能设备指令）非常友好。
专注于指令跟随：该模型经过高质量的指令微调，在理解用户意图并转化为规范动作方面表现突出，这正是函数调用的核心。
易于集成与微调：模型结构简单，方便开发者针对自己特定的函数集进行进一步的微调，实现更高的准确率。

3. 实战：部署与基础函数调用演示

让我们从零开始，看看如何用 Ollama 玩转 granite-4.0-h-350m 的函数调用。

3.1 环境准备与模型部署

首先，确保你的系统已经安装了 Ollama。如果还没安装，官网提供了各平台一键安装的脚本。

部署 granite-4.0-h-350m 模型只需要一行命令：

ollama run granite4:350m-h

第一次运行会自动从仓库拉取模型。拉取完成后，你会进入一个交互式命令行界面，可以直接输入问题测试，比如输入 Hello。不过，我们要做更酷的事情。

为了更方便地进行函数调用的编程测试，我们更常用 Ollama 的 API 服务模式。启动 API 服务：

ollama serve

服务默认运行在 http://localhost:11434。现在，我们可以用任何 HTTP 客户端（如 curl 或 Python 的 requests 库）来调用它。

3.2 第一个函数调用示例：让模型“思考”如何行动

我们假设给模型定义了三个简单的工具函数：

get_weather(location: str)：获取某地天气。
play_music(artist: str, song: str)：播放音乐。
send_email(to: str, subject: str, body: str)：发送邮件。

我们的目标是，当用户提出一个涉及这些功能的请求时，模型能识别出需要调用哪个函数，并提取出正确的参数。

下面是一个使用 Python 的简单演示脚本：

import requests
import json

# 1. 定义我们提供给模型的函数工具列表
tools = [
    {
        "type": "function",
        "function": {
            "name": "get_weather",
            "description": "获取指定城市的当前天气信息",
            "parameters": {
                "type": "object",
                "properties": {
                    "location": {
                        "type": "string",
                        "description": "城市名，例如：北京、上海"
                    }
                },
                "required": ["location"]
            }
        }
    },
    {
        "type": "function",
        "function": {
            "name": "play_music",
            "description": "根据歌手和歌曲名播放音乐",
            "parameters": {
                "type": "object",
                "properties": {
                    "artist": {"type": "string", "description": "歌手姓名"},
                    "song": {"type": "string", "description": "歌曲名称"}
                },
                "required": ["artist", "song"]
            }
        }
    }
]

# 2. 构建请求，将工具定义和用户问题一起发送给模型
def ask_model_with_tools(user_query):
    url = "http://localhost:11434/api/generate"
    payload = {
        "model": "granite4:350m-h",
        "prompt": user_query,
        "stream": False,
        "options": {
            "temperature": 0.1  # 低温度使输出更确定，更适合函数调用
        },
        # 关键：在消息中传递工具定义。Ollama API 通常通过 `tools` 字段或特定格式的system prompt支持。
        # 注意：granite-4.0-h-350m 需要通过特定的提示词格式来引导函数调用。
        # 一种常见且有效的方法是使用“系统提示词”来指导模型。
        "system": f"""你是一个智能助手，可以根据用户请求调用工具。
        你可以使用的工具如下：
        {json.dumps(tools, ensure_ascii=False)}
        当用户请求需要调用工具时，请严格按照以下JSON格式回复，且只回复这个JSON，不要有其他文字：
        {{"function": "函数名", "arguments": {{"参数1": "值1", "参数2": "值2"}}}}
        如果不需要调用工具，请正常对话。"""
    }
    
    response = requests.post(url, json=payload)
    return response.json()

# 3. 测试
user_question = "我想听周杰伦的七里香"
result = ask_model_with_tools(user_question)
print("模型原始回复：", result.get('response', ''))

# 4. 解析模型的回复
try:
    # 尝试解析模型返回的JSON
    model_output = result['response'].strip()
    # 这里需要根据模型实际返回的格式进行解析。
    # 理想情况下，模型应返回我们要求的纯JSON字符串。
    if model_output.startswith('{') and model_output.endswith('}'):
        action = json.loads(model_output)
        print("解析出的动作指令：", action)
        # 接下来，你的程序可以根据 action['function'] 和 action['arguments'] 去执行真正的函数
        if action['function'] == 'play_music':
            print(f"执行：播放 {action['arguments'].get('artist')} 的 {action['arguments'].get('song')}")
        # ... 其他函数处理
    else:
        print("模型进行了普通对话回复：", model_output)
except json.JSONDecodeError:
    print("模型返回的不是标准JSON，可能是普通回复：", model_output)

代码解释与要点：

系统提示词是关键：我们通过 system 参数给模型下达了明确的指令，定义了工具列表和期望的输出格式。这是引导轻量级模型进行函数调用的有效方法。
输出格式约束：我们要求模型只返回一个特定的JSON对象，这简化了后端的解析工作。
温度参数：设置较低的 temperature（如0.1）可以减少模型输出的随机性，让函数调用更稳定。
错误处理：模型可能不会100%遵守格式，所以代码中包含了 try-except 来捕获解析错误，并处理模型进行普通对话的情况。

运行这个脚本，如果模型成功理解了指令，你可能会得到类似这样的输出：

模型原始回复： {"function": "play_music", "arguments": {"artist": "周杰伦", "song": "七里香"}}
解析出的动作指令： {'function': 'play_music', 'arguments': {'artist': '周杰伦', 'song': '七里香'}}
执行：播放 周杰伦 的 七里香

4. 进阶技巧：提升函数调用的准确性与复杂性

4.1 处理多轮对话与上下文

真实的对话往往是多轮的。用户可能会说：“查一下天气”，然后接着说“那明天呢？”。我们需要让模型记住上下文。

Ollama 的 API 支持传递对话历史。我们可以这样构建请求：

conversation_history = [
    {"role": "user", "content": "北京天气怎么样？"},
    {"role": "assistant", "content": '{"function": "get_weather", "arguments": {"location": "北京"}}'},
    # 假设我们模拟系统执行了函数并返回了结果
    {"role": "system", "content": "【执行结果】北京今天晴，15-25度。"},
]

current_query = "明天呢？"
# 将历史记录和当前问题组合成新的prompt或通过API支持的消息列表传递

对于 granite-4.0-h-350m，你需要将这段历史以文本形式巧妙地嵌入到 prompt 或 system 提示词中，指导模型理解“明天”指的是“北京的明天”。

4.2 处理模糊请求与参数补全

用户可能会说“太热了，开空调”，这隐含了“将空调模式设置为制冷”或“调低温度”的函数调用。模型需要有一定的常识推理能力。

你可以在工具描述中写得更加详细，并指导模型进行合理推断：

{
  "name": "control_ac",
  "description": "控制空调。当用户表达‘热’时，通常意味着需要‘打开制冷模式’或‘降低温度’。参数‘mode’可选值：cool, heat, fan, dry。参数‘temperature’是目标温度。",
  "parameters": {...}
}

4.3 与真实后端服务集成

模型成功输出结构化指令后，你的应用程序需要真正执行它。这通常涉及到一个“工具执行器”。

# 接续之前的代码，在解析出 action 之后
def execute_function(action):
    func_name = action['function']
    args = action['arguments']
    
    if func_name == 'get_weather':
        # 调用真实天气API，例如和风天气、OpenWeatherMap
        location = args['location']
        weather_data = call_real_weather_api(location)
        return f"【天气信息】{location}的天气是：{weather_data}"
    elif func_name == 'play_music':
        # 调用内部音乐播放服务或第三方SDK
        artist = args['artist']
        song = args['song']
        success = start_music_playback(artist, song)
        return f"【音乐播放】正在为你播放{artist}的《{song}》"
    else:
        return f"未知函数：{func_name}"

# 执行并获取结果
execution_result = execute_function(action)
print(execution_result)
# 你可以选择将这个结果再反馈给用户，或者作为下一轮对话的上下文。

5. 总结：轻量模型函数调用的机遇与挑战

通过 Ollama 部署 granite-4.0-h-350m 并实现函数调用，我们验证了“小模型也能办大事”的可能性。它将先进的智能交互能力带到了边缘设备、低成本服务器和广大开发者的个人电脑上。

核心价值总结：

低成本验证：在投入重金部署大模型前，用它快速原型验证你的智能助理、机器人流程自动化（RPA）想法。
隐私与安全：数据完全在本地处理，满足对数据敏感行业的合规要求。
实时响应：低延迟特性适合物联网（IoT）设备、交互式语音应用等场景。
高度定制化：由于其轻量，你可以相对容易地收集特定领域的数据，对模型进行微调，使其在你定义的函数集上达到极高的准确率。

面临的挑战与应对建议：

精度限制：相比超大模型，小模型在理解极其复杂、模糊的指令时可能力有不逮。应对：精心设计提示词（Prompt Engineering），提供清晰、详细的工具描述和输出格式示例。
上下文长度：注意模型的上下文窗口限制。应对：在长对话中，主动管理历史记录，提炼关键信息放入上下文。
工具集规模：一次性提供太多工具定义可能会干扰模型。应对：根据对话场景动态加载相关的工具子集。

对于开发者而言，granite-4.0-h-350m 是一个绝佳的起点。它降低了AI应用开发的门槛，让你可以专注于业务逻辑和用户体验，而不必过度担忧底层算力和成本。从今天开始，尝试用它为你下一个项目添加一点“智能”吧。