AI Agent的评估与测试：如何量化智能体性能

开发小能手-roy

8人浏览 · 2026-07-01 10:05:23

开发小能手-roy · 2026-07-01 10:05:23 发布

AI Agentçè¯ä¼°ä¸æµè¯ï¼å¦ä½éåæºè½ä½æ§è½

ä¸ãä¸ºä»ä¹Agentè¯ä¼°å¦æ¤å¤æ

å¤è½®äº¤äºæ§ï¼Agentéè¦å¨å¤è½®å¯¹è¯ä¸ä¿æç¶æä¸è´æ§
å·¥å·è°ç¨è½åï¼æ¶åå¤é¨APIãæ°æ®åºãä»£ç æ§è¡ç heterogeneous å·¥å·
èªä¸»è§åï¼æ§è¡è·¯å¾éç¡®å®æ§ï¼åä¸ä»»å¡å¯è½æå¤ç§æ£ç¡®è§£æ³
é¿ç¨ä¾èµï¼ä»»å¡æ¥éª¤é´åå¨å æé¾ï¼æ©æéè¯¯å¯è½çº§èæ¾å¤§
ç¯å¢äº¤äºï¼éè¦ä¸çå®ææ¨¡æç¯å¢å¨æäº¤äº

äºãæ ¸å¿è¯ä¼°ç»´åº¦

2.1 ä»»å¡å®æçï¼Task Success Rateï¼

from dataclasses import dataclass
from typing import List, Optional, Any

@dataclass
class TaskResult:
    """ä»»å¡æ§è¡ç»æ"""
    task_id: str
    success: bool           # æ¯å¦æåå®æ
    completion_rate: float  # å®æåº¦ï¼0.0-1.0ï¼
    steps_taken: int        # æ§è¡æ¥æ°
    max_steps: int          # æå¤§åè®¸æ¥æ°
    time_elapsed: float     # èæ¶ï¼ç§ï¼
    final_answer: str       # æç»è¾åº
    gold_answer: str        # æ åçæ¡

class TaskSuccessEvaluator:
    """ä»»å¡å®æçè¯ä¼°å¨"""
    
    def __init__(self, tolerance: float = 0.05):
        self.tolerance = tolerance  # æ°å¼æ¯è¾å®¹å·®
    
    def exact_match(self, predicted: str, expected: str) -> bool:
        """ç²¾ç¡®å¹é"""
        return predicted.strip() == expected.strip()
    
    def contains_match(self, predicted: str, expected: str) -> bool:
        """åå«å¹éï¼é¢æµåå«æ£ç¡®çæ¡å³å¯"""
        return expected.strip().lower() in predicted.strip().lower()
    
    def numeric_match(self, predicted: str, expected: str) -> bool:
        """æ°å¼å¹éï¼æ¯æå®¹å·®æ¯è¾"""
        try:
            p_val = float(predicted.replace(",", ""))
            e_val = float(expected.replace(",", ""))
            return abs(p_val - e_val) / max(abs(e_val), 1e-10) < self.tolerance
        except ValueError:
            return False
    
    def evaluate(self, results: List[TaskResult]) -> dict:
        """è¯ä¼°ä¸æ¹ä»»å¡ç»æ"""
        total = len(results)
        success_count = sum(1 for r in results if r.success)
        avg_completion = sum(r.completion_rate for r in results) / total
        avg_steps = sum(r.steps_taken for r in results) / total
        
        # æçææ ï¼æ¯å¦å¨åçæ¥æ°åå®æ
        efficient_count = sum(
            1 for r in results 
            if r.success and r.steps_taken <= r.max_steps * 0.8
        )
        
        return {
            "success_rate": success_count / total,
            "avg_completion_rate": avg_completion,
            "avg_steps": avg_steps,
            "efficiency_rate": efficient_count / total,
            "total_tasks": total
        }

# ä½¿ç¨ç¤ºä¾
results = [

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

Claude Science 让实验笔记本成为产品，Sciverse 要做的是它背后的科学证据数据层

AI Agent技术社区

AI 音频工具大盘点：Suno、Udio、ElevenLabs、剪映AI 横向对比

从AI音乐生成、AI语音合成、短视频配音、视频本地化和商业交付角度，横向评测Suno、Udio、ElevenLabs和剪映AI，覆盖功能、价格、评分、适用场景、版权风险和选型建议。

AI Agent技术社区

2026年智能语音机器人厂商深度横评：谁在“听懂”和“办成”之间跑通了闭环？

2026年智能语音机器人核心分水岭是“听懂之后能不能办成”。本文从语音识别与方言适配、意图识别与业务执行深度、拟人化交互体验三个维度横评六家厂商。优音通信在方言覆盖（18种方言+7种外语）、意图识别（92%）、业务闭环（API深度集成）、拟人化交互（GAN真人级TTS）上均有覆盖；科大讯飞方言覆盖最广；竹间智能情感计算见长；青牛软件以高稳定性见长。选型应聚焦“能办成”而非仅“能听懂”。