【Claude】服务端临时限流报错：区别于个人额度问题的判断与处理

步入烟尘

208人浏览 · 2026-06-21 15:12:28

步入烟尘 · 2026-06-21 15:12:28 发布

【Claude】服务端临时限流报错：区别于个人额度问题的判断与处理

关键词: Claude API、速率限制、Rate Limit、429 错误、服务端限流、个人额度、TPM、RPM、TPD、指数退避、限流响应头、Tier 等级、临时限流、使用窗口、并发控制、队列策略

一、问题描述：当 Claude 说"稍后再试"

在使用 Claude API 或 Claude Code 进行开发时，"请求被拒绝"是最常见的运行期错误之一。但与认证错误（401/403）或服务器内部错误（500）不同，限流错误（429）具有独特的特征：它是"预期内"的错误，是 Anthropic 为了保障服务质量和公平性而设计的保护机制。然而，许多开发者在遇到 429 错误时的第一反应是恐慌——"我的账户被封了？""我的额度用完了？""Anthropic 的服务器宕机了？"

事实上，429 错误背后有多种不同的原因，其中服务端临时限流与个人额度耗尽是完全不同的两种场景，需要采取不同的应对策略。错误地将服务端临时限流当作个人额度问题处理，会导致不必要的账号升级和费用支出；而错误地将个人额度耗尽当作服务端问题处理，则会导致无限重试，浪费时间和资源。

1.1 典型报错场景与错误信息

场景一：API 直接返回 429

HTTP/1.1 429 Too Many Requests
anthropic-ratelimit-requests-limit: 1000
anthropic-ratelimit-requests-remaining: 0
anthropic-ratelimit-requests-reset: 2025-06-21T10:00:00Z
anthropic-ratelimit-tokens-limit: 80000
anthropic-ratelimit-tokens-remaining: 0
anthropic-ratelimit-tokens-reset: 2025-06-21T10:00:00Z
retry-after: 45

{
  "type": "error",
  "error": {
    "type": "rate_limit_error",
    "message": "Rate limit exceeded. Please wait before retrying."
  }
}

场景二：Claude Code 交互模式提示

Server is temporarily limiting requests

或：

Request rejected (429)

或：

You've hit your session limit / You've hit your weekly limit

场景三：Python SDK 异常

import anthropic
client = anthropic.Anthropic(api_key="sk-ant-api03-...")

response = client.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=1024,
    messages=[{"role": "user", "content": "test"}]
)

异常：

anthropic.RateLimitError: Error code: 429 - {'type': 'error', 'error': {'type': 'rate_limit_error', 'message': 'Rate limit exceeded'}}

场景四：个人订阅用户遇到使用限制

You've reached your usage limit
Claude is at capacity right now
Rate limit — try again later

1.2 核心矛盾：服务端临时限流 vs 个人额度问题

这是本文的核心主题。许多开发者将所有的 429 错误和"使用限制"提示混为一谈，但实际上它们有本质区别：

维度	服务端临时限流	个人额度耗尽
错误类型	429 Too Many Requests	"Usage limit reached" / "You've hit your limit"
触发原因	Anthropic 全球基础设施负载过高	个人/组织在滚动窗口内的使用量达到上限
影响范围	所有用户或特定区域的用户	仅影响当前账户
持续时间	通常几秒到几分钟	取决于套餐的滚动窗口（Pro 为 5 小时）
解决方案	指数退避重试	等待窗口刷新或升级套餐
频率	偶发性，与高峰时段相关	可预测，与使用量成正比
HTTP 状态码	明确的 429	可能是 429 或自定义提示消息

理解这个区别是正确处理限流问题的第一步。

二、根因分析：Anthropic 的多层级限流体系

要准确判断 429 错误的原因，必须理解 Anthropic 的完整限流架构。Anthropic 在多个层级上实施限流，每个层级的触发条件和应对策略都不同。

2.1 限流的三维指标体系

Anthropic API 使用三个核心维度进行限流：

维度 1：RPM（Requests Per Minute）—— 每分钟请求数

定义：单位时间内允许发起的 API 请求次数
触发场景：短时间内发起大量请求，如批量处理、并发调用、自动化脚本
典型限制：Tier 1 账户通常为 50 RPM，Tier 2 可达 1000 RPM
重置周期：每分钟滚动计算

维度 2：TPM（Tokens Per Minute）—— 每分钟 Token 处理量

定义：单位时间内允许处理的输入 + 输出 Token 总数
触发场景：发送长文本、处理大文档、使用高输出 Token 数（max_tokens）
细分指标：
- ITPM（Input Tokens Per Minute）：输入 Token 限制
- OTPM（Output Tokens Per Minute）：输出 Token 限制
典型限制：Tier 1 Sonnet 4 为 30,000 TPM，Tier 4 可达 320,000 TPM

维度 3：TPD / 每日/每月额度

定义：每日或每月的累计 Token 使用上限或费用上限
触发场景：长时间大量使用、批处理任务、自动化流水线
限制类型：
- 按 Token 数限制（Message Batches API 有 100,000 的排队限制）
- 按费用限制（组织的 Spend limit）
- 按时间窗口限制（如 5 小时滚动窗口）

关键规则：三个维度的限制同时生效，触发任何一个都会导致 429 错误。因此，诊断限流原因时需要综合考虑请求频率、单次 Token 消耗量和累计使用量。

2.2 服务端临时限流的机制

服务端临时限流是 Anthropic 的全局容量管理机制，与个人使用行为无关。其触发条件包括：

触发条件 1：全球基础设施高峰负载

当 Anthropic 的全球推理集群负载达到阈值时，系统会临时限制新请求的进入速率
这类似于网站的"流量控制"或"熔断机制"
这种限流是动态调整的，根据实时负载自动开启和关闭

触发条件 2：区域/可用区容量限制

某些地理区域或特定可用区可能因局部负载过高而触发限流
通常通过 DNS 和负载均衡自动将流量路由到其他可用区

触发条件 3：特定模型的容量限制

某些模型（如 Claude Opus 4.x）由于计算资源更密集，可能更容易触发临时限流
不同模型的限流是独立计算的，即使 Sonnet 被限流，Haiku 可能仍然可用

服务端临时限流的特征

特征	说明
响应头	`retry-after` 头通常存在且较短（几秒到几十秒）
错误消息	通常包含 "temporarily"、"try again" 等字样
随机性	重试相同的请求可能在几秒后成功
全局性	社区论坛中可能同时有多个用户报告类似问题
自恢复	不需要用户采取任何行动，通常会在短时间内自动恢复

2.3 个人额度问题的机制

个人额度问题与用户账户的使用历史和套餐类型直接相关。

机制 1：滚动窗口（Rolling Window）—— Claude Pro/Max 订阅

Claude Pro 采用5 小时滚动窗口机制，而不是按天重置：

时间轴：
09:00 ──发送消息──→ 进入窗口
       ...
14:00 ──消息老化──→ 退出窗口，释放额度

窗口机制：每发送一条消息，该消息占用的额度在 5 小时后释放
当窗口内的总使用量达到上限时，触发限流

实际示例：

9:00 AM：你发送了 30 条长消息，窗口接近满额
9:30 AM：你收到 "usage limit reached" 提示
2:00 PM：9:00 发送的消息开始老化退出窗口，额度逐渐释放
2:30 PM：窗口内释放足够额度，你可以继续发送消息

关键特性：

没有固定的"每天午夜重置"
额度的释放是渐进的，不是一次性清零
错误提示通常会显示一个估算的等待时间

机制 2：API 账户的 Tier 等级体系

Anthropic API 采用自动升级的 Tier 体系：

Tier	条件	RPM 限制	TPM 限制
Tier 1	新账户，默认	50	30,000-50,000
Tier 2	累计消费 $40+	1,000	80,000-100,000
Tier 3	累计消费 $200+	2,000	160,000-200,000
Tier 4	累计消费 $400+	4,000	320,000-400,000
Custom	与 Anthropic 协商	按需定制	按需定制

升级机制：随着账户的累计消费增加，系统会自动提升 Tier 等级和对应的限额。这是自动的，无需手动申请。

机制 3：组织的 Spend Limit（消费限额）

组织管理员可以在 Anthropic Console 设置月度消费上限
当组织接近或达到 spend limit 时，API 请求会被拒绝
错误信息通常是：Credit balance is too low

2.4 限流响应头的深度解读

Anthropic API 的 429 响应包含丰富的限流信息头，正确解读这些头是诊断限流原因的关键：

anthropic-ratelimit-requests-limit: 1000       ← 当前 Tier 的 RPM 上限
anthropic-ratelimit-requests-remaining: 0       ← 当前分钟内剩余请求数（0 = 已耗尽）
anthropic-ratelimit-requests-reset: 2025-06-21T10:00:00Z  ← RPM 重置时间
anthropic-ratelimit-tokens-limit: 80000         ← 当前 Tier 的 TPM 上限
anthropic-ratelimit-tokens-remaining: 75000    ← 当前分钟内剩余 Token 额度
anthropic-ratelimit-tokens-reset: 2025-06-21T10:00:00Z  ← TPM 重置时间
retry-after: 45                                 ← 建议等待秒数

诊断逻辑：

如果 requests-remaining 为 0 → 触发了 RPM 限制
如果 tokens-remaining 为 0 → 触发了 TPM 限制
如果 retry-after 很短（< 60 秒）→ 可能是服务端临时限流
如果 retry-after 较长（> 300 秒）→ 可能是个人额度问题
如果缺少 anthropic-ratelimit-* 头 → 可能是非标准的限流响应，需检查错误消息体

三、实际操练：判断与处理全流程

本节将提供完整的实操流程，帮助你准确判断限流原因并采取正确的处理措施。

3.1 第一步：区分服务端临时限流与个人额度问题

3.1.1 快速判断流程图

遇到 429 / 使用限制
    ↓
检查响应头中是否有 retry-after?
    ↓
是 → retry-after < 60 秒?
    ↓ 是
    → 服务端临时限流（指数退避重试）
    ↓ 否
    → 检查 anthropic-ratelimit-* 头
        ↓
        requests-remaining == 0 或 tokens-remaining == 0?
        ↓ 是
        → 个人额度问题（等待或升级）
        ↓ 否
        → 检查错误消息体
            ↓
            包含 "temporarily" / "capacity" / "try again"?
            ↓ 是
            → 服务端临时限流
            ↓ 否
            → 包含 "usage limit" / "hit your limit" / "credit balance"?
                ↓ 是
                → 个人额度问题
                ↓ 否
                → 其他限流原因（联系支持）

3.1.2 实用判断脚本

#!/usr/bin/env python3
# diagnose_rate_limit.py - 限流原因诊断脚本

import sys
import json
from datetime import datetime, timezone

def diagnose_rate_limit(response_headers, error_body):
    """
    根据响应头和错误体诊断限流原因
    """
    print("=== 限流原因诊断 ===\n")

    # 提取限流响应头
    req_limit = response_headers.get('anthropic-ratelimit-requests-limit')
    req_remaining = response_headers.get('anthropic-ratelimit-requests-remaining')
    req_reset = response_headers.get('anthropic-ratelimit-requests-reset')
    token_limit = response_headers.get('anthropic-ratelimit-tokens-limit')
    token_remaining = response_headers.get('anthropic-ratelimit-tokens-remaining')
    token_reset = response_headers.get('anthropic-ratelimit-tokens-reset')
    retry_after = response_headers.get('retry-after')

    print("【响应头信息】")
    print(f"  RPM 限制: {req_limit}")
    print(f"  RPM 剩余: {req_remaining}")
    print(f"  RPM 重置: {req_reset}")
    print(f"  TPM 限制: {token_limit}")
    print(f"  TPM 剩余: {token_remaining}")
    print(f"  TPM 重置: {token_reset}")
    print(f"  建议等待: {retry_after} 秒")
    print()

    # 判断逻辑
    if retry_after:
        retry_seconds = int(retry_after)
        if retry_seconds < 60:
            print("【诊断结果】服务端临时限流")
            print("  原因: retry-after 时间很短（< 60秒），说明是动态容量控制")
            print("  建议: 等待几秒后重试，使用指数退避策略")
            return "server_temporary"

    if req_remaining == "0":
        print("【诊断结果】个人 RPM 额度耗尽")
        print(f"  原因: 当前分钟内请求数已达上限（{req_limit} RPM）")
        print("  建议: 降低请求频率，增加并发控制，或升级到更高 Tier")
        return "personal_rpm"

    if token_remaining == "0":
        print("【诊断结果】个人 TPM 额度耗尽")
        print(f"  原因: 当前分钟内 Token 处理量已达上限（{token_limit} TPM）")
        print("  建议: 降低 max_tokens 参数，减少单次请求的 Token 消耗，或升级 Tier")
        return "personal_tpm"

    # 检查错误消息体
    error_message = ""
    if isinstance(error_body, dict):
        error_message = error_body.get('error', {}).get('message', '')
    elif isinstance(error_body, str):
        error_message = error_body

    error_lower = error_message.lower()

    if any(word in error_lower for word in ['temporarily', 'capacity', 'try again', 'server is']):
        print("【诊断结果】服务端临时限流")
        print(f"  原因: 错误消息包含 '{error_message}'")
        print("  建议: 使用指数退避重试，通常几秒到几分钟后自动恢复")
        return "server_temporary"

    if any(word in error_lower for word in ['usage limit', 'hit your limit', 'credit balance', 'too low']):
        print("【诊断结果】个人额度/余额问题")
        print(f"  原因: 错误消息包含 '{error_message}'")
        print("  建议: 检查账户余额和套餐限制，考虑升级或等待窗口刷新")
        return "personal_quota"

    if 'session limit' in error_lower or 'weekly limit' in error_lower:
        print("【诊断结果】订阅用户使用量限制")
        print(f"  原因: 错误消息包含 '{error_message}'")
        print("  建议: 等待 5 小时滚动窗口刷新，或升级到 Max 套餐")
        return "subscription_limit"

    print("【诊断结果】无法确定（未知类型）")
    print(f"  错误消息: {error_message}")
    print("  建议: 记录完整错误信息，联系 Anthropic 支持")
    return "unknown"


# 示例用法
if __name__ == "__main__":
    # 示例 1：服务端临时限流
    print("=" * 60)
    headers1 = {
        'retry-after': '15',
    }
    body1 = {'error': {'type': 'rate_limit_error', 'message': 'Server is temporarily limiting requests. Please try again.'}}
    diagnose_rate_limit(headers1, body1)

    print("\n" + "=" * 60)
    # 示例 2：个人 RPM 耗尽
    headers2 = {
        'anthropic-ratelimit-requests-limit': '50',
        'anthropic-ratelimit-requests-remaining': '0',
        'anthropic-ratelimit-requests-reset': '2025-06-21T10:00:00Z',
        'anthropic-ratelimit-tokens-limit': '40000',
        'anthropic-ratelimit-tokens-remaining': '35000',
        'retry-after': '45',
    }
    body2 = {'error': {'type': 'rate_limit_error', 'message': 'Rate limit exceeded. Please wait before retrying.'}}
    diagnose_rate_limit(headers2, body2)

3.2 第二步：处理服务端临时限流

如果判断为服务端临时限流，应采取以下策略：

3.2.1 指数退避重试策略（Exponential Backoff）

这是处理服务端临时限流的标准做法。

Python 实现：

import time
import random
import anthropic
from anthropic import RateLimitError

client = anthropic.Anthropic(api_key="your-api-key")

def call_with_retry(messages, max_retries=5, base_delay=1.0, max_delay=60.0):
    """
    使用指数退避策略调用 Claude API

    参数:
        max_retries: 最大重试次数
        base_delay: 基础延迟秒数
        max_delay: 最大延迟秒数
    """
    for attempt in range(max_retries + 1):
        try:
            response = client.messages.create(
                model="claude-sonnet-4-20250514",
                max_tokens=1024,
                messages=messages
            )
            return response

        except RateLimitError as e:
            if attempt == max_retries:
                print(f"达到最大重试次数 {max_retries}，放弃请求")
                raise

            # 从响应头获取 retry-after（如果存在）
            retry_after = None
            if hasattr(e, 'response') and e.response:
                retry_after = e.response.headers.get('retry-after')

            if retry_after:
                # 使用服务器建议的等待时间，并添加随机抖动
                wait_time = float(retry_after) + random.uniform(0, 1)
                print(f"收到 retry-after={retry_after}s，等待 {wait_time:.1f} 秒后重试...")
            else:
                # 使用指数退避公式：delay = base * 2^attempt + 随机抖动
                wait_time = min(base_delay * (2 ** attempt) + random.uniform(0, 1), max_delay)
                print(f"第 {attempt + 1} 次限流，等待 {wait_time:.1f} 秒后重试...")

            time.sleep(wait_time)

        except Exception as e:
            # 非限流错误，直接抛出
            print(f"非限流错误: {e}")
            raise

# 使用示例
try:
    response = call_with_retry(
        messages=[{"role": "user", "content": "Hello, Claude!"}],
        max_retries=5
    )
    print(response.content[0].text)
except Exception as e:
    print(f"请求最终失败: {e}")

JavaScript/TypeScript 实现：

import Anthropic from '@anthropic-ai/sdk';

const client = new Anthropic({ apiKey: 'your-api-key' });

async function callWithRetry(
    messages: Anthropic.MessageParam[],
    maxRetries: number = 5,
    baseDelay: number = 1000,
    maxDelay: number = 60000
): Promise<Anthropic.Message> {
    for (let attempt = 0; attempt <= maxRetries; attempt++) {
        try {
            return await client.messages.create({
                model: 'claude-sonnet-4-20250514',
                max_tokens: 1024,
                messages: messages,
            });
        } catch (error: any) {
            if (error.status === 429 && attempt < maxRetries) {
                const retryAfter = error.headers?.['retry-after'];
                let waitTime: number;

                if (retryAfter) {
                    waitTime = parseInt(retryAfter) * 1000 + Math.random() * 1000;
                    console.log(`Rate limited. Server suggests retry-after=${retryAfter}s. Waiting ${waitTime}ms...`);
                } else {
                    waitTime = Math.min(baseDelay * Math.pow(2, attempt) + Math.random() * 1000, maxDelay);
                    console.log(`Rate limited. Attempt ${attempt + 1}/${maxRetries}. Waiting ${waitTime}ms...`);
                }

                await new Promise(resolve => setTimeout(resolve, waitTime));
            } else {
                throw error;
            }
        }
    }

    throw new Error('Max retries exceeded');
}

3.2.2 高级退避策略：结合限流响应头的智能等待

更高级的做法是结合限流响应头中的具体信息来优化等待策略：

import time
import random
from datetime import datetime, timezone

def calculate_wait_time(error, attempt, base_delay=1.0, max_delay=60.0):
    """
    根据限流错误计算最优等待时间
    """
    headers = error.response.headers if hasattr(error, 'response') else {}

    # 优先使用服务器建议的 retry-after
    retry_after = headers.get('retry-after')
    if retry_after:
        return float(retry_after) + random.uniform(0, 2)

    # 其次使用 reset 时间计算
    req_reset = headers.get('anthropic-ratelimit-requests-reset')
    token_reset = headers.get('anthropic-ratelimit-tokens-reset')

    if req_reset or token_reset:
        now = datetime.now(timezone.utc)
        reset_times = []

        if req_reset:
            reset_time = datetime.fromisoformat(req_reset.replace('Z', '+00:00'))
            reset_times.append((reset_time - now).total_seconds())

        if token_reset:
            reset_time = datetime.fromisoformat(token_reset.replace('Z', '+00:00'))
            reset_times.append((reset_time - now).total_seconds())

        if reset_times:
            # 等待到最晚的 reset 时间
            wait = max(reset_times)
            if wait > 0:
                return min(wait + random.uniform(0, 2), max_delay)

    # 回退到指数退避
    return min(base_delay * (2 ** attempt) + random.uniform(0, 1), max_delay)

3.2.3 服务端临时限流的最佳实践

实践	说明
添加随机抖动（Jitter）	防止多个客户端同时重试造成"惊群效应"
设置最大重试次数	通常 3-5 次，避免无限重试
设置最大延迟上限	通常 60 秒，避免等待时间过长
区分限流错误与其他错误	只有 429 状态码才触发重试，其他错误立即失败
记录限流事件	将限流事件记录到日志，便于后续分析频率和模式
考虑使用 Message Batches API	对于非实时任务，使用 Batch API 可以大幅降低被限流的概率

3.3 第三步：处理个人额度问题

如果判断为个人额度问题，应采取以下策略：

3.3.1 降低请求频率：客户端限流器

在客户端实现令牌桶（Token Bucket）或滑动窗口（Sliding Window）限流器，主动控制请求速率，避免触发 API 端的 429：

import time
import threading
from collections import deque

class TokenBucket:
    """
    令牌桶限流器，用于客户端主动控制请求速率
    """
    def __init__(self, rate: float, capacity: int):
        """
        参数:
            rate: 每秒生成令牌数（对应 RPM 限制，如 50/60 = 0.83）
            capacity: 桶容量（对应突发请求容忍度）
        """
        self.rate = rate
        self.capacity = capacity
        self.tokens = capacity
        self.last_update = time.time()
        self.lock = threading.Lock()

    def acquire(self, tokens: int = 1, timeout: float = None) -> bool:
        """
        尝试获取令牌
        """
        with self.lock:
            now = time.time()
            elapsed = now - self.last_update
            self.tokens = min(self.capacity, self.tokens + elapsed * self.rate)
            self.last_update = now

            if self.tokens >= tokens:
                self.tokens -= tokens
                return True

        # 如果无法立即获取，等待
        if timeout is not None:
            start = time.time()
            while time.time() - start < timeout:
                with self.lock:
                    now = time.time()
                    elapsed = now - self.last_update
                    self.tokens = min(self.capacity, self.tokens + elapsed * self.rate)
                    self.last_update = now

                    if self.tokens >= tokens:
                        self.tokens -= tokens
                        return True
                time.sleep(0.01)

        return False

    def wait_and_acquire(self, tokens: int = 1):
        """
        阻塞等待直到获取到令牌
        """
        while not self.acquire(tokens, timeout=0.1):
            pass


# 使用示例：针对 Tier 1 的 RPM 限制（50 RPM）
rpm_limiter = TokenBucket(rate=50/60, capacity=50)  # 50 RPM
tpm_limiter = TokenBucket(rate=40000/60, capacity=40000)  # 40,000 TPM

def rate_limited_api_call(messages, max_tokens=1024):
    # 估算 Token 消耗（粗略估计：输入字符数 / 4 + max_tokens）
    input_text = messages[-1].get('content', '') if messages else ''
    estimated_tokens = len(input_text) // 4 + max_tokens

    # 等待令牌
    rpm_limiter.wait_and_acquire(1)
    tpm_limiter.wait_and_acquire(estimated_tokens)

    # 执行 API 调用
    return client.messages.create(
        model="claude-sonnet-4-20250514",
        max_tokens=max_tokens,
        messages=messages
    )

3.3.2 优化 Token 使用

优化策略	具体做法	效果
降低 max_tokens	将 `max_tokens` 从 4096 降低到 1024（如果业务允许）	减少 OTPM 消耗
使用模型缓存	启用 Prompt Caching，减少重复输入的 Token 计费	最高可减少 90% 的长上下文 Token 费用
选择合适的模型	对于简单任务使用 Haiku 而不是 Sonnet 或 Opus	Haiku 的 TPM 限制更高，成本更低
批量处理	使用 Message Batches API 进行批量异步处理	不占用 RPM 配额，且价格更低
压缩输入	去除输入文本中的冗余空白、注释，使用更简洁的提示	减少 ITPM 消耗

3.3.3 升级方案

如果频繁遇到个人额度问题，可以考虑：

API 用户：

提升 Tier 等级：增加 API 使用量和消费，系统会自动升级 Tier
申请 Custom Tier：对于大规模生产环境，联系 Anthropic 销售协商定制限额
使用多个账户：在组织内创建多个工作区，分散负载（注意 Anthropic 的服务条款）

订阅用户：

升级到 Max 套餐：5 倍或 20 倍于 Pro 的使用额度
优化使用模式：避免在短时间内发送大量长消息，分散使用
结合 API 使用：对于自动化任务，使用 API 而不是订阅界面

3.4 第四步：监控与告警

建立限流监控机制，及时发现和处理限流问题：

import logging
from collections import Counter
from datetime import datetime, timedelta

class RateLimitMonitor:
    """
    Claude API 限流监控器
    """
    def __init__(self, alert_threshold=10):
        self.rate_limit_events = []
        self.alert_threshold = alert_threshold

    def record_event(self, error_type, response_headers, error_message):
        """记录限流事件"""
        event = {
            'timestamp': datetime.now(),
            'type': error_type,
            'rpm_limit': response_headers.get('anthropic-ratelimit-requests-limit'),
            'tpm_limit': response_headers.get('anthropic-ratelimit-tokens-limit'),
            'retry_after': response_headers.get('retry-after'),
            'message': error_message,
        }
        self.rate_limit_events.append(event)
        self._check_alert()

    def _check_alert(self):
        """检查是否需要告警"""
        # 统计最近 1 小时的限流事件
        one_hour_ago = datetime.now() - timedelta(hours=1)
        recent_events = [e for e in self.rate_limit_events if e['timestamp'] > one_hour_ago]

        if len(recent_events) >= self.alert_threshold:
            logging.warning(f"【限流告警】最近 1 小时内触发 {len(recent_events)} 次限流！")
            logging.warning(f"  - 服务端临时限流: {sum(1 for e in recent_events if e['type'] == 'server_temporary')}")
            logging.warning(f"  - 个人 RPM 耗尽: {sum(1 for e in recent_events if e['type'] == 'personal_rpm')}")
            logging.warning(f"  - 个人 TPM 耗尽: {sum(1 for e in recent_events if e['type'] == 'personal_tpm')}")
            logging.warning("建议检查请求频率和 Token 消耗策略")

    def get_summary(self, hours=24):
        """获取指定时间范围的限流统计摘要"""
        cutoff = datetime.now() - timedelta(hours=hours)
        events = [e for e in self.rate_limit_events if e['timestamp'] > cutoff]

        type_counts = Counter(e['type'] for e in events)
        return {
            'total_events': len(events),
            'type_distribution': dict(type_counts),
            'average_retry_after': sum(
                int(e['retry_after']) for e in events if e['retry_after']
            ) / max(len([e for e in events if e['retry_after']]), 1),
        }


# 使用示例
monitor = RateLimitMonitor(alert_threshold=5)

# 在限流处理代码中调用
try:
    response = client.messages.create(...)
except RateLimitError as e:
    error_type = diagnose_rate_limit(e.response.headers, e.body)
    monitor.record_event(error_type, e.response.headers, str(e))
    # 然后执行重试逻辑...

四、高级场景：并发控制与队列管理

4.1 并发请求控制

当多个线程或进程同时调用 API 时，容易触发 RPM 限制。需要使用并发控制机制：

import asyncio
import aiohttp
from asyncio import Semaphore

async def call_claude_api(session, messages, semaphore):
    async with semaphore:  # 限制并发数
        async with session.post(
            'https://api.anthropic.com/v1/messages',
            headers={'x-api-key': 'your-api-key', 'anthropic-version': '2023-06-01'},
            json={
                'model': 'claude-sonnet-4-20250514',
                'max_tokens': 1024,
                'messages': messages
            }
        ) as response:
            if response.status == 429:
                # 处理限流...
                pass
            return await response.json()

async def main():
    # 限制并发数为 5（避免触发 RPM 限制）
    semaphore = Semaphore(5)

    async with aiohttp.ClientSession() as session:
        tasks = [
            call_claude_api(session, [{"role": "user", "content": f"Task {i}"}], semaphore)
            for i in range(100)
        ]
        results = await asyncio.gather(*tasks, return_exceptions=True)
        return results

# 运行
asyncio.run(main())

4.2 异步队列管理

对于大量请求，使用异步队列可以更好地管理限流：

import asyncio
from queue import PriorityQueue

class ClaudeRequestQueue:
    def __init__(self, max_rpm=50, max_tpm=40000):
        self.max_rpm = max_rpm
        self.max_tpm = max_tpm
        self.request_queue = asyncio.Queue()
        self.results = {}

    async def add_request(self, request_id, messages, priority=0):
        await self.request_queue.put((priority, request_id, messages))

    async def process_queue(self):
        rpm_bucket = TokenBucket(self.max_rpm / 60, self.max_rpm)
        tpm_bucket = TokenBucket(self.max_tpm / 60, self.max_tpm)

        while True:
            priority, request_id, messages = await self.request_queue.get()

            # 等待令牌
            estimated_tokens = sum(len(m.get('content', '')) for m in messages) // 4 + 1024
            tpm_bucket.wait_and_acquire(estimated_tokens)
            rpm_bucket.wait_and_acquire(1)

            try:
                response = await self._call_api(messages)
                self.results[request_id] = {'status': 'success', 'data': response}
            except RateLimitError:
                # 如果仍然限流，重新放入队列
                await self.request_queue.put((priority + 1, request_id, messages))
                await asyncio.sleep(5)

            self.request_queue.task_done()

    async def _call_api(self, messages):
        # 实际的 API 调用逻辑
        pass

4.3 使用 Message Batches API 绕过实时限流

对于非实时场景（如数据批处理、离线分析），Message Batches API 是最佳实践：

# 创建批量请求
batch = client.messages.batches.create(
    requests=[
        {
            "custom_id": "task-001",
            "params": {
                "model": "claude-sonnet-4-20250514",
                "max_tokens": 1024,
                "messages": [{"role": "user", "content": "Analyze this text: ..."}]
            }
        },
        {
            "custom_id": "task-002",
            "params": {
                "model": "claude-sonnet-4-20250514",
                "max_tokens": 1024,
                "messages": [{"role": "user", "content": "Summarize this: ..."}]
            }
        },
        # ... 最多 10,000 个请求
    ]
)

print(f"Batch created: {batch.id}")

# 查询批量处理状态
batch_status = client.messages.batches.retrieve(batch.id)
print(f"Status: {batch_status.processing_status}")

# 等待完成并获取结果
# 批量处理通常在 24 小时内完成，不受实时 RPM 限制

Message Batches API 的优势：

不占用实时 RPM/TPM 配额
价格通常比实时 API 更低（约 50% 折扣）
适合处理大量非实时任务
最高支持 10,000 个请求/批次

五、验证与回归测试

5.1 限流处理验证清单

验证项	验证方法	预期结果
指数退避正常工作	触发限流后观察重试日志	等待时间逐次增加，直到成功或达到最大重试次数
随机抖动生效	多次运行并发测试	重试时间不会完全同步，避免惊群效应
客户端限流器有效	发送超过 RPM 限制的请求	客户端主动延迟请求，429 错误显著减少
限流分类正确	使用诊断脚本测试不同类型的 429	正确区分服务端限流和个人额度问题
监控告警工作	模拟多次限流事件	达到阈值时触发告警日志

5.2 压力测试脚本

#!/usr/bin/env python3
# rate_limit_stress_test.py

import asyncio
import time
from anthropic import Anthropic, RateLimitError

client = Anthropic(api_key="your-api-key")

async def send_request(task_id):
    """发送单个请求"""
    try:
        start = time.time()
        response = client.messages.create(
            model="claude-sonnet-4-20250514",
            max_tokens=100,
            messages=[{"role": "user", "content": f"Task {task_id}"}]
        )
        elapsed = time.time() - start
        return {'task_id': task_id, 'status': 'success', 'elapsed': elapsed}
    except RateLimitError as e:
        return {'task_id': task_id, 'status': 'rate_limited', 'error': str(e)}
    except Exception as e:
        return {'task_id': task_id, 'status': 'error', 'error': str(e)}

async def stress_test(concurrent_requests=100, total_requests=500):
    """压力测试：并发发送大量请求"""
    print(f"开始压力测试: 并发={concurrent_requests}, 总请求={total_requests}")

    semaphore = asyncio.Semaphore(concurrent_requests)

    async def bounded_request(task_id):
        async with semaphore:
            return await send_request(task_id)

    tasks = [bounded_request(i) for i in range(total_requests)]
    results = await asyncio.gather(*tasks)

    # 统计结果
    success = sum(1 for r in results if r['status'] == 'success')
    rate_limited = sum(1 for r in results if r['status'] == 'rate_limited')
    errors = sum(1 for r in results if r['status'] == 'error')

    print(f"\n=== 压力测试结果 ===")
    print(f"成功: {success} ({success/len(results)*100:.1f}%)")
    print(f"限流: {rate_limited} ({rate_limited/len(results)*100:.1f}%)")
    print(f"错误: {errors} ({errors/len(results)*100:.1f}%)")
    print(f"平均响应时间: {sum(r.get('elapsed', 0) for r in results if r['elapsed'])/max(success, 1):.2f}s")

if __name__ == "__main__":
    asyncio.run(stress_test(concurrent_requests=20, total_requests=100))

六、总结与最佳实践

6.1 核心要点回顾

429 错误不等于账户问题：服务端临时限流是全局容量管理的正常行为
先诊断再处理：通过响应头和错误消息区分服务端限流与个人额度问题
服务端限流用重试：指数退避 + 随机抖动是标准做法
个人额度用优化：降低请求频率、优化 Token 使用、升级套餐
客户端主动限流：使用令牌桶或滑动窗口限流器，避免依赖 API 端的 429
批量任务用 Batch API：非实时任务使用 Message Batches API 可大幅降低成本和限流概率

6.2 决策树速查

遇到 429 错误
    ↓
检查 retry-after 和限流响应头
    ↓
retry-after < 60 秒？
    ↓ 是
    → 服务端临时限流 → 指数退避重试（最多 3-5 次）
    ↓ 否
    检查 anthropic-ratelimit 头
    ↓
    requests/tokens-remaining == 0?
    ↓ 是
    → 个人额度耗尽 → 等待窗口刷新 + 优化请求策略
    ↓ 否
    检查错误消息
    ↓
    "temporarily" / "capacity" → 服务端限流
    "usage limit" / "credit" → 个人额度问题
    "session limit" → 订阅滚动窗口限制

6.3 生产环境检查清单

检查项	状态	说明
已实现指数退避重试	[ ]	所有 API 调用都包含 429 重试逻辑
已添加随机抖动	[ ]	重试延迟包含随机成分
已设置最大重试次数	[ ]	避免无限重试
已区分限流类型	[ ]	服务端限流重试，个人额度告警
已实现客户端限流	[ ]	使用令牌桶或滑动窗口控制请求速率
已配置监控告警	[ ]	限流事件超过阈值时触发告警
已使用 Batch API（如适用）	[ ]	非实时任务使用批量处理
已优化 Token 使用	[ ]	合理设置 max_tokens，使用缓存