Agent-Reach拆解：3步构建Agent全网搜索

wenxin77wx

223人浏览 · 2026-06-16 08:08:00

wenxin77wx · 2026-06-16 08:08:00 发布

引言：AI Agent 的"信息饥渴"

2026年，AI Agent已经从概念走向大规模落地。企业内部知识库问答、自动化客服、智能运维、代码审查助手——这些场景中Agent扮演着越来越关键的角色。但无论你用LangChain、AutoGPT还是CrewAI搭建智能体，都会撞上同一堵墙——Agent无法自主获取外部信息。

GPT-4和Claude的知识截止日期永远停在训练完成的那一刻。想让Agent回答"今天的比特币最新价格是多少"或"上周ArXiv上发表的Agent相关论文有哪些"，你必须接入搜索API。问题是：Google Custom Search JSON API每月起步价40美元，SerpAPI按查询次数阶梯计费，Bing Search API的免费额度也只有每月区区1000次。对于个人开发者和中小团队来说，这不是一笔小开销。

更麻烦的是，即便接入了API，结果格式也各不相同。Google返回的是JSON，Bing返回的是XML风格的Atom Feed，DuckDuckGo的Instant Answer API又有一套自己的规范。每换一个搜索引擎就要重写一套解析逻辑，维护成本居高不下。

Agent-Reach 的出现彻底改变了这个局面。它不依赖任何商业搜索API，直接抓取Google、Bing、DuckDuckGo的公开搜索结果页面，通过智能HTML解析和反反爬策略，为AI Agent提供统一的结构化搜索接口。你不需要申请任何API Key，不需要绑信用卡，不需要担心配额超限——部署一个Docker容器，Agent就有了"眼睛"。本文将完整拆解Agent-Reach的源码架构，并从零到一用Docker部署，最后手把手教会你如何将搜索能力集成到自己的AI Agent中。

本文目标读者：Python后端开发者、AI Agent构建者、对RAG（检索增强生成）和Search-Augmented Generation感兴趣的技术实践者。建议读者具备基础的Docker和Python异步编程知识。

一、Agent-Reach 架构全景图

Agent-Reach的核心理念是 "搜索引擎即数据库"——它把搜索引擎当作一个黑盒查询接口，输入query，返回结构化结果。

┌──────────────┐     ┌─────────────────┐     ┌──────────────┐
│  AI Agent    │────▶│  Agent-Reach    │────▶│  Search      │
│  (LangChain) │◀────│  (FastAPI App)  │◀────│  Engines     │
└──────────────┘     └───────┬─────────┘     └──────────────┘
                             │                        │
                     ┌───────▼─────────┐    ┌────────▼───────┐
                     │  Content Fetch  │    │  Google/Bing/   │
                     │  + Parse Engine │    │  DuckDuckGo     │
                     └───────┬─────────┘    └────────────────┘
                             │
                     ┌───────▼─────────┐
                     │  Structured     │
                     │  Results (JSON) │
                     └─────────────────┘

1.1 三层架构

| 层级 | 组件 | 职责 |

|------|------|------|

| 接口层 | FastAPI REST Server | 接收搜索请求，返回结构化JSON |

| 引擎层 | Search Engine Adapters | 多搜索引擎适配（Google/Bing/DuckDuckGo） |

| 解析层 | HTML Parser + LLM | 解析搜索结果页，提取标题/摘要/URL；可选LLM重排序 |

1.2 为什么不直接用 `requests` + `BeautifulSoup`？

搜索引擎的反爬策略极其严格。直接请求会被302重定向到验证码页面，User-Agent检测、频率限制、JavaScript渲染都是坑。Agent-Reach内置了完整的反反爬策略：

**随机UA池**：每次请求随机切换User-Agent
**请求节流**：内置指数退避重试机制
**Selenium Fallback**：对JS渲染页面自动降级到无头浏览器
**代理支持**：可配置HTTP/SOCKS5代理轮换

二、源码核心模块拆解

2.1 搜索引擎适配器（Adapter模式）

Agent-Reach采用经典的适配器模式，每个搜索引擎一个Adapter：

# search_engines/base.py —— 抽象基类
from abc import ABC, abstractmethod
from dataclasses import dataclass, field
from typing import List, Optional


@dataclass
class SearchResult:
    """单条搜索结果"""
    title: str
    url: str
    snippet: str
    rank: int
    source: str  # "google" | "bing" | "duckduckgo"


@dataclass
class SearchResponse:
    """聚合搜索结果"""
    query: str
    results: List[SearchResult] = field(default_factory=list)
    total_results: int = 0
    search_time_ms: float = 0.0
    engine: str = ""


class BaseSearchEngine(ABC):
    """搜索引擎适配器抽象基类"""

    @abstractmethod
    async def search(
        self,
        query: str,
        num_results: int = 10,
        language: str = "zh-CN",
    ) -> SearchResponse:
        """执行搜索并返回结构化结果"""
        ...

    @abstractmethod
    def _build_url(self, query: str, page: int = 0) -> str:
        """构建搜索URL"""
        ...

    @abstractmethod
    def _parse_results(self, html: str) -> List[SearchResult]:
        """从HTML中提取搜索结果"""
        ...

以Google搜索适配器为例：

# search_engines/google_adapter.py
import re
from urllib.parse import quote_plus
from bs4 import BeautifulSoup
from .base import BaseSearchEngine, SearchResult, SearchResponse


class GoogleSearchEngine(BaseSearchEngine):
    """Google搜索适配器 —— 无API Key方案"""

    BASE_URL = "https://www.google.com/search"
    HEADERS = {
        "Accept": "text/html,application/xhtml+xml",
        "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8",
    }

    def _build_url(self, query: str, page: int = 0) -> str:
        params = {
            "q": query,
            "num": 10,
            "start": page * 10,
            "hl": "zh-CN",
        }
        query_string = "&".join(f"{k}={quote_plus(str(v))}" for k, v in params.items())
        return f"{self.BASE_URL}?{query_string}"

    def _parse_results(self, html: str) -> list[SearchResult]:
        soup = BeautifulSoup(html, "lxml")
        results = []

        # Google搜索结果在外层div[data-sokoban-container]或div.g中
        for idx, div in enumerate(soup.select("div.g")):
            title_el = div.select_one("h3")
            link_el = div.select_one("a[href]")
            snippet_el = div.select_one("div[data-sncf], span.aCOpRe, div.VwiC3b")

            if not title_el or not link_el:
                continue

            url = link_el.get("href", "")
            # 过滤Google内部链接
            if url.startswith("/search") or "google.com" in url:
                continue

            results.append(SearchResult(
                title=title_el.get_text(strip=True),
                url=url,
                snippet=snippet_el.get_text(strip=True) if snippet_el else "",
                rank=idx + 1,
                source="google",
            ))

        return results

    async def search(self, query: str, num_results: int = 10, language: str = "zh-CN") -> SearchResponse:
        # 实现HTTP请求+重试逻辑（省略，见完整源码）
        ...

2.2 反反爬中间件

这是整个项目最精巧的部分——一个可组合的HTTP中间件管道：

# middleware/anti_bot.py
import asyncio
import random
from typing import AsyncIterator


# 真实浏览器UA池（2026年最新）
UA_POOL = [
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 "
    "(KHTML, like Gecko) Chrome/132.0.0.0 Safari/537.36",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 "
    "(KHTML, like Gecko) Version/18.3 Safari/605.1.15",
    "Mozilla/5.0 (X11; Linux x86_64; rv:136.0) Gecko/20100101 Firefox/136.0",
]


class AntiBotMiddleware:
    """反反爬中间件 —— 指数退避 + UA轮换 + Cookie管理"""

    def __init__(self, max_retries: int = 3, base_delay: float = 1.0):
        self.max_retries = max_retries
        self.base_delay = base_delay
        self._session_cookies = {}

    def random_ua(self) -> str:
        return random.choice(UA_POOL)

    async def fetch_with_retry(self, session, url: str, headers: dict, **kwargs):
        last_exception = None

        for attempt in range(self.max_retries):
            try:
                headers["User-Agent"] = self.random_ua()
                async with session.get(url, headers=headers, **kwargs) as resp:
                    if resp.status == 429:  # Too Many Requests
                        wait_time = self.base_delay * (2 ** attempt)
                        await asyncio.sleep(wait_time)
                        continue
                    resp.raise_for_status()
                    return await resp.text()
            except Exception as e:
                last_exception = e
                await asyncio.sleep(self.base_delay * (2 ** attempt))

        raise last_exception

2.3 内容抓取与全文提取

拿到搜索结果后，Agent往往需要进一步阅读目标页面的正文内容。Agent-Reach内置了Readability算法实现：

# content/extractor.py
import trafilatura
from typing import Optional


class ContentExtractor:
    """网页正文提取器 —— 基于trafilatura + 自研降级策略"""

    @staticmethod
    def extract(url: str, html: Optional[str] = None) -> dict:
        """
        从URL或HTML中提取正文内容

        返回结构:
        {
            "title": str,
            "content": str,       # Markdown格式正文
            "author": str | None,
            "date": str | None,
            "word_count": int,
        }
        """
        if html is None:
            import requests
            html = requests.get(url, timeout=10).text

        # trafilatura: 目前最强的开源网页正文提取库
        downloaded = trafilatura.extract(
            html,
            output_format="json",
            with_metadata=True,
            include_comments=False,
            include_tables=True,
        )

        if downloaded:
            import json
            data = json.loads(downloaded)
            return {
                "title": data.get("title", ""),
                "content": data.get("text", ""),
                "author": data.get("author"),
                "date": data.get("date"),
                "word_count": len(data.get("text", "").split()),
            }

        # 降级：手动提取（移除nav/footer/ads后用bs4取最长文本块）
        return ContentExtractor._fallback_extract(html)

    @staticmethod
    def _fallback_extract(html: str) -> dict:
        from bs4 import BeautifulSoup
        soup = BeautifulSoup(html, "lxml")

        # 移除非内容标签
        for tag in soup(["nav", "footer", "header", "aside", "script", "style"]):
            tag.decompose()

        # 找最长文本块
        body = soup.find("body")
        if not body:
            return {"title": "", "content": "", "word_count": 0}

        text = body.get_text(separator="\n", strip=True)
        return {
            "title": soup.title.string if soup.title else "",
            "content": text[:5000],  # 截断避免过长
            "word_count": len(text.split()),
        }

三、Docker 一键部署（5步上手）

步骤1：克隆仓库

git clone https://github.com/agent-reach/agent-reach.git
cd agent-reach

步骤2：配置环境变量

# .env 文件
SEARCH_ENGINE=google            # google | bing | duckduckgo
MAX_RESULTS_PER_QUERY=10
REQUEST_TIMEOUT=15
ENABLE_CONTENT_EXTRACTION=true  # 是否抓取目标页正文
LLM_RERANK_ENABLED=false        # 是否启用LLM重排序（需OpenAI Key）
LOG_LEVEL=INFO

步骤3：构建并启动

docker compose up -d --build

步骤4：验证服务

curl -X POST http://localhost:8000/api/v1/search \
  -H "Content-Type: application/json" \
  -d '{"query": "AI Agent 最新进展 2026", "num_results": 5}'

返回结果：

{
  "query": "AI Agent 最新进展 2026",
  "results": [
    {
      "title": "2026年AI Agent发展报告：从单智能体到多智能体协作",
      "url": "https://example.com/ai-agent-report-2026",
      "snippet": "2026年，AI Agent已从实验室走向生产环境...",
      "rank": 1,
      "source": "google"
    }
  ],
  "total_results": 5,
  "search_time_ms": 847.2,
  "engine": "google"
}

步骤5：接入你的AI Agent

# agent_integration.py —— 将Agent-Reach集成到LangChain Agent
import requests
from langchain.tools import tool


AGENT_REACH_URL = "http://localhost:8000/api/v1/search"


@tool
def search_web(query: str, num_results: int = 5) -> str:
    """
    搜索全网信息。当你需要获取实时信息、最新新闻、或模型训练后的事件时使用。

    Args:
        query: 搜索关键词
        num_results: 返回结果数量（1-20）

    Returns:
        JSON格式的搜索结果列表
    """
    resp = requests.post(
        AGENT_REACH_URL,
        json={"query": query, "num_results": num_results},
        timeout=30,
    )
    resp.raise_for_status()
    data = resp.json()

    # 格式化为LLM友好的文本
    formatted = []
    for r in data["results"]:
        formatted.append(
            f"[{r['rank']}] {r['title']}\n"
            f"    URL: {r['url']}\n"
            f"    摘要: {r['snippet']}"
        )
    return "\n\n".join(formatted)


# 注册到LangChain Agent
from langchain.agents import initialize_agent, AgentType
from langchain.chat_models import ChatOpenAI

tools = [search_web]
llm = ChatOpenAI(model="gpt-4", temperature=0)

agent = initialize_agent(
    tools=tools,
    llm=llm,
    agent=AgentType.OPENAI_FUNCTIONS,
    verbose=True,
)

# 运行Agent —— 它会自动调用search_web获取信息
result = agent.run("2026年6月比特币价格是多少？最近有哪些重大监管新闻？")
print(result)

四、生产环境进阶：LLM重排序 + 语义理解

基础的关键词匹配搜索有时不够精准。比如你搜索"苹果最新动态"，Google返回的结果可能一半是关于水果的，一半是关于Apple公司的——搜索引擎很难理解你的真实意图。

Agent-Reach支持可选的LLM重排序模块，用轻量级嵌入模型对搜索结果做语义相关性打分。这个模块的核心思路很简单：将用户的查询词和每条搜索结果的标题与摘要拼接成一段文本，使用Sentence-BERT模型将它们分别编码为稠密向量，然后计算余弦相似度，按相似度从高到低重新排列结果。整个过程在本地的CPU上就能跑，不需要调用任何外部API。

实际测试中，对中文搜索场景推荐使用BAAI开源的bge-small-zh-v1.5模型，仅有33MB大小，在单个CPU核心上编码10条结果的延迟不超过200毫秒，而重排序后的Top-5命中率（人工评测）比原始搜索结果提升了约32%。如果你的场景是英文搜索，则可以换用all-MiniLM-L6-v2，同样是轻量级的高性价比选择。

# reranker/llm_reranker.py
import numpy as np
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity


class LLMReranker:
    """
    使用Sentence-BERT对搜索结果进行语义重排序

    原理：
    1. 将query和每个result的title+snippet拼接
    2. 用sentence-transformer计算embedding
    3. 按cosine similarity降序排列
    """

    def __init__(self, model_name: str = "BAAI/bge-small-zh-v1.5"):
        # BGE-small-zh 是中文语义搜索SOTA小模型，仅33MB
        self.model = SentenceTransformer(model_name)

    def rerank(self, query: str, results: list, top_k: int = 5) -> list:
        """对搜索结果语义重排序，返回top_k最相关结果"""
        if len(results) <= top_k:
            return results

        # 拼接每个结果的文本表示
        docs = [f"{r.title} {r.snippet}" for r in results]

        # 批量编码
        query_emb = self.model.encode([query], normalize_embeddings=True)
        doc_embs = self.model.encode(docs, normalize_embeddings=True)

        # 余弦相似度
        scores = cosine_similarity(query_emb, doc_embs)[0]

        # 按分数降序排列
        ranked_indices = np.argsort(scores)[::-1][:top_k]
        return [results[i] for i in ranked_indices]

五、性能基准与局限性

5.1 实测数据（本地Docker部署，100Mbps带宽）

|----------|----------|--------|----------|

| DuckDuckGo | 450ms | 99.2% | 否 |

| Google | 1200ms | 87.5% | 建议 |

| Bing | 980ms | 93.1% | 建议 |

测试环境：阿里云ECS 2C4G，2026年6月

5.2 已知局限

**Google反爬持续升级**：Google对无头浏览器的检测日益激进，建议配置代理池或优先使用DuckDuckGo
**法律合规**：请遵守目标网站的`robots.txt`和服务条款，商业使用建议购买官方API
**内容时效性**：搜索引擎索引存在分钟级延迟，不适用于毫秒级实时信息

六、总结与展望

Agent-Reach为AI Agent提供了一套完整的"眼睛"方案——不需要任何商业API Key，不需要注册任何第三方服务，就能让Agent自主搜索、阅读并理解全网信息。从架构设计上看，它用适配器模式抽象了不同搜索引擎的差异，用中间件管道处理了反爬对抗的复杂性，用REST API提供了对上层Agent框架的标准接口。这三层设计让整个系统既灵活又稳健。

核心价值回顾：

✅ **零API成本**：无需Google/Bing API Key，无需绑卡付费
✅ **Docker一键部署**：从克隆代码到服务上线，不超过5分钟
✅ **标准接口**：REST API + LangChain Tool封装，即插即用
✅ **高度可扩展**：Adapter模式设计，新增搜索引擎只需实现一个子类
✅ **语义增强**：可选LLM重排序，中文场景Top-5命中率提升32%

适用场景：

个人AI助手/知识库项目的实时信息检索
企业内部Agent平台的搜索基础组件
学术研究中需要批量获取最新文献的场景
RAG（检索增强生成）管道的检索端替代方案

随着2026年AI Agent在生产环境中的爆发式落地，搜索能力已经从过去的"加分项"变成了今天的"必选项"。一个不能自主获取外部信息的Agent，就像一个被蒙住双眼的天才——它的推理能力再强，也回答不了"现在正在发生什么"。Agent-Reach这类开源方案，正在系统性地降低Agent开发的门槛，让每个开发者都能用最小的成本，打造真正"耳聪目明"的智能体。

未来，Agent-Reach的路线图还包括对垂直搜索引擎（如ArXiv论文搜索、GitHub代码搜索）的适配，以及对多模态搜索（图片搜索+视觉理解）的支持。如果你对这个方向感兴趣，欢迎在评论区交流你的想法和使用体验。

本文代码基于Agent-Reach v0.3.1，完整源码及部署文档请访问项目GitHub仓库。技术交流欢迎在评论区留言讨论。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

智谱GLM-5.2开源登顶+科创板开闸：中国AI的“双线突破“时刻

技术上：GLM-5.2开源登顶、MiniMax M3自主进化、DeepSeek V4调用量全球第一——国产模型已经从"追赶到"变成"好用"资本上：科创板第五套标准扩围，未盈利AI企业也能上市——资本通道正式打通市场上：全球前五大模型中国占四个，API价格仅为美国头部模型的1/16至1/22——性价比碾压正如有人评价GLM-5.2时说的：“从打榜上的学霸，跃升为好用的智能体——这是中国开源模型的’好

AI Agent技术社区

ponytail · 让 Claude Code 写出少 80% 代码、便宜 20%、快 27% 的极简代码｜教 AI 编程代理「偷懒」的 6 步决策阶梯｜Github Daily

通过环境变量或配置文件设置每个新会话的默认强度：# 方式 1：环境变量# 方式 2：配置文件上游优化思维：ponytail 不和"压缩"赛道卷，专注"减少生成"——从源头让 AI 少写代码6 步决策阶梯：把 YAGNI 原则做成硬约束，强制 AI 在写代码前自问"需要存在吗？标准库能解决吗？54% 代码量 / 20% 成本 / 27% 时间：多轮 Agent 会话的真实基准（FastAPI+Rea