❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 多模态交互:支持语音、文本和图像的交互,提供自然的人机沟通方式。
  2. 实时通信:集成 RTC 技术,实现低延迟的语音和视频交互。
  3. 模块化设计:开发者可以轻松扩展功能,支持多语言和跨平台操作。

正文(附运行示例)

TEN Agent 是什么

公众号: 蚝油菜花 - TEN-Agent

TEN Agent 是一个集成了 OpenAI Realtime API 和 RTC 技术的开源实时多模态 AI 代理框架。它能够实现语音、文本和图像的多模态交互,支持高性能的实时通信,具备低延迟的音视频交互能力。

TEN Agent 支持多语言和跨平台操作,开发者可以通过模块化设计轻松扩展功能,如集成视觉识别和 RAG 能力。此外,TEN Agent 提供实时代理状态管理,让 AI 代理能够动态响应用户交互,适用于智能客服、实时语音助手等多种场景。

TEN Agent 的主要功能

  • 多模态交互:支持语音、文本和图像的交互,提供自然的人机沟通方式。
  • 实时通信:集成 RTC 技术,实现低延迟的语音和视频交互,无需额外配置。
  • 模块化设计:采用模块化设计,开发者可以像插件一样轻松添加新功能。
  • 调试简便:提供从语音识别(STT)到文本处理(LLM)再到语音合成(TTS)的一站式服务,简化调试过程。
  • 技术集成:集成 OpenAI 的实时 API,增强 AI 代理的能力。
  • 多语言和多平台支持:支持多种编程语言(如 C++、Go、Python)和多个操作系统平台(包括 Windows、Mac、Linux 和移动设备)。
  • 边缘云集成:支持边缘计算和云计算的集成,平衡隐私、成本和性能。

TEN Agent 的技术原理

  • OpenAI Realtime API 和 RTC 集成:TEN Agent 将 OpenAI 的实时 API 与 RTC 技术结合,实现超低延迟的交互体验。
  • AI 噪音抑制:RTC 模块具备 AI 噪音抑制功能,确保音频交互的流畅和高质量。
  • 语音识别(STT):将用户的语音转换为文本,便于 AI 代理处理。
  • 语言模型(LLM):处理转换后的文本,理解用户的意图,生成响应。
  • 语音合成(TTS):将 AI 代理的文本响应转换为语音,基于 RTC 模块播放给用户听。

如何运行 TEN Agent

前提条件

类别 要求
密钥 • Agora App IDApp Certificate(每月免费分钟数)
OpenAI API 密钥
Deepgram ASR(注册后可获得免费积分)
FishAudio TTS(注册后可获得免费积分)
安装 Docker / Docker Compose
Node.js(LTS) v18
最低系统要求 • CPU >= 2 核
• RAM >= 4 GB

运行步骤

  1. 创建 .env 文件
cp ./.env.example ./.env
  1. .env 文件中设置 Agora App ID 和 App Certificate
AGORA_APP_ID=
AGORA_APP_CERTIFICATE=
  1. 启动代理开发容器
docker compose up -d
  1. 进入容器
docker exec -it ten_agent_dev bash
  1. 构建代理
task use
  1. 启动 Web 服务器
task run
  1. 编辑 Playground 设置
    打开 localhost:3000 配置您的代理。您可以:
  • 选择图类型(如 Voice Agent、Realtime Agent)
  • 选择相应的模块
  • 自定义扩展属性和设置
  • 测试和验证您的配置

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

Logo

Agent 垂直技术社区,欢迎活跃、内容共建,欢迎商务合作。wx: diudiu5555

更多推荐