使用Dify快速搭建FireRedASR-AED-L语音识别AI应用

你是不是觉得,把那些听起来很厉害的AI模型,比如语音识别模型,变成一个普通人也能用的应用,是一件特别复杂、需要写很多代码的事情?我以前也这么想,总觉得这背后得有庞大的工程团队。但最近我发现,事情完全不是这样。现在有一些工具,能让这个过程变得像搭积木一样简单。

今天,我就来带你亲手搭一个。我们用FireRedASR-AED-L这个开源的语音识别模型,它能准确地把音频转成文字。然后,我们借助一个叫Dify的平台,不用写复杂的后端代码,也不用头疼怎么设计界面,就能把它变成一个可以分享给朋友、同事使用的Web应用或者API接口。

整个过程,你只需要点点鼠标,配置几个参数,半小时内就能看到成果。听起来是不是有点意思?那我们开始吧。

1. 准备工作:模型与平台

在开始“搭积木”之前,我们得先把“积木块”准备好。这里主要需要两块:一个是能听懂话的模型,另一个是让我们搭应用的平台。

1.1 理解我们的核心“积木”:FireRedASR-AED-L

FireRedASR-AED-L是一个专注于中文语音识别的开源模型。你可以把它想象成一个听力特别好、还专门练过中文听写的“助手”。它的特点是:

  • 针对中文优化:对中文语音的识别准确率比较高,能很好地处理我们的日常用语。
  • 流式识别:支持一边听一边转文字,适合做实时语音转写的场景,比如会议记录。
  • 易于部署:社区提供了标准的API接口,方便我们调用。

为了让这个“助手”能工作,我们需要先把它“启动”起来,也就是部署在一个有GPU的服务器上,并提供一个可以通过网络访问的API地址。这一步通常涉及一些服务器操作,不过现在很多云平台都提供了一键部署的镜像服务。假设我们已经拿到了这个模型的API地址,比如 https://your-model-server/v1/audio/transcriptions,以及必要的API密钥。这是我们后续所有操作的基石。

1.2 认识我们的“搭建平台”:Dify

Dify是什么?你可以把它看作一个可视化、低代码的AI应用工厂。它把AI应用开发中那些繁琐的步骤,比如调用模型API、处理前后端逻辑、设计用户界面,都变成了图形化的操作。

它的核心是“工作流”。你可以通过拖拽不同的“节点”(比如“用户输入”、“调用模型”、“文本处理”),像画流程图一样,把整个AI应用的处理逻辑串起来。对于我们要做的语音识别应用,思路就非常清晰:

  1. 用户上传一段音频。
  2. 我们把音频发送给FireRedASR-AED-L模型。
  3. 模型返回识别出的文字。
  4. 我们把文字整理好,展示给用户。

整个过程,我们几乎不需要写传统的业务代码,只需要在Dify里配置好每个环节。接下来,我们就进入实战环节。

2. 第一步:在Dify中创建并配置应用

首先,你需要一个Dify环境。你可以去Dify的官网使用他们的云服务,或者在自己的服务器上部署一套。登录后,我们开始创建应用。

  1. 创建新应用:在Dify控制台,点击“创建应用”,给它起个名字,比如“我的语音识别助手”。应用类型选择“工作流”,因为我们要自定义整个处理流程。
  2. 进入工作流画布:创建成功后,你会进入一个空白的画布,这就是我们搭建逻辑的地方。

现在画布是空的,我们需要把第一个“积木”放上去:让用户能上传音频。

  1. 添加用户输入节点:在画布左侧的节点库中,找到“输入”分类,将“文件上传”节点拖到画布上。这个节点代表用户上传的文件。
  2. 配置输入节点:点击这个节点,在右侧面板进行设置。我们需要:
    • 变量名:填一个容易记的名字,比如 audio_file。后续其他节点要引用这个上传的文件,就靠这个名字。
    • 文件类型限制:为了更好的体验,可以勾选“音频”,比如 .mp3, .wav, .m4a 等格式。
    • 描述:可以写“请上传需要识别的音频文件”,给用户一个提示。

好了,应用的“入口”我们就做好了。接下来,我们要把用户上传的音频,交给真正的“听力助手”去处理。

3. 第二步:连接并调用语音识别模型

这是最核心的一步,我们要在Dify里告诉它:“去调用我们部署好的那个FireRedASR-AED-L模型API”。

  1. 添加模型调用节点:在节点库的“工具”或“LLM”分类里,找到“HTTP请求”节点(也可能叫“自定义API”),把它拖到画布上,并放在“文件上传”节点的下方。
  2. 连接节点:用鼠标从“文件上传”节点的输出点(通常在下边缘),拖一条线连接到“HTTP请求”节点的输入点。这表示把上传的文件数据,传递给下一个处理环节。
  3. 关键配置:填写模型API信息:点击“HTTP请求”节点,开始详细配置。
    • URL:这里填入你准备好的模型API地址,例如 https://your-model-server/v1/audio/transcriptions
    • 方法:选择 POST
    • 认证:根据你的模型API要求,可能需要添加认证信息。常见的是在“Headers”里添加一个 Authorization 头,值可能是 Bearer your-api-key
    • 请求体:这是配置的重点。我们需要以 multipart/form-data 的形式上传文件。
      • 添加一个字段,名称(Name)根据模型API文档来,常见的是 fileaudio
      • 值(Value)的类型选择“变量”,然后选择我们上一步定义的 audio_file。这样,用户上传的文件就会自动填充到这里。
    • 超时时间:语音识别可能耗时稍长,可以设置得大一点,比如30秒。

配置完成后,这个节点就代表:“把用户上传的音频文件,通过HTTP请求发送到指定的模型服务器,并等待返回识别结果”

模型处理完后,会返回一段JSON格式的数据。我们需要从中提取出我们想要的文字。

4. 第三步:处理结果并设计输出

模型返回的数据可能包含很多信息,但我们最关心的是识别出的文本。

  1. 添加文本处理节点:从节点库的“工具”分类中,拖一个“文本提取”或“变量赋值”节点到画布,连接到“HTTP请求”节点之后。
  2. 解析API响应:点击这个文本处理节点进行配置。
    • 输入来源:选择上一个“HTTP请求”节点的输出。
    • 提取文本:你需要查看模型API的返回示例。假设返回的JSON是 {"text": "识别出的文字内容"},那么你就可以用类似 {{#context.response.body.text}} 的模板语法(具体语法根据Dify版本可能略有不同)来提取出 text 字段的值。
    • 赋值给新变量:把这个提取出的文本,保存到一个新变量里,比如叫 recognized_text

现在,识别出的文字已经在我们手里了。最后一步,就是把它漂亮地展示给用户。

  1. 添加回复节点:从节点库的“输出”分类里,拖一个“回复”节点到画布末尾,并连接到文本处理节点。
  2. 设计回复内容:点击回复节点,在内容编辑框里,你可以自由设计最终展示给用户的格式。比如:
    识别完成!以下是音频内容转写的文字:
    
    **{{recognized_text}}**
    
    ---
    *转写服务由 FireRedASR-AED-L 模型提供支持。*
    
    这里,{{recognized_text}} 就是我们上一步保存的变量,它会被自动替换成实际的识别结果。

至此,一个最核心的语音识别工作流就搭建完成了。你的画布上应该有一条清晰的链路:文件上传 -> HTTP请求(调用模型)-> 文本提取 -> 回复。

5. 第四步:测试、发布与分享

搭建好了,当然要试试看灵不灵。

  1. 运行测试:在画布右上角,点击“运行”或“测试”按钮。Dify会在右侧打开一个测试面板。
  2. 上传测试音频:在测试面板中,你应该能看到我们之前设置的“文件上传”组件。选择一个短的音频文件(比如一段自己说的话的录音)上传。
  3. 查看结果:点击运行,工作流会一步步执行。如果一切配置正确,你会在最后看到模型返回的识别文字。如果出错,Dify会提示哪个环节有问题,方便你排查(比如API地址错了、密钥无效等)。

测试通过后,这个应用就可以发布了。

  1. 发布应用:在应用概览页面,找到发布选项。Dify通常提供两种方式:
    • Web应用:生成一个独立的、带有友好界面的网页链接。你可以把这个链接分享给任何人,他们打开网页就能直接上传音频进行识别,完全不需要知道背后的技术。
    • API接口:生成一个标准的API端点。其他软件或你的代码可以直接通过HTTP请求调用这个接口,实现语音识别的能力集成。Dify会为你处理好鉴权、限流等琐事。

6. 更进一步:让应用更实用

基础功能跑通后,你可以像装修房子一样,继续完善这个应用,让它更强大、更好用。

  • 音频预处理:在调用模型前,可以增加一个“代码执行”节点,用简单的Python脚本检查音频格式、时长,甚至进行降噪、切割等预处理(如果需要的话)。
  • 结果后处理:在得到文本后,可以再接一个“文本处理”节点,自动为文本添加标点符号、分段,或者过滤掉一些无意义的语气词。
  • 多任务串联:你还可以玩出更多花样。比如,识别出文字后,自动调用另一个文本总结模型,生成一份会议纪要摘要;或者把文字翻译成英文。这一切,都只需要在画布上再拖拽几个节点就能实现。
  • 美化界面:在发布为Web应用时,Dify允许你自定义应用的图标、名称和简介,让它看起来更专业。

7. 写在最后

走完这一趟,你会发现,借助像Dify这样的平台,构建一个AI应用的门槛被极大地降低了。我们不再需要从零开始搭建Web服务器、设计数据库、编写复杂的调用逻辑,而是可以把精力完全聚焦在业务逻辑的组装用户体验的优化上。

FireRedASR-AED-L提供了专业的语音识别能力,而Dify则提供了将这种能力产品化的最短路径。这种“专业模型+低代码平台”的模式,正在让AI技术变得更易用、更普及。你不妨就用今天搭好的这个应用作为起点,试试处理一段会议录音,或者整理一段访谈音频,亲身体验一下这种效率的提升。或许,下一个解决你实际工作痛点的AI小工具,就会在你自己的手中诞生。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐