实时语音翻译seamless-streaming，支持100多个国家语言

facebook也推出了实时语音翻译系统，支持一百多个国家语音，经实测效果很不错，使用了5G左右显存。

qq_39838728

798人浏览 · 2025-05-08 11:06:59

qq_39838728 · 2025-05-08 11:06:59 发布

上一篇seamless_communication，facebook推出的开源语音翻译项目讲述的是语音翻译搭建的过程，想实时的要怎么实现呢？

facebook也推出了实时语音翻译系统，支持一百多个国家语音，经实测效果很不错，使用了5G左右显存。

今天就来还原下项目搭建的过程。

先来贴下代码地址：

https://github.com/facebookresearch/seamless_communication

这个是他的语音翻译代码地址，实时语音翻译地址在huggingface上面，需要科技上网。打开上面的地址。

点击此处，可直接跳转到实时语音翻译的地址。https://huggingface.co/spaces/facebook/seamless-streaming

打开后默认显示demo,点击files就是代码了。

国内的镜像地址：HF_ENDPOINT=https://hf-mirror.com

其实如果在国内要访问huggingface，直接将域名更换成镜像地址即可。如图，完美打开。

代码和模型文件都已经下载好了，后台回复“实时语音”即可拿到下载链接。

接着开始环境搭建吧。参考readme

1、首先创建环境，官方提供的是3.8,但是3.8后面我这边出现了点问题，所以我改成了3.10

cd seamless_serverconda create --yes --name smlss_server python=3.10 libsndfile==1.0.31conda activate smlss_server

2、下载pytorch，根据自己cuda版本去下载，贴上下载地址https://pytorch.org/get-started/previous-versions/，我刚开始直接按照官方提供的下载的，没想到到第三步安装的时候就报错了，切记根据自己cuda版本安装。

conda install --yes pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia

3、安装fairseq2

pip install fairseq2 --pre --extra-index-url https://fair.pkg.atmeta.com/fairseq2/whl/nightly/pt2.1.1/cu118

安装到这一步的时候出现错误，如图。这就是我第二步所出现的cuda版本不匹配的问题。当我按照自己cuda版本修改完成后就没问题了。

4、安装环境文件的包

pip install -r requirements.txt

5、接着开始安装下前端环境

首先安装node，安装20.x以上版本，不然安装不了yarn

curl -sL https://deb.nodesource.com/setup_22.x -o nodesource_setup.shsudo bash nodesource_setup.shsudo apt install nodejs

验证安装，终端直接输入命令

node -v

出现如图即为安装成功。

6、接着安装yarn，使用yarn 安装前端包

cd streaming-react-appsudo npm install --global yarnyarnyarn build

7、安装成功后试着运行下项目试试。

cd seamless_serveruvicorn app_pubsub:app --host 0.0.0.0

报错了，忘记下载模型文件了。后台回复“实时语音”可以拿到我提前下载好的代码和模型文件。

第一次启动会很慢，我发现代码还会去下载一些其他文件，等下载好后就可以正常启动了。我这边将界面的英文翻译成中文了。

需要将地址映射成https，否则语音功能无法使用。

这就是整个实时语音项目搭建的整个过程，大家在搭建的过程中有遇到什么问题的欢迎留言，大家一起来学习讨论。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

试了6款AI编程工具，我只留这2个

AI Agent技术社区

为什么AI功能越发达，电商客服的差评反而越多？

但一个矛盾的现象正在越来越多的客服管理者之间蔓延：技术预算花了，机器人上线了，可客服团队的疲惫感没有减轻，大促期间的排队时长没有显著缩短，而用户投诉中关于“机器人答非所问”“转人工后要重复说三遍”的声音反而增加了。一线客服不再盯着几十个聊天窗口同时回复，而是监控AI Agent的运行状态，处理那些AI无法独立完成的边缘案例——情绪激动的投诉、涉及多方协调的纠纷、超出知识库范围的新品问题。人员流失率