云平台一键部署【 VibeVoice】长对话式文本转语音模型
VibeVoice是一款创新的多说话人语音生成框架,在趋动云平台上线,提供一键部署服务,用户可通过简单操作快速体验。平台还提供新用户算力金优惠活动,鼓励技术交流与创新。

VibeVoice 是一个用于从文本生成富有表现力、长篇幅、多说话人对话音频(如播客)的新型框架。它解决了传统文本到语音(TTS)系统中的重大挑战,特别是在可扩展性、说话人一致性和自然话轮转换方面。
主要功能
-
多说话者支持
能生成多达4位不同说话者的对话式音频,适用播客、有声读物等场景。 -
长篇幅对话
支持生成长达90分钟的连续语音,突破传统TTS系统在长度上的限制。 -
富有表现力的语音
根据文本内容生成带有情感和语调的语音,让对话更加自然和生动。 -
跨语言支持
支持多种语言的语音合成,能处理跨语言的对话场景。 -
高保真音频
生成的语音质量高,接近人类的自然语音,提供更好的用户体验。 -
实时交互
能实时生成语音,支持动态对话和交互式应用。
应用场景
- 播客制作
-
有声读物
-
虚拟助手
-
教育和培训
-
娱乐和游戏
GitHub:https://github.com/microsoft/VibeVoice
【VibeVoice】模型已经在趋动云『社区项目』上线,无需自己创建环境、下载模型,一键即可快速部署,快来体验 【VibeVoice】带来的精彩体验吧!
项目入口
https://open.virtaicloud.com/web/project/detail/620506243555610624
视频教程
https://www.bilibili.com/video/BV1drHzzVEJg/?vd_source=85d5574e8763d2ef3afdafc50f2b9d43
启动开发环境
进入【VibeVoice】项目主页中,点击运行一下,将项目一键克隆至工作空间,『社区项目』推荐适用的算力规格,可以直接立即运行,省去个人下载数据、模型和计算算力的大量准备时间。

配置完成,点击进入开发环境,根据主页项目介绍进行部署。

使用方法
在gemini/code中找到使用说明,选中使用说明单元格,点击运行。

等待生成local URL,右侧添加端口7860。

示例展示

更多效果展示可在趋动云公众号查看
➫温馨提示: 完成项目后,记得及时关闭开发环境,以免继续产生费用!

智汇全球,趋动未来
『社区项目』汇聚全球智慧,是促进技术交流的宝贵平台,期待每一位AI爱好者体验一键部署功能的强大魅力。

同时,我们也热切盼望每一位码友加入,分享您的精品作品,共筑这个充满活力与创新的技术乐园。
更多推荐


所有评论(0)