VibeVoice 是一个用于从文本生成富有表现力、长篇幅、多说话人对话音频(如播客)的新型框架。它解决了传统文本到语音(TTS)系统中的重大挑战,特别是在可扩展性、说话人一致性和自然话轮转换方面。

主要功能

    • 多说话者支持
      能生成多达4位不同说话者的对话式音频,适用播客、有声读物等场景。

    • 长篇幅对话
      支持生成长达90分钟的连续语音,突破传统TTS系统在长度上的限制。

    • 富有表现力的语音
      根据文本内容生成带有情感和语调的语音,让对话更加自然和生动。

    • 跨语言支持
      支持多种语言的语音合成,能处理跨语言的对话场景。

    • 高保真音频
      生成的语音质量高,接近人类的自然语音,提供更好的用户体验。

    • 实时交互

      能实时生成语音,支持动态对话和交互式应用。

    应用场景

    • 播客制作
    • 有声读物

    • 虚拟助手

    • 教育和培训

    • 娱乐和游戏

    GitHub:https://github.com/microsoft/VibeVoice

    【VibeVoice】模型已经在趋动云『社区项目』上线,无需自己创建环境、下载模型,一键即可快速部署,快来体验 【VibeVoice】带来的精彩体验吧!

    项目入口

    https://open.virtaicloud.com/web/project/detail/620506243555610624

    视频教程

    https://www.bilibili.com/video/BV1drHzzVEJg/?vd_source=85d5574e8763d2ef3afdafc50f2b9d43

    启动开发环境

    进入【VibeVoice】项目主页中,点击运行一下,将项目一键克隆至工作空间,『社区项目』推荐适用的算力规格,可以直接立即运行,省去个人下载数据、模型和计算算力的大量准备时间。

    图片

    配置完成,点击进入开发环境,根据主页项目介绍进行部署。

    图片

    使用方法

    在gemini/code中找到使用说明,选中使用说明单元格,点击运行。

    图片

    等待生成local URL,右侧添加端口7860。

    图片

    示例展示

    图片

    更多效果展示可在趋动云公众号查看

    ➫温馨提示: 完成项目后,记得及时关闭开发环境,以免继续产生费用!

    图片

    智汇全球,趋动未来

    『社区项目』汇聚全球智慧,是促进技术交流的宝贵平台,期待每一位AI爱好者体验一键部署功能的强大魅力。

    图片

    同时,我们也热切盼望每一位码友加入,分享您的精品作品,共筑这个充满活力与创新的技术乐园。

    Logo

    Agent 垂直技术社区,欢迎活跃、内容共建。

    更多推荐