Bark – 高度逼真的开源、生成式文字转语音模型

目录展开

Bark 是一款高度逼真的开源、生成式文字转语音模型。它可以生成类似真人的多语言语音，还能生成音乐、背景噪音等简单的音效，以及可以根据文字内容产生笑、叹息和哭泣、喘息声、清嗓子等声音。英语效果优秀，中文效果一般。@Appinn

感谢 @orange.ai 的推荐：

Bark 使用 MIT 许可证，允许商用。经过 CPU 和 GPU 测试（pytorch 2.0+, CUDA 11.7 和 CUDA 12.0)。

例子

Bark 是完全生成式的文本-音频模型，它不是传统的 TTS 模型，会根据文字描述生成很多意想不到的内容。