Coqui.ai 是一款强大的AI文本转语音库,支持超过 1100 种语言的预训练模型。它还提供了丰富的工具,帮助你训练新的模型或微调现有模型,以满足各种语言需求。此外,TTS 还包含了一套实用的数据集分析和整理工具。核心组件是一个基于深度学习的文本转语音工具包,经过了广泛的研究和生产实践的考验。它具备出色的性能和稳定性,能够生成高质量的语音。
特性
- 高性能深度学习模型: 适用于文本转语音任务的先进模型。
- 文本转频谱模型: 包括 Tacotron、Tacotron2、Glow-TTS、SpeedySpeech 等。
- 说话人编码器: 高效计算说话人嵌入。
- 声码器模型: 包括 MelGAN、Multiband-MelGAN、GAN-TTS、ParallelWaveGAN、WaveGrad、WaveRNN 等。
- 快速高效的模型训练: 提供高效的训练过程。
- 详细的训练日志: 在终端和 Tensorboard 上提供详细的训练信息。
- 支持多说话人 TTS: 可以生成多种不同声音的语音。
- 灵活高效的训练器 API: 提供易于使用的训练器 API,支持多种功能。
- 预训练模型: 提供可直接使用的预训练模型。
- 数据集处理工具: 提供用于处理和分析文本转语音数据集的工具。
- 模型测试工具: 提供用于测试和评估模型性能的工具。
- 模块化代码库: 模块化的代码结构,方便实现新的功能。
安装
系统要求
- 支持 Python 3.9 版本以上
安装方法
根据您的需求,可以选择不同的安装方式:
仅需使用预训练模型进行语音合成
- 这是一种最简单的安装方式,只需通过 PyPI 进行安装:
pip install TTS
需要编写代码或训练模型
- 克隆 TTS 代码库并进行本地安装:
git clone https://github.com/coqui-ai/TTS
pip install -e .[all,dev,notebooks] # 选择所需的扩展包(all: 所有扩展包,dev: 开发工具,notebooks: 笔记本示例)
Ubuntu (Debian) 系统
- 也可以使用以下命令进行安装:
$ make system-deps # 仅适用于 Ubuntu (Debian) 系统,其他系统请告知
$ make install
Windows 系统
- @GuyPaddock 在此处提供了 Windows 安装指南。
使用 Docker 镜像
- 可以使用 Docker 镜像免安装运行 TTS:
docker run --rm -it -p 5002:5002 --entrypoint /bin/bash ghcr.io/coqui-ai/tts-cpu
# 查看可用模型列表
python3 TTS/server/server.py --list_models
# 启动服务(使用 tts_models/en/vctk/vits 模型)
python3 TTS/server/server.py --model_name tts_models/en/vctk/vits
# 访问 TTS 服务器(具体访问方式未提供)