Coqui.ai – 自托管的 AI 文本转语音的深度学习工具包

Coqui.ai 是一款强大的AI文本转语音库,支持超过 1100 种语言的预训练模型。它还提供了丰富的工具,帮助你训练新的模型或微调现有模型,以满足各种语言需求。此外,TTS 还包含了一套实用的数据集分析和整理工具。核心组件是一个基于深度学习的文本转语音工具包,经过了广泛的研究和生产实践的考验。它具备出色的性能和稳定性,能够生成高质量的语音。

file

特性

  • 高性能深度学习模型: 适用于文本转语音任务的先进模型。
  • 文本转频谱模型: 包括 Tacotron、Tacotron2、Glow-TTS、SpeedySpeech 等。
  • 说话人编码器: 高效计算说话人嵌入。
  • 声码器模型: 包括 MelGAN、Multiband-MelGAN、GAN-TTS、ParallelWaveGAN、WaveGrad、WaveRNN 等。
  • 快速高效的模型训练: 提供高效的训练过程。
  • 详细的训练日志: 在终端和 Tensorboard 上提供详细的训练信息。
  • 支持多说话人 TTS: 可以生成多种不同声音的语音。
  • 灵活高效的训练器 API: 提供易于使用的训练器 API,支持多种功能。
  • 预训练模型: 提供可直接使用的预训练模型。
  • 数据集处理工具: 提供用于处理和分析文本转语音数据集的工具。
  • 模型测试工具: 提供用于测试和评估模型性能的工具。
  • 模块化代码库: 模块化的代码结构,方便实现新的功能。

安装

系统要求

  • 支持 Python 3.9 版本以上

安装方法

根据您的需求,可以选择不同的安装方式:

仅需使用预训练模型进行语音合成

  • 这是一种最简单的安装方式,只需通过 PyPI 进行安装:
pip install TTS

需要编写代码或训练模型

  • 克隆 TTS 代码库并进行本地安装:
git clone https://github.com/coqui-ai/TTS
pip install -e .[all,dev,notebooks]  # 选择所需的扩展包(all: 所有扩展包,dev: 开发工具,notebooks: 笔记本示例)

Ubuntu (Debian) 系统

  • 也可以使用以下命令进行安装:
$ make system-deps  # 仅适用于 Ubuntu (Debian) 系统,其他系统请告知
$ make install

Windows 系统

  • @GuyPaddock 在此处提供了 Windows 安装指南。

使用 Docker 镜像

  • 可以使用 Docker 镜像免安装运行 TTS:
docker run --rm -it -p 5002:5002 --entrypoint /bin/bash ghcr.io/coqui-ai/tts-cpu

# 查看可用模型列表
python3 TTS/server/server.py --list_models

# 启动服务(使用 tts_models/en/vctk/vits 模型)
python3 TTS/server/server.py --model_name tts_models/en/vctk/vits

# 访问 TTS 服务器(具体访问方式未提供)

官方链接

Comments

No comments yet. Why don’t you start the discussion?

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注