VALL-E X-轻便快速且强大的AI声音克隆

介绍

VALL-E X 只需 3 秒注册录音即可合成高质量的个性化语音 一个看不见的说话者作为声学提示,即使是另一种语言的单语说话者。
此实现支持三种语言(英语、中文、日语)的零镜头、单语言/跨语言文本到语音转换功能

GitHub:https://github.com/Plachtaa/VALL-E-X

演示页面:https://plachtaa.github.io/

特征

  1. 多语言TTS:用三种语言 - 英语,中文和日语 - 自然和富有表现力的语音合成。
  2. 零镜头语音克隆:注册一个看不见的演讲者的短短 3~10 秒录音,并观看 VALL-E X 创建听起来像他们的个性化、高质量的语音!

使用

必备环境: python3.10、git、FFmpeg6.0

安装

git clone https://github.com/Plachtaa/VALL-E-X.git

cd VALL-E-X python -m venv venv call venv\scripts\activate.bat

pip install -r requirements.txt

运行 python -X utf8 launch-ui.py

首次运行程序时,它会自动下载相应的模型。

如果下载失败并报告错误,请按照以下步骤手动下载模型。

(请注意文件夹的大小写)

  1. 检查安装目录中是否有文件夹。 如果没有,请在安装目录中手动创建一个文件夹 ()。checkpoints``checkpoints``./checkpoints/
  2. 检查文件夹中是否有文件。 如果没有,请从(https://huggingface.co/Plachta/VALL-E-X/resolve/main/vallex-checkpoint.pt)手动下载文件并将其放入文件夹中。
  3. 检查安装目录中是否有文件夹。 如果没有,请在安装目录中手动创建一个文件夹
  4. 检查文件夹中是否有文件。 如果没有,请从(https://openaipublic.azureedge.net/main/whisper/models/345ae4da62f9b3d59415adc60127b97c714f32e89e936602e85993674d08dcb1/medium.pt)手动下载文件并将其放入文件夹中。

Nvidia显卡加速

pip list pip uninstall torch torchvision torchaudio

pip install torch torchvision torchaudio –index-url https://download.pytorch.org/whl/cu118