Spaces:

Pendrokar
/

xVASynth-TTS

Running on CPU Upgrade

App Files Files Community

xVASynth-TTS / README.md

Pendrokar

Update README.md

bd394e1 verified 16 days ago

preview code

raw

history blame

1.67 kB

metadata

title: xVASynth TTS
emoji: 🧝‍♀️🧛‍♂️🧚‍♀️
colorFrom: gray
colorTo: gray
sdk: gradio
python_version: 3.9
sdk_version: 4.20.0
models:
  - Pendrokar/xvapitch_nvidia
  - Pendrokar/xvapitch_expresso
  - Pendrokar/TorchMoji
  - Pendrokar/xvasynth_lojban
  - Pendrokar/xvasynth_cabal
app_file: app.py
app_port: 7860
tags:
  - tts
  - t2s
  - sts
  - s2s
pinned: true
preload_from_hub:
  - Pendrokar/xvapitch_nvidia
  - Pendrokar/xvapitch_expresso
  - Pendrokar/TorchMoji
  - Pendrokar/xvasynth_lojban
  - Pendrokar/xvasynth_cabal
license: gpl-3.0
thumbnail: https://huggingface.co/spaces/Pendrokar/xVASynth/raw/main/thumbnail.png
short_description: CPU powered, low RTF, emotional, multilingual TTS

DanRuta's xVASynth, GitHub repo: https://github.com/DanRuta/xVA-Synth

Papers:

VITS: Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech - https://arxiv.org/abs/2106.06103
YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for Everyone - https://arxiv.org/abs/2112.02418

Referenced papers within code:

Multi-head attention with Relative Positional embedding - https://arxiv.org/pdf/1809.04281.pdf
Transformer with Relative Potional Encoding- https://arxiv.org/abs/1803.02155
SDP - https://arxiv.org/pdf/2106.06103.pdf
Spline Flow - https://arxiv.org/abs/1906.04032

Extra:

DeepMoji - https://arxiv.org/abs/1708.00524

xVA FastPitch:

Used datasets: Unknown/Non-permissiable data