Spaces:

Pendrokar
/

xVASynth-TTS

Running on CPU Upgrade

App Files Files Community

xVASynth-TTS / app.py

Pendrokar

voice reorder & emojis; flag switch to nation with most speakers

fd48aa5 over 1 year ago

raw

history blame

15.8 kB

	import os
	import sys
	import time
	import requests
	import json
	from subprocess import Popen, PIPE
	import threading
	from huggingface_hub import HfApi
	import gradio as gr

	# start xVASynth service (no HTTP)
	import resources.app.no_server as xvaserver

	# model
	hf_model_name = "Pendrokar/xvapitch_nvidia"
	model_repo = HfApi()
	commits = model_repo.list_repo_commits(repo_id=hf_model_name)
	latest_commit_sha = commits[0].commit_id
	hf_cache_models_path = f'/home/user/.cache/huggingface/hub/models--Pendrokar--xvapitch_nvidia/snapshots/{latest_commit_sha}/'
	models_path = hf_cache_models_path

	# ordered from most emotional and respects pauses to ones that do the least
	voice_models = [
	("👨‍🦳 #6671", "ccby_nvidia_hifi_6671_M"),
	("👱‍♀️ 🇬🇧 #92", "ccby_nvidia_hifi_92_F"),
	("🧔 #6670", "ccby_nvidia_hifi_6670_M"),
	("Male #9017", "ccby_nvidia_hifi_9017_M"),
	("Male #6097", "ccby_nvidia_hifi_6097_M"),
	("👩‍🦱 #12787", "ccby_nvidia_hifi_12787_F"),
	("👵 #11614", "ccby_nv_hifi_11614_F"),
	("Female #8051", "ccby_nvidia_hifi_8051_F"),
	("👩‍🦳 #11697", "ccby_nvidia_hifi_11697_F"),
	("Female #9136", "ccby_nvidia_hifi_9136_F"),
	]

	current_voice_model = None
	base_speaker_emb = ''

	# order ranked by similarity to English due to the xVASynth's use of ARPAbet instead of IPA
	languages = [
	("🇺🇸 EN", "en"),
	("🇩🇪 DE", "de"),
	("🇪🇸 ES", "es"),
	("🇮🇹 IT", "it"),
	("🇳🇱 NL", "nl"),
	("🇧🇷 PT", "pt"),
	("🇵🇱 PL", "pl"),
	("🇷🇴 RO", "ro"),
	("🇸🇪 SV", "sv"),
	("🇩🇰 DA", "da"),
	("🇫🇮 FI", "fi"),
	("🇭🇺 HU", "hu"),
	("🇬🇷 EL", "el"),
	("🇫🇷 FR", "fr"),
	("🇷🇺 RU", "ru"),
	("🇺🇦 UA", "uk"),
	("🇹🇷 TR", "tr"),
	("🇸🇦 AR", "ar"),
	("🇮🇳 HI", "hi"),
	("🇯🇵 JP", "jp"),
	("🇰🇷 KO", "ko"),
	("🇨🇳 ZH", "zh"),
	("🇻🇳 VI", "vi"),
	("🇻🇦 LA", "la"),
	("🇳🇬 YO", "yo"),
	("Swahili", "sw"),
	("Hausa", "ha"),
	("Wolof", "wo"),
	]

	# Translated from English by DeepMind's Gemini Pro
	default_text = {
	"ar": "هذا هو صوتي.",
	"da": "Sådan lyder min stemme.",
	"de": "So klingt meine Stimme.",
	"el": "Έτσι ακούγεται η φωνή μου.",
	"en": "This is what my voice sounds like.",
	"es": "Así suena mi voz.",
	"fi": "Näin ääneni kuulostaa.",
	"fr": "Voici à quoi ressemble ma voix.",
	"ha": "Wannan ne muryata ke.",
	"hi": "यह मेरी आवाज़ कैसी लगती है।",
	"hu": "Így hangzik a hangom.",
	"it": "Così suona la mia voce.",
	"jp": "これが私の声です。",
	"ko": "여기 제 목소리가 어떤지 들어보세요.",
	"la": "Haec est vox mea sonans.",
	"nl": "Dit is hoe mijn stem klinkt.",
	"pl": "Tak brzmi mój głos.",
	"pt": "É assim que minha voz soa.",
	"ro": "Așa sună vocea mea.",
	"ru": "Вот как звучит мой голос.",
	"sv": "Såhär låter min röst.",
	"sw": "Baba, yetu, yetu, uliye. Mbinguni, yetu, yetu. Amiiinaa!!", #civ4
	"tr": "Benim sesimin sesi böyle.",
	"uk": "Ось як звучить мій голос.",
	"vi": "Đây là giọng nói của tôi.",
	"wo": "Ndox li neen xewnaal ma.",
	"yo": "Ìyí ni ohùn mi ńlá.",
	"zh": "这是我的声音。",
	}

	def run_xvaserver():
	# start the process without waiting for a response
	print('Running xVAServer subprocess...\n')
	xvaserver = Popen(['python', f'{os.path.dirname(os.path.abspath(__file__))}/resources/app/server.py'], stdout=PIPE, stderr=PIPE, cwd=f'{os.path.dirname(os.path.abspath(__file__))}/resources/app/')

	# Wait for a moment to ensure the server starts up
	time.sleep(10)

	# Check if the server is running
	if xvaserver.poll() is not None:
	print("Web server failed to start.")
	sys.exit(0)

	# contact local xVASynth server
	print('Attempting to connect to xVASynth...')
	try:
	response = requests.get('http://0.0.0.0:8008')
	response.raise_for_status() # If the response contains an HTTP error status code, raise an exception
	except requests.exceptions.RequestException as err:
	print('Failed to connect!')
	return

	print('xVAServer running on port 8008')

	# load default model
	load_model("ccby_nvidia_hifi_6671_M")

	# Wait for the process to exit
	xvaserver.wait()

	def load_model(voice_model_name):
	model_path = models_path + voice_model_name

	model_type = 'xVAPitch'
	language = 'en'

	data = {
	'outputs': None,
	'version': '3.0',
	'model': model_path,
	'modelType': model_type,
	'base_lang': language,
	'pluginsContext': '{}',
	}

	embs = base_speaker_emb

	print('Loading voice model...')
	try:
	json_data = xvaserver.loadModel(data)
	current_voice_model = voice_model_name

	with open(model_path + '.json', 'r', encoding='utf-8') as f:
	voice_model_json = json.load(f)
	embs = voice_model_json['games'][0]['base_speaker_emb']
	except requests.exceptions.RequestException as err:
	print(f'FAILED to load voice model: {err}')

	return embs

	def predict(
	input_text,
	voice,
	lang,
	pacing,
	pitch,
	energy,
	anger,
	happy,
	sad,
	surprise,
	use_deepmoji
	):
	# grab only the first 1000 characters
	input_text = input_text[:1000]

	# load voice model if not the current model
	if (current_voice_model != voice):
	base_speaker_emb = load_model(voice)

	model_type = 'xVAPitch'
	pace = pacing if pacing else 1.0
	save_path = '/tmp/xvapitch_audio_sample.wav'
	language = lang
	use_sr = 0
	use_cleanup = 0

	pluginsContext = {}
	pluginsContext["mantella_settings"] = {
	"emAngry": (anger if anger > 0 else 0),
	"emHappy": (happy if happy > 0 else 0),
	"emSad": (sad if sad > 0 else 0),
	"emSurprise": (surprise if surprise > 0 else 0),
	"run_model": use_deepmoji
	}


	data = {
	'pluginsContext': json.dumps(pluginsContext),
	'modelType': model_type,
	# pad with whitespaces as a workaround to avoid cutoffs
	'sequence': input_text.center(len(input_text) + 2, ' '),
	'pace': pace,
	'outfile': save_path,
	'vocoder': 'n/a',
	'base_lang': language,
	'base_emb': base_speaker_emb,
	'useSR': use_sr,
	'useCleanup': use_cleanup,
	}

	print('Synthesizing...')
	try:
	json_data = xvaserver.synthesize(data)
	# response = requests.post('http://0.0.0.0:8008/synthesize', json=data, timeout=60)
	# response.raise_for_status() # If the response contains an HTTP error status code, raise an exception
	# json_data = json.loads(response.text)
	except requests.exceptions.RequestException as err:
	print('FAILED to synthesize: {err}')
	save_path = ''
	response = {'text': '{"message": "Failed"}'}
	json_data = {
	'arpabet': ['Failed'],
	'durations': [0],
	'em_anger': anger,
	'em_happy': happy,
	'em_sad': sad,
	'em_surprise': surprise,
	}

	# print('server.log contents:')
	# with open('resources/app/server.log', 'r') as f:
	# print(f.read())

	arpabet_html = '<h6>ARPAbet & Phoneme lengths</h6>'
	arpabet_symbols = json_data['arpabet'].split('\|')
	utter_time = 0
	for symb_i in range(len(json_data['durations'])):
	# skip PAD symbol
	if (arpabet_symbols[symb_i] == '<PAD>'):
	continue

	length = float(json_data['durations'][symb_i])
	arpa_length = str(round(length/2, 1))
	arpabet_html += '<strong\
	class="arpabet"\
	style="padding: 0 '\
	+ str(arpa_length)\
	+'em"'\
	+f" title=\"{utter_time} + {length}\""\
	+'>'\
	+ arpabet_symbols[symb_i]\
	+ '</strong> '
	utter_time += round(length, 1)

	return [
	save_path,
	arpabet_html,
	round(json_data['em_angry'][0], 2),
	round(json_data['em_happy'][0], 2),
	round(json_data['em_sad'][0], 2),
	round(json_data['em_surprise'][0], 2),
	json_data
	]

	input_textbox = gr.Textbox(
	label="Input Text",
	value="This is what my voice sounds like.",
	info="Also accepts ARPAbet symbols placed within {} brackets.",
	lines=1,
	max_lines=5,
	autofocus=True
	)
	pacing_slider = gr.Slider(0.5, 2.0, value=1.0, step=0.1, label="Duration")
	pitch_slider = gr.Slider(0, 1.0, value=0.5, step=0.05, label="Pitch", visible=False)
	energy_slider = gr.Slider(0.1, 1.0, value=1.0, step=0.05, label="Energy", visible=False)
	anger_slider = gr.Slider(0, 1.0, value=0, step=0.05, label="😠 Anger", info="Tread lightly beyond 0.9")
	happy_slider = gr.Slider(0, 1.0, value=0, step=0.05, label="😃 Happiness", info="Tread lightly beyond 0.7")
	sad_slider = gr.Slider(0, 1.0, value=0, step=0.05, label="😭 Sadness", info="Duration increased when beyond 0.2")
	surprise_slider = gr.Slider(0, 1.0, value=0, step=0.05, label="😮 Surprise", info="Does not play well with Happiness with either being beyond 0.3")
	voice_radio = gr.Radio(
	voice_models,
	value="ccby_nvidia_hifi_6671_M",
	label="Voice",
	info="NVIDIA HIFI CC-BY-4.0 xVAPitch voice model"
	)

	def set_default_text(lang, deepmoji_checked):
	# DeepMoji only works on English Text
	# checkbox_enabled = True
	# if lang != 'en':
	# checkbox_enabled = False

	if lang == 'en':
	checkbox_enabled = gr.Checkbox(
	label="Use DeepMoji",
	info="Auto adjust emotional values",
	value=deepmoji_checked,
	interactive=True
	)
	else:
	checkbox_enabled = gr.Checkbox(
	label="Use DeepMoji",
	info="Works only with English!",
	value=False,
	interactive=False
	)

	return default_text[lang], checkbox_enabled # Return the modified textbox (important for Blocks)

	en_examples = [
	"This is what my voice sounds like.",
	"If there is anything else you need, feel free to ask.",
	"Amazing! Could you do that again?",
	"Why, I would be more than happy to help you!",
	"That was unexpected.",
	"How dare you! . You have no right.",
	"Ahh, well, you see. There is more to it.",
	"I can't believe she is gone.",
	"Stay out of my way!!!",
	# ARPAbet example
	"This { IH1 Z } { W AH1 T } { M AY1 } { V OY1 S } { S AW1 N D Z } like.",
	]

	def set_example_as_input(example_text):
	return example_text

	def reset_em_sliders(
	deepmoji_enabled,
	anger,
	happy,
	sad,
	surprise
	):
	if (deepmoji_enabled):
	return (0, 0, 0, 0)
	else:
	return (
	anger,
	happy,
	sad,
	surprise
	)

	def set_default_audio(voice_id):
	return models_path + voice_id + '.wav'

	def toggle_deepmoji(
	checked,
	anger,
	happy,
	sad,
	surprise
	):
	if checked:
	return (0, 0, 0, 0)
	else:
	return (
	anger,
	happy,
	sad,
	surprise
	)

	language_radio = gr.Radio(
	languages,
	value="en",
	label="Language",
	info="Will be more monotone and have an English accent. Tested mostly by a native Briton."
	)

	_DESCRIPTION = '''
	<div>
	<a style="display:inline-block;" href="https://github.com/DanRuta/xVA-Synth"><img src='https://img.shields.io/github/stars/DanRuta/xVA-Synth?style=social'/></a>
	<a style="display:inline-block;" href="https://www.nexusmods.com/skyrimspecialedition/mods/44184"><img src='https://img.shields.io/badge/Endorsements-3.3k-blue?logo=nexusmods'/></a>
	<a style="display:inline-block; margin-left: .5em" href="https://discord.gg/nv7c6E2TzV"><img src='https://img.shields.io/discord/794590496202293278.svg?label=&logo=discord&logoColor=ffffff&color=7389D8&labelColor=6A7EC2'/></a>
	<span style="display: inline-block;margin-left: .5em;vertical-align: top;"><a href="https://huggingface.co/spaces/Pendrokar/xVASynth?duplicate=true" style="" target="_blank"><img style="margin-bottom: 0em;display: inline;" src="https://bit.ly/3gLdBN6" alt="Duplicate Space"></a> for a personal CPU-run one</span>
	</div>
	'''

	with gr.Blocks(css=".arpabet {display: inline-block; background-color: gray; border-radius: 5px; font-size: 120%; margin: 0.1em 0}") as demo:
	gr.Markdown("# xVASynth TTS")

	gr.HTML(label="description", value=_DESCRIPTION)

	with gr.Row(): # Main row for inputs and language selection
	with gr.Column(): # Input column
	input_textbox = gr.Textbox(
	label="Input Text",
	value="This is what my voice sounds like.",
	info="Also accepts ARPAbet symbols placed within {} brackets.",
	lines=1,
	max_lines=5,
	autofocus=True
	)
	language_radio = gr.Radio(
	languages,
	value="en",
	label="Language",
	info="Will be more monotone and have an English accent. Tested mostly by a native Briton."
	)
	with gr.Row():
	with gr.Column():
	en_examples_dropdown = gr.Dropdown(
	en_examples,
	value=en_examples[0],
	label="Example dropdown",
	show_label=False,
	info="English Examples",
	visible=(language_radio.value == 'en')
	)
	with gr.Column():
	pacing_slider = gr.Slider(0.5, 2.0, value=1.0, step=0.1, label="Duration")
	with gr.Column(): # Control column
	voice_radio = gr.Radio(
	voice_models,
	value="ccby_nvidia_hifi_6671_M",
	label="Voice",
	info="NVIDIA HIFI CC-BY-4.0 xVAPitch voice model"
	)
	pitch_slider = gr.Slider(0, 1.0, value=0.5, step=0.05, label="Pitch", visible=False)
	energy_slider = gr.Slider(0.1, 1.0, value=1.0, step=0.05, label="Energy", visible=False)
	with gr.Row(): # Main row for inputs and language selection
	with gr.Column(): # Input column
	anger_slider = gr.Slider(0, 1.0, value=0, step=0.05, label="😠 Anger", info="Tread lightly beyond 0.9")
	sad_slider = gr.Slider(0, 1.0, value=0, step=0.05, label="😭 Sadness", info="Duration increased when beyond 0.2")
	with gr.Column(): # Input column
	happy_slider = gr.Slider(0, 1.0, value=0, step=0.05, label="😃 Happiness", info="Tread lightly beyond 0.7")
	surprise_slider = gr.Slider(0, 1.0, value=0, step=0.05, label="😮 Surprise", info="Can oversaturate Happiness")
	deepmoji_checkbox = gr.Checkbox(label="Use DeepMoji", info="Auto adjust emotional values", value=True)

	# Event handling using click
	btn = gr.Button("Generate", variant="primary")

	with gr.Row(): # Main row for inputs and language selection
	with gr.Column(): # Input column
	output_wav = gr.Audio(
	label="22kHz audio output (autoplay enabled)",
	type="filepath",
	editable=False,
	autoplay=True
	)
	with gr.Column(): # Input column
	output_arpabet = gr.HTML(label="ARPAbet")

	btn.click(
	fn=predict,
	inputs=[
	input_textbox,
	voice_radio,
	language_radio,
	pacing_slider,
	pitch_slider,
	energy_slider,
	anger_slider,
	happy_slider,
	sad_slider,
	surprise_slider,
	deepmoji_checkbox
	],
	outputs=[
	output_wav,
	output_arpabet,
	anger_slider,
	happy_slider,
	sad_slider,
	surprise_slider,
	# xVAServer response
	gr.Textbox(visible=False)
	]
	)
	input_textbox.submit(
	fn=predict,
	inputs=[
	input_textbox,
	voice_radio,
	language_radio,
	pacing_slider,
	pitch_slider,
	energy_slider,
	anger_slider,
	happy_slider,
	sad_slider,
	surprise_slider,
	deepmoji_checkbox
	],
	outputs=[
	output_wav,
	output_arpabet,
	anger_slider,
	happy_slider,
	sad_slider,
	surprise_slider,
	# xVAServer response
	gr.Textbox(visible=False)
	]
	)

	language_radio.change(
	set_default_text,
	inputs=[language_radio, deepmoji_checkbox],
	outputs=[input_textbox, deepmoji_checkbox]
	)

	en_examples_dropdown.change(
	set_example_as_input,
	inputs=[en_examples_dropdown],
	outputs=[input_textbox]
	)

	deepmoji_checkbox.change(
	toggle_deepmoji,
	inputs=[
	deepmoji_checkbox,
	anger_slider,
	happy_slider,
	sad_slider,
	surprise_slider
	],
	outputs=[
	anger_slider,
	happy_slider,
	sad_slider,
	surprise_slider
	]
	)

	input_textbox.change(
	reset_em_sliders,
	inputs=[
	deepmoji_checkbox,
	anger_slider,
	happy_slider,
	sad_slider,
	surprise_slider
	],
	outputs=[
	anger_slider,
	happy_slider,
	sad_slider,
	surprise_slider
	]
	)

	voice_radio.change(
	reset_em_sliders,
	inputs=[
	deepmoji_checkbox,
	anger_slider,
	happy_slider,
	sad_slider,
	surprise_slider
	],
	outputs=[
	anger_slider,
	happy_slider,
	sad_slider,
	surprise_slider
	]
	)

	voice_radio.change(
	set_default_audio,
	inputs=voice_radio,
	outputs=output_wav
	)

	if __name__ == "__main__":
	print('running custom Gradio interface')
	demo.launch()