Spaces:

okewunmi
/

tts

Running

App Files Files Community

okewunmi commited on Mar 12

Commit

b6fd3a8

verified ·

1 Parent(s): a87e7e2

create app.py

Browse files

Files changed (1) hide show

app.py +72 -0

app.py ADDED Viewed

	@@ -0,0 +1,72 @@

+import gradio as gr
+import torch
+import torchaudio
+from transformers import AutoModelForCausalLM
+from outetts.wav_tokenizer.decoder import WavTokenizer
+from yarngpt.audiotokenizer import AudioTokenizer
+# Initialize the model (this runs when the app starts)
+def initialize_model():
+    # Download model and tokenizer
+    hf_path = "saheedniyi/YarnGPT"
+    wav_tokenizer_config_path = "wavtokenizer_config.yaml"
+    wav_tokenizer_model_path = "wavtokenizer_model.ckpt"
+    # Create AudioTokenizer
+    audio_tokenizer = AudioTokenizer(
+        hf_path, wav_tokenizer_model_path, wav_tokenizer_config_path
+    )
+    # Load model
+    model = AutoModelForCausalLM.from_pretrained(hf_path, torch_dtype="auto").to(audio_tokenizer.device)
+    return model, audio_tokenizer
+# Generate audio from text
+def generate_speech(text, speaker_name):
+    # Create prompt
+    prompt = audio_tokenizer.create_prompt(text, speaker_name)
+    # Tokenize prompt
+    input_ids = audio_tokenizer.tokenize_prompt(prompt)
+    # Generate output
+    output = model.generate(
+        input_ids=input_ids,
+        temperature=0.1,
+        repetition_penalty=1.1,
+        max_length=4000,
+    )
+    # Convert to audio codes
+    codes = audio_tokenizer.get_codes(output)
+    # Convert codes to audio
+    audio = audio_tokenizer.get_audio(codes)
+    # Save audio temporarily
+    temp_path = "output.wav"
+    torchaudio.save(temp_path, audio, sample_rate=24000)
+    return temp_path
+# Load model globally
+print("Loading model...")
+model, audio_tokenizer = initialize_model()
+print("Model loaded!")
+# Create Gradio interface
+speakers = ["idera", "emma", "jude", "osagie", "tayo", "zainab", "joke", "regina", "remi", "umar", "chinenye"]
+demo = gr.Interface(
+    fn=generate_speech,
+    inputs=[
+        gr.Textbox(lines=5, placeholder="Enter text here..."),
+        gr.Dropdown(choices=speakers, label="Speaker", value="idera")
+    ],
+    outputs=gr.Audio(type="filepath"),
+    title="YarnGPT: Nigerian Accented Text-to-Speech",
+    description="Generate natural-sounding Nigerian accented speech from text."
+)
+demo.launch()