parler-tts-streaming-webrtc

Running on Zero

App Files Files Community

freddyaboulton HF Staff commited on Oct 10, 2024

Commit

8ee549b

1 Parent(s): 988d6c6

try 2

Browse files

Files changed (1) hide show

app.py +19 -3

app.py CHANGED Viewed

@@ -17,6 +17,21 @@ from pydub import AudioSegment
 from transformers import AutoTokenizer, AutoFeatureExtractor, set_seed
 from transformers.generation.streamers import BaseStreamer
 device = "cuda:0" if torch.cuda.is_available() else "mps" if torch.backends.mps.is_available() else "cpu"
 torch_dtype = torch.float16 if device != "cpu" else torch.float32
@@ -263,7 +278,7 @@ def generate_base(text, description, play_steps_in_s=2.0):
     for new_audio in streamer:
         print(f"Sample of length {round(new_audio.shape[0] / sampling_rate, 2)} seconds ready")
-        yield numpy_to_mp3(new_audio, sampling_rate=sampling_rate)
 css = """
@@ -343,12 +358,13 @@ with gr.Blocks(css=css) as block:
             play_seconds = gr.Slider(0.2, 3.0, value=0.2, step=0.2, label="Streaming interval in seconds", info="Lower = shorter chunks, lower latency, more codec steps")
             run_button = gr.Button("Generate Audio", variant="primary")
         with gr.Column():
-            audio_out = gr.Audio(label="Parler-TTS generation", format="mp3", elem_id="audio_out", streaming=True, autoplay=True)
     inputs = [input_text, description, play_seconds]
     outputs = [audio_out]
     gr.Examples(examples=examples, fn=generate_base, inputs=inputs, outputs=outputs, cache_examples=False)
-    run_button.click(fn=generate_base, inputs=inputs, outputs=outputs, queue=True)
     gr.HTML(
         """

 from transformers import AutoTokenizer, AutoFeatureExtractor, set_seed
 from transformers.generation.streamers import BaseStreamer
+account_sid = os.environ.get("TWILIO_ACCOUNT_SID")
+auth_token = os.environ.get("TWILIO_AUTH_TOKEN")
+if account_sid and auth_token:
+    client = Client(account_sid, auth_token)
+    token = client.tokens.create()
+    rtc_configuration = {
+        "iceServers": token.ice_servers,
+        "iceTransportPolicy": "relay",
+    }
+else:
+    rtc_configuration = None
 device = "cuda:0" if torch.cuda.is_available() else "mps" if torch.backends.mps.is_available() else "cpu"
 torch_dtype = torch.float16 if device != "cpu" else torch.float32
     for new_audio in streamer:
         print(f"Sample of length {round(new_audio.shape[0] / sampling_rate, 2)} seconds ready")
+        yield (sampling_rate, new_audio)
 css = """
             play_seconds = gr.Slider(0.2, 3.0, value=0.2, step=0.2, label="Streaming interval in seconds", info="Lower = shorter chunks, lower latency, more codec steps")
             run_button = gr.Button("Generate Audio", variant="primary")
         with gr.Column():
+            audio_out = WebRTC(label="Parler-TTS generation", modality="audio", mode="receive",
+                               rtc_configuration=rtc_configuration)
     inputs = [input_text, description, play_seconds]
     outputs = [audio_out]
     gr.Examples(examples=examples, fn=generate_base, inputs=inputs, outputs=outputs, cache_examples=False)
+    audio_out.stream(fn=generate_base, inputs=inputs, outputs=audio_out, trigger=run_button.click)
     gr.HTML(
         """