podcast-generator

Sleeping

bluenevus commited on Apr 16

Commit

13cd58d

verified ·

1 Parent(s): 483671e

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -183,11 +183,14 @@ def generate_speech(text, voice1, voice2, temperature, top_p, repetition_penalty
         # Concatenate all audio samples
         final_audio = np.concatenate(audio_samples)
         # Convert numpy array to AudioSegment
         speech_audio = AudioSegment(
-            final_audio.tobytes(),
             frame_rate=24000,
-            sample_width=final_audio.dtype.itemsize,
             channels=1
         )
@@ -208,7 +211,6 @@ def generate_speech(text, voice1, voice2, temperature, top_p, repetition_penalty
         print(f"Error generating speech: {e}")
         return None
 with gr.Blocks(title="Orpheus Text-to-Speech") as demo:
     with gr.Row():
         with gr.Column(scale=1):
@@ -217,13 +219,13 @@ with gr.Blocks(title="Orpheus Text-to-Speech") as demo:
             uploaded_file = gr.File(label="Upload File")
         with gr.Column(scale=2):
             script_output = gr.Textbox(label="Generated Script", lines=10)
             audio_output = gr.Audio(label="Generated Audio", type="numpy")
             generate_script_btn = gr.Button("Generate Podcast Script")
         with gr.Column(scale=2):
-            duration = gr.Slider(minimum=1, maximum=60, value=5, step=1, label="Duration (minutes)")
-            num_hosts = gr.Radio(["1", "2"], label="Number of Hosts", value="1")
             voice1 = gr.Dropdown(
                 choices=VOICES,
                 value="tara",

         # Concatenate all audio samples
         final_audio = np.concatenate(audio_samples)
+        # Normalize the audio
+        final_audio = final_audio / np.max(np.abs(final_audio))
         # Convert numpy array to AudioSegment
         speech_audio = AudioSegment(
+            (final_audio * 32767).astype(np.int16).tobytes(),
             frame_rate=24000,
+            sample_width=2,
             channels=1
         )
         print(f"Error generating speech: {e}")
         return None
 with gr.Blocks(title="Orpheus Text-to-Speech") as demo:
     with gr.Row():
         with gr.Column(scale=1):
             uploaded_file = gr.File(label="Upload File")
         with gr.Column(scale=2):
+            duration = gr.Slider(minimum=1, maximum=60, value=5, step=1, label="Duration (minutes)")
+            num_hosts = gr.Radio(["1", "2"], label="Number of Hosts", value="1")
             script_output = gr.Textbox(label="Generated Script", lines=10)
             audio_output = gr.Audio(label="Generated Audio", type="numpy")
             generate_script_btn = gr.Button("Generate Podcast Script")
         with gr.Column(scale=2):
             voice1 = gr.Dropdown(
                 choices=VOICES,
                 value="tara",