Spaces:

GAASH-Lab
/

Translator-en-kas

Sleeping

App Files Files Community

BurhaanZargar commited on Jun 9

Commit

33d56ec

1 Parent(s): 4399d89

Debugging

Browse files

Files changed (2) hide show

app.py +30 -16
requirements.txt +3 -1

app.py CHANGED Viewed

@@ -1,3 +1,4 @@
 import gradio as gr
 import torch
 from transformers import AutoModelForSeq2SeqLM, AutoTokenizer, pipeline
@@ -7,10 +8,8 @@ from datetime import datetime
 import tempfile
 from gtts import gTTS
 import os
-import logging
-# Configure logging
-logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
@@ -114,31 +113,38 @@ def transcribe_audio(audio_path):
     try:
         if not audio_path:
             return None, "No audio file provided"
-        # Convert to mono if needed
-        if isinstance(audio_path, tuple):
-            audio_path = audio_path[1]  # Gradio returns (sample_rate, audio_data)
-        transcription = asr(audio_path)["text"]
         return transcription, None
     except Exception as e:
         logging.error("STT error: %s", e)
         return None, f"⚠️ Transcription failed: {str(e)}"
 # --- Handle audio translation ---
 def handle_audio_translation(audio_path, direction):
     if direction != "en_to_ks":
-        return "⚠️ Audio input is only supported for English to Kashmiri.", "", "", None
     transcription, error = transcribe_audio(audio_path)
     if error:
-        return error, "", "", None
     translated, _ = translate(transcription, direction, generate_tts=False)
-    return "", transcription, translated, None
 # --- Switch UI direction ---
-def switch_direction(direction, input_text_val, output_text_val):
     new_direction = "ks_to_en" if direction == "en_to_ks" else "en_to_ks"
     input_label = "Kashmiri Text" if new_direction == "ks_to_en" else "English Text"
     output_label = "English Translation" if new_direction == "ks_to_en" else "Kashmiri Translation"
@@ -154,6 +160,7 @@ with gr.Blocks() as interface:
 </div>
 """)
     translation_direction = gr.State(value="en_to_ks")
     with gr.Row():
         input_text = gr.Textbox(label="English Text", placeholder="Enter text here...", lines=2)
@@ -175,6 +182,13 @@ with gr.Blocks() as interface:
         stt_button = gr.Button("🎤 Transcribe & Translate (EN → KS)")
         tts_button = gr.Button("🔊 Translate & Speak (KS → EN)")
     # Events
     translate_button.click(
         fn=translate,
@@ -200,14 +214,14 @@ with gr.Blocks() as interface:
     switch_button.click(
         fn=switch_direction,
-        inputs=[translation_direction, input_text, output_text],
         outputs=[translation_direction, input_text, output_text, audio_output]
     )
     stt_button.click(
         fn=handle_audio_translation,
-        inputs=[audio_input, translation_direction],
-        outputs=[save_status, input_text, output_text, audio_output]
     )
 if __name__ == "__main__":

+#app.py
 import gradio as gr
 import torch
 from transformers import AutoModelForSeq2SeqLM, AutoTokenizer, pipeline
 import tempfile
 from gtts import gTTS
 import os
+import shutil
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
     try:
         if not audio_path:
             return None, "No audio file provided"
+        # Create a persistent copy of the audio file
+        with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as f:
+            temp_path = f.name
+        shutil.copy(audio_path, temp_path)
+        transcription = asr(temp_path)["text"]
+        os.unlink(temp_path)  # Clean up temporary file
         return transcription, None
     except Exception as e:
         logging.error("STT error: %s", e)
         return None, f"⚠️ Transcription failed: {str(e)}"
+# --- Store audio file path ---
+def store_audio(audio_path):
+    """Store audio path in state and return it to keep it visible"""
+    return audio_path
 # --- Handle audio translation ---
 def handle_audio_translation(audio_path, direction):
     if direction != "en_to_ks":
+        return "⚠️ Audio input is only supported for English to Kashmiri.", "", "", audio_path
     transcription, error = transcribe_audio(audio_path)
     if error:
+        return error, "", "", audio_path
     translated, _ = translate(transcription, direction, generate_tts=False)
+    return "", transcription, translated, audio_path
 # --- Switch UI direction ---
+def switch_direction(direction, input_text_val, output_text_val, audio_path):
     new_direction = "ks_to_en" if direction == "en_to_ks" else "en_to_ks"
     input_label = "Kashmiri Text" if new_direction == "ks_to_en" else "English Text"
     output_label = "English Translation" if new_direction == "ks_to_en" else "Kashmiri Translation"
 </div>
 """)
     translation_direction = gr.State(value="en_to_ks")
+    stored_audio = gr.State()
     with gr.Row():
         input_text = gr.Textbox(label="English Text", placeholder="Enter text here...", lines=2)
         stt_button = gr.Button("🎤 Transcribe & Translate (EN → KS)")
         tts_button = gr.Button("🔊 Translate & Speak (KS → EN)")
+    # Store audio when recorded
+    audio_input.change(
+        fn=store_audio,
+        inputs=audio_input,
+        outputs=stored_audio
+    )
     # Events
     translate_button.click(
         fn=translate,
     switch_button.click(
         fn=switch_direction,
+        inputs=[translation_direction, input_text, output_text, stored_audio],
         outputs=[translation_direction, input_text, output_text, audio_output]
     )
     stt_button.click(
         fn=handle_audio_translation,
+        inputs=[stored_audio, translation_direction],
+        outputs=[save_status, input_text, output_text, audio_input]
     )
 if __name__ == "__main__":

requirements.txt CHANGED Viewed

@@ -8,4 +8,6 @@ gTTS
 pydub
 ffmpeg-python
 soundfile
-accelerate

 pydub
 ffmpeg-python
 soundfile
+accelerate
+os
+shutil