Spaces:

Luigi
/

Whisper-vs-Sensevoice-Small

Running on Zero

App Files Files Community

Luigi commited on 26 days ago

Commit

2d01cbb

1 Parent(s): f8ba113

clean code

Browse files

Files changed (1) hide show

app.py +11 -24

app.py CHANGED Viewed

@@ -4,7 +4,6 @@ import tempfile
 import torch
 import gradio as gr
-from transformers import pipeline
 from faster_whisper import WhisperModel
 from pydub import AudioSegment
 from pyannote.audio import Pipeline as DiarizationPipeline
@@ -90,18 +89,6 @@ def format_diarization_html(snippets):
     return "<div>" + "".join(html_lines) + "</div>"
 # —————— Helpers ——————
-def get_whisper_pipe(model_id: str, device: int):
-    key = (model_id, device)
-    if key not in whisper_pipes:
-        whisper_pipes[key] = pipeline(
-            "automatic-speech-recognition",
-            model=model_id,
-            device=device,
-            chunk_length_s=30,
-            stride_length_s=5,
-            return_timestamps=False,
-        )
-    return whisper_pipes[key]
 # —————— Faster-Whisper Cache & Factory ——————
 _fwhisper_models: dict[tuple[str, str], WhisperModel] = {}
@@ -150,7 +137,7 @@ def get_diarization_pipe():
                 use_auth_token=token or True
             )
-        dar_pipe.to(torch.device("cpu"))
     return dar_pipe
@@ -163,14 +150,14 @@ def transcribe_with_fwhisper(model: WhisperModel, audio_path: str, language: str
     lang_arg = None if language == "auto" else language
     segments, _ = model.transcribe(
         audio_path,
-        beam_size=5,
-        best_of=5,
         language=lang_arg,
         vad_filter=True,
     )
     return "".join(seg.text for seg in segments).strip()
-def _transcribe_whisper_cpu(model_id, language, audio_path, enable_diar):
     model = get_fwhisper_model(model_id, "cpu")
     cprint('Whisper (faster-whisper) using CPU', 'red')
     # Diarization-only branch
@@ -196,7 +183,7 @@ def _transcribe_whisper_cpu(model_id, language, audio_path, enable_diar):
 @spaces.GPU
-def _transcribe_whisper_gpu(model_id, language, audio_path, enable_diar):
     pipe = get_fwhisper_model(model_id, "cuda")
     cprint('Whisper (faster-whisper) using CUDA', 'green')
     # Diarization-only branch
@@ -221,10 +208,10 @@ def _transcribe_whisper_gpu(model_id, language, audio_path, enable_diar):
     return transcript, ""
-def transcribe_whisper(model_id, language, audio_path, device_sel, enable_diar):
     if device_sel == "GPU" and torch.cuda.is_available():
-        return _transcribe_whisper_gpu(model_id, language, audio_path, enable_diar)
-    return _transcribe_whisper_cpu(model_id, language, audio_path, enable_diar)
 # —————— SenseVoice Transcription ——————
@@ -368,7 +355,7 @@ with Demo:
     with gr.Row():
         with gr.Column():
-            gr.Markdown("### Whisper ASR")
             whisper_dd = gr.Dropdown(choices=WHISPER_MODELS, value=WHISPER_MODELS[0], label="Whisper Model")
             whisper_lang = gr.Dropdown(choices=WHISPER_LANGUAGES, value="auto", label="Whisper Language")
             device_radio = gr.Radio(choices=["GPU", "CPU"], value="GPU", label="Device")
@@ -378,8 +365,8 @@ with Demo:
             # Toggle visibility based on checkbox
             diar_check.change(lambda e: gr.update(visible=not e), inputs=diar_check, outputs=out_w)
             diar_check.change(lambda e: gr.update(visible=e), inputs=diar_check, outputs=out_w_d)
-            btn_w = gr.Button("Transcribe with Whisper")
-            btn_w.click(fn=transcribe_whisper,
                         inputs=[whisper_dd, whisper_lang, audio_input, device_radio, diar_check],
                         outputs=[out_w, out_w_d])

 import torch
 import gradio as gr
 from faster_whisper import WhisperModel
 from pydub import AudioSegment
 from pyannote.audio import Pipeline as DiarizationPipeline
     return "<div>" + "".join(html_lines) + "</div>"
 # —————— Helpers ——————
 # —————— Faster-Whisper Cache & Factory ——————
 _fwhisper_models: dict[tuple[str, str], WhisperModel] = {}
                 use_auth_token=token or True
             )
+        # dar_pipe.to(torch.device("cpu"))
     return dar_pipe
     lang_arg = None if language == "auto" else language
     segments, _ = model.transcribe(
         audio_path,
+        beam_size=1,
+        best_of=1,
         language=lang_arg,
         vad_filter=True,
     )
     return "".join(seg.text for seg in segments).strip()
+def _transcribe_fwhisper_cpu(model_id, language, audio_path, enable_diar):
     model = get_fwhisper_model(model_id, "cpu")
     cprint('Whisper (faster-whisper) using CPU', 'red')
     # Diarization-only branch
 @spaces.GPU
+def _transcribe_fwhisper_gpu(model_id, language, audio_path, enable_diar):
     pipe = get_fwhisper_model(model_id, "cuda")
     cprint('Whisper (faster-whisper) using CUDA', 'green')
     # Diarization-only branch
     return transcript, ""
+def transcribe_fwhisper(model_id, language, audio_path, device_sel, enable_diar):
     if device_sel == "GPU" and torch.cuda.is_available():
+        return _transcribe_fwhisper_gpu(model_id, language, audio_path, enable_diar)
+    return _transcribe_fwhisper_cpu(model_id, language, audio_path, enable_diar)
 # —————— SenseVoice Transcription ——————
     with gr.Row():
         with gr.Column():
+            gr.Markdown("### Faster-Whisper ASR")
             whisper_dd = gr.Dropdown(choices=WHISPER_MODELS, value=WHISPER_MODELS[0], label="Whisper Model")
             whisper_lang = gr.Dropdown(choices=WHISPER_LANGUAGES, value="auto", label="Whisper Language")
             device_radio = gr.Radio(choices=["GPU", "CPU"], value="GPU", label="Device")
             # Toggle visibility based on checkbox
             diar_check.change(lambda e: gr.update(visible=not e), inputs=diar_check, outputs=out_w)
             diar_check.change(lambda e: gr.update(visible=e), inputs=diar_check, outputs=out_w_d)
+            btn_w = gr.Button("Transcribe with Faster-Whisper")
+            btn_w.click(fn=transcribe_fwhisper,
                         inputs=[whisper_dd, whisper_lang, audio_input, device_radio, diar_check],
                         outputs=[out_w, out_w_d])