Spaces:

satyamr196
/

ASR-FairBench-Server

Running

App Files Files Community

satyamr196 commited on May 12

Commit

f928012

1 Parent(s): ac711b2

fixing the error - WORKER TIMEOUT says gunicorn because it's taking too long to respond, hence using threading to run generateTranscription fxn in background

Browse files

Files changed (2) hide show

ASR_Server.py +15 -11
Dockerfile +35 -7

ASR_Server.py CHANGED Viewed

@@ -2,17 +2,12 @@ from flask import Flask, jsonify
 from datasets import load_dataset, Audio
 import pandas as pd
 import os
 import os
 os.environ["HF_HOME"] = "/tmp/huggingface"
-# Load dataset without decoding audio (required!)
-dataset = load_dataset("satyamr196/asr_fairness_audio", split="train")
-# dataset = dataset.with_format("python", decode_audio=False)
-dataset = dataset.cast_column("audio", Audio(decode=False))
-print("    ___    ")
 csv_path = "test.csv"
 df = pd.read_csv(csv_path)
 print(f"CSV Loaded with {len(df)} rows")
@@ -88,7 +83,7 @@ print(f"CSV Loaded with {len(df)} rows")
 #     df.to_csv(output_csv_path, index=False)
 #     print(f"✅ Transcripts saved to {output_csv_path}")
-def generateTranscript(ASR_model, dataset, csv_path, output_dir="./"):
     import os
     import time
     import tqdm
@@ -96,6 +91,11 @@ def generateTranscript(ASR_model, dataset, csv_path, output_dir="./"):
     import soundfile as sf
     from transformers import pipeline
     output_csv_path = os.path.join("./", f"test_with_{ASR_model}.csv")
     # Check if transcript already exists
     if os.path.exists(output_csv_path):
@@ -108,14 +108,14 @@ def generateTranscript(ASR_model, dataset, csv_path, output_dir="./"):
     # Initialize ASR pipeline
     pipe = pipeline("automatic-speech-recognition", model=ASR_model, device=-1)
-    print("Device set to use CPU")
     # Column with filenames in the CSV
     filename_column = df.columns[0]
     df[filename_column] = df[filename_column].str.strip().str.lower()
     # Build map from filename -> dataset sample (without decoding audio)
-    print("Creating dataset map from filenames...")
     # dataset = dataset.with_format("python", decode_audio=False)
     dataset_map = {
         os.path.basename(sample["audio"]["path"]).lower(): sample
@@ -199,8 +199,12 @@ def asr_models():
         "Fairseq S2T",
         "ESPnet"
     ]
-    generateTranscript("openai/whisper-base", dataset, csv_path, output_dir="./") ;
-    # print("Transcript generation completed.")
     return jsonify({"asr_models": models})
 # if __name__ == "__main__":

 from datasets import load_dataset, Audio
 import pandas as pd
 import os
+import threading
 import os
 os.environ["HF_HOME"] = "/tmp/huggingface"
 csv_path = "test.csv"
 df = pd.read_csv(csv_path)
 print(f"CSV Loaded with {len(df)} rows")
 #     df.to_csv(output_csv_path, index=False)
 #     print(f"✅ Transcripts saved to {output_csv_path}")
+def generateTranscript(ASR_model, csv_path, output_dir="./"):
     import os
     import time
     import tqdm
     import soundfile as sf
     from transformers import pipeline
+    # Load dataset without decoding audio (required!)
+    dataset = load_dataset("satyamr196/asr_fairness_audio", split="train")
+    # dataset = dataset.with_format("python", decode_audio=False)
+    dataset = dataset.cast_column("audio", Audio(decode=False))
     output_csv_path = os.path.join("./", f"test_with_{ASR_model}.csv")
     # Check if transcript already exists
     if os.path.exists(output_csv_path):
     # Initialize ASR pipeline
     pipe = pipeline("automatic-speech-recognition", model=ASR_model, device=-1)
+    # print("Device set to use CPU")
     # Column with filenames in the CSV
     filename_column = df.columns[0]
     df[filename_column] = df[filename_column].str.strip().str.lower()
     # Build map from filename -> dataset sample (without decoding audio)
+    # print("Creating dataset map from filenames...")
     # dataset = dataset.with_format("python", decode_audio=False)
     dataset_map = {
         os.path.basename(sample["audio"]["path"]).lower(): sample
         "Fairseq S2T",
         "ESPnet"
     ]
+    def background_job():
+        generateTranscript("openai/whisper-base", csv_path, output_dir="./")
+    # Start the background job in a separate thread
+    threading.Thread(target=background_job).start()
+    print("Transcription started in background")
     return jsonify({"asr_models": models})
 # if __name__ == "__main__":

Dockerfile CHANGED Viewed

@@ -1,14 +1,42 @@
 FROM python:3.9
-# RUN useradd -m -u 1000 user
-# USER user
-ENV PATH="/home/user/.local/bin:$PATH"
 ENV HF_HOME=/tmp/huggingface
 WORKDIR /app
-COPY ./requirements.txt requirements.txt
-RUN pip install --no-cache-dir --upgrade -r requirements.txt
-COPY . /app
-CMD ["gunicorn","-b", "0.0.0.0:7860","ASR_Server:app"]

+# FROM python:3.9
+# # RUN useradd -m -u 1000 user
+# # USER user
+# ENV PATH="/home/user/.local/bin:$PATH"
+# ENV HF_HOME=/tmp/huggingface
+# WORKDIR /app
+# COPY ./requirements.txt requirements.txt
+# RUN pip install --no-cache-dir --upgrade -r requirements.txt
+# COPY . /app
+# CMD ["gunicorn","-b", "0.0.0.0:7860","ASR_Server:app"]
+# Base image
 FROM python:3.9
+# Avoid interactive prompts during install
+ENV DEBIAN_FRONTEND=noninteractive
+# Set HF cache to avoid permission denied errors
 ENV HF_HOME=/tmp/huggingface
+# Install system packages
+RUN apt-get update && apt-get install -y \
+    libsndfile1 \
+    && rm -rf /var/lib/apt/lists/*
+# Set working directory
 WORKDIR /app
+# Copy code
+COPY . .
+# Install dependencies
+RUN pip install --upgrade pip
+RUN pip install -r requirements.txt
+# Run the Flask app with Gunicorn on HF's required port
+CMD ["gunicorn", "-b", "0.0.0.0:7860", "ASR_Server:app"]