Spaces:

amirjamali
/

accent-detector

Sleeping

App Files Files Community

amirjamali commited on May 24

Commit

7eff467

unverified ·

1 Parent(s): a9b23f3

Add Streamlit configuration and enhance Dockerfile for improved security and environment setup; update requirements for specific package versions

Browse files

Files changed (4) hide show

.streamlit/config.toml +18 -0
Dockerfile +35 -7
requirements.txt +12 -11
src/streamlit_app.py +19 -4

.streamlit/config.toml ADDED Viewed

	@@ -0,0 +1,18 @@

+[server]
+port = 8501
+address = "0.0.0.0"
+headless = true
+enableCORS = false
+[browser]
+gatherUsageStats = false
+[runner]
+fastReruns = true
+[theme]
+primaryColor = "#2196F3"
+backgroundColor = "#FFFFFF"
+secondaryBackgroundColor = "#F0F2F6"
+textColor = "#262730"
+font = "sans serif"

Dockerfile CHANGED Viewed

@@ -2,6 +2,18 @@ FROM python:3.9-slim
 WORKDIR /app
 # Install system dependencies including ffmpeg for audio processing
 # Add retry logic and better mirrors for improved network reliability
 RUN apt-get update --allow-releaseinfo-change || (sleep 2 && apt-get update) && \
@@ -19,7 +31,6 @@ RUN apt-get update --allow-releaseinfo-change || (sleep 2 && apt-get update) &&
 # Set pip to have more retries and timeout
 ENV PIP_DEFAULT_TIMEOUT=100
 ENV PIP_RETRIES=3
-ENV PYTHONUNBUFFERED=1
 # Copy requirements and install Python dependencies
 COPY requirements.txt ./
@@ -27,14 +38,31 @@ RUN pip install --upgrade pip && \
     pip install --no-cache-dir -r requirements.txt || \
     (sleep 2 && pip install --no-cache-dir -r requirements.txt)
-# Create cookies directory for user uploads
-RUN mkdir -p /app/cookies
 # Copy source code
 COPY src/ ./src/
-# Create directory for temporary model storage
-RUN mkdir -p /app/tmp_model
 # Expose the port Streamlit will run on
 EXPOSE 8501
@@ -43,4 +71,4 @@ EXPOSE 8501
 HEALTHCHECK CMD curl --fail http://localhost:8501/_stcore/health
 # Run the Streamlit app
-ENTRYPOINT ["streamlit", "run", "src/streamlit_app.py", "--server.port=8501", "--server.address=0.0.0.0"]

 WORKDIR /app
+# Set environment variables to avoid permission errors
+ENV HOME=/app \
+    PYTHONUNBUFFERED=1 \
+    PYTHONDONTWRITEBYTECODE=1 \
+    MPLCONFIGDIR=/tmp/matplotlib \
+    TRANSFORMERS_CACHE=/app/.cache/huggingface \
+    XDG_CACHE_HOME=/app/.cache
+# Create non-root user for better security
+RUN groupadd -g 1000 appuser && \
+    useradd -u 1000 -g appuser -s /bin/sh -m appuser
 # Install system dependencies including ffmpeg for audio processing
 # Add retry logic and better mirrors for improved network reliability
 RUN apt-get update --allow-releaseinfo-change || (sleep 2 && apt-get update) && \
 # Set pip to have more retries and timeout
 ENV PIP_DEFAULT_TIMEOUT=100
 ENV PIP_RETRIES=3
 # Copy requirements and install Python dependencies
 COPY requirements.txt ./
     pip install --no-cache-dir -r requirements.txt || \
     (sleep 2 && pip install --no-cache-dir -r requirements.txt)
 # Copy source code
 COPY src/ ./src/
+# Create directories with proper permissions
+RUN mkdir -p /app/cookies /app/tmp_model /app/.streamlit /app/.cache && \
+    chown -R appuser:appuser /app
+# Switch to non-root user for better security
+USER appuser
+# Create a Streamlit configuration file to avoid permission issues
+RUN mkdir -p /app/.streamlit && \
+    echo '\
+[server]\n\
+port = 8501\n\
+address = "0.0.0.0"\n\
+headless = true\n\
+enableCORS = false\n\
+\n\
+[browser]\n\
+gatherUsageStats = false\n\
+\n\
+[runner]\n\
+fastReruns = true\n\
+' > /app/.streamlit/config.toml
 # Expose the port Streamlit will run on
 EXPOSE 8501
 HEALTHCHECK CMD curl --fail http://localhost:8501/_stcore/health
 # Run the Streamlit app
+ENTRYPOINT ["streamlit", "run", "src/streamlit_app.py"]

requirements.txt CHANGED Viewed

@@ -1,11 +1,12 @@
-streamlit>=1.25.0
-yt_dlp>=2023.7.6
-speechbrain>=0.5.15
-torch>=2.0.0
-torchaudio>=2.0.0
-transformers>=4.30.0
-librosa>=0.10.0
-matplotlib>=3.7.0
-scikit-learn>=1.3.0
-openai>=1.0.0
-python-dotenv>=1.0.0

+streamlit==1.31.0
+yt_dlp==2023.11.16
+speechbrain==0.5.15
+torch==2.0.1
+torchaudio==2.0.2
+# Pin transformers to version that has AutoProcessor
+transformers==4.31.0
+librosa==0.10.1
+matplotlib==3.7.2
+scikit-learn==1.3.0
+openai==1.0.0
+python-dotenv==1.0.0

src/streamlit_app.py CHANGED Viewed

@@ -5,8 +5,16 @@ import subprocess
 import librosa
 import numpy as np
 import torch
 from speechbrain.inference.classifiers import EncoderClassifier
-from transformers import AutoProcessor, AutoModelForAudioClassification
 from dotenv import load_dotenv
 import matplotlib.pyplot as plt
 import tempfile
@@ -113,12 +121,19 @@ class AccentDetector:
             source="speechbrain/lang-id-commonlanguage_ecapa",
             savedir="tmp_model"
         )
-        # Initialize the English accent classifier - using VoxLingua107 for now
         # In production, you'd use a more specialized accent model
         try:
             self.model_name = "speechbrain/lang-id-voxlingua107-ecapa"
-            self.processor = AutoProcessor.from_pretrained(self.model_name)
             self.model = AutoModelForAudioClassification.from_pretrained(self.model_name)
             self.have_accent_model = True
         except Exception as e:

 import librosa
 import numpy as np
 import torch
+import sys
 from speechbrain.inference.classifiers import EncoderClassifier
+# Handle potential compatibility issues with transformers
+try:
+    from transformers import AutoProcessor, AutoModelForAudioClassification
+    HAS_AUTO_PROCESSOR = True
+except ImportError:
+    from transformers import AutoModelForAudioClassification
+    HAS_AUTO_PROCESSOR = False
+    st.warning("Using a compatible but limited version of transformers. Some features may be limited.")
 from dotenv import load_dotenv
 import matplotlib.pyplot as plt
 import tempfile
             source="speechbrain/lang-id-commonlanguage_ecapa",
             savedir="tmp_model"
         )
+          # Initialize the English accent classifier - using VoxLingua107 for now
         # In production, you'd use a more specialized accent model
         try:
             self.model_name = "speechbrain/lang-id-voxlingua107-ecapa"
+            # Handle case where AutoProcessor is not available
+            if HAS_AUTO_PROCESSOR:
+                self.processor = AutoProcessor.from_pretrained(self.model_name)
+            else:
+                # Fall back to using feature_extractor directly if AutoProcessor is not available
+                from transformers import AutoFeatureExtractor
+                self.processor = AutoFeatureExtractor.from_pretrained(self.model_name)
             self.model = AutoModelForAudioClassification.from_pretrained(self.model_name)
             self.have_accent_model = True
         except Exception as e: