Spaces:

avi292423
/

speech-fast-api

Runtime error

App Files Files Community

avi292423 commited on May 18

Commit

abf9bcf

verified ·

1 Parent(s): 8b22f56

Update app.py

Browse files

Files changed (1) hide show

app.py +1 -6

app.py CHANGED Viewed

@@ -1,16 +1,13 @@
 from fastapi import FastAPI, File, UploadFile
-from fastapi.responses import JSONResponse
 from fastapi.middleware.cors import CORSMiddleware
 from models.model_wav2vec import Wav2VecIntent
 from huggingface_hub import hf_hub_download
 import torch
 import soundfile as sf
-import numpy as np
 import librosa
 app = FastAPI()
-# Enable CORS for all origins (so your frontend can call the API)
 app.add_middleware(
     CORSMiddleware,
     allow_origins=["*"],
@@ -19,7 +16,6 @@ app.add_middleware(
     allow_headers=["*"],
 )
-# Download model from Hugging Face
 MODEL_PATH = hf_hub_download(repo_id="avi292423/speech-intent-recognition-project", filename="wav2vec_best_model.pt")
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
@@ -36,7 +32,7 @@ label_map = {
 index_to_label = {v: k for k, v in label_map.items()}
 num_classes = 31
-pretrained_model = "facebook/wav2vec2-large"  # Use large model
 model = Wav2VecIntent(num_classes=num_classes, pretrained_model=pretrained_model).to(device)
 state_dict = torch.load(MODEL_PATH, map_location=device)
 model.load_state_dict(state_dict)
@@ -49,7 +45,6 @@ async def predict(file: UploadFile = File(...)):
         f.write(audio_bytes)
     audio, sample_rate = sf.read("temp.wav")
     if sample_rate != 16000:
-        # Resample to 16kHz
         audio = librosa.resample(audio.astype(float), orig_sr=sample_rate, target_sr=16000)
     waveform = torch.tensor(audio, dtype=torch.float32).unsqueeze(0).to(device)
     with torch.no_grad():

 from fastapi import FastAPI, File, UploadFile
 from fastapi.middleware.cors import CORSMiddleware
 from models.model_wav2vec import Wav2VecIntent
 from huggingface_hub import hf_hub_download
 import torch
 import soundfile as sf
 import librosa
 app = FastAPI()
 app.add_middleware(
     CORSMiddleware,
     allow_origins=["*"],
     allow_headers=["*"],
 )
 MODEL_PATH = hf_hub_download(repo_id="avi292423/speech-intent-recognition-project", filename="wav2vec_best_model.pt")
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 index_to_label = {v: k for k, v in label_map.items()}
 num_classes = 31
+pretrained_model = "facebook/wav2vec2-large"
 model = Wav2VecIntent(num_classes=num_classes, pretrained_model=pretrained_model).to(device)
 state_dict = torch.load(MODEL_PATH, map_location=device)
 model.load_state_dict(state_dict)
         f.write(audio_bytes)
     audio, sample_rate = sf.read("temp.wav")
     if sample_rate != 16000:
         audio = librosa.resample(audio.astype(float), orig_sr=sample_rate, target_sr=16000)
     waveform = torch.tensor(audio, dtype=torch.float32).unsqueeze(0).to(device)
     with torch.no_grad():