Spaces:

chenxie95
/

MeanAudio

Running on Zero

AndreasXi commited on 14 days ago

Commit

08a9c69

1 Parent(s): de50529

update

Files changed (1) hide show

app.py CHANGED Viewed

@@ -36,17 +36,17 @@ setup_eval_logging()
 OUTPUT_DIR = Path("./output/gradio")
 OUTPUT_DIR.mkdir(parents=True, exist_ok=True)
-NUM_SAMPLE=1
-snapshot_download(repo_id="google/flan-t5-large")
-a = AutoModel.from_pretrained('bert-base-uncased')
-b = AutoModel.from_pretrained('roberta-base')
-snapshot_download(repo_id="AndreasXi/MeanAudio", local_dir="./weights",allow_patterns=["*.pt", "*.pth"] )
-_clap_ckpt_path='./weights/music_speech_audioset_epoch_15_esc_89.98.pt'
-laion_clap_model = laion_clap.CLAP_Module(enable_fusion=False, amodel='HTSAT-base').cuda().eval()
-laion_clap_model.load_ckpt(_clap_ckpt_path, verbose=False)
 @spaces.GPU(duration=10)
@@ -116,14 +116,15 @@ def generate_audio_gradio(
         cfg_strength=cfg_strength,
         **{sampler_arg_name: sampler},
     )
-    text_embed = laion_clap_model.get_text_embedding(prompt, use_tensor=True).squeeze()
-    audio_embed = laion_clap_model.get_audio_embedding_from_data(audios[:,0,:].float().cpu(), use_tensor=True).squeeze()
-    scores = torch.cosine_similarity(text_embed.expand(audio_embed.shape[0], -1),
-                                     audio_embed,
-                                     dim=-1)
-    log.info(scores)
-    log.info(torch.argmax(scores).item())
-    audio = audios[torch.argmax(scores).item()].float().cpu()
     safe_prompt = (
         "".join(c for c in prompt if c.isalnum() or c in (" ", "_"))
         .rstrip()

 OUTPUT_DIR = Path("./output/gradio")
 OUTPUT_DIR.mkdir(parents=True, exist_ok=True)
+NUM_SAMPLE = 1
+# snapshot_download(repo_id="google/flan-t5-large")
+# a = AutoModel.from_pretrained('bert-base-uncased')
+# b = AutoModel.from_pretrained('roberta-base')
+# snapshot_download(repo_id="AndreasXi/MeanAudio", local_dir="./weights",allow_patterns=["*.pt", "*.pth"] )
+# _clap_ckpt_path='./weights/music_speech_audioset_epoch_15_esc_89.98.pt'
+# laion_clap_model = laion_clap.CLAP_Module(enable_fusion=False, amodel='HTSAT-base').cuda().eval()
+# laion_clap_model.load_ckpt(_clap_ckpt_path, verbose=False)
 @spaces.GPU(duration=10)
         cfg_strength=cfg_strength,
         **{sampler_arg_name: sampler},
     )
+    audio = audios[0].float().cpu()
+    # text_embed = laion_clap_model.get_text_embedding(prompt, use_tensor=True).squeeze()
+    # audio_embed = laion_clap_model.get_audio_embedding_from_data(audios[:,0,:].float().cpu(), use_tensor=True).squeeze()
+    # scores = torch.cosine_similarity(text_embed.expand(audio_embed.shape[0], -1),
+    #                                  audio_embed,
+    #                                  dim=-1)
+    # log.info(scores)
+    # log.info(torch.argmax(scores).item())
+    # audio = audios[torch.argmax(scores).item()].float().cpu()
     safe_prompt = (
         "".join(c for c in prompt if c.isalnum() or c in (" ", "_"))
         .rstrip()