Spaces:

chenxie95
/

MeanAudio

Running on Zero

App Files Files Community

AndreasXi commited on about 9 hours ago

Commit

98c6962

1 Parent(s): 0950fa7

update meanaudio_l_full

Browse files

Files changed (3) hide show

app.py +2 -21
meanaudio/eval_utils.py +7 -1
meanaudio/model/networks.py +12 -1

app.py CHANGED Viewed

@@ -127,7 +127,7 @@ def generate_audio_gradio(
     net.update_seq_lengths(seq_cfg.latent_seq_len)
-    if variant == 'meanaudio_s_ac' or variant == 'meanaudio_s_full':
         use_meanflow=True
     elif variant == 'fluxaudio_s_full':
         use_meanflow=False
@@ -184,32 +184,13 @@ def generate_audio_gradio(
 # Gradio input and output components
 input_text = gr.Textbox(lines=2, label="Prompt")
 output_audio = gr.Audio(label="Generated Audio", type="filepath")
 denoising_steps = gr.Slider(minimum=1, maximum=25, value=1, step=1, label="Sampling Steps", interactive=True)
 cfg_strength = gr.Slider(minimum=1, maximum=10, value=4.5, step=0.5, label="Guidance Scale", interactive=True)
 duration = gr.Slider(minimum=1, maximum=30, value=10, step=1, label="Duration", interactive=True)
 seed = gr.Slider(minimum=1, maximum=100, value=42, step=1, label="Seed", interactive=True)
-variant = gr.Dropdown(label="Model Variant", choices=list(all_model_cfg.keys()), value='meanaudio_s_full', interactive=True)
-# description_text = """
-# **MeanAudio** is a novel text-to-audio generator that uses **MeanFlow** to synthesize realistic and faithful audio in few sampling steps. It achieves state-of-the-art performance in single-step audio generation and delivers strong performance in multi-step audio generation.
-# <p align="center">
-# <a href="https://huggingface.co/AndreasXi/MeanAudio">
-# <img src="https://img.shields.io/badge/%F0%9F%A4%97%20Model-HuggingFace-violet" alt="HuggingFace Model">
-# </a>
-# <a href="https://huggingface.co/spaces/chenxie95/MeanAudio">
-# <img src="https://img.shields.io/badge/%F0%9F%9A%80%20Space-HuggingFace-8A2BE2" alt="HuggingFace Space">
-# </a>
-# <a href="https://meanaudio.github.io/">
-# <img src="https://img.shields.io/badge/%F0%9F%93%84%20Project-Page-brightred" alt="Project Page">
-# </a>
-# <a href="https://github.com/xiquan-li/MeanAudio">
-# <img src="https://img.shields.io/badge/%F0%9F%92%BB%20Code-GitHub-black" alt="GitHub">
-# </a>
-# </p>
-# """
 description_text = """
 ### **MeanAudio** is a novel text-to-audio generator that uses **MeanFlow** to synthesize realistic and faithful audio in few sampling steps. It achieves state-of-the-art performance in single-step audio generation and delivers strong performance in multi-step audio generation.

     net.update_seq_lengths(seq_cfg.latent_seq_len)
+    if variant == 'meanaudio_s_ac' or variant == 'meanaudio_s_full' or variant == 'meanaudio_l_full':
         use_meanflow=True
     elif variant == 'fluxaudio_s_full':
         use_meanflow=False
 # Gradio input and output components
 input_text = gr.Textbox(lines=2, label="Prompt")
+variant = gr.Dropdown(label="Model Variant", choices=list(all_model_cfg.keys()), value='meanaudio_s_full', interactive=True)
 output_audio = gr.Audio(label="Generated Audio", type="filepath")
 denoising_steps = gr.Slider(minimum=1, maximum=25, value=1, step=1, label="Sampling Steps", interactive=True)
 cfg_strength = gr.Slider(minimum=1, maximum=10, value=4.5, step=0.5, label="Guidance Scale", interactive=True)
 duration = gr.Slider(minimum=1, maximum=30, value=10, step=1, label="Duration", interactive=True)
 seed = gr.Slider(minimum=1, maximum=100, value=42, step=1, label="Seed", interactive=True)
 description_text = """
 ### **MeanAudio** is a novel text-to-audio generator that uses **MeanFlow** to synthesize realistic and faithful audio in few sampling steps. It achieves state-of-the-art performance in single-step audio generation and delivers strong performance in multi-step audio generation.

meanaudio/eval_utils.py CHANGED Viewed

@@ -58,11 +58,17 @@ meanaudio_s_ac = ModelConfig(model_name='meanaudio_s_ac',
                            vae_path=Path('./weights/v1-16.pth'),
                            bigvgan_16k_path=Path('./weights/best_netG.pt'),
                            mode='16k')
 all_model_cfg: dict[str, ModelConfig] = {
-    'fluxaudio_s_full': fluxaudio_s_full,
     'meanaudio_s_full': meanaudio_s_full,
     'meanaudio_s_ac': meanaudio_s_ac,
 }

                            vae_path=Path('./weights/v1-16.pth'),
                            bigvgan_16k_path=Path('./weights/best_netG.pt'),
                            mode='16k')
+meanaudio_l_full = ModelConfig(model_name='meanaudio_l_full',
+                           model_path=Path('./weights/meanaudio_l_full.pth'),  # will be specified later
+                           vae_path=Path('./weights/v1-16.pth'),
+                           bigvgan_16k_path=Path('./weights/best_netG.pt'),
+                           mode='16k')
 all_model_cfg: dict[str, ModelConfig] = {
+    'meanaudio_l_full': meanaudio_l_full,
     'meanaudio_s_full': meanaudio_s_full,
     'meanaudio_s_ac': meanaudio_s_ac,
+    'fluxaudio_s_full': fluxaudio_s_full,
 }

meanaudio/model/networks.py CHANGED Viewed

@@ -597,11 +597,22 @@ def meanaudio_s(**kwargs) -> MeanAudio:
                      num_heads=num_heads,
                      latent_seq_len=312,  # for 10s audio
                      **kwargs)
 def get_mean_audio(name: str, **kwargs) -> MeanAudio:
     if name == 'meanaudio_s_ac' or name == 'meanaudio_s_full':
         return meanaudio_s(**kwargs)
     elif name == 'fluxaudio_s_full':
         return fluxaudio_s(**kwargs)
     else:

                      num_heads=num_heads,
                      latent_seq_len=312,  # for 10s audio
                      **kwargs)
+def meanaudio_l(**kwargs) -> MeanAudio:
+    num_heads = 14
+    return MeanAudio(latent_dim=20,
+                     text_dim=1024,
+                     hidden_dim=64 * num_heads,
+                     depth=24,
+                     fused_depth=16,
+                     num_heads=num_heads,
+                     latent_seq_len=312,  # for 10s audio
+                     **kwargs)
 def get_mean_audio(name: str, **kwargs) -> MeanAudio:
     if name == 'meanaudio_s_ac' or name == 'meanaudio_s_full':
         return meanaudio_s(**kwargs)
+    elif name == 'meanaudio_l_full':
+        return meanaudio_l(**kwargs)
     elif name == 'fluxaudio_s_full':
         return fluxaudio_s(**kwargs)
     else: