File size: 933 Bytes
3a1da90
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
# evaluation on audiocaps

export CUDA_VISIBLE_DEVICES=0

num_steps=1
ckpt_path=./weights/meanaudio_mf.pth
output_path=./exps/meanaudio/test_${num_steps}nfe_fp32

python eval.py \
    --variant "meanaudio_mf" \
    --model_path "$ckpt_path" \
    --output $output_path/audio \
    --cfg_strength 0.9 \
    --encoder_name t5_clap \
    --duration 10 \
    --use_rope \
    --text_c_dim 512 \
    --num_steps $num_steps \
    --use_meanflow \
    --full_precision 


gt_audio='gt_audio'  # not used if you specify gt_cache 
gt_cache='./data/audiocaps/test-features' 

pred_audio=$output_path/audio
output_metrics_dir=$output_path

python av-benchmark/evaluate.py \
    --gt_audio $gt_audio \
    --gt_cache $gt_cache \
    --pred_audio $pred_audio \
    --pred_cache $output_metrics_dir/cache \
    --audio_length=10 \
    --recompute_pred_cache \
    --skip_video_related \
    --output_metrics_dir=$output_metrics_dir \
    # --debug