File size: 947 Bytes
3a1da90
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
# evaluation on audiocaps

export CUDA_VISIBLE_DEVICES=2

num_steps=25
ckpt_path=./weights/fluxaudio_fm.pth
output_path=./exps/fluxaudio/test_${num_steps}nfe_fp32

python eval.py \
    --variant "fluxaudio_fm" \
    --model_path "$ckpt_path" \
    --output $output_path/audio \
    --cfg_strength 4.5 \
    --num_steps $num_steps \
    --encoder_name t5_clap \
    --duration 10 \
    --use_rope \
    --text_c_dim 512 \
    --num_steps $num_steps \
    --full_precision 


cd ./av-benchmark
gt_audio='gt_audio'  # not used if you specify gt_cache 
gt_cache='./data/audiocaps/test-features' 

pred_audio=$output_path/audio
output_metrics_dir=$output_path

python evaluate.py \
    --gt_audio $gt_audio \
    --gt_cache $gt_cache \
    --pred_audio $pred_audio \
    --pred_cache $output_metrics_dir/cache \
    --audio_length=10 \
    --recompute_pred_cache \
    --skip_video_related \
    --output_metrics_dir=$output_metrics_dir \
    # --debug