CosyVoice2-0.5B

Runtime error

kemuriririn commited on 21 days ago

Commit

fcd2e2b

1 Parent(s): 17225b6

update

Files changed (3) hide show

cosyvoice/cli/cosyvoice.py CHANGED Viewed

@@ -148,7 +148,7 @@ class CosyVoice2(CosyVoice):
             model_dir = snapshot_download(model_dir)
         with open('{}/cosyvoice.yaml'.format(model_dir), 'r') as f:
             configs = load_hyperpyyaml(f, overrides={'qwen_pretrain_path': os.path.join(model_dir, 'CosyVoice-BlankEN')})
-        print(f"Loading configs:{configs}")
         self.frontend = CosyVoiceFrontEnd(configs['get_tokenizer'],
                                           configs['feat_extractor'],
                                           '{}/campplus.onnx'.format(model_dir),

             model_dir = snapshot_download(model_dir)
         with open('{}/cosyvoice.yaml'.format(model_dir), 'r') as f:
             configs = load_hyperpyyaml(f, overrides={'qwen_pretrain_path': os.path.join(model_dir, 'CosyVoice-BlankEN')})
+        # print(f"Loading configs:{configs}")
         self.frontend = CosyVoiceFrontEnd(configs['get_tokenizer'],
                                           configs['feat_extractor'],
                                           '{}/campplus.onnx'.format(model_dir),

cosyvoice/cli/frontend.py CHANGED Viewed

@@ -14,6 +14,7 @@
 from functools import partial
 import json
 import onnxruntime
 import torch
 import numpy as np
 import whisper
@@ -35,7 +36,7 @@ from cosyvoice.utils.frontend_utils import contains_chinese, replace_blank, repl
 class CosyVoiceFrontEnd:
     def __init__(self,
                  get_tokenizer: Callable,
                  feat_extractor: Callable,
@@ -51,9 +52,11 @@ class CosyVoiceFrontEnd:
         option.graph_optimization_level = onnxruntime.GraphOptimizationLevel.ORT_ENABLE_ALL
         option.intra_op_num_threads = 1
         self.campplus_session = onnxruntime.InferenceSession(campplus_model, sess_options=option, providers=["CPUExecutionProvider"])
         self.speech_tokenizer_session = onnxruntime.InferenceSession(speech_tokenizer_model, sess_options=option,
                                                                      providers=["CUDAExecutionProvider" if torch.cuda.is_available() else
                                                                                 "CPUExecutionProvider"])
         if os.path.exists(spk2info):
             self.spk2info = torch.load(spk2info, map_location=self.device)
         else:

 from functools import partial
 import json
 import onnxruntime
+import spaces
 import torch
 import numpy as np
 import whisper
 class CosyVoiceFrontEnd:
+    @spaces.GPU
     def __init__(self,
                  get_tokenizer: Callable,
                  feat_extractor: Callable,
         option.graph_optimization_level = onnxruntime.GraphOptimizationLevel.ORT_ENABLE_ALL
         option.intra_op_num_threads = 1
         self.campplus_session = onnxruntime.InferenceSession(campplus_model, sess_options=option, providers=["CPUExecutionProvider"])
+        print("load campplus model from {}".format(campplus_model))
         self.speech_tokenizer_session = onnxruntime.InferenceSession(speech_tokenizer_model, sess_options=option,
                                                                      providers=["CUDAExecutionProvider" if torch.cuda.is_available() else
                                                                                 "CPUExecutionProvider"])
+        print("load speech-tokenizer model from {}".format(speech_tokenizer_model))
         if os.path.exists(spk2info):
             self.spk2info = torch.load(spk2info, map_location=self.device)
         else:

requirements.txt CHANGED Viewed

@@ -34,8 +34,8 @@ tensorboard==2.14.0
 tensorrt-cu12==10.0.1; sys_platform == 'linux'
 tensorrt-cu12-bindings==10.0.1; sys_platform == 'linux'
 tensorrt-cu12-libs==10.0.1; sys_platform == 'linux'
-torch
-torchaudio
 transformers==4.40.1
 uvicorn==0.30.0
 wget

 tensorrt-cu12==10.0.1; sys_platform == 'linux'
 tensorrt-cu12-bindings==10.0.1; sys_platform == 'linux'
 tensorrt-cu12-libs==10.0.1; sys_platform == 'linux'
+torch==2.3.1+cu121
+torchaudio==2.3.1+cu121
 transformers==4.40.1
 uvicorn==0.30.0
 wget