CosyVoice2-0.5B

Running on Zero

App Files Files Community

kemuriririn commited on Jun 5

Commit

b8368df

1 Parent(s): a692a02

update

Browse files

Files changed (2) hide show

cosyvoice/cli/cosyvoice.py +2 -16
cosyvoice/cli/frontend.py +12 -2

cosyvoice/cli/cosyvoice.py CHANGED Viewed

@@ -63,13 +63,7 @@ class CosyVoice:
     @spaces.GPU
     def reload_frontend(self):
-        self.frontend = CosyVoiceFrontEnd(self.configs['get_tokenizer'],
-                                          self.configs['feat_extractor'],
-                                          '{}/campplus.onnx'.format(self.model_dir),
-                                          '{}/speech_tokenizer_v1.onnx'.format(self.model_dir),
-                                          '{}/spk2info.pt'.format(self.model_dir),
-                                          self.instruct,
-                                          self.configs['allowed_special'])
     @spaces.GPU
     def inference_sft(self, tts_text, spk_id, stream=False, speed=1.0):
@@ -198,12 +192,4 @@ class CosyVoice2(CosyVoice):
             self.model.load_trt('{}/flow.decoder.estimator.fp16.l20.plan'.format(model_dir))
         del configs
-    @spaces.GPU
-    def reload_frontend(self):
-        self.frontend = CosyVoiceFrontEnd(self.configs['get_tokenizer'],
-                                          self.configs['feat_extractor'],
-                                          '{}/campplus.onnx'.format(self.model_dir),
-                                          '{}/speech_tokenizer_v2.onnx'.format(self.model_dir),
-                                          '{}/spk2info.pt'.format(self.model_dir),
-                                          self.instruct,
-                                          self.configs['allowed_special'])

     @spaces.GPU
     def reload_frontend(self):
+        self.frontend.reload_onnx()
     @spaces.GPU
     def inference_sft(self, tts_text, spk_id, stream=False, speed=1.0):
             self.model.load_trt('{}/flow.decoder.estimator.fp16.l20.plan'.format(model_dir))
         del configs

cosyvoice/cli/frontend.py CHANGED Viewed

@@ -51,11 +51,16 @@ class CosyVoiceFrontEnd:
         option = onnxruntime.SessionOptions()
         option.graph_optimization_level = onnxruntime.GraphOptimizationLevel.ORT_ENABLE_ALL
         option.intra_op_num_threads = 1
         self.campplus_session = onnxruntime.InferenceSession(campplus_model, sess_options=option, providers=["CPUExecutionProvider"])
         print("load campplus model from {}".format(campplus_model))
         self.speech_tokenizer_session = onnxruntime.InferenceSession(speech_tokenizer_model, sess_options=option,
-                                                                     providers=["CUDAExecutionProvider" if torch.cuda.is_available() else
-                                                                                "CPUExecutionProvider"])
         print("load speech-tokenizer model from {}".format(speech_tokenizer_model))
         if os.path.exists(spk2info):
             self.spk2info = torch.load(spk2info, map_location=self.device)
@@ -75,6 +80,11 @@ class CosyVoiceFrontEnd:
             self.zh_tn_model = ZhNormalizer(remove_erhua=False, full_to_half=False)
             self.en_tn_model = EnNormalizer()
     def _extract_text_token(self, text):
         text_token = self.tokenizer.encode(text, allowed_special=self.allowed_special)
         text_token = torch.tensor([text_token], dtype=torch.int32).to(self.device)

         option = onnxruntime.SessionOptions()
         option.graph_optimization_level = onnxruntime.GraphOptimizationLevel.ORT_ENABLE_ALL
         option.intra_op_num_threads = 1
+        self.campplus_model = campplus_model
+        self.option = option
+        self.speech_tokenizer_model = speech_tokenizer_model
         self.campplus_session = onnxruntime.InferenceSession(campplus_model, sess_options=option, providers=["CPUExecutionProvider"])
         print("load campplus model from {}".format(campplus_model))
+        # self.speech_tokenizer_session = onnxruntime.InferenceSession(speech_tokenizer_model, sess_options=option,
+        #                                                              providers=["CUDAExecutionProvider" if torch.cuda.is_available() else
+        #                                                                         "CPUExecutionProvider"])
         self.speech_tokenizer_session = onnxruntime.InferenceSession(speech_tokenizer_model, sess_options=option,
+                                                                     providers=["CPUExecutionProvider"])
         print("load speech-tokenizer model from {}".format(speech_tokenizer_model))
         if os.path.exists(spk2info):
             self.spk2info = torch.load(spk2info, map_location=self.device)
             self.zh_tn_model = ZhNormalizer(remove_erhua=False, full_to_half=False)
             self.en_tn_model = EnNormalizer()
+    def reload_onnx(self):
+        self.campplus_session = onnxruntime.InferenceSession(self.campplus_model, sess_options=self.option, providers=["CPUExecutionProvider"])
+        self.speech_tokenizer_session = onnxruntime.InferenceSession(self.speech_tokenizer_model, sess_options=self.option,
+                                                                     providers=["CPUExecutionProvider"])
     def _extract_text_token(self, text):
         text_token = self.tokenizer.encode(text, allowed_special=self.allowed_special)
         text_token = torch.tensor([text_token], dtype=torch.int32).to(self.device)