CosyVoice2-0.5B

Runtime error

App Files Files Community

kemuriririn commited on Jun 4

Commit

ba791a8

1 Parent(s): 9eda15b

update

Browse files

Files changed (1) hide show

cosyvoice/cli/cosyvoice.py +7 -0

cosyvoice/cli/cosyvoice.py CHANGED Viewed

@@ -55,10 +55,12 @@ class CosyVoice:
             self.model.load_onnx('{}/flow.decoder.estimator.fp32.onnx'.format(model_dir))
         del configs
     def list_avaliable_spks(self):
         spks = list(self.frontend.spk2info.keys())
         return spks
     def inference_sft(self, tts_text, spk_id, stream=False, speed=1.0):
         for i in tqdm(self.frontend.text_normalize(tts_text, split=True)):
             model_input = self.frontend.frontend_sft(i, spk_id)
@@ -70,6 +72,7 @@ class CosyVoice:
                 yield model_output
                 start_time = time.time()
     def inference_zero_shot(self, tts_text, prompt_text, prompt_speech_16k, stream=False, speed=1.0):
         prompt_text = self.frontend.text_normalize(prompt_text, split=False)
         for i in tqdm(self.frontend.text_normalize(tts_text, split=True)):
@@ -84,6 +87,7 @@ class CosyVoice:
                 yield model_output
                 start_time = time.time()
     def inference_cross_lingual(self, tts_text, prompt_speech_16k, stream=False, speed=1.0):
         if self.frontend.instruct is True:
             raise ValueError('{} do not support cross_lingual inference'.format(self.model_dir))
@@ -97,6 +101,7 @@ class CosyVoice:
                 yield model_output
                 start_time = time.time()
     def inference_instruct(self, tts_text, spk_id, instruct_text, stream=False, speed=1.0):
         if self.frontend.instruct is False:
             raise ValueError('{} do not support instruct inference'.format(self.model_dir))
@@ -111,6 +116,7 @@ class CosyVoice:
                 yield model_output
                 start_time = time.time()
     def inference_instruct2(self, tts_text, instruct_text, prompt_speech_16k, stream=False, speed=1.0):
         for i in tqdm(self.frontend.text_normalize(tts_text, split=True)):
             model_input = self.frontend.frontend_instruct2(i, instruct_text, prompt_speech_16k, self.sample_rate)
@@ -122,6 +128,7 @@ class CosyVoice:
                 yield model_output
                 start_time = time.time()
     def inference_vc(self, source_speech_16k, prompt_speech_16k, stream=False, speed=1.0):
         model_input = self.frontend.frontend_vc(source_speech_16k, prompt_speech_16k, self.sample_rate)
         start_time = time.time()

             self.model.load_onnx('{}/flow.decoder.estimator.fp32.onnx'.format(model_dir))
         del configs
+    @spaces.GPU
     def list_avaliable_spks(self):
         spks = list(self.frontend.spk2info.keys())
         return spks
+    @spaces.GPU
     def inference_sft(self, tts_text, spk_id, stream=False, speed=1.0):
         for i in tqdm(self.frontend.text_normalize(tts_text, split=True)):
             model_input = self.frontend.frontend_sft(i, spk_id)
                 yield model_output
                 start_time = time.time()
+    @spaces.GPU
     def inference_zero_shot(self, tts_text, prompt_text, prompt_speech_16k, stream=False, speed=1.0):
         prompt_text = self.frontend.text_normalize(prompt_text, split=False)
         for i in tqdm(self.frontend.text_normalize(tts_text, split=True)):
                 yield model_output
                 start_time = time.time()
+    @spaces.GPU
     def inference_cross_lingual(self, tts_text, prompt_speech_16k, stream=False, speed=1.0):
         if self.frontend.instruct is True:
             raise ValueError('{} do not support cross_lingual inference'.format(self.model_dir))
                 yield model_output
                 start_time = time.time()
+    @spaces.GPU
     def inference_instruct(self, tts_text, spk_id, instruct_text, stream=False, speed=1.0):
         if self.frontend.instruct is False:
             raise ValueError('{} do not support instruct inference'.format(self.model_dir))
                 yield model_output
                 start_time = time.time()
+    @spaces.GPU
     def inference_instruct2(self, tts_text, instruct_text, prompt_speech_16k, stream=False, speed=1.0):
         for i in tqdm(self.frontend.text_normalize(tts_text, split=True)):
             model_input = self.frontend.frontend_instruct2(i, instruct_text, prompt_speech_16k, self.sample_rate)
                 yield model_output
                 start_time = time.time()
+    @spaces.GPU
     def inference_vc(self, source_speech_16k, prompt_speech_16k, stream=False, speed=1.0):
         model_input = self.frontend.frontend_vc(source_speech_16k, prompt_speech_16k, self.sample_rate)
         start_time = time.time()