NeutralToucan

Sleeping

Flux9665 commited on May 17

Commit

f44a589

1 Parent(s): de41fc6

speed improvements and documentation

Files changed (2) hide show

InferenceInterfaces/ControllableInterface.py CHANGED Viewed

@@ -72,7 +72,7 @@ class ControllableInterface:
                                                                         energy=energy,
                                                                         durations=durations)
                     wavs.append(wav)
-                wav = wavs.mean()
         else:
             self.model.set_utterance_embedding(reference_audio)

                                                                         energy=energy,
                                                                         durations=durations)
                     wavs.append(wav)
+                wav = sum(wavs)/len(wavs)
         else:
             self.model.set_utterance_embedding(reference_audio)

Modules/GeneralLayers/Conformer.py CHANGED Viewed

@@ -136,7 +136,7 @@ class Conformer(torch.nn.Module):
                 projected_lang_embs = self.language_embedding_projection(lang_embs).unsqueeze(-1).transpose(1, 2)
                 projected_lang_embs = self.language_emb_norm(projected_lang_embs)
                 proj_lang_embs_s.append(projected_lang_embs)
-            xs = xs + proj_lang_embs_s.mean()  # offset phoneme representation by language specific offset
         xs = self.pos_enc(xs)

                 projected_lang_embs = self.language_embedding_projection(lang_embs).unsqueeze(-1).transpose(1, 2)
                 projected_lang_embs = self.language_emb_norm(projected_lang_embs)
                 proj_lang_embs_s.append(projected_lang_embs)
+            xs = xs + (sum(proj_lang_embs_s)/len(proj_lang_embs_s))  # offset phoneme representation by language specific offset
         xs = self.pos_enc(xs)