Upload folder using huggingface_hub

Browse files

Files changed (10) hide show

.gitattributes +1 -0
D_convbasedv1_48k.pth +3 -0
G_convbasedv1_48k.pth +3 -0
README.md +85 -0
assets/loss_d_total.png +0 -0
assets/loss_g_fm.png +0 -0
assets/loss_g_kl.png +3 -0
assets/loss_g_mel.png +0 -0
assets/loss_g_total.png +0 -0
config.json +46 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+assets/loss_g_kl.png filter=lfs diff=lfs merge=lfs -text

D_convbasedv1_48k.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e1c8a6730363c5ce6890b55ace3117ced9a0718d49500b8a12738fb6ae250e1e
+size 285697566

G_convbasedv1_48k.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fd018b82e685e8ba8b818bbf2e10e6879b1d8637d04168aed555d53e75fbf681
+size 151115402

README.md CHANGED Viewed

@@ -1,3 +1,88 @@
 ---
 license: apache-2.0
 ---

 ---
+language:
+  - zh
+  - en
+tags:
+  - speech-synthesis
+  - text-to-speech
+  - voice-conversion
+  - pytorch
+  - audio
+  - chinese-tts
+  - multi-speaker
+  - convolution
+  - encoder-decoder
+  - aishell
+  - vctk
 license: apache-2.0
+datasets:
+- aishell
+- thchs30
+- primewords
+- vctk
+library_name: pytorch
+pipeline_tag: text-to-speech
 ---
+# Convbased
+Convbased是一个高性能的中文语音合成模型，基于卷积神经网络和编码器-解码器架构设计。该模型在多个中文数据集上进行训练，支持多说话人和多方言的语音合成。
+- 更快的训练收敛速度
+- 更稳定的训练过程
+- 更好的语音质量输出
+- 支持多种中文方言（普通话、粤语、闽南语、四川话、温州话等）
+- 多说话人语音合成能力
+## 模型信息
+### 训练规模
+- **说话人数量**: 476个不同说话人
+- **训练时长**: 35天连续训练
+- **模型类型**: 编码器 + 解码器架构
+- **总训练数据**: 约467小时高质量语音数据
+### 模型架构
+- **编码器**: 基于卷积的文本编码器
+- **解码器**: 声学特征解码器
+- **判别器**: 对抗训练判别器
+- **损失函数**: 组合损失（Mel频谱损失 + KL散度损失 + 特征匹配损失）
+## 训练曲线
+模型训练过程中的各项损失函数变化：
+![loss_d_total](assets/loss_d_total.png)
+*判别器总损失*
+![loss_g_fm](assets/loss_g_fm.png)
+*生成器特征匹配损失*
+![loss_g_kl](assets/loss_g_kl.png)
+*KL散度损失*
+![loss_g_mel](assets/loss_g_mel.png)
+*Mel频谱损失*
+![loss_g_total](assets/loss_g_total.png)
+*生成器总损失*
+## 训练数据集
+本模型使用以下高质量中文语音数据集进行训练：
+| 数据集名称         | 时长（小时） | 描述 |
+|-------------------|-------------|------|
+| data_aishell      | 178         | 中文普通话语音识别数据集 |
+| data_thchs30      | 30          | 清华大学中文语音数据集 |
+| primewords_md_2018| 178         | 中文语音合成数据集 |
+| VCTK              | 44          | 英文多说话人数据集 |
+| 四川方言           | 4          | 四川话方言数据 |
+| 闽南语             | 3          | 闽南话方言数据 |
+| 粤语              | 3           | 粤语方言数据 |
+| 温州方言           | 7          | 温州话方言数据 |
+| 噪声              | 20          | 噪声环境语音数据 |
+*本模型致力于推进中文语音合成技术的发展，为中文TTS应用提供高质量的解决方案。*

assets/loss_d_total.png ADDED Viewed

assets/loss_g_fm.png ADDED Viewed

assets/loss_g_kl.png ADDED Viewed

Git LFS Details

SHA256: 8e0026ebe099903a94a1af3355e29bf00f84b05fd7231c0d85df6c44badd5ad9
Pointer size: 131 Bytes
Size of remote file: 104 kB

assets/loss_g_mel.png ADDED Viewed

assets/loss_g_total.png ADDED Viewed

config.json ADDED Viewed

	@@ -0,0 +1,46 @@

+{
+	"train": {
+		"log_interval": 200,
+		"seed": 1234,
+		"learning_rate": 1e-4,
+		"betas": [0.8, 0.99],
+		"eps": 1e-9,
+		"lr_decay": 0.999875,
+		"segment_size": 17280,
+		"c_mel": 45,
+		"c_kl": 1.0
+	},
+	"data": {
+		"max_wav_value": 32768.0,
+		"sample_rate": 48000,
+		"filter_length": 2048,
+		"hop_length": 480,
+		"win_length": 2048,
+		"n_mel_channels": 128,
+		"mel_fmin": 0.0,
+		"mel_fmax": null
+	},
+	"model": {
+		"inter_channels": 192,
+		"hidden_channels": 192,
+		"filter_channels": 768,
+		"text_enc_hidden_dim": 768,
+		"n_heads": 2,
+		"n_layers": 6,
+		"kernel_size": 3,
+		"p_dropout": 0,
+		"resblock": "1",
+		"resblock_kernel_sizes": [3, 7, 11],
+		"resblock_dilation_sizes": [
+			[1, 3, 5],
+			[1, 3, 5],
+			[1, 3, 5]
+		],
+		"upsample_rates": [12, 10, 2, 2],
+		"upsample_initial_channel": 512,
+		"upsample_kernel_sizes": [24, 20, 4, 4],
+		"use_spectral_norm": false,
+		"gin_channels": 256,
+		"spk_embed_dim": 476
+	}
+}