| { | |
| "train": { | |
| "segment_size": 16384 | |
| }, | |
| "data": { | |
| "sampling_rate": 44100, | |
| "filter_length": 2048, | |
| "hop_length": 512, | |
| "add_blank": true, | |
| "n_speakers": 256, | |
| "spk2id": { | |
| "ZH": 1 | |
| } | |
| }, | |
| "model": { | |
| "use_spk_conditioned_encoder": true, | |
| "use_noise_scaled_mas": true, | |
| "use_mel_posterior_encoder": false, | |
| "use_duration_discriminator": true, | |
| "inter_channels": 192, | |
| "hidden_channels": 192, | |
| "filter_channels": 768, | |
| "n_heads": 2, | |
| "n_layers": 6, | |
| "n_layers_trans_flow": 3, | |
| "kernel_size": 3, | |
| "p_dropout": 0.1, | |
| "resblock": "1", | |
| "resblock_kernel_sizes": [ | |
| 3, | |
| 7, | |
| 11 | |
| ], | |
| "resblock_dilation_sizes": [ | |
| [ | |
| 1, | |
| 3, | |
| 5 | |
| ], | |
| [ | |
| 1, | |
| 3, | |
| 5 | |
| ], | |
| [ | |
| 1, | |
| 3, | |
| 5 | |
| ] | |
| ], | |
| "upsample_rates": [ | |
| 8, | |
| 8, | |
| 2, | |
| 2, | |
| 2 | |
| ], | |
| "upsample_initial_channel": 512, | |
| "upsample_kernel_sizes": [ | |
| 16, | |
| 16, | |
| 8, | |
| 2, | |
| 2 | |
| ], | |
| "n_layers_q": 3, | |
| "use_spectral_norm": false, | |
| "gin_channels": 256 | |
| }, | |
| "symbols": [ | |
| "_", | |
| "AA", | |
| "E", | |
| "EE", | |
| "En", | |
| "N", | |
| "OO", | |
| "V", | |
| "a", | |
| "a:", | |
| "aa", | |
| "ae", | |
| "ah", | |
| "ai", | |
| "an", | |
| "ang", | |
| "ao", | |
| "aw", | |
| "ay", | |
| "b", | |
| "by", | |
| "c", | |
| "ch", | |
| "d", | |
| "dh", | |
| "dy", | |
| "e", | |
| "e:", | |
| "eh", | |
| "ei", | |
| "en", | |
| "eng", | |
| "er", | |
| "ey", | |
| "f", | |
| "g", | |
| "gy", | |
| "h", | |
| "hh", | |
| "hy", | |
| "i", | |
| "i0", | |
| "i:", | |
| "ia", | |
| "ian", | |
| "iang", | |
| "iao", | |
| "ie", | |
| "ih", | |
| "in", | |
| "ing", | |
| "iong", | |
| "ir", | |
| "iu", | |
| "iy", | |
| "j", | |
| "jh", | |
| "k", | |
| "ky", | |
| "l", | |
| "m", | |
| "my", | |
| "n", | |
| "ng", | |
| "ny", | |
| "o", | |
| "o:", | |
| "ong", | |
| "ou", | |
| "ow", | |
| "oy", | |
| "p", | |
| "py", | |
| "q", | |
| "r", | |
| "ry", | |
| "s", | |
| "sh", | |
| "t", | |
| "th", | |
| "ts", | |
| "ty", | |
| "u", | |
| "u:", | |
| "ua", | |
| "uai", | |
| "uan", | |
| "uang", | |
| "uh", | |
| "ui", | |
| "un", | |
| "uo", | |
| "uw", | |
| "v", | |
| "van", | |
| "ve", | |
| "vn", | |
| "w", | |
| "x", | |
| "y", | |
| "z", | |
| "zh", | |
| "zy", | |
| "!", | |
| "?", | |
| "…", | |
| ",", | |
| ".", | |
| "'", | |
| "-", | |
| "SP", | |
| "UNK" | |
| ], | |
| "num_tones": 11, | |
| "num_languages": 4 | |
| } |