kyutai
/

hibiki-1b-pytorch-bf16

@@ -1,39 +1,7 @@
 {
-  "model_type": "hibiki",
-  "lm_gen_config": {
-    "temp": 0.8,
-    "temp_text": 0.8,
-    "top_k": 250,
-    "top_k_text": 50
-  },
-  "dim": 2048,
-  "text_card": 48000,
-  "existing_text_padding_id": 3,
   "n_q": 16,
   "dep_q": 8,
-  "card": 2048,
-  "num_heads": 16,
-  "num_layers": 16,
-  "hidden_scale": 4.125,
-  "causal": true,
-  "layer_scale": null,
-  "context": 500,
-  "max_period": 100000,
-  "gating": "silu",
-  "norm": "rms_norm_f32",
-  "positional_embedding": "rope",
-  "depformer_dim": 1024,
-  "depformer_dim_feedforward": 4224,
-  "depformer_num_heads": 16,
-  "depformer_num_layers": 6,
-  "depformer_causal": true,
-  "depformer_layer_scale": null,
-  "depformer_multi_linear": true,
-  "depformer_context": 16,
-  "depformer_max_period": 10000,
-  "depformer_gating": "silu",
-  "depformer_pos_emb": "none",
-  "depformer_weights_per_step": true,
   "delays": [
     0,
     0,
@@ -53,6 +21,26 @@
     2,
     2
   ],
   "conditioners": {
     "description": {
       "type": "lut",
@@ -71,11 +59,27 @@
     }
   },
   "fuser": {
     "sum": [
       "description"
-    ]
   },
   "mimi_name": "mimi-pytorch-e351c8d8@125.safetensors",
-  "moshi_name": "hibikim-pytorch-dc2cf5a5@80.safetensors",
-  "tokenizer_name": "tokenizer_spm_48k_multi6_2.model"
 }

 {
+  "card": 2048,
   "n_q": 16,
   "dep_q": 8,
   "delays": [
     0,
     0,
     2,
     2
   ],
+  "dim": 2048,
+  "text_card": 48000,
+  "existing_text_padding_id": 3,
+  "num_heads": 16,
+  "num_layers": 16,
+  "hidden_scale": 4.125,
+  "causal": true,
+  "layer_scale": null,
+  "context": 1500,
+  "max_period": 100000.0,
+  "gating": "silu",
+  "norm": "rms_norm_f32",
+  "positional_embedding": "rope",
+  "depformer_dim": 1024,
+  "depformer_num_heads": 16,
+  "depformer_num_layers": 6,
+  "depformer_dim_feedforward": null,
+  "depformer_multi_linear": true,
+  "depformer_pos_emb": "none",
+  "depformer_weights_per_step": true,
   "conditioners": {
     "description": {
       "type": "lut",
     }
   },
   "fuser": {
+    "cross_attention_pos_emb": false,
+    "cross_attention_pos_emb_scale": 1,
     "sum": [
       "description"
+    ],
+    "prepend": [],
+    "cross": []
+  },
+  "cross_attention": false,
+  "model_id": {
+    "sig": "37c6cfd6",
+    "epoch": 200
+  },
+  "model_type": "hibiki",
+  "lm_gen_config": {
+    "temp": 0.8,
+    "temp_text": 0.8,
+    "top_k": 250,
+    "top_k_text": 50
   },
   "mimi_name": "mimi-pytorch-e351c8d8@125.safetensors",
+  "tokenizer_name": "tokenizer_spm_48k_multi6_2.model",
+  "moshi_name": "hibikim-pytorch-37c6cfd6@200.safetensors"
 }