Spaces:

Yuchan5386
/

KeraLux-API

Sleeping

Yuchan5386 commited on Jun 12

Commit

7fc84c9

verified ·

1 Parent(s): 166a6d9

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -51,6 +51,7 @@ def text_to_ids(text):
 def ids_to_text(ids):
     return sp.decode(ids)
 class RotaryPositionalEmbedding(layers.Layer):
     def __init__(self, dim):
         super().__init__()
@@ -94,7 +95,7 @@ class GEGLU(tf.keras.layers.Layer):
         return self.out(x_val * tf.nn.gelu(x_gate))
 class KeraLuxBlock(tf.keras.layers.Layer):
-    def __init__(self, d_model, d_ff, num_heads=20, dropout_rate=0.1):
         super().__init__()
         self.ln1 = layers.LayerNormalization(epsilon=1e-5)
         self.mha = layers.MultiHeadAttention(num_heads=num_heads, key_dim=d_model // num_heads)
@@ -136,7 +137,7 @@ class KeraLuxBlock(tf.keras.layers.Layer):
         return x
 class KeraLux(tf.keras.Model):
-    def __init__(self, vocab_size, seq_len, d_model, d_ff, n_layers, num_heads=20, dropout_rate=0.1):
         super().__init__()
         self.token_embedding = layers.Embedding(vocab_size, d_model)
         # pos_embedding 제거
@@ -152,11 +153,17 @@ class KeraLux(tf.keras.Model):
         logits = tf.matmul(x, self.token_embedding.embeddings, transpose_b=True)
         return logits
-# 모델 생성 & 가중치 불러오기
-model = KeraLux(vocab_size=vocab_size, seq_len=max_len, d_model=160, d_ff=616, n_layers=6)
 dummy_input = tf.zeros((1, max_len), dtype=tf.int32)  # 배치1, 시퀀스길이 max_len
 _ = model(dummy_input)  # 모델이 빌드됨
-model.load_weights("KeraLux3.weights.h5")
 print("모델 가중치 로드 완료!")
 def decode_sp_tokens(tokens):

 def ids_to_text(ids):
     return sp.decode(ids)
 class RotaryPositionalEmbedding(layers.Layer):
     def __init__(self, dim):
         super().__init__()
         return self.out(x_val * tf.nn.gelu(x_gate))
 class KeraLuxBlock(tf.keras.layers.Layer):
+    def __init__(self, d_model, d_ff, num_heads=12, dropout_rate=0.1):
         super().__init__()
         self.ln1 = layers.LayerNormalization(epsilon=1e-5)
         self.mha = layers.MultiHeadAttention(num_heads=num_heads, key_dim=d_model // num_heads)
         return x
 class KeraLux(tf.keras.Model):
+    def __init__(self, vocab_size, seq_len, d_model, d_ff, n_layers, num_heads=12, dropout_rate=0.1):
         super().__init__()
         self.token_embedding = layers.Embedding(vocab_size, d_model)
         # pos_embedding 제거
         logits = tf.matmul(x, self.token_embedding.embeddings, transpose_b=True)
         return logits
+# 모델 생성
+model = KeraLux(
+    vocab_size=vocab_size,
+    seq_len=max_len,
+    d_model=192,
+    d_ff=768,
+    n_layers=6
+)
 dummy_input = tf.zeros((1, max_len), dtype=tf.int32)  # 배치1, 시퀀스길이 max_len
 _ = model(dummy_input)  # 모델이 빌드됨
+model.load_weights("KeraLux.weights.h5")
 print("모델 가중치 로드 완료!")
 def decode_sp_tokens(tokens):