Spaces:

Yuchan5386
/

InteractGPT-API

Sleeping

App Files Files Community

Yuchan5386 commited on 17 days ago

Commit

41baa96

verified ·

1 Parent(s): b894ce9

Update api.py

Browse files

Files changed (1) hide show

api.py +46 -64

api.py CHANGED Viewed

@@ -140,68 +140,50 @@ _ = model(dummy_input)  # 모델이 빌드됨
 model.load_weights("InteractGPT.weights.h5")
 print("모델 가중치 로드 완료!")
-def generate_text_typical(model, prompt, max_len=100, max_gen=98,
-                          temperature=0.50, min_len=20,
-                          repetition_penalty=1.2, typical_p=0.80):
-    def typical_filtering(logits, typical_p):
-        probs = np.exp(logits - np.max(logits))
-        probs /= probs.sum()
-        log_probs = np.log(probs + 1e-9)
-        entropy = -np.sum(probs * log_probs)
-        shifted = np.abs(-log_probs - entropy)
-        sorted_idx = np.argsort(shifted)
-        sorted_probs = probs[sorted_idx]
-        cum_probs = np.cumsum(sorted_probs)
-        cutoff = np.searchsorted(cum_probs, typical_p) + 1
-        final_idx = sorted_idx[:cutoff]
-        final_probs = probs[final_idx]
-        final_probs /= final_probs.sum()
-        return final_idx, final_probs
-    model_input = text_to_ids(f"<start> {prompt} <sep>")
-    model_input = model_input[:max_len]
-    generated = list(model_input)
-    for step in range(max_gen):
-        pad_len = max(0, max_len - len(generated))
-        input_padded = np.pad(generated, (0, pad_len), constant_values=pad_id)
-        input_tensor = tf.convert_to_tensor([input_padded])
-        logits = model(input_tensor, training=False)
-        next_logits = logits[0, len(generated) - 1].numpy()
-        # 반복 억제
-        for t in set(generated):
-            count = generated.count(t)
-            next_logits[t] /= (repetition_penalty ** count)
-        # 조기 종료 방지
-        if len(generated) < min_len:
-            next_logits[end_id] -= 5.0
-        next_logits[pad_id] -= 10.0
-        # 온도 적용
-        next_logits = next_logits / temperature
-        # Typical Sampling 적용
-        final_idx, final_probs = typical_filtering(next_logits, typical_p=typical_p)
-        sampled = np.random.choice(final_idx, p=final_probs)
-        generated.append(int(sampled))
-        decoded = sp.decode(generated)
-        for t in ["<start>", "<sep>", "<end>"]:
-            decoded = decoded.replace(t, "")
-        decoded = decoded.strip()
-        if len(generated) >= min_len and (sampled == end_id or decoded.endswith(('.', '!', '?'))):
-            return decoded  # ← yield 대신 return
 def is_valid_response(response):
     if len(response.strip()) < 2:
@@ -284,10 +266,10 @@ def respond(input_text):
         summary = get_wikipedia_summary(keyword)
         return f"{summary}\n다른 궁금한 점 있으신가요?"
-    return generate_text_typical(model, input_text)
 async def async_generator_wrapper(prompt: str):
-    gen = generate_text_typical(model, prompt)
     for text_piece in gen:
         yield text_piece
         await asyncio.sleep(0.1)

 model.load_weights("InteractGPT.weights.h5")
 print("모델 가중치 로드 완료!")
+def generate_text_topp(model, prompt, max_len=100, max_gen=98,
+                       temperature=0.50, min_len=20,
+                       repetition_penalty=1.2, top_p=0.90):
+    def top_p_filtering(logits, top_p):
+        probs = np.exp(logits - np.max(logits))
+        probs /= probs.sum()
+        sorted_idx = np.argsort(-probs)
+        sorted_probs = probs[sorted_idx]
+        cum_probs = np.cumsum(sorted_probs)
+        cutoff = np.searchsorted(cum_probs, top_p) + 1
+        final_idx = sorted_idx[:cutoff]
+        final_probs = probs[final_idx]
+        final_probs /= final_probs.sum()
+        return final_idx, final_probs
+    model_input = text_to_ids(f"<start> {prompt} <sep>")
+    model_input = model_input[:max_len]
+    generated = list(model_input)
+    for step in range(max_gen):
+        pad_len = max(0, max_len - len(generated))
+        input_padded = np.pad(generated, (0, pad_len), constant_values=pad_id)
+        input_tensor = tf.convert_to_tensor([input_padded])
+        logits = model(input_tensor, training=False)
+        next_logits = logits[0, len(generated) - 1].numpy()
+        # 반복 억제
+        for t in set(generated):
+            count = generated.count(t)
+            next_logits[t] /= (repetition_penalty ** count)
+        # 조기 종료 방지
+        if len(generated) < min_len:
+            next_logits[end_id] -= 5.0
+        next_logits[pad_id] -= 10.0
+        # 온도 적용
+        next_logits = next_logits / temperature
+        # Top-P Sampling 적용
+        final_idx, final_probs = top_p_filtering(next_logits, top_p=top_p)
+        sampled = np.random.choice(final_idx, p=final_probs)
+        generated.append(int(sampled))
+        decoded = sp.decode(generated)
+        for t in ["<start>", "<sep>", "<end>"]:
+            decoded = decoded.replace(t, "")
+        decoded = decoded.strip()
+        if len(generated) >= min_len and (sampled == end_id or decoded.endswith(('.', '!', '?'))):
+            return decoded
 def is_valid_response(response):
     if len(response.strip()) < 2:
         summary = get_wikipedia_summary(keyword)
         return f"{summary}\n다른 궁금한 점 있으신가요?"
+    return generate_text_topp(model, input_text)
 async def async_generator_wrapper(prompt: str):
+    gen = generate_text_topp(model, prompt)
     for text_piece in gen:
         yield text_piece
         await asyncio.sleep(0.1)