HyperCLOVAX-SEED-Text-Instruct-0.5B

Running on Zero

90 commited on Apr 30

Commit

9e47a22

1 Parent(s): 31b5e9a

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -12,7 +12,7 @@ model = AutoModelForCausalLM.from_pretrained(
     device_map="auto",
     trust_remote_code=True
 )
-@spaces.GPU(duration=60)
 def predict(message, history):
     # 构建输入
     history_text = ""
@@ -22,18 +22,25 @@ def predict(message, history):
     # 生成回复
     inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
-    outputs = model.generate(
         **inputs,
         max_new_tokens=10000,
         do_sample=True,
         temperature=0.7,
         top_p=0.9,
         repetition_penalty=1.1,
-        pad_token_id=tokenizer.eos_token_id
-    )
-    response = tokenizer.decode(outputs[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)
-    return response.strip()
 # 创建Gradio界面
 demo = gr.ChatInterface(

     device_map="auto",
     trust_remote_code=True
 )
+@spaces.GPU(duration=120)
 def predict(message, history):
     # 构建输入
     history_text = ""
     # 生成回复
     inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
+    # 使用流式生成
+    streamer = tokenizer.decode
+    response = ""
+    for outputs in model.generate(
         **inputs,
         max_new_tokens=10000,
         do_sample=True,
         temperature=0.7,
         top_p=0.9,
         repetition_penalty=1.1,
+        pad_token_id=tokenizer.eos_token_id,
+        stream_output=True
+    ):
+        next_token = outputs[0][inputs.input_ids.shape[1]:]
+        next_token_text = streamer(next_token, skip_special_tokens=True)
+        response += next_token_text
+        yield response.strip()
 # 创建Gradio界面
 demo = gr.ChatInterface(