Spaces:

VietCat
/

gpt2-vietnamese-api

Sleeping

VietCat commited on May 7

Commit

b638223

1 Parent(s): d78035c

adjust generation time

Files changed (1) hide show

app.py CHANGED Viewed

@@ -16,6 +16,10 @@ def print_system_resources():
     print(f"Total physical memory: {memory.total/1e9:.2f} GB")
     print(f"CPU usage: {cpu_percent}%")
     print(f"Memory usage: {memory.percent}% ({memory.used/1e9:.2f}/{memory.total/1e9:.2f} GB)")
 # Load model and tokenizer
 model_id = "NlpHUST/gpt2-vietnamese"
@@ -69,11 +73,12 @@ def generate_text(prompt, max_length=50, temperature=0.9):
         outputs = model.generate(
             input_ids=inputs["input_ids"],
             attention_mask=inputs["attention_mask"],
-            max_new_tokens=25,  # Slightly increase for more content
             min_length=10,
             do_sample=True,  # Enable sampling for diversity
-            top_k=50,  # Limit to top 50 tokens
-            top_p=0.9,  # Nucleus sampling
             no_repeat_ngram_size=2,
             pad_token_id=tokenizer.pad_token_id
         )
@@ -81,7 +86,6 @@ def generate_text(prompt, max_length=50, temperature=0.9):
         print(f"Raw output: {generated_text}")
         cleaned_text = clean_text(generated_text)
         elapsed_time = time.time() - start_time
-        print_system_resources()
         print(f"Generation time: {elapsed_time:.2f} seconds")
         return cleaned_text
     except Exception as e:
@@ -106,4 +110,4 @@ demo = gr.Interface(
 )
 if __name__ == "__main__":
-    demo.launch(server_name="0.0.0.0", server_port=7860, queue=False)

     print(f"Total physical memory: {memory.total/1e9:.2f} GB")
     print(f"CPU usage: {cpu_percent}%")
     print(f"Memory usage: {memory.percent}% ({memory.used/1e9:.2f}/{memory.total/1e9:.2f} GB)")
+    print(f"Active processes: {len(psutil.pids())}")
+# Print Gradio version for debugging
+print(f"Gradio version: {gr.__version__}")
 # Load model and tokenizer
 model_id = "NlpHUST/gpt2-vietnamese"
         outputs = model.generate(
             input_ids=inputs["input_ids"],
             attention_mask=inputs["attention_mask"],
+            max_new_tokens=30,  # Increase for more content
             min_length=10,
             do_sample=True,  # Enable sampling for diversity
+            top_k=50,
+            top_p=0.9,
+            temperature=temperature,
             no_repeat_ngram_size=2,
             pad_token_id=tokenizer.pad_token_id
         )
         print(f"Raw output: {generated_text}")
         cleaned_text = clean_text(generated_text)
         elapsed_time = time.time() - start_time
         print(f"Generation time: {elapsed_time:.2f} seconds")
         return cleaned_text
     except Exception as e:
 )
 if __name__ == "__main__":
+    demo.launch(server_name="0.0.0.0", server_port=7860)  # Remove queue=False