Spaces:

thanglekdi
/

Agent_ho_tro_hoc_tap

Sleeping

App Files Files Community

thanglekdi commited on May 2

Commit

3e5f6ae

1 Parent(s): 90486e8

met roi do

Browse files

Files changed (1) hide show

app.py +14 -20

app.py CHANGED Viewed

@@ -7,22 +7,12 @@ from transformers import AutoConfig, AutoModelForCausalLM, AutoTokenizer
 model_path = "vinai/PhoGPT-4B-Chat"
 config = AutoConfig.from_pretrained(model_path, trust_remote_code=True)
-config.init_device = "cpu" if torch.cuda.is_available() else "cpu"
-# Nếu có FlashAttention, bật thêm:
-# config.attn_config['attn_impl'] = 'flash'
-model = AutoModelForCausalLM.from_pretrained(
-    model_path,
-    config=config,
-    torch_dtype=torch.bfloat16 if torch.cuda.is_available() else torch.float32,
-    trust_remote_code=True,
-)
 model.eval()
 tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
-# 2️⃣ Hàm chat theo template “### Câu hỏi / ### Trả lời”
-PROMPT_TEMPLATE = "### Câu hỏi: {instruction}\n### Trả lời:"
 def respond(message, history: list[tuple[str, str]], system_message, max_tokens, temperature, top_p):
     # 2.1 — Gom system message và history vào messages list
@@ -35,19 +25,20 @@ def respond(message, history: list[tuple[str, str]], system_message, max_tokens,
     messages.append({"role": "user", "content": message})
     # 2.2 — Tạo prompt chuẩn
-    prompt = tokenizer.apply_chat_template(
         messages,
         tokenize=False,
         add_generation_prompt=True
     )
     # 2.3 — Tokenize và đưa lên device
-    inputs = tokenizer(prompt, return_tensors="pt")
-    inputs = {k: v.to(model.device) for k, v in inputs.items()}
     # 2.4 — Sinh text
     outputs = model.generate(
-        **inputs,
         max_new_tokens=max_tokens,
         temperature=temperature,
         top_p=top_p,
@@ -55,16 +46,19 @@ def respond(message, history: list[tuple[str, str]], system_message, max_tokens,
         eos_token_id=tokenizer.eos_token_id,
         pad_token_id=tokenizer.pad_token_id,
     )
     # 2.5 — Decode và tách phần assistant trả lời
-    full = tokenizer.decode(outputs[0], skip_special_tokens=True)
-    response  = full.replace(prompt, "").strip()
-    # yield response
     # 2.6 — Cập nhật history và trả về
     # history.append((message, response))
     # return history
 # 3️⃣ Giao diện Gradio
 demo = gr.ChatInterface(
     respond,

 model_path = "vinai/PhoGPT-4B-Chat"
 config = AutoConfig.from_pretrained(model_path, trust_remote_code=True)
+config.init_device = "cpu"
+model = AutoModelForCausalLM.from_pretrained("vinai/PhoGPT-4B-Chat", trust_remote_code=True)
 model.eval()
 tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
 def respond(message, history: list[tuple[str, str]], system_message, max_tokens, temperature, top_p):
     # 2.1 — Gom system message và history vào messages list
     messages.append({"role": "user", "content": message})
     # 2.2 — Tạo prompt chuẩn
+    input_prompt  = tokenizer.apply_chat_template(
         messages,
         tokenize=False,
         add_generation_prompt=True
     )
     # 2.3 — Tokenize và đưa lên device
+    # inputs = tokenizer(input_prompt, return_tensors="pt")
+    input_ids = tokenizer(input_prompt, return_tensors="pt")
+    # inputs = {k: v.to(model.device) for k, v in inputs.items()}
     # 2.4 — Sinh text
     outputs = model.generate(
+        inputs=input_ids["input_ids"],
         max_new_tokens=max_tokens,
         temperature=temperature,
         top_p=top_p,
         eos_token_id=tokenizer.eos_token_id,
         pad_token_id=tokenizer.pad_token_id,
     )
+    print('!!!! OUTPUTS: ',outputs)
     # 2.5 — Decode và tách phần assistant trả lời
+    response = tokenizer.batch_decode(outputs, skip_special_tokens=True)[0]
+    response = response.split("### Trả lời:")[1]
+    yield response
     # 2.6 — Cập nhật history và trả về
     # history.append((message, response))
     # return history
 # 3️⃣ Giao diện Gradio
 demo = gr.ChatInterface(
     respond,