Spaces:

laurelix
/

temanku-ai

Runtime error

temanku-ai / app.py

Update app.py

3883928 verified about 2 months ago

1.13 kB

	from fastapi import FastAPI
	from pydantic import BaseModel
	from transformers import AutoModelForCausalLM, AutoTokenizer
	import torch
	import uvicorn

	app = FastAPI()

	model_id = "GoToCompany/gemma2-9b-cpt-sahabatai-v1-instruct"
	tokenizer = AutoTokenizer.from_pretrained(model_id)
	model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.float16, device_map="auto")

	class ChatRequest(BaseModel):
	prompt: str
	max_new_tokens: int = 256
	temperature: float = 0.7
	top_p: float = 0.95

	@app.post("/chat")
	async def chat(request: ChatRequest):
	inputs = tokenizer(request.prompt, return_tensors="pt").to(model.device)
	outputs = model.generate(
	**inputs,
	max_new_tokens=request.max_new_tokens,
	temperature=request.temperature,
	top_p=request.top_p,
	do_sample=True,
	pad_token_id=tokenizer.eos_token_id,
	)
	result = tokenizer.decode(outputs[0], skip_special_tokens=True)
	return {"response": result}

	# This will only run locally or in Spaces, not if you import this module
	if __name__ == "__main__":
	uvicorn.run(app, host="0.0.0.0", port=7860)