Add end point for prediction and cosine similarity

Files changed (11) hide show

.gitignore ADDED Viewed

	@@ -0,0 +1 @@


1	+ .venv

__pycache__/embedding_model.cpython-312.pyc ADDED Viewed

Binary file (571 Bytes). View file

__pycache__/main.cpython-312.pyc ADDED Viewed

Binary file (2.09 kB). View file

__pycache__/models.cpython-312.pyc ADDED Viewed

Binary file (2.36 kB). View file

__pycache__/schema.cpython-312.pyc ADDED Viewed

Binary file (542 Bytes). View file

log_reg_model.pkl ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:d21e0e1132a61d2fed963c2786120590917124684a4ed569075ba813165a8368
+size 6874

main.py ADDED Viewed

+from fastapi import FastAPI
+import models
+import numpy as np
+from schema import Prediction
+from sentence_transformers import  util
+app = FastAPI()
+@app.get("/embeddings")
+def display_embedding(text:str):
+    embedding = models.get_embedding(text)
+    dimension = len(embedding)
+    return {"Dimension" : {dimension : embedding.tolist()}}
+@app.post("/prediction")
+def display_prediction(prediction : Prediction):
+    message = prediction.message
+    embedding = models.get_embedding([message])
+    loaded_model = models.loaded_model
+    result = loaded_model.predict(embedding).tolist()
+    return {"Prediction": f"{message} is a {result}"}
+@app.post("/cosine_similarity")
+def display_cosine_similarity(prediction : Prediction):
+    message = prediction.message
+    message_1 = prediction.message_1
+    embendding = models.get_embedding([message,message_1])
+    similarity = util.cos_sim(embendding[0], embendding[1]).item()
+    return {f"Cosine Similarity between {message}  and {message_1} is" : round(similarity, 4)}

models.py ADDED Viewed

+from sentence_transformers import SentenceTransformer
+from sklearn.linear_model import LogisticRegression
+import pickle
+from sklearn.model_selection import train_test_split
+import pandas as pd
+def get_embedding(text):
+    model_encode = SentenceTransformer('Alibaba-NLP/gte-base-en-v1.5', trust_remote_code=True)
+    embedding = model_encode.encode(text)
+    return embedding
+def train_model():
+    sample_data_df = pd.read_excel("sms_process_data_main.xlsx")
+    sample_data_df.dropna(subset=['MessageText', 'label'], inplace=True)  # Drop rows with missing labels or texts
+    input = sample_data_df['MessageText']
+    label = sample_data_df['label']
+    X_train, X_test, y_train, y_test = train_test_split(input, label, test_size=0.2, random_state=42)
+    X_train_embeddings = get_embedding(X_train.tolist())
+    log_reg_model = LogisticRegression( max_iter = 1000)
+    log_reg_model.fit(X_train_embeddings, y_train)
+    save_model(log_reg_model,'log_reg_model.pkl')
+    return log_reg_model
+def save_model(model, filename):
+    with open(filename, 'wb') as model_file:
+        pickle.dump(model, model_file)
+    print(f"Model saved to {filename}")
+def load_model(filename):
+    with open(filename, 'rb') as model_file:
+        loaded_model = pickle.load(model_file)
+    print(f"Model loaded from {filename}")
+    return loaded_model
+loaded_model = load_model('log_reg_model.pkl')

requirements.txt ADDED Viewed

+fastapi[standard]
+pandas
+scikit-learn
+sentence_transformers
+openpyxl

schema.py ADDED Viewed

+from pydantic import BaseModel
+class Prediction(BaseModel):
+    message : str = "Enter a text message"
+    message_1 : str = "Enter a text message"

sms_process_data_main.xlsx ADDED Viewed

Binary file (42.2 kB). View file