Spaces:

vanhai123
/

spam-mlflow-registry-demo

Running

App Files Files Community

vanhai123 commited on May 26

Commit

e2e9623

verified ·

1 Parent(s): 7976372

Upload 7 files

Browse files

Files changed (7) hide show

README.md +110 -13
app.py +35 -0
model_spam_v1.pkl +3 -0
model_spam_v2.pkl +3 -0
model_spam_v3.pkl +3 -0
requirements.txt +3 -0
train_spam_model.py +31 -0

README.md CHANGED Viewed

@@ -1,13 +1,110 @@
----
-title: Spam Mlflow Registry Demo
-emoji: 👀
-colorFrom: pink
-colorTo: red
-sdk: gradio
-sdk_version: 5.31.0
-app_file: app.py
-pinned: false
-license: openrail
----
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

+# 📩 SMS Spam Classifier with MLflow Model Versioning
+Đây là một demo triển khai mô hình phân loại tin nhắn rác (spam) sử dụng **Gradio** và **MLflow Model Registry**, với khả năng chọn phiên bản mô hình để phục vụ.
+---
+## 🚀 Mục tiêu
+* Áp dụng kiến thức về **MLflow Model Versioning**
+* So sánh các mô hình huấn luyện khác nhau (nhiều version)
+* Triển khai online miễn phí bằng Hugging Face Spaces
+---
+## 📦 Dataset
+Dữ liệu được sử dụng là **SMS Spam Collection Dataset**, bao gồm hơn 5.000 tin nhắn đã được phân loại sẵn là `ham` (hợp lệ) hoặc `spam`.
+---
+## 🧐 Mô hình
+Các phiên bản được huấn luyện với pipeline gồm:
+* `TfidfVectorizer`: để chuyển văn bản thành vector đặc trưng
+* `Multinomial Naive Bayes`: mô hình phân loại đơn giản nhưng hiệu quả
+Các version chỉ khác nhau về giá trị `alpha` (tham số làm trơn trong Naive Bayes):
+* `model_spam_v1.pkl`: alpha = 1.0
+* `model_spam_v2.pkl`: alpha = 0.5
+* `model_spam_v3.pkl`: alpha = 0.3
+---
+## 🧪 Hướng dẫn sử dụng
+1. Nhập nội dung tin nhắn cần phân loại
+2. Chọn phiên bản mô hình (v1, v2, hoặc v3)
+3. Nhấn **Dự đoán**
+4. Ứng dụng sẽ trả về kết quả: `Spam ❌` hoặc `Ham ✅` và độ tin cậy
+---
+## 📌 Công nghệ sử dụng
+* 🦍 Python
+* 📊 Scikit-learn
+* 📦 MLflow (log model & versioning)
+* 🎨 Gradio (UI)
+* ☁️ Hugging Face Spaces (hosting)
+---
+## 💻 Chạy offline trên máy local
+Nếu bạn muốn chạy ứng dụng trên máy cá nhân, làm theo các bước sau:
+### 🔧 1. Tạo môi trường ảo (virtual environment)
+**Windows:**
+```bash
+python -m venv .venv
+.venv\Scripts\activate
+```
+**macOS/Linux:**
+```bash
+python3 -m venv .venv
+source .venv/bin/activate
+```
+---
+### 📦 2. Cài đặt thư viện
+```bash
+pip install -r requirements.txt
+```
+---
+### ▶️ 3. Chạy ứng dụng Gradio
+```bash
+python app.py
+```
+Ứng dụng sẽ chạy tại địa chỉ: [http://localhost:7860](http://localhost:7860)
+---
+### 📁 Cấu trúc thư mục mẫu
+```
+mlflow-spam-classifier/
+├── app.py
+├── requirements.txt
+├── model_spam_v1.pkl
+├── model_spam_v2.pkl
+├── model_spam_v3.pkl
+├── README.md
+└── train_spam_model.py (tuỳ chọn)
+```
+---
+✅ Sau khi chạy xong, bạn có thể nhập nội dung tin nhắn và chọn phiên bản mô hình để dự đoán trực tiếp mà không cần kết nối Internet.

app.py ADDED Viewed

	@@ -0,0 +1,35 @@

+import gradio as gr
+import joblib
+# Load các mô hình đã export từ MLflow
+models = {
+    "1": joblib.load("model_spam_v1.pkl"),
+    "2": joblib.load("model_spam_v2.pkl"),
+    "3": joblib.load("model_spam_v3.pkl"),
+}
+# Hàm dự đoán
+def predict_spam(text, version):
+    model = models[version]
+    pred = model.predict([text])[0]
+    prob = model.predict_proba([text])[0][pred]
+    result = "Spam ❌" if pred == 1 else "Ham ✅"
+    return f"{result} (Độ tin cậy: {prob:.2%})"
+# Giao diện Gradio
+with gr.Blocks(title="SMS Spam Classifier - MLflow Versioning Demo") as demo:
+    gr.Markdown("## 📩 SMS Spam Classifier")
+    gr.Markdown("🔢 **Chọn phiên bản mô hình (MLflow Registry)** để phân loại tin nhắn.")
+    with gr.Row():
+        with gr.Column():
+            message_input = gr.Textbox(label="✉️ Nội dung tin nhắn", placeholder="Nhập tin nhắn cần kiểm tra...")
+            version_input = gr.Radio(choices=["1", "2", "3"], label="📦 Chọn version mô hình", value="1")
+            submit_btn = gr.Button("📤 Dự đoán")
+        with gr.Column():
+            result_output = gr.Textbox(label="📌 Kết quả", interactive=False)
+    submit_btn.click(fn=predict_spam, inputs=[message_input, version_input], outputs=result_output)
+demo.launch()

model_spam_v1.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b021280edfe769c9ca4b3dfc9ee9bab226feb1a2d61e125dcb8720e50e1960d3
+size 466574

model_spam_v2.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ed5feee17e3179500cb928abb1d185338eed53607c1c794afc954d1671b9ba28
+size 466574

model_spam_v3.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0c98f998afd9f3b4f6b4c8ec7f668b16f074752b700fe379dbd036b185bf3d3b
+size 466574

requirements.txt ADDED Viewed

	@@ -0,0 +1,3 @@

+gradio
+scikit-learn
+joblib

train_spam_model.py ADDED Viewed

	@@ -0,0 +1,31 @@

+import pandas as pd
+import mlflow
+import mlflow.sklearn
+from sklearn.feature_extraction.text import TfidfVectorizer
+from sklearn.naive_bayes import MultinomialNB
+from sklearn.pipeline import Pipeline
+from sklearn.model_selection import train_test_split
+from sklearn.metrics import accuracy_score
+# Load dữ liệu
+df = pd.read_csv("https://www.kaggle.com/datasets/uciml/sms-spam-collection-dataset/spam.csv", encoding='latin-1')[['v1', 'v2']]
+df.columns = ['label', 'text']
+df['label'] = df['label'].map({'ham': 0, 'spam': 1})
+X_train, X_test, y_train, y_test = train_test_split(df['text'], df['label'], test_size=0.2, random_state=42)
+# Pipeline gồm TF-IDF + Naive Bayes
+pipeline = Pipeline([
+    ('tfidf', TfidfVectorizer()),
+    ('clf', MultinomialNB(alpha=1.0))  # bạn có thể thay đổi alpha để tạo version mới
+])
+pipeline.fit(X_train, y_train)
+y_pred = pipeline.predict(X_test)
+acc = accuracy_score(y_test, y_pred)
+with mlflow.start_run():
+    mlflow.log_param("alpha", 1.0)
+    mlflow.log_metric("accuracy", acc)
+    mlflow.sklearn.log_model(pipeline, "model", registered_model_name="SpamClassifier")
+    print(f"Logged model with acc={acc}")