Spaces:

vanhai123
/

ragflow-enterprise-search-app

Running

App Files Files Community

vanhai123 commited on Apr 29

Commit

36cac86

verified ·

1 Parent(s): 7ae3d51

Upload 9 files

Browse files

Files changed (7) hide show

README.md +9 -9
app.py +147 -201
generator.py +47 -21
gradio_theme.css +86 -0
requirements.txt +16 -16
retriever.py +15 -3
uploaded_files.json +10 -0

README.md CHANGED Viewed

@@ -1,10 +1,10 @@
----
-title: RAGFlow Enterprise Search
-emoji: 🔎
-colorFrom: blue
-colorTo: green
-sdk: gradio
-sdk_version: 5.27.0
-app_file: app.py
-pinned: false
 ---

+---
+title: RAGFlow Enterprise Search
+emoji: 🔎
+colorFrom: blue
+colorTo: green
+sdk: gradio
+sdk_version: 4.44.0
+app_file: app.py
+pinned: false
 ---

app.py CHANGED Viewed

@@ -1,201 +1,147 @@
-import gradio as gr
-import os
-from datetime import datetime
-from retriever import retriever, reload_retriever
-from generator import answer_query
-from langchain_community.document_loaders import PyPDFLoader, TextLoader, CSVLoader, UnstructuredWordDocumentLoader
-from langchain.text_splitter import RecursiveCharacterTextSplitter
-from langchain_community.embeddings import HuggingFaceEmbeddings
-from langchain_community.vectorstores import FAISS
-# Hàm xử lý upload tài liệu và làm mới FAISS
-def process_document(file):
-    file_path = file.name
-    # Chọn loader theo đuôi file
-    if file_path.endswith(".pdf"):
-        loader = PyPDFLoader(file_path)
-    elif file_path.endswith(".csv"):
-        loader = CSVLoader(file_path)
-    elif file_path.endswith(".txt"):
-        loader = TextLoader(file_path)
-    elif file_path.endswith(".docx") or file_path.endswith(".doc"):
-        loader = UnstructuredWordDocumentLoader(file_path)
-    else:
-        return "Định dạng file không hỗ trợ!"
-    # Load tài liệu
-    documents = loader.load()
-    # Cắt chunk văn bản
-    splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
-    docs = splitter.split_documents(documents)
-    if not docs:
-        return "Không trích xuất được nội dung từ file tải lên."
-    # Tạo FAISS mới
-    embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
-    db = FAISS.from_documents(docs, embeddings)
-    db.save_local("vectorstore")
-    reload_retriever()
-    timestamp = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
-    return f"Đã xử lý và thêm {len(docs)} đoạn tài liệu vào VectorStore lúc {timestamp}"
-# Hàm xử lý tìm kiếm
-def query_function(question, model_choice, temperature, include_sources):
-    answer, sources = answer_query(question, model=model_choice, temperature=temperature)
-    if include_sources and sources:
-        sources_text = "\n\n**Nguồn tài liệu:**\n"
-        for i, doc in enumerate(sources):
-            sources_text += f"{i+1}. {doc.page_content}\n"
-            if hasattr(doc, 'metadata') and doc.metadata:
-                sources_text += f"   - Nguồn: {doc.metadata.get('source', 'Unknown')}\n"
-                sources_text += f"   - Trang: {doc.metadata.get('page', 'N/A')}\n"
-        result = answer + sources_text
-    else:
-        result = answer
-    result = result.encode('utf-8', errors='ignore').decode('utf-8')
-    return result
-def clear_inputs():
-    return "", []
-# Giao diện Gradio
-with gr.Blocks(theme=gr.themes.Soft()) as demo:
-    with gr.Row():
-        with gr.Column(scale=3):
-            gr.Markdown(
-                """
-                # 🔎 RAGFlow Enterprise Search
-                ### Công cụ tìm kiếm thông minh dựa trên RAG (Retrieval-Augmented Generation)
-                Hệ thống giúp truy xuất và trả lời câu hỏi từ tài liệu nội bộ doanh nghiệp.
-                """
-            )
-    with gr.Tabs():
-        # Tab tìm kiếm
-        with gr.TabItem("Tìm kiếm 🔍"):
-            with gr.Row():
-                with gr.Column(scale=3):
-                    question = gr.Textbox(
-                        label="Nhập câu hỏi của bạn:",
-                        placeholder="Ví dụ: Quy trình xin nghỉ phép nội bộ là gì?",
-                        lines=2
-                    )
-                with gr.Column(scale=1):
-                    model_choice = gr.Dropdown(
-                        label="Mô hình AI",
-                        choices=["Gemini Pro", "GPT-3.5", "GPT-4", "Claude"],
-                        value="Gemini Pro"
-                    )
-                    temperature = gr.Slider(
-                        label="Temperature",
-                        minimum=0.0,
-                        maximum=1.0,
-                        value=0.2,
-                        step=0.1
-                    )
-                    include_sources = gr.Checkbox(
-                        label="Hiển thị nguồn tài liệu",
-                        value=True
-                    )
-            search_button = gr.Button("🔍 Tìm kiếm", variant="primary")
-            clear_button = gr.Button("🗑️ Xóa")
-            output = gr.Textbox(
-                label="Kết quả tìm kiếm:",
-                lines=15,
-                interactive=False
-            )
-            search_button.click(
-                query_function,
-                inputs=[question, model_choice, temperature, include_sources],
-                outputs=output
-            )
-            question.submit(
-                query_function,
-                inputs=[question, model_choice, temperature, include_sources],
-                outputs=output
-            )
-            clear_button.click(clear_inputs, outputs=[question, output])
-        # Tab quản lý tài liệu
-        with gr.TabItem("📚 Quản lý tài liệu"):
-            with gr.Row():
-                with gr.Column():
-                    upload_file = gr.File(
-                        label="Tải lên tài liệu mới (PDF, Word, CSV, TXT)",
-                        file_types=[".pdf", ".docx", ".doc", ".csv", ".txt"]
-                    )
-                    upload_button = gr.Button("📤 Tải lên và xử lý", variant="primary")
-                with gr.Column():
-                    upload_status = gr.Textbox(
-                        label="📄 Trạng thái:",
-                        lines=3,
-                        interactive=False
-                    )
-            gr.Markdown("### 📊 Danh sách tài liệu đã xử lý")
-            upload_button.click(
-                process_document,
-                inputs=upload_file,
-                outputs=upload_status
-            )
-        # Tab cài đặt (optional)
-        with gr.TabItem("⚙️ Cài đặt hệ thống"):
-            gr.Markdown("### ⚙️ Cấu hình Vector Store & Embedding")
-            with gr.Row():
-                with gr.Column():
-                    vector_store = gr.Dropdown(
-                        label="Vector Store",
-                        choices=["FAISS", "Pinecone", "Milvus"],
-                        value="FAISS"
-                    )
-                    embedding_model = gr.Dropdown(
-                        label="Embedding Model",
-                        choices=["Sentence-Transformers", "OpenAI Embeddings", "Cohere Embeddings"],
-                        value="Sentence-Transformers"
-                    )
-                with gr.Column():
-                    chunk_size = gr.Slider(
-                        label="Chunk size (độ dài văn bản mỗi đoạn)",
-                        minimum=100,
-                        maximum=1000,
-                        value=500,
-                        step=50
-                    )
-                    chunk_overlap = gr.Slider(
-                        label="Chunk overlap (chồng lấp giữa các đoạn)",
-                        minimum=0,
-                        maximum=200,
-                        value=50,
-                        step=10
-                    )
-            save_settings = gr.Button("💾 Lưu cài đặt", variant="primary")
-            settings_status = gr.Textbox(
-                label="🗂️ Trạng thái:",
-                interactive=False
-            )
-            def save_system_settings(vector_store, embedding_model, chunk_size, chunk_overlap):
-                return f"✅ Đã lưu: VectorStore={vector_store}, Embedding={embedding_model}, ChunkSize={chunk_size}, Overlap={chunk_size}"
-            save_settings.click(
-                save_system_settings,
-                inputs=[vector_store, embedding_model, chunk_size, chunk_overlap],
-                outputs=settings_status
-            )
-demo.launch()

+import gradio as gr
+import os
+import json
+import shutil
+from datetime import datetime
+from retriever import retriever, reload_retriever
+from generator import answer_query
+from langchain_community.document_loaders import (
+    PyPDFLoader, TextLoader, CSVLoader, UnstructuredWordDocumentLoader
+)
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain_huggingface import HuggingFaceEmbeddings
+from langchain_community.vectorstores import FAISS
+import html
+# Đường dẫn file CSS
+CUSTOM_CSS_PATH = "gradio_theme.css"
+# Quản lý danh sách file upload
+UPLOADED_FILES_JSON = "uploaded_files.json"
+uploaded_files = []
+def save_uploaded_files_to_json():
+    with open(UPLOADED_FILES_JSON, "w", encoding="utf-8") as f:
+        json.dump(uploaded_files, f, ensure_ascii=False, indent=2)
+def load_uploaded_files_from_json():
+    global uploaded_files
+    if os.path.exists(UPLOADED_FILES_JSON):
+        with open(UPLOADED_FILES_JSON, "r", encoding="utf-8") as f:
+            uploaded_files = json.load(f)
+    else:
+        uploaded_files = []
+def update_uploaded_files():
+    if not uploaded_files:
+        return "_Chưa có tài liệu nào được tải lên._"
+    return "### 📚 Danh sách tài liệu đã xử lý:\n" + "\n".join(
+        f"- {f['name']} (Uploaded: {f['timestamp'][:19]})" for f in uploaded_files
+    )
+# Load khi khởi động
+load_uploaded_files_from_json()
+def process_document(file):
+    file_path = file.name
+    if os.path.exists("vectorstore"):
+        shutil.rmtree("vectorstore")
+    try:
+        if file_path.endswith(".pdf"):
+            loader = PyPDFLoader(file_path)
+        elif file_path.endswith(".csv"):
+            loader = CSVLoader(file_path)
+        elif file_path.endswith(".txt"):
+            loader = TextLoader(file_path, autodetect_encoding=True)   # <== fix lỗi txt
+        elif file_path.endswith(".docx") or file_path.endswith(".doc"):
+            loader = UnstructuredWordDocumentLoader(file_path)
+        else:
+            return "❌ Định dạng file không hỗ trợ.", update_uploaded_files()
+        documents = loader.load()
+    except Exception as e:
+        return f"❌ Lỗi khi tải tài liệu: {e}", update_uploaded_files()
+    splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
+    docs = splitter.split_documents(documents)
+    if not docs:
+        return "⚠️ Không trích xuất được nội dung từ tài liệu.", update_uploaded_files()
+    embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
+    db = FAISS.from_documents(docs, embeddings)
+    db.save_local("vectorstore")
+    reload_retriever()
+    uploaded_files.append({"name": os.path.basename(file.name), "timestamp": datetime.now().isoformat()})
+    save_uploaded_files_to_json()
+    return f"✅ Đã xử lý {len(docs)} đoạn từ **{file.name}**", update_uploaded_files()
+def delete_file(filename):
+    global uploaded_files
+    filename = filename.strip()
+    uploaded_files = [f for f in uploaded_files if f["name"] != filename]
+    save_uploaded_files_to_json()
+    return update_uploaded_files()
+def clear_inputs():
+    return "", ""
+def query_function(question, model_choice, temperature, include_sources):
+    answer, docs = answer_query(question, model=model_choice, temperature=temperature)
+    answer = html.escape(answer)
+    if include_sources and docs:
+        unique_sources = set()
+        for doc in docs:
+            section = doc.metadata.get("section")
+            if section:
+                unique_sources.add(section.strip())
+            else:
+                filename = os.path.basename(doc.metadata.get("source", "Unknown"))
+                unique_sources.add(filename.strip())
+        if unique_sources:
+            sources_list = [f"- {src}" for src in sorted(unique_sources)]
+            sources_text = "\n\n**Nguồn tham khảo:**\n" + "\n".join(sources_list)
+            answer += sources_text
+    return answer
+# Giao diện Gradio
+with gr.Blocks(css=CUSTOM_CSS_PATH) as demo:
+    with gr.Row():
+        with gr.Column(scale=5):
+            gr.Markdown("## 🔍 RAGFlow Enterprise Search\nTìm kiếm thông minh từ tài liệu nội bộ", elem_classes="container-box")
+    with gr.Tabs():
+        with gr.TabItem("🔍 Tìm kiếm"):
+            with gr.Column(elem_classes="container-box"):
+                question = gr.Textbox(lines=3, label="Câu hỏi")
+                with gr.Row():
+                    model_choice = gr.Dropdown(["Gemini Pro", "GPT-3.5", "GPT-4", "Claude"], value="Gemini Pro", label="Mô hình")
+                    temperature = gr.Slider(0, 1, value=0.2, step=0.1, label="Temperature")
+                    include_sources = gr.Checkbox(label="Hiển thị nguồn", value=True)
+                with gr.Row():
+                    search_btn = gr.Button("🔍 Tìm kiếm", variant="primary", elem_classes="button-primary")
+                    clear_btn = gr.Button("🗑️ Xóa", variant="secondary", elem_classes="button-secondary")
+                output = gr.Markdown(elem_classes="output-box")  # Hiển thị kết quả trong khung đẹp
+            search_btn.click(query_function, inputs=[question, model_choice, temperature, include_sources], outputs=[output])
+            clear_btn.click(clear_inputs, outputs=[question, output])
+        with gr.TabItem("📚 Quản lý tài liệu"):
+            with gr.Column(elem_classes="container-box"):
+                upload_file = gr.File(label="Tải lên tài liệu", file_types=[".pdf", ".docx", ".doc", ".csv", ".txt"])
+                upload_btn = gr.Button("📄 Tải lên và xử lý", variant="primary")
+                upload_status = gr.Textbox(label="Trạng thái", lines=3, interactive=False)
+            uploaded_files_list = gr.Markdown(value=update_uploaded_files(), elem_classes="scroll-box")
+            with gr.Column(elem_classes="container-box"):
+                delete_filename = gr.Textbox(label="Tên file muốn xóa")
+                delete_btn = gr.Button("🗑️ Xóa tài liệu", variant="secondary")
+            upload_btn.click(process_document, inputs=[upload_file], outputs=[upload_status, uploaded_files_list])
+            delete_btn.click(delete_file, inputs=[delete_filename], outputs=[uploaded_files_list])
+    demo.launch(share=True)

generator.py CHANGED Viewed

@@ -1,41 +1,67 @@
 import requests
 from retriever import retrieve_docs
-API_KEY = "AIzaSyClqQssVMjt02qKrGKnghYAK9RkGf0lkS4"
 def answer_query(query, model="Gemini Pro", temperature=0.2):
-    docs = retrieve_docs(query)
     context = "\n\n".join([doc.page_content for doc in docs])
-    prompt = f"""Dựa trên các tài liệu sau, hãy trả lời ngắn gọn, chính xác:
 {context}
 Câu hỏi: {query}
 Trả lời:"""
-    # Gửi request tới Gemini
     url = f"https://generativelanguage.googleapis.com/v1/models/gemini-1.5-pro:generateContent?key={API_KEY}"
-    headers = {
-        "Content-Type": "application/json",
-    }
     payload = {
-        "contents": [
-            {
-                "parts": [
-                    {"text": prompt}
-                ]
-            }
-        ],
-        "generationConfig": {
-            "temperature": temperature
-        }
     }
     response = requests.post(url, headers=headers, json=payload)
     data = response.json()
     try:
         answer = data['candidates'][0]['content']['parts'][0]['text']
     except Exception as e:

+import os
 import requests
 from retriever import retrieve_docs
+from langchain_community.embeddings import HuggingFaceEmbeddings
+from numpy import dot
+from numpy.linalg import norm
+API_KEY = "AIzaSyClqQssVMjt02qKrGKnghYAK9RkGf0lkS4"
+def filter_relevant_docs(docs, query, top_k=3):
+    embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
+    query_embedding = embeddings.embed_query(query)
+    scores = []
+    for doc in docs:
+        doc_embedding = embeddings.embed_query(doc.page_content)
+        cosine_sim = dot(query_embedding, doc_embedding) / (norm(query_embedding) * norm(doc_embedding))
+        scores.append((doc, cosine_sim))
+    scores.sort(key=lambda x: x[1], reverse=True)
+    return [doc for doc, _ in scores[:top_k]]
+def format_sources(docs):
+    sources = set()
+    for doc in docs:
+        section = doc.metadata.get("section")
+        if section:
+            sources.add(section.strip())
+        else:
+            filename = os.path.basename(doc.metadata.get("source", "Nguồn không xác định"))
+            sources.add(filename)
+    return "\n".join(f"- {src}" for src in sorted(sources))
 def answer_query(query, model="Gemini Pro", temperature=0.2):
+    all_docs = retrieve_docs(query)
+    if not all_docs:
+        return "Không tìm thấy tài liệu liên quan để trả lời.", []
+    docs = filter_relevant_docs(all_docs, query)
     context = "\n\n".join([doc.page_content for doc in docs])
+    prompt = f"""Dựa trên tài liệu sau, hãy trả lời câu hỏi theo phong cách trang trọng, lịch sự và chuyên nghiệp:
 {context}
 Câu hỏi: {query}
+Yêu cầu:
+- Sử dụng từ ngữ lịch sự ("Bạn cần...", "Vui lòng...", "Sau khi...")
+- Không sử dụng từ nói miệng như "nhé", "nha", "ok".
+- Câu trúc câu đầy đủ, rõ ràng.
+- Chỉ trả lời dựa trên thông tin trong tài liệu. Nếu không tìm thấy thông tin liên quan, trả lời: "Thông tin không có trong tài liệu được cung cấp."
+- Không tự thêm "Nguồn tham khảo" trong phần trả lời.
 Trả lời:"""
     url = f"https://generativelanguage.googleapis.com/v1/models/gemini-1.5-pro:generateContent?key={API_KEY}"
+    headers = {"Content-Type": "application/json"}
     payload = {
+        "contents": [{"parts": [{"text": prompt}]}],
+        "generationConfig": {"temperature": temperature}
     }
     response = requests.post(url, headers=headers, json=payload)
     data = response.json()
     try:
         answer = data['candidates'][0]['content']['parts'][0]['text']
     except Exception as e:

gradio_theme.css ADDED Viewed

	@@ -0,0 +1,86 @@

+/* === Giao diện khung chứa === */
+.container-box {
+    border: 1px solid var(--border-color-primary);
+    border-radius: 10px;
+    padding: 20px;
+    background-color: var(--background-fill-primary);
+    margin-bottom: 20px;
+}
+/* === Tiêu đề to và rõ === */
+h1, h2, h3, label {
+    color: var(--body-text-color);
+    font-weight: bold;
+    font-size: 1.35rem;
+}
+/* === Hộp kết quả và danh sách file === */
+.output-box ,.scroll-box {
+    background-color: var(--background-fill-primary) !important;
+    color: var(--body-text-color) !important;
+    border: 2px dashed var(--border-color-primary, #ccc) !important; /* #ccc là giá trị dự phòng */
+    border-radius: 10px !important;
+    padding: 18px !important;
+    font-size: 1.1rem !important;
+}
+/* === Thanh tải giả định (vòng tròn chờ) cho output nếu muốn thêm bằng js sau này === */
+.output-box::after {
+    content: "";
+    display: none; /* Khi cần loading thì display: block */
+    position: absolute;
+    top: 10px;
+    right: 20px;
+    border: 4px solid #f3f3f3;
+    border-top: 4px solid #1e88e5;
+    border-radius: 50%;
+    width: 20px;
+    height: 20px;
+    animation: spin 1s linear infinite;
+}
+@keyframes spin {
+    0% { transform: rotate(0deg); }
+    100% { transform: rotate(360deg); }
+}
+/* === Nút hành động === */
+.button-primary {
+    background-color: #1e88e5 !important;
+    color: white !important;
+    border-radius: 8px !important;
+    font-size: 1.05rem !important;
+}
+.button-primary:hover {
+    background-color: #1565c0 !important;
+}
+.button-secondary {
+    background-color: #ef5350 !important;
+    color: white !important;
+    border-radius: 8px !important;
+    font-size: 1.05rem !important;
+}
+.button-secondary:hover {
+    background-color: #c62828 !important;
+}
+/* === Input / dropdown đẹp hơn === */
+gradio-textbox,
+gradio-dropdown,
+gradio-slider {
+    background-color: var(--background-fill-primary) !important;
+    color: var(--body-text-color) !important;
+    font-size: 1.05rem !important;
+}
+/* === Scrollbar custom cho danh sách === */
+.scroll-box::-webkit-scrollbar {
+    width: 6px;
+}
+.scroll-box::-webkit-scrollbar-thumb {
+    background: #888;
+    border-radius: 4px;
+}
+.scroll-box::-webkit-scrollbar-thumb:hover {
+    background: #555;
+}

requirements.txt CHANGED Viewed

@@ -1,17 +1,17 @@
-langchain
-faiss-cpu
-sentence-transformers
-gradio>=4.44.0
-fastapi
-uvicorn
-huggingface_hub
-datasets
-google-generativeai
-langchain-community
-requests
-python-docx
-unstructured
-unstructured[docx,pdf]
-pdf2image
-pytesseract
 pdfminer.six

+langchain
+faiss-cpu
+sentence-transformers
+gradio>=4.44.0
+fastapi
+uvicorn
+huggingface_hub
+datasets
+google-generativeai
+langchain-community
+requests
+python-docx
+unstructured
+unstructured[docx,pdf]
+pdf2image
+pytesseract
 pdfminer.six

retriever.py CHANGED Viewed

@@ -1,11 +1,19 @@
 import os
 from langchain_community.vectorstores import FAISS
-from langchain_community.embeddings import HuggingFaceEmbeddings
 # Hàm khởi tạo retriever
 def load_retriever():
     embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
-    retriever = FAISS.load_local("vectorstore", embeddings, allow_dangerous_deserialization=True).as_retriever(search_kwargs={"k": 5})
     return retriever
 # Lần đầu load retriever
@@ -18,4 +26,8 @@ def reload_retriever():
 # Hàm retrieve_docs để lấy tài liệu
 def retrieve_docs(query):
-    return retriever.get_relevant_documents(query)

 import os
 from langchain_community.vectorstores import FAISS
+from langchain_huggingface import HuggingFaceEmbeddings
 # Hàm khởi tạo retriever
 def load_retriever():
     embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
+    vectorstore_path = "vectorstore"
+    # Kiểm tra nếu tồn tại index.faiss mới load
+    if os.path.exists(vectorstore_path) and os.path.exists(os.path.join(vectorstore_path, "index.faiss")):
+        retriever = FAISS.load_local(vectorstore_path, embeddings, allow_dangerous_deserialization=True).as_retriever(search_kwargs={"k": 5})
+        print("✅ Đã load vectorstore thành công.")
+    else:
+        retriever = None
+        print("⚠️ Vectorstore chưa tồn tại. Hãy upload tài liệu trước khi tìm kiếm.")
     return retriever
 # Lần đầu load retriever
 # Hàm retrieve_docs để lấy tài liệu
 def retrieve_docs(query):
+    if retriever:
+        return retriever.get_relevant_documents(query)
+    else:
+        print("⚠️ Chưa có vectorstore để tìm kiếm. Bạn cần tải tài liệu trước.")
+        return []

uploaded_files.json ADDED Viewed

	@@ -0,0 +1,10 @@

+[
+  {
+    "name": "CompanyPolicy_TestDocument.txt",
+    "timestamp": "2025-04-29T15:06:18.974354"
+  },
+  {
+    "name": "Document 5.docx",
+    "timestamp": "2025-04-29T15:07:19.497921"
+  }
+]