Spaces:

luckygill
/

Chatbot

Sleeping

App Files Files Community

luckygill commited on May 24

Commit

2c4ecd7

verified ·

1 Parent(s): fe92e58

Update app.py

Browse files

Files changed (1) hide show

app.py +22 -6

app.py CHANGED Viewed

@@ -11,11 +11,11 @@ import re
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from sentence_transformers import SentenceTransformer
 from transformers import pipeline
-from sklearn.metrics.pairwise import cosine_similarity  # ✅ Correct import
 # Load models
 embed_model = SentenceTransformer('all-MiniLM-L6-v2')
-qa_pipeline = pipeline("question-answering", model="distilbert-base-cased-distilled-squad")
 # Globals
 all_chunks = []
@@ -54,7 +54,10 @@ def split_and_embed(texts_with_sources):
             all_chunks.append(doc.page_content)
             chunk_sources.append(source)
-    chunk_embeddings = embed_model.encode(all_chunks, convert_to_numpy=True)
 def generate_wordcloud():
     """Generate a word cloud from combined PDF text"""
@@ -79,7 +82,10 @@ def generate_wordcloud():
 def answer_question(question):
     """Retrieve top chunks, answer question, and show confidence"""
     global all_chunks, chunk_sources, chunk_embeddings
     if not all_chunks or chunk_embeddings is None:
         return "Please upload and process some PDFs first.", None
     q_emb = embed_model.encode([question], convert_to_numpy=True)
@@ -90,16 +96,26 @@ def answer_question(question):
     selected_sources = [chunk_sources[i] for i in top_k_idx]
     context = "\n\n".join(selected_chunks)
-    answer = qa_pipeline(question=question, context=context)["answer"]
-    avg_conf = np.mean([sims[i] for i in top_k_idx]) * 100
     source_info = "\n".join([f"- {src}" for src in selected_sources])
     result = f"**Answer**: {answer}\n\n**Sources**:\n{source_info}\n\n**Confidence Score**: {avg_conf:.2f}%"
     return result, None
 # Gradio UI
 with gr.Blocks() as demo:
-    gr.Markdown("# 📚 Enhanced RAG PDF Chatbot (Hugging Face Compatible)")
     gr.Markdown("Upload PDFs → Preview Keywords → Ask Questions → Get Answers with Confidence & Sources")
     with gr.Row():

 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from sentence_transformers import SentenceTransformer
 from transformers import pipeline
+from sklearn.metrics.pairwise import cosine_similarity
 # Load models
 embed_model = SentenceTransformer('all-MiniLM-L6-v2')
+qa_pipeline = pipeline("question-answering", model="deepset/tinyroberta-squad2")  # ✅ lightweight model
 # Globals
 all_chunks = []
             all_chunks.append(doc.page_content)
             chunk_sources.append(source)
+    if all_chunks:
+        chunk_embeddings = embed_model.encode(all_chunks, convert_to_numpy=True)
+    else:
+        chunk_embeddings = None
 def generate_wordcloud():
     """Generate a word cloud from combined PDF text"""
 def answer_question(question):
     """Retrieve top chunks, answer question, and show confidence"""
     global all_chunks, chunk_sources, chunk_embeddings
+    print("📥 Question received:", question)
     if not all_chunks or chunk_embeddings is None:
+        print("⚠️ PDF not processed or empty.")
         return "Please upload and process some PDFs first.", None
     q_emb = embed_model.encode([question], convert_to_numpy=True)
     selected_sources = [chunk_sources[i] for i in top_k_idx]
     context = "\n\n".join(selected_chunks)
+    if not context.strip():
+        print("⚠️ Empty context from chunks.")
+        return "Could not extract relevant content from the PDFs.", None
+    try:
+        answer_dict = qa_pipeline(question=question, context=context)
+        answer = answer_dict.get("answer", "No answer found.")
+    except Exception as e:
+        print("❌ Error from QA model:", e)
+        return "Model failed to generate an answer.", None
+    avg_conf = np.mean([sims[i] for i in top_k_idx]) * 100
     source_info = "\n".join([f"- {src}" for src in selected_sources])
     result = f"**Answer**: {answer}\n\n**Sources**:\n{source_info}\n\n**Confidence Score**: {avg_conf:.2f}%"
+    print("✅ Answer generated.")
     return result, None
 # Gradio UI
 with gr.Blocks() as demo:
+    gr.Markdown("# 📚 Enhanced RAG PDF Chatbot")
     gr.Markdown("Upload PDFs → Preview Keywords → Ask Questions → Get Answers with Confidence & Sources")
     with gr.Row():