Spaces:

AryanRajSaxena
/

biosummarize-ai

Build error

AryanRajSaxena commited on Jun 8

Commit

7c114b1

1 Parent(s): 10e986a

initial commit

Files changed (8) hide show

.gitignore ADDED Viewed

	@@ -0,0 +1 @@


1	+ venv

README.md CHANGED Viewed

@@ -1,13 +0,0 @@
----
-title: Biosummarize Ai
-emoji: 📚
-colorFrom: blue
-colorTo: pink
-sdk: gradio
-sdk_version: 5.33.0
-app_file: app.py
-pinned: false
-license: apache-2.0
----
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py ADDED Viewed

+import gradio as gr
+from utils.pdf_parser import extract_text_from_pdf
+from summarizer import Summarizer
+from qa_engine import QABot
+summarizer = Summarizer()
+def summarize_and_answer(pdf_file, question):
+    text = extract_text_from_pdf(pdf_file.name)
+    summary = summarizer.summarize(text)
+    bot = QABot(text.split("\n\n"))
+    context = bot.retrieve_context(question)
+    return summary, context
+iface = gr.Interface(
+    fn=summarize_and_answer,
+    inputs=[
+        gr.File(label="Upload Biotech Research PDF"),
+        gr.Textbox(label="Ask a Question")
+    ],
+    outputs=[
+        gr.Textbox(label="Summary"),
+        gr.Textbox(label="Context")
+    ],
+    title="🧬 BioSummarize.ai",
+    description="Summarize biotech papers and ask questions using AI"
+)
+if __name__ == "__main__":
+    iface.launch()

qa_engine.py ADDED Viewed

+from sentence_transformers import SentenceTransformer
+import faiss
+import numpy as np
+class QABot:
+    def __init__(self, chunks):
+        self.embedder = SentenceTransformer("pritamdeka/BioBERT-mnli-snli-scinli-scitail-mednli-stsb")
+        self.chunks = chunks
+        self.index = faiss.IndexFlatL2(768)
+        self.embeddings = self.embedder.encode(chunks)
+        self.index.add(np.array(self.embeddings))
+    def retrieve_context(self, query, k=3):
+        q_embed = self.embedder.encode([query])
+        D, I = self.index.search(np.array(q_embed), k)
+        return "\n".join([self.chunks[i] for i in I[0]])

requirements.txt ADDED Viewed

+gradio
+transformers
+sentence-transformers
+torch
+faiss-cpu
+PyMuPDF

summarizer.py ADDED Viewed

+from transformers import AutoTokenizer, BartForConditionalGeneration
+class Summarizer:
+    def __init__(self):
+        self.tokenizer = AutoTokenizer.from_pretrained("facebook/bart-large-cnn")
+        self.model = BartForConditionalGeneration.from_pretrained("facebook/bart-large-cnn")
+    def summarize(self, text, max_tokens=200):
+        inputs = self.tokenizer(text, return_tensors="pt", truncation=True, max_length=1024)
+        summary_ids = self.model.generate(inputs["input_ids"], max_new_tokens=max_tokens)
+        return self.tokenizer.decode(summary_ids[0], skip_special_tokens=True)

utils/__pycache__/pdf_parser.cpython-312.pyc ADDED Viewed

Binary file (480 Bytes). View file

utils/pdf_parser.py ADDED Viewed

+import fitz  # PyMuPDF
+def extract_text_from_pdf(pdf_path):
+    text = ""
+    doc = fitz.open(pdf_path)
+    for page in doc:
+        text += page.get_text()
+    return text