BMD

Sleeping

App Files Files Community

vkasyap commited on Sep 12, 2024

Commit

7bf82e5

verified ·

1 Parent(s): 0dfce95

Delete app.py

Browse files

Files changed (1) hide show

app.py +0 -189

app.py DELETED Viewed

@@ -1,189 +0,0 @@
-import gradio as gr
-import os
-from langchain_community.document_loaders import PyPDFLoader
-from langchain.text_splitter import RecursiveCharacterTextSplitter
-from langchain_community.vectorstores import Chroma
-from langchain.chains import ConversationalRetrievalChain
-from langchain_community.embeddings import HuggingFaceEmbeddings
-from langchain_community.llms import HuggingFacePipeline
-from langchain.chains import ConversationChain
-from langchain.memory import ConversationBufferMemory
-from langchain_community.llms import HuggingFaceEndpoint
-from pathlib import Path
-import chromadb
-from unidecode import unidecode
-from transformers import AutoTokenizer, AutoModelForMaskedLM
-import transformers
-import torch
-import tqdm
-import accelerate
-import re
-# Load the tokenizer and model
-tokenizer = AutoTokenizer.from_pretrained("google/muril-base-cased")
-model = AutoModelForMaskedLM.from_pretrained("google/muril-base-cased")
-# default_persist_directory = './chroma_HF/'
-list_llm = ["mistralai/Mistral-7B-Instruct-v0.2"]
-list_llm_simple = [os.path.basename(llm) for llm in list_llm]
-# Load PDF document and create doc splits
-def load_doc(list_file_path, chunk_size, chunk_overlap):
-    loaders = [PyPDFLoader(x) for x in list_file_path]
-    pages = []
-    for loader in loaders:
-        pages.extend(loader.load())
-    # text_splitter = RecursiveCharacterTextSplitter(chunk_size = 600, chunk_overlap = 50)
-    text_splitter = RecursiveCharacterTextSplitter(
-        chunk_size = chunk_size,
-        chunk_overlap = chunk_overlap)
-    doc_splits = text_splitter.split_documents(pages)
-    return doc_splits
-# Create vector database
-def create_db(splits, collection_name):
-    embedding = HuggingFaceEmbeddings()
-    new_client = chromadb.EphemeralClient()
-    vectordb = Chroma.from_documents(
-        documents=splits,
-        embedding=embedding,
-        client=new_client,
-        collection_name=collection_name,
-        # persist_directory=default_persist_directory
-    )
-    return vectordb
-# Load vector database
-def load_db():
-    embedding = HuggingFaceEmbeddings()
-    vectordb = Chroma(
-        # persist_directory=default_persist_directory,
-        embedding_function=embedding)
-    return vectordb
-# Initialize langchain LLM chain
-def initialize_llmchain(llm_model, temperature, max_tokens, top_k, vector_db, progress=gr.Progress()):
-    progress(0.1, desc="Initializing HF tokenizer...")
-    progress(0.5, desc="Initializing HF Hub...")
-    llm = HuggingFaceEndpoint(
-        repo_id=llm_model,
-        temperature = temperature,
-        max_new_tokens = max_tokens,
-        top_k = top_k,
-    )
-    # Initialize conversation chain
-    conversation_chain = ConversationChain(
-        llm=llm,
-        conversation_buffer_memory=ConversationBufferMemory(max_memory=10),
-    )
-    return conversation_chain
-# Initialize LLM
-def initialize_LLM(llm_model, temperature, max_tokens, top_k, vector_db):
-    progress = gr.Progress()
-    qa_chain = initialize_llmchain(llm_model, temperature, max_tokens, top_k, vector_db, progress)
-    return qa_chain, progress
-# Format chat history
-def format_chat_history(message, history):
-    formatted_chat_history = ""
-    for i, (user_message, response) in enumerate(history):
-        formatted_chat_history += f"User: {user_message}\nAssistant: {response}\n\n"
-    formatted_chat_history += f"User: {message}\n"
-    return formatted_chat_history
-# Conversation function
-def conversation(qa_chain, message, history, language):
-    formatted_chat_history = format_chat_history(message, history)
-    response = qa_chain({"question": message, "chat_history": formatted_chat_history})
-    response_answer = response["answer"]
-    if response_answer.find("Helpful Answer:") != -1:
-        response_answer = response_answer.split("Helpful Answer:")[-1]
-    # Detect language of the question if selected
-    if language == "Detect Language":
-        from langdetect import detect
-        language = detect(message)
-    # Translate response to selected language
-    if language != "English":
-        translator = googletrans.Translator()
-        response_answer = translator.translate(response_answer, dest=language).text
-    response_sources = response["source_documents"]
-    response_source1 = response_sources[0].page_content.strip()
-    response_source2 = response_sources[1].page_content.strip()
-    response_source3 = response_sources[2].page_content.strip()
-    response_source1_page = response_sources[0].metadata["page"] + 1
-    response_source2_page = response_sources[1].metadata["page"] + 1
-    response_source3_page = response_sources[2].metadata["page"] + 1
-    return qa_chain, gr.update(value=""), history + [(message, response_answer)], response_source1, response_source1_page, response_source2, response_source2_page, response_source3, response_source3_page
-# Create Gradio interface
-demo = gr.Blocks()
-with demo:
-    with gr.Tab("Step 1 - Upload Document"):
-        uploaded_file = gr.File(label="Upload Document")
-        upload_btn = gr.Button("Upload")
-        document = gr.Textbox(label="Document Content", lines=20, container=True)
-    with gr.Tab("Step 2 - Create Database"):
-        slider_chunk_size = gr.Slider(label="Chunk Size", minimum=100, maximum=1000, value=600, step=100)
-        slider_chunk_overlap = gr.Slider(label="Chunk Overlap", minimum=0, maximum=500, value=50, step=50)
-        db_btn = gr.Button("Create Database")
-        vector_db = gr.Textbox(label="Vector Database", lines=20, container=True)
-        collection_name = gr.Textbox(label="Collection Name", lines=1, container=True)
-        db_progress = gr.Progress()
-    with gr.Tab("Step 3 - Initialize LLM"):
-        llm_btn = gr.Dropdown(choices=list_llm_simple, value=list_llm_simple[0], label="LLM Model")
-        slider_temperature = gr.Slider(label="Temperature", minimum=0, maximum=1, value=0.7, step=0.1)
-        slider_maxtokens = gr.Slider(label="Max Tokens", minimum=10, maximum=500, value=200, step=50)
-        slider_topk = gr.Slider(label="Top K", minimum=1, maximum=10, value=5, step=1)
-        qachain_btn = gr.Button("Initialize LLM")
-        qa_chain = gr.Textbox(label="QA Chain", lines=20, container=True)
-        db_progress = gr.Progress()
-        llm_progress = gr.Progress()
-    with gr.Tab("Step 4 - Chatbot"):
-        chatbot = gr.Chatbot(height=300)
-    with gr.Accordion("Advanced - Document references", open=False):
-        with gr.Row():
-            doc_source1 = gr.Textbox(label="Reference 1", lines=2, container=True, scale=20)
-            source1_page = gr.Number(label="Page", scale=1)
-        with gr.Row():
-            doc_source2 = gr.Textbox(label="Reference 2", lines=2, container=True, scale=20)
-            source2_page = gr.Number(label="Page", scale=1)
-        with gr.Row():
-            doc_source3 = gr.Textbox(label="Reference 3", lines=2, container=True, scale=20)
-            source3_page = gr.Number(label="Page", scale=1)
-    with gr.Row():
-        msg = gr.Textbox(placeholder="Type message (e.g. 'What is this document about?')", container=True)
-    with gr.Row():
-        submit_btn = gr.Button("Submit message")
-        clear_btn = gr.ClearButton([msg, chatbot], value="Clear conversation")
-    language = gr.Dropdown(choices=["English", "Detect Language"], value="English", label="Language")
-    # Preprocessing events
-    upload_btn.click(load_doc, inputs=[uploaded_file], outputs=[document])
-    db_btn.click(create_db, inputs=[document, slider_chunk_size, slider_chunk_overlap], outputs=[vector_db, collection_name, db_progress])
-    qachain_btn.click(initialize_LLM, inputs=[llm_btn, slider_temperature, slider_maxtokens, slider_topk, vector_db], outputs=[qa_chain, llm_progress]).then(lambda:[None,"",0,"",0,"",0], inputs=None, outputs=[chatbot, doc_source1, source1_page, doc_source2, source2_page, doc_source3, source3_page], queue=False)
-    # Chatbot events
-    msg.submit(conversation, inputs=[qa_chain, msg, chatbot, language], outputs=[qa_chain, msg, chatbot, doc_source1, source1_page, doc_source2, source2_page, doc_source3, source3_page], queue=False)
-    submit_btn.click(conversation, inputs=[qa_chain, msg, chatbot, language], outputs=[qa_chain, msg, chatbot, doc_source1, source1_page, doc_source2, source2_page, doc_source3, source3_page], queue=False)
-    clear_btn.click(lambda:[None,"",0,"",0,"",0], inputs=None, outputs=[chatbot, doc_source1, source1_page, doc_source2, source2_page, doc_source3, source3_page], queue=False)
-demo.queue().launch(debug=True)
-if __name__ == "__main__":
-    demo()