Spaces:

bnwb
/

bestie

Running

File size: 6,990 Bytes

1f1bd2d
ea0b278
 
 
 
 
 
 
 
 
 
 
a41ace2
 
 
 
 
 
 
 
 
 
ea0b278
1dc72ff
 
86c5c00
90a88aa
ea0b278
74a3d0e
d5591e6
 
 
 
74a3d0e
ea0b278
1dc72ff
5208bc1
1dc72ff
5208bc1
1dc72ff
 
 
 
 
 
 
 
5208bc1
1dc72ff
 
 
 
5208bc1
1dc72ff
 
 
 
 
 
 
 
 
 
ea0b278
5208bc1
 
 
 
8332fd0
d01b523
ea0b278
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
76938fd
ea0b278
 
 
 
 
5208bc1
 
d01b523
 
b8baf3c
 
 
 
 
 
 
d01b523
 
 
 
74a3d0e
d01b523
 
 
b36c149
 
76938fd
64babfc
86c5c00
 
 
 
76938fd
 
3400cf5
d01b523
4a8bc5a
d01b523
 
 
 
 
 
76938fd
 
d01b523
 
 
 
3670c48
568e5ca
d01b523
76938fd
d01b523
 
 
 
 
 
 
 
b8baf3c
76938fd
 
ea0b278
76938fd
 
 
43107f9
 
 
 
 
d01b523
ea0b278

from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig, pipeline
from langchain_community.document_loaders import TextLoader
from huggingface_hub import InferenceClient 
import transformers
from sentence_transformers import SentenceTransformer
from datasets import Dataset, Features, Value, Sequence
import pandas as pd
import faiss
import os
import torch
import gradio as gr

# LOGIN HF Auth
from huggingface_hub import login

# Ambil token API dari environment variable (jika disimpan di secrets)
import os
hf_token = os.getenv("HUGGINGFACEHUB_API_TOKEN")

# Autentikasi secara manual menggunakan token
login(token=hf_token)

ST_MODEL = "LazarusNLP/all-indo-e5-small-v4"
BASE_MODEL = "meta-llama/Llama-3.2-3B-Instruct"
# BASE_MODEL = "meta-llama/Llama-3.1-405B-Instruct"
# BASE_MODEL = "meta-llama/Llama-3.1-8B-Instruct"
# BASE_MODEL = "meta-llama/Meta-Llama-3-8B-Instruct"
DOMAIN_DATA_DIR = "./data"

# SYS_MSG = """
# Kamu adalah asisten dalam sebuah perusahaan penyedia listrik (PLN) yang membantu menjawab pertanyaan seputar 'sexual harassment' dalam Bahasa Indonesia.
# Jawab dengan singkat menggunakan konteks untuk menjawab pertanyaan dalam Bahasa Indonesia.
# """

SYS_MSG = """
Kamu adalah Bestie, asisten yang dirancang untuk membantu karyawan PLN Group dalam memahami, melaporkan, dan menangani insiden pelecehan seksual di tempat kerja. Peran Anda adalah memberikan informasi yang akurat, membantu pengguna berbagi pengalaman mereka, menilai apakah pengalaman tersebut termasuk pelecehan seksual, serta memandu mereka dalam proses pelaporan dengan penuh empati dan kerahasiaan.

Panduan:

 - Informasi dan Edukasi:
Berikan definisi yang jelas, tidak menghakimi, dan akurat mengenai pelecehan seksual berdasarkan kebijakan dan pedoman internal PLN Group.
Tawarkan contoh-contoh konkret tentang apa yang termasuk dalam pelecehan seksual, termasuk namun tidak terbatas pada pelecehan verbal, fisik, visual, atau non-verbal.
Beri tahu pengguna tentang hak-hak mereka dan sumber daya dukungan yang tersedia di dalam PLN Group.
- Bantuan dalam Berbagi Pengalaman:
Dorong pengguna untuk membagikan cerita mereka dengan memastikan ruang yang aman dan bersifat rahasia.
Yakinkan pengguna bahwa informasi mereka akan diperlakukan dengan sangat hati-hati dan mereka tidak wajib mengungkapkan detail jika tidak merasa nyaman.
Berikan pertanyaan yang sensitif untuk memahami konteks pengalaman mereka (misalnya, lokasi, waktu, orang yang terlibat) tanpa memaksa atau menghakimi.

-Penilaian Pengalaman:
Analisis cerita pengguna sesuai dengan kriteria yang tercantum dalam kebijakan pelecehan seksual PLN Group.
Jika kasus tersebut memenuhi definisi pelecehan seksual, sampaikan dengan tenang kepada pengguna dan berikan panduan langkah selanjutnya.
Jika kasus tersebut tidak memenuhi definisi, jelaskan dengan lembut alasan mengapa dan tawarkan sumber daya atau bantuan lain, seperti layanan kesehatan mental atau bantuan internal lebih lanjut.

-Bantuan dalam Pelaporan:
Berikan instruksi kepada pengguna tentang cara melaporkan insiden ke tim atau departemen yang tepat di PLN Group.
Jika perlu, berikan informasi tentang dukungan hukum atau konseling sesuai dengan program dukungan karyawan PLN Group.
Tawarkan opsi kepada pengguna untuk melaporkan pengalaman mereka secara anonim jika diinginkan, sambil menjelaskan keterbatasan pelaporan anonim jika ada.

-Nada dan Gaya:
Selalu jaga nada yang empatik, tidak menghakimi, dan mendukung.
Gunakan bahasa yang sederhana dan jelas agar mudah dipahami oleh semua karyawan.
Hindari bahasa yang menghakimi atau meremehkan.
Responlah dengan sensitif terhadap emosi pengguna, baik itu kebingungan, kesedihan, atau kemarahan.
"""

# --------------------------------------------------------------
# RAG

TOP_K = 1

domain_data = [os.path.join(DOMAIN_DATA_DIR, f) for f in os.listdir(DOMAIN_DATA_DIR) if f.endswith('.txt')]
pages = []

for file in domain_data:
    text_loader = TextLoader(file)
    file_pages = text_loader.load()
    pages.extend(file_pages)

from langchain.text_splitter import RecursiveCharacterTextSplitter

splitter = RecursiveCharacterTextSplitter(
    chunk_size=300,
    chunk_overlap=64,
    separators=["\n\n"]
)

documents = splitter.split_documents(pages)
content = [doc.page_content.strip() for doc in documents]

ST = SentenceTransformer(ST_MODEL)
embeddings = ST.encode(content)

features = Features({
    'text': Value('string'),
    'embeddings': Sequence(Value('float32'))
})

data = {'text': content, 'embeddings': [embedding.tolist() for embedding in embeddings]}
dataset = Dataset.from_dict(data, features=features)

dataset.add_faiss_index(column='embeddings')

def retrieve(query, top_k=1):
    query_embedding = ST.encode([query])
    scores, retrieved_examples = dataset.get_nearest_examples('embeddings', query_embedding, k=top_k)

    return scores, retrieved_examples['text']

# --------------------------------------------------------------

client = InferenceClient(BASE_MODEL)

examples = [
    ["Saya mengalami pelecehan seksual."],
    ["Bantu saya melaporkan pelecehan seksual."],
    ["Bagaimana prosedur pelaporan pelecehan seksual yang saya alami?"],
    ["Bagaiamana melaporkan pelecahan seksual yang saya lihat?"],
]

def respond(
    message,
    history: list[tuple[str, str]],
    max_tokens=512,
    temperature=0.5,
    top_p=0.9,
):
    # Retrieve top 3 relevant documents based on the user's query
    score, retrieved_docs = retrieve(message, top_k=TOP_K)

    # print(f"Score: {score}")
    if score <= 13:
        # Prepare the retrieved context
        context = "\n".join([f"{doc}" for i, doc in enumerate(retrieved_docs)])
    else:
        context = ""
    
    print(f"Feed:\n{context}")

    messages = [{"role": "system", "content": SYS_MSG}]

    for val in history:
        if val[0]:
            messages.append({"role": "user", "content": val[0]})
        if val[1]:
            messages.append({"role": "assistant", "content": val[1]})

    # messages.append({"role": "user", "content": message})
    
    # Append the current user message along with the retrieved context
    user_context = f"{message}\nKonteks:\n{context}"
    messages.append({"role": "user", "content": user_context})

    # print(f"\nMessages:\n{messages}\n")
    
    response = ""

    for message in client.chat_completion(
        messages,
        max_tokens=max_tokens,
        stream=True,
        temperature=temperature,
        top_p=top_p,
    ):
        token = message.choices[0].delta.content

        response += token
        yield response

"""
For information on how to customize the ChatInterface, peruse the gradio docs: https://www.gradio.app/docs/chatinterface
"""
demo = gr.ChatInterface(
    respond,
    textbox=gr.Textbox(placeholder="Enter message here", container=False, scale = 7),
    chatbot=gr.Chatbot(value=[[None, "Halo namaku Bestie, apa yang perlu kamu ceritakan hari ini?"]])
)

if __name__ == "__main__":
    demo.launch(share=True)