Spaces:

haotle
/

LibTesting

Running

App Files Files

T Le commited on 17 days ago

Commit

cd8b282

1 Parent(s): d054553

Topic modeling model update

Browse files

Files changed (2) hide show

pages/2 Topic Modeling.py +22 -7
tools/__pycache__/sourceformat.cpython-310.pyc +0 -0

pages/2 Topic Modeling.py CHANGED Viewed

@@ -196,7 +196,7 @@ if uploaded_file is not None:
         method = c1.selectbox(
                 'Choose method',
                 ('Choose...', 'pyLDA', 'Biterm', 'BERTopic'))
-        ColCho = c2.selectbox('Choose column', (coldf))
         num_cho = c3.number_input('Choose number of topics', min_value=2, max_value=30, value=5)
         d1, d2 = st.columns([3,7])
@@ -235,8 +235,8 @@ if uploaded_file is not None:
                 if fine_tuning:
                     topic_labelling = st.toggle("Automatic topic labelling")
                     if topic_labelling:
-                        llm_provider = st.selectbox("Provider",["OpenAI","HuggingFace"])
-                        if llm_provider == "OpenAI":
                             api_key = st.text_input("API Key")
             else:
@@ -527,21 +527,36 @@ if uploaded_file is not None:
                         "MMR": mmr,
                     }
                     if topic_labelling:
-                        if llm_provider == "OpenAI":
                             client = openai.OpenAI(api_key=api_key)
                             representation_model = {
                                 "KeyBERT": keybert,
                                 "MMR": mmr,
                                 "test": OpenAI(client, model = "gpt-4o-mini", delay_in_seconds=10)
                             }
-                        elif llm_provider == "HuggingFace":
-                            gennie = pipeline("text2text-generation", model = "google/flan-t5-base")
-                            clientmod = TextGeneration(gennie)
                             representation_model = {
                                 "KeyBERT": keybert,
                                 "MMR": mmr,
                                 "test": clientmod
                             }
                 vectorizer_model = CountVectorizer(ngram_range=(1, xgram), stop_words='english')
                 topic_model = BERTopic(representation_model = representation_model, embedding_model=model, hdbscan_model=cluster_model, language=lang, umap_model=umap_model, vectorizer_model=vectorizer_model, top_n_words=bert_top_n_words)

         method = c1.selectbox(
                 'Choose method',
                 ('Choose...', 'pyLDA', 'Biterm', 'BERTopic'))
+        ColCho = c2.selectbox('Choose column', (["Title","Abstract"]))
         num_cho = c3.number_input('Choose number of topics', min_value=2, max_value=30, value=5)
         d1, d2 = st.columns([3,7])
                 if fine_tuning:
                     topic_labelling = st.toggle("Automatic topic labelling")
                     if topic_labelling:
+                        llm_model = st.selectbox("Model",["OpenAI/gpt-4o","Google/Flan-t5","OpenAI/gpt-oss"])
+                        if llm_model == "OpenAI/gpt-4o":
                             api_key = st.text_input("API Key")
             else:
                         "MMR": mmr,
                     }
                     if topic_labelling:
+                        if llm_model == "OpenAI/gpt-4o":
                             client = openai.OpenAI(api_key=api_key)
                             representation_model = {
                                 "KeyBERT": keybert,
                                 "MMR": mmr,
                                 "test": OpenAI(client, model = "gpt-4o-mini", delay_in_seconds=10)
                             }
+                        elif llm_model == "Google/Flan-t5":
+                            gen = pipeline("text2text-generation", model = "google/flan-t5-base")
+                            clientmod = TextGeneration(gen)
                             representation_model = {
                                 "KeyBERT": keybert,
                                 "MMR": mmr,
                                 "test": clientmod
                             }
+                        elif llm_model == "OpenAI/gpt-oss":
+                            gen = pipeline("text-generation",
+                            model = "openai/gpt-oss-20b",
+                            torch_dtype = "auto",
+                            device_map = "auto",
+                            )
+                            clientmod = TextGeneration(gen)
+                            representation_model = {
+                                "KeyBERT": keybert,
+                                "MMR": mmr,
+                                "test": gen
+                            }
                 vectorizer_model = CountVectorizer(ngram_range=(1, xgram), stop_words='english')
                 topic_model = BERTopic(representation_model = representation_model, embedding_model=model, hdbscan_model=cluster_model, language=lang, umap_model=umap_model, vectorizer_model=vectorizer_model, top_n_words=bert_top_n_words)

tools/__pycache__/sourceformat.cpython-310.pyc DELETED Viewed

Binary file (5.74 kB)