sentence-sentiment-analysis

Running

thuyentruong commited on Sep 5, 2024

Commit

f10267f

verified ·

1 Parent(s): 735581e

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -3,8 +3,10 @@ from transformers import pipeline
 from transformers import AutoModelForSeq2SeqLM
 from transformers import AutoTokenizer
 from transformers import GenerationConfig
-model_name='google/flan-t5-base'
 model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
 tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=True)
@@ -31,16 +33,28 @@ def make_prompt(sentence):
     return prompt
-def get_sentiment_from_llm(sentence):
-  input = make_prompt(sentence)
-  inputs = tokenizer(input, return_tensors='pt')
-  output = tokenizer.decode(
-    model.generate(
-        inputs["input_ids"],
-        max_new_tokens=100,
-    )[0],
-    skip_special_tokens=True)
-  return "\n".join(output.split('PPrint '))
 demo = gr.Blocks()

 from transformers import AutoModelForSeq2SeqLM
 from transformers import AutoTokenizer
 from transformers import GenerationConfig
+from nltk.tokenize import sent_tokenize
+import re
+model_name='google/flan-t5-small'
 model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
 tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=True)
     return prompt
+def split_conj(text):
+    return map(str.strip, re.sub('(but|yet)', "|", text).split('|'))
+def get_sentiment_from_llm(review_text):
+    sentences = sent_tokenize(review_text)
+    segments = []
+    for sen in sentences:
+        segments.append(split_conj(sen))
+    ls_outputs=[]
+    for seg in segments:
+        input = make_prompt(seg)
+        inputs = tokenizer(input, return_tensors='pt')
+        output = tokenizer.decode(
+        model.generate(
+            inputs["input_ids"],
+            max_new_tokens=100,
+        )[0],
+          skip_special_tokens=True)
+        ls_outputs.append("\n".join(output.split('PPrint ')))
+  return "\n".join(ls_outputs)
 demo = gr.Blocks()