Spaces:

talktorhutika
/

patentdataset-finetune

Sleeping

talktorhutika commited on Jul 26, 2024

Commit

863be65

verified ·

1 Parent(s): 1db9cf7

Update finetune3.py

Files changed (1) hide show

finetune3.py CHANGED Viewed

@@ -1,6 +1,6 @@
 import os
-import streamlit as st
 import pandas as pd
 from transformers import AutoTokenizer, AutoModelForSequenceClassification, Trainer, TrainingArguments
 from datasets import Dataset
 from sklearn.model_selection import train_test_split
@@ -69,14 +69,9 @@ def main():
     st.write(df.head())
     # Prepare data
-    # First, select a model name
     model_name = "bert-base-uncased"
-    # Initialize the tokenizer and model with a dummy number of labels for now
     dummy_num_labels = 5
     tokenizer, model = load_tokenizer_and_model(model_name, dummy_num_labels)
-    # Prepare the data
     dataset, num_labels = prepare_data(df, tokenizer)
     # Update the model with the correct number of labels based on the data
@@ -96,6 +91,15 @@ def main():
     train_dataset = create_dataset(train_data)
     eval_dataset = create_dataset(eval_data)
     # Fine-tune model
     training_args = TrainingArguments(
         output_dir='./results',

 import os
 import pandas as pd
+import streamlit as st
 from transformers import AutoTokenizer, AutoModelForSequenceClassification, Trainer, TrainingArguments
 from datasets import Dataset
 from sklearn.model_selection import train_test_split
     st.write(df.head())
     # Prepare data
     model_name = "bert-base-uncased"
     dummy_num_labels = 5
     tokenizer, model = load_tokenizer_and_model(model_name, dummy_num_labels)
     dataset, num_labels = prepare_data(df, tokenizer)
     # Update the model with the correct number of labels based on the data
     train_dataset = create_dataset(train_data)
     eval_dataset = create_dataset(eval_data)
+    # Show a sample of the training data
+    st.subheader("Sample of Training Data")
+    train_df = pd.DataFrame({
+        'input_ids': [ids[:10] for ids in train_dataset['input_ids'][:5]],  # Show first 10 tokens for brevity
+        'attention_mask': [mask[:10] for mask in train_dataset['attention_mask'][:5]],
+        'labels': train_dataset['labels'][:5]
+    })
+    st.write(train_df)
     # Fine-tune model
     training_args = TrainingArguments(
         output_dir='./results',