Spaces:

talktorhutika
/

patentdataset-finetune

Sleeping

App Files Files Community

talktorhutika commited on Jul 26, 2024

Commit

0556c92

verified ·

1 Parent(s): 4325127

Upload finetune1.py

Browse files

Files changed (1) hide show

finetune1.py +115 -0

finetune1.py ADDED Viewed

	@@ -0,0 +1,115 @@

+import streamlit as st
+import pandas as pd
+from transformers import AutoTokenizer, AutoModelForSequenceClassification, Trainer, TrainingArguments
+from datasets import Dataset
+from sklearn.model_selection import train_test_split
+import requests
+from io import BytesIO
+import torch
+# Load the dataset
+@st.cache_data
+def load_data():
+    url = "https://huggingface.co/datasets/HUPD/hupd/resolve/main/hupd_metadata_2022-02-22.feather"
+    response = requests.get(url)
+    data = BytesIO(response.content)
+    df = pd.read_feather(data)
+    return df
+# Tokenizer and model loading
+@st.cache_resource
+def load_tokenizer_and_model(model_name):
+    tokenizer = AutoTokenizer.from_pretrained(model_name)
+    model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=2)  # Adjust num_labels as needed
+    return tokenizer, model
+# Tokenize and prepare the dataset
+def prepare_data(df, tokenizer):
+    df['filing_date'] = pd.to_datetime(df['filing_date'])
+    jan_2016_df = df[df['filing_date'].dt.to_period('M') == '2016-01']
+    texts = jan_2016_df['invention_title'].tolist()
+    labels = jan_2016_df['patent_number'].tolist()
+    def tokenize_function(texts):
+        return tokenizer(texts, padding="max_length", truncation=True, return_tensors="pt", max_length=512)
+    tokenized_data = tokenize_function(texts)
+    dataset_dict = {
+        'input_ids': [x.tolist() for x in tokenized_data['input_ids']],
+        'attention_mask': [x.tolist() for x in tokenized_data['attention_mask']],
+        'labels': labels
+    }
+    dataset = Dataset.from_dict(dataset_dict)
+    return dataset
+# Define Streamlit app
+def main():
+    st.title("Patent Classification with Fine-Tuned BERT")
+    # Load data
+    df = load_data()
+    # Show sample data
+    st.subheader("Some Data from January 2016")
+    st.write(df.head())
+    # Load tokenizer and model
+    model_name = "bert-base-uncased"
+    tokenizer, model = load_tokenizer_and_model(model_name)
+    # Prepare data
+    dataset = prepare_data(df, tokenizer)
+    # Split the dataset
+    train_data, eval_data = train_test_split(list(zip(dataset['input_ids'], dataset['attention_mask'], dataset['labels'])), test_size=0.2, random_state=42)
+    train_dataset = Dataset.from_dict({
+        'input_ids': [item[0] for item in train_data],
+        'attention_mask': [item[1] for item in train_data],
+        'labels': [item[2] for item in train_data]
+    })
+    eval_dataset = Dataset.from_dict({
+        'input_ids': [item[0] for item in eval_data],
+        'attention_mask': [item[1] for item in eval_data],
+        'labels': [item[2] for item in eval_data]
+    })
+    # Fine-tune model
+    training_args = TrainingArguments(
+        output_dir='./results',
+        evaluation_strategy="epoch",
+        learning_rate=2e-5,
+        per_device_train_batch_size=8,
+        per_device_eval_batch_size=8,
+        num_train_epochs=3,
+        weight_decay=0.01,
+    )
+    trainer = Trainer(
+        model=model,
+        args=training_args,
+        train_dataset=train_dataset,
+        eval_dataset=eval_dataset,
+        tokenizer=tokenizer  # Ensure tokenizer is passed
+    )
+    st.subheader("Training the Model")
+    if st.button('Train Model'):
+        with st.spinner('Training in progress...'):
+            trainer.train()
+            model.save_pretrained("./finetuned_model")
+            tokenizer.save_pretrained("./finetuned_model")
+            st.success("Model training complete and saved.")
+    # Display pretrained model data
+    st.subheader("Pretrained Model")
+    if st.button('Show Pretrained Model'):
+        st.write("Pretrained model is `bert-base-uncased`. Fine-tuned model is saved at './finetuned_model'.")
+if __name__ == "__main__":
+    main()