Spaces:

talktorhutika
/

patentdataset-finetune

Sleeping

App Files Files Community

talktorhutika commited on Jul 26, 2024

Commit

ca3d34e

verified ·

1 Parent(s): 70aadeb

Delete finetune1.py

Browse files

Files changed (1) hide show

finetune1.py +0 -115

finetune1.py DELETED Viewed

@@ -1,115 +0,0 @@
-import streamlit as st
-import pandas as pd
-from transformers import AutoTokenizer, AutoModelForSequenceClassification, Trainer, TrainingArguments
-from datasets import Dataset
-from sklearn.model_selection import train_test_split
-import requests
-from io import BytesIO
-import torch
-# Load the dataset
-@st.cache_data
-def load_data():
-    url = "https://huggingface.co/datasets/HUPD/hupd/resolve/main/hupd_metadata_2022-02-22.feather"
-    response = requests.get(url)
-    data = BytesIO(response.content)
-    df = pd.read_feather(data)
-    return df
-# Tokenizer and model loading
-@st.cache_resource
-def load_tokenizer_and_model(model_name):
-    tokenizer = AutoTokenizer.from_pretrained(model_name)
-    model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=2)  # Adjust num_labels as needed
-    return tokenizer, model
-# Tokenize and prepare the dataset
-def prepare_data(df, tokenizer):
-    df['filing_date'] = pd.to_datetime(df['filing_date'])
-    jan_2016_df = df[df['filing_date'].dt.to_period('M') == '2016-01']
-    texts = jan_2016_df['invention_title'].tolist()
-    labels = jan_2016_df['patent_number'].tolist()
-    def tokenize_function(texts):
-        return tokenizer(texts, padding="max_length", truncation=True, return_tensors="pt", max_length=512)
-    tokenized_data = tokenize_function(texts)
-    dataset_dict = {
-        'input_ids': [x.tolist() for x in tokenized_data['input_ids']],
-        'attention_mask': [x.tolist() for x in tokenized_data['attention_mask']],
-        'labels': labels
-    }
-    dataset = Dataset.from_dict(dataset_dict)
-    return dataset
-# Define Streamlit app
-def main():
-    st.title("Patent Classification with Fine-Tuned BERT")
-    # Load data
-    df = load_data()
-    # Show sample data
-    st.subheader("Some Data from January 2016")
-    st.write(df.head())
-    # Load tokenizer and model
-    model_name = "bert-base-uncased"
-    tokenizer, model = load_tokenizer_and_model(model_name)
-    # Prepare data
-    dataset = prepare_data(df, tokenizer)
-    # Split the dataset
-    train_data, eval_data = train_test_split(list(zip(dataset['input_ids'], dataset['attention_mask'], dataset['labels'])), test_size=0.2, random_state=42)
-    train_dataset = Dataset.from_dict({
-        'input_ids': [item[0] for item in train_data],
-        'attention_mask': [item[1] for item in train_data],
-        'labels': [item[2] for item in train_data]
-    })
-    eval_dataset = Dataset.from_dict({
-        'input_ids': [item[0] for item in eval_data],
-        'attention_mask': [item[1] for item in eval_data],
-        'labels': [item[2] for item in eval_data]
-    })
-    # Fine-tune model
-    training_args = TrainingArguments(
-        output_dir='./results',
-        evaluation_strategy="epoch",
-        learning_rate=2e-5,
-        per_device_train_batch_size=8,
-        per_device_eval_batch_size=8,
-        num_train_epochs=3,
-        weight_decay=0.01,
-    )
-    trainer = Trainer(
-        model=model,
-        args=training_args,
-        train_dataset=train_dataset,
-        eval_dataset=eval_dataset,
-        tokenizer=tokenizer  # Ensure tokenizer is passed
-    )
-    st.subheader("Training the Model")
-    if st.button('Train Model'):
-        with st.spinner('Training in progress...'):
-            trainer.train()
-            model.save_pretrained("./finetuned_model")
-            tokenizer.save_pretrained("./finetuned_model")
-            st.success("Model training complete and saved.")
-    # Display pretrained model data
-    st.subheader("Pretrained Model")
-    if st.button('Show Pretrained Model'):
-        st.write("Pretrained model is `bert-base-uncased`. Fine-tuned model is saved at './finetuned_model'.")
-if __name__ == "__main__":
-    main()