Spaces:

talktorhutika
/

patentdataset-finetune

Sleeping

App Files Files Community

talktorhutika commited on Jul 26, 2024

Commit

96cdb5a

verified ·

1 Parent(s): f2145a6

Upload 3 files

Browse files

testing improvised code

Files changed (3) hide show

finetune1.py +117 -0
finetune3.py +123 -0
requirements.txt +70 -0

finetune1.py ADDED Viewed

	@@ -0,0 +1,117 @@

+import streamlit as st
+import pandas as pd
+from transformers import AutoTokenizer, AutoModelForSequenceClassification, Trainer, TrainingArguments
+from datasets import Dataset
+from sklearn.model_selection import train_test_split
+import requests
+from io import BytesIO
+# Load the dataset
+@st.cache_data
+def load_data():
+    url = "https://huggingface.co/datasets/HUPD/hupd/resolve/main/hupd_metadata_2022-02-22.feather"
+    response = requests.get(url)
+    data = BytesIO(response.content)
+    df = pd.read_feather(data)
+    return df
+# Tokenizer and model loading
+@st.cache_resource
+def load_tokenizer_and_model(model_name):
+    tokenizer = AutoTokenizer.from_pretrained(model_name)
+    model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=2)  # Adjust num_labels as needed
+    return tokenizer, model
+# Tokenize and prepare the dataset
+def prepare_data(df, tokenizer):
+    df['filing_date'] = pd.to_datetime(df['filing_date'])
+    jan_2016_df = df[df['filing_date'].dt.to_period('M') == '2016-01']
+    texts = jan_2016_df['invention_title'].tolist()
+    # Assuming `patent_number` is categorical or needs to be converted to labels
+    labels = jan_2016_df['patent_number'].astype('category').cat.codes.tolist()
+    # Define tokenization function
+    def tokenize_function(texts):
+        return tokenizer(texts, padding=True, truncation=True, return_tensors="pt", max_length=512)
+    # Tokenize texts
+    tokenized_data = tokenize_function(texts)
+    # Create dataset
+    dataset_dict = {
+        'input_ids': [x.tolist() for x in tokenized_data['input_ids']],
+        'attention_mask': [x.tolist() for x in tokenized_data['attention_mask']],
+        'labels': labels
+    }
+    dataset = Dataset.from_dict(dataset_dict)
+    return dataset
+# Define Streamlit app
+def main():
+    st.title("Patent Classification with Fine-Tuned BERT")
+    # Load data
+    df = load_data()
+    # Show sample data
+    st.subheader("Sample Data from January 2016")
+    st.write(df.head())
+    # Load tokenizer and model
+    model_name = "bert-base-uncased"
+    tokenizer, model = load_tokenizer_and_model(model_name)
+    # Prepare data
+    dataset = prepare_data(df, tokenizer)
+    # Split the dataset
+    train_data, eval_data = train_test_split(list(zip(dataset['input_ids'], dataset['attention_mask'], dataset['labels'])), test_size=0.2, random_state=42)
+    def create_dataset(data):
+        return Dataset.from_dict({
+            'input_ids': [item[0] for item in data],
+            'attention_mask': [item[1] for item in data],
+            'labels': [item[2] for item in data]
+        })
+    train_dataset = create_dataset(train_data)
+    eval_dataset = create_dataset(eval_data)
+    # Fine-tune model
+    training_args = TrainingArguments(
+        output_dir='./results',
+        evaluation_strategy="epoch",
+        learning_rate=2e-5,
+        per_device_train_batch_size=8,
+        per_device_eval_batch_size=8,
+        num_train_epochs=3,
+        weight_decay=0.01,
+    )
+    trainer = Trainer(
+        model=model,
+        args=training_args,
+        train_dataset=train_dataset,
+        eval_dataset=eval_dataset,
+        tokenizer=tokenizer
+    )
+    st.subheader("Training the Model")
+    if st.button('Train Model'):
+        with st.spinner('Training in progress...'):
+            trainer.train()
+            model.save_pretrained("./finetuned_model")
+            tokenizer.save_pretrained("./finetuned_model")
+            st.success("Model training complete and saved.")
+    # Display pretrained model data
+    st.subheader("Pretrained Model")
+    if st.button('Show Pretrained Model'):
+        st.write("Pretrained model is `bert-base-uncased`. Fine-tuned model is saved at './finetuned_model'.")
+if __name__ == "__main__":
+    main()

finetune3.py ADDED Viewed

	@@ -0,0 +1,123 @@

+import streamlit as st
+import pandas as pd
+from transformers import AutoTokenizer, AutoModelForSequenceClassification, Trainer, TrainingArguments
+from datasets import Dataset, DatasetDict
+from sklearn.model_selection import train_test_split
+import requests
+from io import BytesIO
+# Load the dataset
+@st.cache_data
+def load_data():
+    url = "https://huggingface.co/datasets/HUPD/hupd/resolve/main/hupd_metadata_2022-02-22.feather"
+    response = requests.get(url)
+    data = BytesIO(response.content)
+    df = pd.read_feather(data)
+    return df
+# Tokenizer and model loading
+@st.cache_resource
+def load_tokenizer_and_model(model_name):
+    tokenizer = AutoTokenizer.from_pretrained(model_name)
+    model = AutoModelForSequenceClassification.from_pretrained(model_name)
+    return tokenizer, model
+# Tokenize and prepare the dataset
+def prepare_data(df, tokenizer):
+    df['filing_date'] = pd.to_datetime(df['filing_date'])
+    jan_2016_df = df[df['filing_date'].dt.to_period('M') == '2016-01']
+    texts = jan_2016_df['invention_title'].tolist()
+    labels = jan_2016_df['patent_number'].tolist()
+    def tokenize_function(texts):
+        return tokenizer(texts, padding="max_length", truncation=True, return_tensors="pt", max_length=512)
+    tokenized_data = tokenize_function(texts)
+    dataset_dict = {
+        'input_ids': [x.tolist() for x in tokenized_data['input_ids']],
+        'attention_mask': [x.tolist() for x in tokenized_data['attention_mask']],
+        'labels': labels
+    }
+    dataset = Dataset.from_dict(dataset_dict)
+    return dataset
+# Define a custom compute_loss function
+def compute_loss(model, inputs):
+    labels = inputs.get("labels")
+    outputs = model(**inputs)
+    logits = outputs.logits
+    loss_fct = torch.nn.CrossEntropyLoss()
+    loss = loss_fct(logits, labels)
+    return loss
+# Define Streamlit app
+def main():
+    st.title("Patent Classification with Fine-Tuned BERT")
+    # Load data
+    df = load_data()
+    # Show sample data
+    st.subheader("Sample Data from January 2016")
+    st.write(df.head())
+    # Load tokenizer and model
+    model_name = "bert-base-uncased"
+    tokenizer, model = load_tokenizer_and_model(model_name)
+    # Prepare data
+    dataset = prepare_data(df, tokenizer)
+    # Split the dataset
+    train_data, eval_data = train_test_split(list(zip(dataset['input_ids'], dataset['attention_mask'], dataset['labels'])), test_size=0.2, random_state=42)
+    train_dataset = Dataset.from_dict({
+        'input_ids': [item[0] for item in train_data],
+        'attention_mask': [item[1] for item in train_data],
+        'labels': [item[2] for item in train_data]
+    })
+    eval_dataset = Dataset.from_dict({
+        'input_ids': [item[0] for item in eval_data],
+        'attention_mask': [item[1] for item in eval_data],
+        'labels': [item[2] for item in eval_data]
+    })
+    # Fine-tune model
+    training_args = TrainingArguments(
+        output_dir='./results',
+        evaluation_strategy="epoch",
+        learning_rate=2e-5,
+        per_device_train_batch_size=8,
+        per_device_eval_batch_size=8,
+        num_train_epochs=3,
+        weight_decay=0.01,
+    )
+    trainer = Trainer(
+        model=model,
+        args=training_args,
+        train_dataset=train_dataset,
+        eval_dataset=eval_dataset,
+        compute_loss=compute_loss  # Use the custom loss function
+    )
+    st.subheader("Training the Model")
+    if st.button('Train Model'):
+        with st.spinner('Training in progress...'):
+            trainer.train()
+            model.save_pretrained("./finetuned_model")
+            tokenizer.save_pretrained("./finetuned_model")
+            st.success("Model training complete and saved.")
+    # Display pretrained model data
+    st.subheader("Pretrained Model")
+    if st.button('Show Pretrained Model'):
+        st.write("Pretrained model is `bert-base-uncased`. Fine-tuned model is saved at './finetuned_model'.")
+if __name__ == "__main__":
+    main()

requirements.txt ADDED Viewed

	@@ -0,0 +1,70 @@

+accelerate==0.33.0
+aiohttp==3.9.5
+aiosignal==1.3.1
+altair==5.3.0
+attrs==23.2.0
+blinker==1.8.2
+cachetools==5.4.0
+certifi==2024.7.4
+charset-normalizer==3.3.2
+click==8.1.7
+datasets==2.20.0
+dill==0.3.8
+filelock==3.15.4
+frozenlist==1.4.1
+fsspec==2024.5.0
+gitdb==4.0.11
+GitPython==3.1.43
+huggingface-hub==0.24.2
+idna==3.7
+Jinja2==3.1.4
+joblib==1.4.2
+jsonschema==4.23.0
+jsonschema-specifications==2023.12.1
+markdown-it-py==3.0.0
+MarkupSafe==2.1.5
+mdurl==0.1.2
+mpmath==1.3.0
+multidict==6.0.5
+multiprocess==0.70.16
+networkx==3.3
+numpy==1.26.4
+packaging==24.1
+pandas==2.2.2
+pillow==10.4.0
+protobuf==5.27.2
+psutil==6.0.0
+pyarrow==17.0.0
+pyarrow-hotfix==0.6
+pydeck==0.9.1
+Pygments==2.18.0
+python-dateutil==2.9.0.post0
+pytz==2024.1
+PyYAML==6.0.1
+referencing==0.35.1
+regex==2024.7.24
+requests==2.32.3
+rich==13.7.1
+rpds-py==0.19.1
+safetensors==0.4.3
+scikit-learn==1.5.1
+scipy==1.14.0
+setuptools==71.1.0
+six==1.16.0
+smmap==5.0.1
+streamlit==1.37.0
+sympy==1.13.1
+tenacity==8.5.0
+threadpoolctl==3.5.0
+tokenizers==0.19.1
+toml==0.10.2
+toolz==0.12.1
+torch==2.4.0
+tornado==6.4.1
+tqdm==4.66.4
+transformers==4.43.2
+typing_extensions==4.12.2
+tzdata==2024.1
+urllib3==2.2.2
+xxhash==3.4.1
+yarl==1.9.4