Spaces:

Hunter-Pax
/

SentiNet

Sleeping

App Files Files Community

SentiNet / train.py

Hunter-Pax

Upload 18 files

e7a44ba verified about 2 months ago

raw

history blame

10.2 kB

	import os
	import time
	import torch
	import matplotlib.pyplot as plt
	import seaborn as sns
	from collections import Counter
	from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay
	from torch.utils.data import DataLoader
	from transformers import AutoTokenizer
	from utility import (
	load_emotion_dataset,
	encode_labels,
	build_vocab,
	collate_fn_rnn,
	collate_fn_transformer
	)
	from models.rnn import RNNClassifier
	from models.lstm import LSTMClassifier
	from models.transformer import TransformerClassifier
	from tqdm import tqdm

	device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

	def summarize_class_distribution(dataset, label_encoder):
	labels = [example["label"] for example in dataset]
	counter = Counter(labels)
	print("\n🔍 Class distribution:")
	for label_idx, count in sorted(counter.items()):
	label_name = label_encoder.inverse_transform([label_idx])[0]
	print(f"{label_name:>10}: {count}")

	def plot_class_countplot(dataset, label_encoder):
	labels = [example["label"] for example in dataset]
	counts = Counter(labels)
	label_display = [label_encoder.inverse_transform([i])[0] for i in sorted(counts.keys())]
	values = [counts[i] for i in sorted(counts.keys())]

	plt.figure(figsize=(8, 5))
	sns.barplot(x=label_display, y=values)
	plt.title("Emotion Class Distribution (Training Set)")
	plt.xlabel("Emotion")
	plt.ylabel("Count")
	plt.tight_layout()
	os.makedirs("plots", exist_ok=True)
	plt.savefig("plots/class_distribution.png")
	plt.close()

	def plot_loss_curve(train_losses, test_losses, model_name):
	plt.figure(figsize=(8, 4))
	plt.plot(train_losses, label="Train Loss")
	plt.plot(test_losses, label="Test Loss")
	plt.xlabel("Epoch")
	plt.ylabel("Loss")
	plt.title(f"{model_name} Train vs Test Loss")
	plt.legend()
	os.makedirs("plots", exist_ok=True)
	plt.savefig(f"plots/{model_name.lower()}_loss_curve.png")
	plt.close()

	def compute_test_loss(model, dataloader, criterion, model_type):
	total_loss = 0
	with torch.no_grad():
	model.eval()
	for batch in dataloader:
	if isinstance(batch, tuple):
	input_ids, labels = batch
	attention_mask = None
	else:
	input_ids = batch["input_ids"]
	attention_mask = batch.get("attention_mask", None)
	labels = batch["labels"]

	input_ids = input_ids.to(device)
	labels = labels.to(device)
	if attention_mask is not None:
	attention_mask = attention_mask.to(device)

	if model_type == "transformer":
	outputs = model(input_ids=input_ids, attention_mask=attention_mask)
	else:
	outputs = model(input_ids)

	loss = criterion(outputs, labels)
	total_loss += loss.item()
	return total_loss / len(dataloader)

	def train_model(model, train_loader, test_loader, optimizer, criterion, epochs, model_type="rnn"):
	train_losses = []
	test_losses = []

	for epoch in range(epochs):
	model.train()
	start_time = time.time()
	total_loss = 0
	progress_bar = tqdm(train_loader, desc=f"Epoch {epoch + 1}", ncols=100)

	for batch in progress_bar:
	optimizer.zero_grad()

	if isinstance(batch, tuple):
	input_ids, labels = batch
	attention_mask = None
	else:
	input_ids = batch["input_ids"]
	attention_mask = batch.get("attention_mask", None)
	labels = batch["labels"]

	input_ids = input_ids.to(device)
	labels = labels.to(device)
	if attention_mask is not None:
	attention_mask = attention_mask.to(device)

	if model_type == "transformer":
	outputs = model(input_ids=input_ids, attention_mask=attention_mask)
	else:
	outputs = model(input_ids)

	loss = criterion(outputs, labels)
	loss.backward()
	optimizer.step()

	total_loss += loss.item()
	avg_loss = total_loss / len(train_loader)
	progress_bar.set_postfix({"Avg Loss": f"{avg_loss:.4f}"})

	test_loss = compute_test_loss(model, test_loader, criterion, model_type)
	train_losses.append(avg_loss)
	test_losses.append(test_loss)

	print(f"✅ Epoch {epoch + 1} \| Train: {avg_loss:.4f} \| Test: {test_loss:.4f} \| Time: {time.time() - start_time:.2f}s")

	torch.cuda.empty_cache()
	del model
	return train_losses, test_losses

	def evaluate_preds(model, dataloader, model_type="rnn"):
	model.eval()
	all_preds = []
	all_labels = []
	with torch.no_grad():
	for batch in dataloader:
	if isinstance(batch, tuple):
	input_ids, labels = batch
	attention_mask = None
	else:
	input_ids = batch["input_ids"]
	attention_mask = batch.get("attention_mask", None)
	labels = batch["labels"]

	input_ids = input_ids.to(device)
	labels = labels.to(device)
	if attention_mask is not None:
	attention_mask = attention_mask.to(device)

	if model_type == "transformer":
	outputs = model(input_ids=input_ids, attention_mask=attention_mask)
	else:
	outputs = model(input_ids)

	preds = torch.argmax(outputs, dim=1)
	all_preds.extend(preds.cpu().tolist())
	all_labels.extend(labels.cpu().tolist())
	return all_labels, all_preds

	def plot_confusion_matrices(y_true_train, y_pred_train, y_true_test, y_pred_test, labels, title, filename):
	fig, axes = plt.subplots(1, 2, figsize=(14, 6))
	cm_train = confusion_matrix(y_true_train, y_pred_train)
	cm_test = confusion_matrix(y_true_test, y_pred_test)

	ConfusionMatrixDisplay(cm_train, display_labels=labels).plot(ax=axes[0], cmap='Blues', colorbar=False)
	axes[0].set_title(f"{title} - Train")

	ConfusionMatrixDisplay(cm_test, display_labels=labels).plot(ax=axes[1], cmap='Oranges', colorbar=False)
	axes[1].set_title(f"{title} - Test")

	plt.tight_layout()
	os.makedirs("plots", exist_ok=True)
	plt.savefig(f"plots/{filename}")
	plt.close()

	# Load and encode data
	data = load_emotion_dataset("train")
	train_data, label_encoder = encode_labels(data)
	test_data, _ = encode_labels(load_emotion_dataset("test"))
	labels = label_encoder.classes_
	output_dim = len(labels)
	padding_idx = 0

	summarize_class_distribution(train_data, label_encoder)
	plot_class_countplot(train_data, label_encoder)

	# Build vocab
	vocab = build_vocab(train_data)

	model_name = "prajjwal1/bert-tiny"
	tokenizer = AutoTokenizer.from_pretrained(model_name)

	# DataLoaders (no augmentation)
	train_loader_rnn = DataLoader(train_data, batch_size=64, shuffle=True, collate_fn=lambda b: collate_fn_rnn(b, vocab, partial_prob=0.0))
	test_loader_rnn = DataLoader(test_data, batch_size=64, shuffle=False, collate_fn=lambda b: collate_fn_rnn(b, vocab, partial_prob=0.0))

	train_loader_tf = DataLoader(train_data, batch_size=64, shuffle=True, collate_fn=lambda b: collate_fn_transformer(b, tokenizer, partial_prob=0.0))
	test_loader_tf = DataLoader(test_data, batch_size=64, shuffle=False, collate_fn=lambda b: collate_fn_transformer(b, tokenizer, partial_prob=0.0))

	# Initialize and train models
	rnn = RNNClassifier(len(vocab), 128, 128, output_dim, padding_idx).to(device)
	lstm = LSTMClassifier(len(vocab), 128, 128, output_dim, padding_idx).to(device)
	transformer = TransformerClassifier(model_name, output_dim).to(device)

	criterion = torch.nn.CrossEntropyLoss()

	# rnn_train_losses, rnn_test_losses = train_model(rnn, train_loader_rnn, test_loader_rnn, torch.optim.Adam(rnn.parameters(), lr=1e-4), criterion, epochs=50, model_type="rnn")
	# torch.save(rnn.state_dict(), "pretrained_models/best_rnn.pt")
	# plot_loss_curve(rnn_train_losses, rnn_test_losses, "RNN")
	#
	# lstm_train_losses, lstm_test_losses = train_model(lstm, train_loader_rnn, test_loader_rnn, torch.optim.Adam(lstm.parameters(), lr=1e-4), criterion, epochs=50, model_type="lstm")
	# torch.save(lstm.state_dict(), "pretrained_models/best_lstm.pt")
	# plot_loss_curve(lstm_train_losses, lstm_test_losses, "LSTM")

	tf_train_losses, tf_test_losses = train_model(transformer, train_loader_tf, test_loader_tf, torch.optim.Adam(transformer.parameters(), lr=2e-5), criterion, epochs=50, model_type="transformer")
	torch.save(transformer.state_dict(), "pretrained_models/best_transformer.pt")
	plot_loss_curve(tf_train_losses, tf_test_losses, "Transformer")

	# Evaluate and plot
	model_paths = {
	"RNN": "pretrained_models/best_rnn.pt",
	"LSTM": "pretrained_models/best_lstm.pt",
	"Transformer": "pretrained_models/best_transformer.pt"
	}

	for name in ["RNN", "LSTM", "Transformer"]:
	if name == "RNN":
	model = RNNClassifier(len(vocab), 128, 128, output_dim, padding_idx).to(device)
	loader = train_loader_rnn
	test_loader = test_loader_rnn
	elif name == "LSTM":
	model = LSTMClassifier(len(vocab), 128, 128, output_dim, padding_idx).to(device)
	loader = train_loader_rnn
	test_loader = test_loader_rnn
	else:
	model = TransformerClassifier(model_name, output_dim).to(device)
	loader = train_loader_tf
	test_loader = test_loader_tf

	model.load_state_dict(torch.load(model_paths[name]))
	model.eval()

	y_train_true, y_train_pred = evaluate_preds(model, loader, model_type=name.lower())
	y_test_true, y_test_pred = evaluate_preds(model, test_loader, model_type=name.lower())

	plot_confusion_matrices(
	y_train_true, y_train_pred, y_test_true, y_test_pred,
	labels=labels,
	title=name,
	filename=f"{name.lower()}_confusion_matrices.png"
	)