Spaces:

sagawa
/

ReactionT5

Running

App Files Files Community

ReactionT5 / utils.py

sagawa

Upload 42 files

08ccc8e verified 11 days ago

raw

history blame

7.45 kB

	import math
	import os
	import pickle
	import random
	import time

	import numpy as np
	import torch
	from rdkit import Chem


	def seed_everything(seed=42):
	random.seed(seed)
	os.environ["PYTHONHASHSEED"] = str(seed)
	np.random.seed(seed)
	torch.manual_seed(seed)
	torch.cuda.manual_seed(seed)
	torch.backends.cudnn.deterministic = True


	def space_clean(row):
	row = row.replace(". ", "").replace(" .", "").replace(" ", " ")
	return row


	def canonicalize(smiles):
	try:
	new_smiles = Chem.MolToSmiles(Chem.MolFromSmiles(smiles), canonical=True)
	except:
	new_smiles = None
	return new_smiles


	def canonicalize_str(smiles):
	"""Try to canonicalize the molecule, return empty string if fails."""
	if "%" in smiles:
	return smiles
	else:
	try:
	return canonicalize(smiles)
	except:
	return ""


	def uncanonicalize(smiles):
	try:
	new_smiles = []
	for smiles_i in smiles.split("."):
	mol = Chem.MolFromSmiles(smiles_i)
	atom_indices = list(range(mol.GetNumAtoms()))
	random.shuffle(atom_indices)
	new_smiles_i = Chem.MolToSmiles(
	mol, rootedAtAtom=atom_indices[0], canonical=False
	)
	new_smiles.append(new_smiles_i)
	smiles = ".".join(new_smiles)
	except:
	smiles = None
	return smiles


	def remove_atom_mapping(smi):
	mol = Chem.MolFromSmiles(smi)
	[a.SetAtomMapNum(0) for a in mol.GetAtoms()]
	smi = Chem.MolToSmiles(mol, canonical=True)
	return canonicalize(smi)


	def get_logger(filename="train"):
	from logging import INFO, FileHandler, Formatter, StreamHandler, getLogger

	logger = getLogger(__name__)
	logger.setLevel(INFO)
	handler1 = StreamHandler()
	handler1.setFormatter(Formatter("%(message)s"))
	handler2 = FileHandler(filename=f"{filename}.log")
	handler2.setFormatter(Formatter("%(message)s"))
	logger.addHandler(handler1)
	logger.addHandler(handler2)
	return logger


	class AverageMeter(object):
	def __init__(self):
	self.reset()

	def reset(self):
	self.val = 0
	self.avg = 0
	self.sum = 0
	self.count = 0

	def update(self, val, n=1):
	self.val = val
	self.sum += val * n
	self.count += n
	self.avg = self.sum / self.count


	def asMinutes(s):
	m = math.floor(s / 60)
	s -= m * 60
	return "%dm %ds" % (m, s)


	def timeSince(since, percent):
	now = time.time()
	s = now - since
	es = s / (percent)
	rs = es - s
	return "%s (remain %s)" % (asMinutes(s), asMinutes(rs))


	def get_optimizer_params(model, encoder_lr, decoder_lr, weight_decay=0.0):
	no_decay = ["bias", "LayerNorm.bias", "LayerNorm.weight"]
	optimizer_parameters = [
	{
	"params": [
	p
	for n, p in model.model.named_parameters()
	if not any(nd in n for nd in no_decay)
	],
	"lr": encoder_lr,
	"weight_decay": weight_decay,
	},
	{
	"params": [
	p
	for n, p in model.model.named_parameters()
	if any(nd in n for nd in no_decay)
	],
	"lr": encoder_lr,
	"weight_decay": 0.0,
	},
	{
	"params": [p for n, p in model.named_parameters() if "model" not in n],
	"lr": decoder_lr,
	"weight_decay": 0.0,
	},
	]
	return optimizer_parameters


	def to_cpu(obj):
	if torch.is_tensor(obj):
	return obj.to("cpu")
	elif isinstance(obj, dict):
	return {k: to_cpu(v) for k, v in obj.items()}
	elif (
	isinstance(obj, list)
	or isinstance(obj, tuple)
	or isinstance(obj, set)
	or isinstance(obj, torch.Tensor)
	):
	return [to_cpu(v) for v in obj]
	else:
	return obj


	def get_accuracy_score(eval_preds, cfg):
	preds, labels = eval_preds
	if isinstance(preds, tuple):
	preds = preds[0]

	decoded_preds = cfg.tokenizer.batch_decode(preds, skip_special_tokens=True)

	labels = np.where(labels != -100, labels, cfg.tokenizer.pad_token_id)
	decoded_labels = cfg.tokenizer.batch_decode(labels, skip_special_tokens=True)

	decoded_preds = [
	canonicalize_str(pred.strip().replace(" ", "")) for pred in decoded_preds
	]
	decoded_labels = [
	[canonicalize_str(label.strip().replace(" ", ""))] for label in decoded_labels
	]

	score = 0
	for i in range(len(decoded_preds)):
	if decoded_preds[i] == decoded_labels[i][0]:
	score += 1
	score /= len(decoded_preds)
	return {"accuracy": score}


	def get_accuracy_score_multitask(eval_preds, cfg):
	preds, labels = eval_preds
	if isinstance(preds, tuple):
	preds = preds[0]

	special_tokens = cfg.tokenizer.special_tokens_map
	special_tokens = [
	special_tokens["eos_token"],
	special_tokens["pad_token"],
	special_tokens["unk_token"],
	] + list(
	set(special_tokens["additional_special_tokens"])
	- set(
	[
	"0%",
	"10%",
	"20%",
	"30%",
	"40%",
	"50%",
	"60%",
	"70%",
	"80%",
	"90%",
	"100%",
	]
	)
	)

	decoded_preds = cfg.tokenizer.batch_decode(preds, skip_special_tokens=False)
	for special_token in special_tokens:
	decoded_preds = [pred.replace(special_token, "") for pred in decoded_preds]

	labels = np.where(labels != -100, labels, cfg.tokenizer.pad_token_id)
	decoded_labels = cfg.tokenizer.batch_decode(labels, skip_special_tokens=False)
	for special_token in special_tokens:
	decoded_labels = [pred.replace(special_token, "") for pred in decoded_labels]

	decoded_preds = [
	canonicalize_str(pred.strip().replace(" ", "")) for pred in decoded_preds
	]
	decoded_labels = [
	[canonicalize_str(label.strip().replace(" ", ""))] for label in decoded_labels
	]

	score = 0
	for i in range(len(decoded_preds)):
	if decoded_preds[i] == decoded_labels[i][0]:
	score += 1
	score /= len(decoded_preds)
	return {"accuracy": score}


	def preprocess_dataset(examples, cfg):
	inputs = examples["input"]
	targets = examples[cfg.target_column]
	model_inputs = cfg.tokenizer(
	inputs, max_length=cfg.input_max_length, truncation=True
	)
	labels = cfg.tokenizer(targets, max_length=cfg.target_max_length, truncation=True)
	model_inputs["labels"] = labels["input_ids"]
	return model_inputs


	def filter_out(df, col_names):
	for col_name in col_names:
	df = df[~df[col_name].isna()].reset_index(drop=True)
	return df


	def save_pickle(path: str, contents):
	"""Saves contents to a pickle file."""
	with open(path, "wb") as f:
	pickle.dump(contents, f)


	def load_pickle(path: str):
	"""Loads contents from a pickle file."""
	with open(path, "rb") as f:
	return pickle.load(f)


	def add_new_tokens(tokenizer, file_path):
	"""
	Adds new tokens to the tokenizer from a file.
	The file should contain one token per line.
	"""
	with open(file_path, "r") as f:
	new_tokens = [line.strip() for line in f if line.strip()]

	tokenizer.add_tokens(new_tokens)

	return tokenizer