Spaces:

transpolymer
/

Transpolymer2

Sleeping

App Files Files Community

transpolymer commited on May 5

Commit

eea9e94

verified ·

1 Parent(s): dd5919f

Update prediction.py

Browse files

Files changed (1) hide show

prediction.py +30 -26

prediction.py CHANGED Viewed

@@ -11,12 +11,12 @@ tokenizer = AutoTokenizer.from_pretrained("seyonec/ChemBERTa-zinc-base-v1")
 embedding_model = AutoModel.from_pretrained("seyonec/ChemBERTa-zinc-base-v1")
 # Load saved scalers (for inverse_transform)
-scaler_tensile_strength = joblib.load("scaler_Tensile_strength_Mpa_.joblib")  # Scaler for Tensile Strength
-scaler_ionization_energy = joblib.load("scaler_Ionization_Energy_eV_.joblib")  # Scaler for Ionization Energy
-scaler_electron_affinity = joblib.load("scaler_Electron_Affinity_eV_.joblib")  # Scaler for Electron Affinity
-scaler_logp = joblib.load("scaler_LogP.joblib")  # Scaler for LogP
-scaler_refractive_index = joblib.load("scaler_Refractive_Index.joblib")  # Scaler for Refractive Index
-scaler_molecular_weight = joblib.load("scaler_Molecular_Weight_g_mol_.joblib")  # Scaler for Molecular Weight
 # Descriptor function with exact order from training
 def compute_descriptors(smiles):
@@ -39,27 +39,33 @@ def compute_descriptors(smiles):
 # Define your model class exactly like in training
 class TransformerRegressor(nn.Module):
-    def __init__(self, input_dim=768, descriptor_dim=10, d_model=768, nhead=4, num_layers=2, num_targets=6):
         super().__init__()
-        self.descriptor_proj = nn.Linear(descriptor_dim, d_model)
-        encoder_layer = nn.TransformerEncoderLayer(d_model=d_model, nhead=nhead, batch_first=True)
-        self.transformer = nn.TransformerEncoder(encoder_layer, num_layers=num_layers)
-        self.regressor = nn.Sequential(
-            nn.Flatten(),
-            nn.Linear(2 * d_model, 256),
             nn.ReLU(),
-            nn.Linear(256, num_targets)
         )
-    def forward(self, embedding, descriptors):
-        desc_proj = self.descriptor_proj(descriptors).unsqueeze(1)  # (B, 1, d_model)
-        stacked = torch.cat([embedding.unsqueeze(1), desc_proj], dim=1)  # (B, 2, d_model)
-        encoded = self.transformer(stacked)  # (B, 2, d_model)
-        output = self.regressor(encoded)
-        return output
 # Load model
-model = TransformerRegressor()
 model.load_state_dict(torch.load("transformer_model.pt", map_location=torch.device("cpu")))
 model.eval()
@@ -67,19 +73,18 @@ model.eval()
 def predict_properties(smiles):
     try:
         descriptors = compute_descriptors(smiles)
-        descriptors_tensor = torch.tensor(descriptors).unsqueeze(0)  # (1, 10)
         # Get embedding
         inputs = tokenizer(smiles, return_tensors="pt")
         with torch.no_grad():
             outputs = embedding_model(**inputs)
-        emb = outputs.last_hidden_state[:, 0, :]  # [CLS] token, shape (1, 768)
         # Forward pass
         with torch.no_grad():
-            preds = model(emb, descriptors_tensor)
-        # Inverse transform predictions using respective scalers
         preds_np = preds.numpy()
         preds_rescaled = np.concatenate([
             scaler_tensile_strength.inverse_transform(preds_np[:, [0]]),
@@ -90,7 +95,6 @@ def predict_properties(smiles):
             scaler_molecular_weight.inverse_transform(preds_np[:, [5]])
         ], axis=1)
-        # Round and format
         keys = ["Tensile Strength", "Ionization Energy", "Electron Affinity", "logP", "Refractive Index", "Molecular Weight"]
         results = dict(zip(keys, preds_rescaled.flatten().round(4)))

 embedding_model = AutoModel.from_pretrained("seyonec/ChemBERTa-zinc-base-v1")
 # Load saved scalers (for inverse_transform)
+scaler_tensile_strength = joblib.load("scaler_Tensile_strength_Mpa_.joblib")
+scaler_ionization_energy = joblib.load("scaler_Ionization_Energy_eV_.joblib")
+scaler_electron_affinity = joblib.load("scaler_Electron_Affinity_eV_.joblib")
+scaler_logp = joblib.load("scaler_LogP.joblib")
+scaler_refractive_index = joblib.load("scaler_Refractive_Index.joblib")
+scaler_molecular_weight = joblib.load("scaler_Molecular_Weight_g_mol_.joblib")
 # Descriptor function with exact order from training
 def compute_descriptors(smiles):
 # Define your model class exactly like in training
 class TransformerRegressor(nn.Module):
+    def __init__(self, input_dim, hidden_dim, num_layers, output_dim):
         super().__init__()
+        self.feat_proj = nn.Linear(input_dim, hidden_dim)
+        encoder_layer = nn.TransformerEncoderLayer(d_model=hidden_dim, nhead=8)
+        self.transformer_encoder = nn.TransformerEncoder(encoder_layer, num_layers=num_layers)
+        self.regression_head = nn.Sequential(
+            nn.Linear(hidden_dim, 128),
             nn.ReLU(),
+            nn.Linear(128, 64),
+            nn.ReLU(),
+            nn.Linear(64, output_dim)
         )
+    def forward(self, x):
+        x = self.feat_proj(x)
+        x = self.transformer_encoder(x)
+        x = x.mean(dim=1)
+        return self.regression_head(x)
+# Set model hyperparameters (must match training config)
+input_dim = 768  # ChemBERTa embedding size
+hidden_dim = 256
+num_layers = 2
+output_dim = 6   # Number of properties predicted
 # Load model
+model = TransformerRegressor(input_dim, hidden_dim, num_layers, output_dim)
 model.load_state_dict(torch.load("transformer_model.pt", map_location=torch.device("cpu")))
 model.eval()
 def predict_properties(smiles):
     try:
         descriptors = compute_descriptors(smiles)
+        descriptors_tensor = torch.tensor(descriptors).unsqueeze(0)
         # Get embedding
         inputs = tokenizer(smiles, return_tensors="pt")
         with torch.no_grad():
             outputs = embedding_model(**inputs)
+        emb = outputs.last_hidden_state[:, 0, :]  # CLS token output (1, 768)
         # Forward pass
         with torch.no_grad():
+            preds = model(emb)
         preds_np = preds.numpy()
         preds_rescaled = np.concatenate([
             scaler_tensile_strength.inverse_transform(preds_np[:, [0]]),
             scaler_molecular_weight.inverse_transform(preds_np[:, [5]])
         ], axis=1)
         keys = ["Tensile Strength", "Ionization Energy", "Electron Affinity", "logP", "Refractive Index", "Molecular Weight"]
         results = dict(zip(keys, preds_rescaled.flatten().round(4)))