Spaces:

sagawa
/

ReactionT5_task_forward

Running

App Files Files Community

sagawa commited on Dec 10, 2022

Commit

c8117fb

1 Parent(s): 3969a3d

Update app.py

Browse files

Files changed (1) hide show

app.py +58 -30

app.py CHANGED Viewed

@@ -62,23 +62,38 @@ if st.button('predict'):
             min_length = min(input_compound.find('CATALYST') - input_compound.find(':') - 10, 0)
             inp = tokenizer(input_compound, return_tensors='pt').to(device)
             output = model.generate(**inp, min_length=min_length, max_length=min_length+50, num_beams=CFG.num_beams, num_return_sequences=CFG.num_return_sequences, return_dict_in_generate=True, output_scores=True)
-            scores = output['sequences_scores'].tolist()
-            output = [tokenizer.decode(i, skip_special_tokens=True).replace('. ', '.').rstrip('.') for i in output['sequences']]
-            for ith, out in enumerate(output):
-                mol = Chem.MolFromSmiles(out.rstrip('.'))
                 if type(mol) == rdkit.Chem.rdchem.Mol:
-                    output.append(out.rstrip('.'))
-                    scores.append(scores[ith])
-                    break
-            if type(mol) == None:
-                output.append(None)
-                scores.append(None)
-            output += scores
-            output = [input_compound] + output
-            outputs.append(output)
-        output_df = pd.DataFrame(outputs, columns=['input'] + [f'{i}th' for i in range(CFG.num_beams)] + ['valid compound'] + [f'{i}th score' for i in range(CFG.num_beams)] + ['valid compound score'])
         @st.cache
         def convert_df(df):
             # IMPORTANT: Cache the conversion to prevent computation on every rerun
@@ -98,21 +113,34 @@ if st.button('predict'):
         min_length = min(input_compound.find('CATALYST') - input_compound.find(':') - 10, 0)
         inp = tokenizer(input_compound, return_tensors='pt').to(device)
         output = model.generate(**inp, min_length=min_length, max_length=min_length+50, num_beams=CFG.num_beams, num_return_sequences=CFG.num_return_sequences, return_dict_in_generate=True, output_scores=True)
-        scores = output['sequences_scores'].tolist()
-        output = [tokenizer.decode(i, skip_special_tokens=True).replace('. ', '.').rstrip('.') for i in output['sequences']]
-        for ith, out in enumerate(output):
-            mol = Chem.MolFromSmiles(out.rstrip('.'))
             if type(mol) == rdkit.Chem.rdchem.Mol:
-                output.append(out.rstrip('.'))
-                scores.append(scores[ith])
-                break
-        if type(mol) == None:
-            output.append(None)
-            scores.append(None)
-        output += scores
-        output = [input_compound] + output
-        try:
-            output_df = pd.DataFrame(np.array(output).reshape(1, -1), columns=['input'] + [f'{i}th' for i in range(CFG.num_beams)] + ['valid compound'] + [f'{i}th score' for i in range(CFG.num_beams)] + ['valid compound score'])
             st.table(output_df)
             @st.cache

             min_length = min(input_compound.find('CATALYST') - input_compound.find(':') - 10, 0)
             inp = tokenizer(input_compound, return_tensors='pt').to(device)
             output = model.generate(**inp, min_length=min_length, max_length=min_length+50, num_beams=CFG.num_beams, num_return_sequences=CFG.num_return_sequences, return_dict_in_generate=True, output_scores=True)
+            if CFG.num_beams > 1:
+                scores = output['sequences_scores'].tolist()
+                output = [tokenizer.decode(i, skip_special_tokens=True).replace('. ', '.').rstrip('.') for i in output['sequences']]
+                for ith, out in enumerate(output):
+                    mol = Chem.MolFromSmiles(out.rstrip('.'))
+                    if type(mol) == rdkit.Chem.rdchem.Mol:
+                        output.append(out.rstrip('.'))
+                        scores.append(scores[ith])
+                        break
+                if type(mol) == None:
+                    output.append(None)
+                    scores.append(None)
+                output += scores
+                output = [input_compound] + output
+                outputs.append(output)
+            else:
+                output = [tokenizer.decode(output['sequences'][0], skip_special_tokens=True).replace('. ', '.').rstrip('.')]
+                mol = Chem.MolFromSmiles(output[0])
                 if type(mol) == rdkit.Chem.rdchem.Mol:
+                    output.append(output[0])
+                else:
+                    output.append(None)
+                output = [input_compound] + output
+                outputs.append(output)
+        if CFG.num_beams > 1:
+            output_df = pd.DataFrame(outputs, columns=['input'] + [f'{i}th' for i in range(CFG.num_beams)] + ['valid compound'] + [f'{i}th score' for i in range(CFG.num_beams)] + ['valid compound score'])
+        else:
+            output_df = pd.DataFrame(outputs, columns=['input', '0th', 'valid compound'])
         @st.cache
         def convert_df(df):
             # IMPORTANT: Cache the conversion to prevent computation on every rerun
         min_length = min(input_compound.find('CATALYST') - input_compound.find(':') - 10, 0)
         inp = tokenizer(input_compound, return_tensors='pt').to(device)
         output = model.generate(**inp, min_length=min_length, max_length=min_length+50, num_beams=CFG.num_beams, num_return_sequences=CFG.num_return_sequences, return_dict_in_generate=True, output_scores=True)
+        if CFG.num_beams > 1:
+            scores = output['sequences_scores'].tolist()
+            output = [tokenizer.decode(i, skip_special_tokens=True).replace('. ', '.').rstrip('.') for i in output['sequences']]
+            for ith, out in enumerate(output):
+                mol = Chem.MolFromSmiles(out.rstrip('.'))
+                if type(mol) == rdkit.Chem.rdchem.Mol:
+                    output.append(out.rstrip('.'))
+                    scores.append(scores[ith])
+                    break
+            if type(mol) == None:
+                output.append(None)
+                scores.append(None)
+            output += scores
+            output = [input_compound] + output
+        else:
+            output = [tokenizer.decode(output['sequences'][0], skip_special_tokens=True).replace('. ', '.').rstrip('.')]
+            mol = Chem.MolFromSmiles(output[0])
             if type(mol) == rdkit.Chem.rdchem.Mol:
+                output.append(output[0])
+            else:
+                output.append(None)
+            if CFG.num_beams > 1:
+                output_df = pd.DataFrame(np.array(output).reshape(1, -1), columns=['input'] + [f'{i}th' for i in range(CFG.num_beams)] + ['valid compound'] + [f'{i}th score' for i in range(CFG.num_beams)] + ['valid compound score'])
+            else:
+                output_df = pd.DataFrame(np.array([input_compound]+output).reshape(1, -1), columns=['input', '0th', 'valid compound'])
             st.table(output_df)
             @st.cache