Spaces:

sagawa
/

ReactionT5

Running

App Files Files Community

sagawa commited on 4 days ago

Commit

60b0e86

verified ·

1 Parent(s): 05b9666

Update app.py

Browse files

Files changed (1) hide show

app.py +56 -21

app.py CHANGED Viewed

@@ -52,11 +52,23 @@ with st.expander("How to format your CSV", expanded=False):
 # ------------------------------
 # Demo data download
 # ------------------------------
 @st.cache_data(show_spinner=False)
 def load_demo_csv_as_bytes() -> bytes:
     demo_df = pd.read_csv("data/demo_reaction_data.csv")
     return demo_df.to_csv(index=False).encode("utf-8")
 st.download_button(
     label="Download demo_reaction_data.csv",
     data=load_demo_csv_as_bytes(),
@@ -81,13 +93,19 @@ with st.sidebar:
     num_beams = st.slider(
         "Beam size",
-        min_value=1, max_value=10, value=5, step=1,
         help="Number of beams for beam search.",
     )
     seed = st.number_input(
         "Random seed",
-        min_value=0, max_value=2**32 - 1, value=42, step=1,
         help="Seed for reproducibility.",
     )
@@ -99,20 +117,29 @@ with st.sidebar:
             "Output max length", min_value=8, max_value=1024, value=300, step=8
         )
         output_min_length = st.number_input(
-            "Output min length", min_value=-1, max_value=1024, value=-1, step=1,
             help="Use -1 to let the model decide.",
         )
         batch_size = st.number_input(
             "Batch size", min_value=1, max_value=16, value=1, step=1
         )
         num_workers = st.number_input(
-            "DataLoader workers", min_value=0, max_value=8, value=4, step=1,
             help="Set to 0 if multiprocessing is restricted in your environment.",
         )
     device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
     st.caption(f"Detected device: **{device.type.upper()}**")
 # ------------------------------
 # Cached loaders
 # ------------------------------
@@ -121,6 +148,7 @@ def load_tokenizer(model_ref: str):
     resolved = os.path.abspath(model_ref) if os.path.exists(model_ref) else model_ref
     return AutoTokenizer.from_pretrained(resolved, return_tensors="pt")
 @st.cache_resource(show_spinner=True)
 def load_model(model_ref: str, device_str: str):
     resolved = os.path.abspath(model_ref) if os.path.exists(model_ref) else model_ref
@@ -129,10 +157,12 @@ def load_model(model_ref: str, device_str: str):
     model.eval()
     return model
 @st.cache_data(show_spinner=False)
 def df_to_csv_bytes(df: pd.DataFrame) -> bytes:
     return df.to_csv(index=False).encode("utf-8")
 # ------------------------------
 # Main interaction
 # ------------------------------
@@ -150,7 +180,9 @@ with left:
     if uploaded is not None:
         try:
-            raw_df = pd.read_csv(uploaded)
             st.subheader("Input preview")
             st.dataframe(raw_df.head(20), use_container_width=True)
         except Exception as e:
@@ -172,11 +204,11 @@ with right:
 # ------------------------------
 # Inference
 # ------------------------------
-if 'results_df' not in st.session_state:
-    st.session_state['results_df'] = None
-if 'last_error' not in st.session_state:
-    st.session_state['last_error'] = None
 if run:
     if uploaded is None:
@@ -205,14 +237,15 @@ if run:
                 model = load_model(CFG.model_name_or_path, device.type)
                 status.update(label="Model ready.", state="complete")
             except Exception as e:
-                st.session_state['last_error'] = f"Failed to load model: {e}"
                 status.update(label="Model load failed.", state="error")
                 st.stop()
         # Prepare data
-        input_df = pd.read_csv(uploaded)
         input_df = preprocess_df(input_df, drop_duplicates=False)
         # Dataset & loader
         dataset = ReactionT5Dataset(CFG, input_df)
@@ -261,28 +294,30 @@ if run:
         # Save predictions
         try:
-            output_df = save_multiple_predictions(input_df, all_sequences, all_scores, CFG)
-            st.session_state['results_df'] = output_df
             st.success("Prediction complete.")
         except Exception as e:
-            st.session_state['last_error'] = f"Failed to assemble output: {e}"
-            st.error(st.session_state['last_error'])
             st.stop()
 # ------------------------------
 # Results
 # ------------------------------
-if st.session_state.get('results_df') is not None:
     st.subheader("Results preview")
-    st.dataframe(st.session_state['results_df'].head(50), use_container_width=True)
     st.download_button(
         label="Download predictions as CSV",
-        data=df_to_csv_bytes(st.session_state['results_df']),
         file_name="output.csv",
         mime="text/csv",
         use_container_width=True,
     )
-if st.session_state.get('last_error'):
-    st.error(st.session_state['last_error'])

 # ------------------------------
 # Demo data download
 # ------------------------------
+import io
+@st.cache_data(show_spinner=False)
+def parse_csv_from_bytes(file_bytes: bytes) -> pd.DataFrame:
+    # If your files are always UTF-8, this is fine:
+    return pd.read_csv(io.BytesIO(file_bytes))
+    # If you prefer explicit text decoding:
+    # return pd.read_csv(io.StringIO(file_bytes.decode("utf-8")))
 @st.cache_data(show_spinner=False)
 def load_demo_csv_as_bytes() -> bytes:
     demo_df = pd.read_csv("data/demo_reaction_data.csv")
     return demo_df.to_csv(index=False).encode("utf-8")
 st.download_button(
     label="Download demo_reaction_data.csv",
     data=load_demo_csv_as_bytes(),
     num_beams = st.slider(
         "Beam size",
+        min_value=1,
+        max_value=10,
+        value=5,
+        step=1,
         help="Number of beams for beam search.",
     )
     seed = st.number_input(
         "Random seed",
+        min_value=0,
+        max_value=2**32 - 1,
+        value=42,
+        step=1,
         help="Seed for reproducibility.",
     )
             "Output max length", min_value=8, max_value=1024, value=300, step=8
         )
         output_min_length = st.number_input(
+            "Output min length",
+            min_value=-1,
+            max_value=1024,
+            value=-1,
+            step=1,
             help="Use -1 to let the model decide.",
         )
         batch_size = st.number_input(
             "Batch size", min_value=1, max_value=16, value=1, step=1
         )
         num_workers = st.number_input(
+            "DataLoader workers",
+            min_value=0,
+            max_value=8,
+            value=4,
+            step=1,
             help="Set to 0 if multiprocessing is restricted in your environment.",
         )
     device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
     st.caption(f"Detected device: **{device.type.upper()}**")
 # ------------------------------
 # Cached loaders
 # ------------------------------
     resolved = os.path.abspath(model_ref) if os.path.exists(model_ref) else model_ref
     return AutoTokenizer.from_pretrained(resolved, return_tensors="pt")
 @st.cache_resource(show_spinner=True)
 def load_model(model_ref: str, device_str: str):
     resolved = os.path.abspath(model_ref) if os.path.exists(model_ref) else model_ref
     model.eval()
     return model
 @st.cache_data(show_spinner=False)
 def df_to_csv_bytes(df: pd.DataFrame) -> bytes:
     return df.to_csv(index=False).encode("utf-8")
 # ------------------------------
 # Main interaction
 # ------------------------------
     if uploaded is not None:
         try:
+            file_bytes = uploaded.getvalue()
+            raw_df = parse_csv_from_bytes(file_bytes)
+            # raw_df = pd.read_csv(uploaded)
             st.subheader("Input preview")
             st.dataframe(raw_df.head(20), use_container_width=True)
         except Exception as e:
 # ------------------------------
 # Inference
 # ------------------------------
+if "results_df" not in st.session_state:
+    st.session_state["results_df"] = None
+if "last_error" not in st.session_state:
+    st.session_state["last_error"] = None
 if run:
     if uploaded is None:
                 model = load_model(CFG.model_name_or_path, device.type)
                 status.update(label="Model ready.", state="complete")
             except Exception as e:
+                st.session_state["last_error"] = f"Failed to load model: {e}"
                 status.update(label="Model load failed.", state="error")
                 st.stop()
         # Prepare data
+        file_bytes = uploaded.getvalue()
+        input_df = parse_csv_from_bytes(file_bytes)
+        # input_df = pd.read_csv(uploaded)
         input_df = preprocess_df(input_df, drop_duplicates=False)
         # Dataset & loader
         dataset = ReactionT5Dataset(CFG, input_df)
         # Save predictions
         try:
+            output_df = save_multiple_predictions(
+                input_df, all_sequences, all_scores, CFG
+            )
+            st.session_state["results_df"] = output_df
             st.success("Prediction complete.")
         except Exception as e:
+            st.session_state["last_error"] = f"Failed to assemble output: {e}"
+            st.error(st.session_state["last_error"])
             st.stop()
 # ------------------------------
 # Results
 # ------------------------------
+if st.session_state.get("results_df") is not None:
     st.subheader("Results preview")
+    st.dataframe(st.session_state["results_df"].head(50), use_container_width=True)
     st.download_button(
         label="Download predictions as CSV",
+        data=df_to_csv_bytes(st.session_state["results_df"]),
         file_name="output.csv",
         mime="text/csv",
         use_container_width=True,
     )
+if st.session_state.get("last_error"):
+    st.error(st.session_state["last_error"])