Spaces:

nvidia
/

lotus-vlm-bias-leaderboard

Running

App Files Files Community

huckiyang commited on 4 days ago

Commit

88d5920

1 Parent(s): 21e142e

[rank] adding rank

Browse files

Files changed (2) hide show

app.py +28 -8
src/about.py +1 -1

app.py CHANGED Viewed

@@ -38,17 +38,17 @@ for col_tuple in n_avg_cols_to_average:
 # Calculate average, handling cases where some N-avg columns might be missing
 existing_n_avg_cols = [col for col in n_avg_cols_to_average if col in LEADERBOARD_DF_ORIGINAL.columns]
 if existing_n_avg_cols:
-    LEADERBOARD_DF_ORIGINAL[('Overall', 'Average N-avg')] = LEADERBOARD_DF_ORIGINAL[existing_n_avg_cols].mean(axis=1)
-    LEADERBOARD_DF_ORIGINAL[('Overall', 'Rank')] = LEADERBOARD_DF_ORIGINAL[('Overall', 'Average N-avg')].rank(method='min', ascending=False).astype(int)
 else:
-    LEADERBOARD_DF_ORIGINAL[('Overall', 'Average N-avg')] = np.nan
-    LEADERBOARD_DF_ORIGINAL[('Overall', 'Rank')] = np.nan
 # Reorder columns to put Rank and Average N-avg first, then Model, then the rest
 model_col_tuple = ('Model', 'Model') # Original name of the model column
-rank_col_tuple = ('Overall', 'Rank')
-avg_navg_col_tuple = ('Overall', 'Average N-avg')
 new_col_order = []
 if rank_col_tuple in LEADERBOARD_DF_ORIGINAL.columns:
@@ -63,18 +63,38 @@ for col in LEADERBOARD_DF_ORIGINAL.columns:
         new_col_order.append(col)
 LEADERBOARD_DF_ORIGINAL = LEADERBOARD_DF_ORIGINAL[new_col_order]
 # Function to prepare DataFrame for display (format headers, ensure Model column)
 def format_leaderboard_df_for_display(df_orig):
     df_display = df_orig.copy()
     new_columns = []
     for col_tuple in df_display.columns:
-        if col_tuple == ('Model', 'Model'):
             new_columns.append('Model')
         else:
             new_columns.append(f"{col_tuple[0]}\n{col_tuple[1]}")
     df_display.columns = new_columns
-    return df_display
 LEADERBOARD_DF_DISPLAY_INIT = format_leaderboard_df_for_display(LEADERBOARD_DF_ORIGINAL)

 # Calculate average, handling cases where some N-avg columns might be missing
 existing_n_avg_cols = [col for col in n_avg_cols_to_average if col in LEADERBOARD_DF_ORIGINAL.columns]
 if existing_n_avg_cols:
+    LEADERBOARD_DF_ORIGINAL[('Avg-', ' N-avg')] = LEADERBOARD_DF_ORIGINAL[existing_n_avg_cols].mean(axis=1)
+    LEADERBOARD_DF_ORIGINAL[('Avg-', 'Rank')] = LEADERBOARD_DF_ORIGINAL[('Avg-', ' N-avg')].rank(method='min', ascending=False).astype(int)
 else:
+    LEADERBOARD_DF_ORIGINAL[('Avg-', ' N-avg')] = np.nan
+    LEADERBOARD_DF_ORIGINAL[('Avg-', 'Rank')] = np.nan
 # Reorder columns to put Rank and Average N-avg first, then Model, then the rest
 model_col_tuple = ('Model', 'Model') # Original name of the model column
+rank_col_tuple = ('Avg-', 'Rank')
+avg_navg_col_tuple = ('Avg-', ' N-avg')
 new_col_order = []
 if rank_col_tuple in LEADERBOARD_DF_ORIGINAL.columns:
         new_col_order.append(col)
 LEADERBOARD_DF_ORIGINAL = LEADERBOARD_DF_ORIGINAL[new_col_order]
+# Sort by Rank ascending
+if rank_col_tuple in LEADERBOARD_DF_ORIGINAL.columns:
+    LEADERBOARD_DF_ORIGINAL = LEADERBOARD_DF_ORIGINAL.sort_values(by=rank_col_tuple, ascending=True)
 # Function to prepare DataFrame for display (format headers, ensure Model column)
 def format_leaderboard_df_for_display(df_orig):
     df_display = df_orig.copy()
     new_columns = []
     for col_tuple in df_display.columns:
+        if col_tuple == ('Avg-', 'Rank'):
+            new_columns.append('Overall Rank')
+        elif col_tuple == ('Avg-', ' N-avg'):
+            new_columns.append('Average N-avg')
+        elif col_tuple == ('Model', 'Model'):
             new_columns.append('Model')
         else:
             new_columns.append(f"{col_tuple[0]}\n{col_tuple[1]}")
     df_display.columns = new_columns
+    # Create a new DataFrame with the formatted column names for display
+    # and apply formatting to the 'Average N-avg' data if it exists
+    temp_formatted_df = pd.DataFrame(df_display.values, columns=new_columns, index=df_display.index)
+    if 'Average N-avg' in temp_formatted_df.columns:
+        # Ensure the column is numeric before formatting, in case it became object type
+        temp_formatted_df['Average N-avg'] = pd.to_numeric(temp_formatted_df['Average N-avg'], errors='coerce')
+        temp_formatted_df['Average N-avg'] = temp_formatted_df['Average N-avg'].map(lambda x: f"{x:.4f}" if pd.notnull(x) else '-')
+    # Convert the 'Overall Rank' to integer string to avoid '.0'
+    if 'Overall Rank' in temp_formatted_df.columns:
+        temp_formatted_df['Overall Rank'] = temp_formatted_df['Overall Rank'].map(lambda x: f"{int(x)}" if pd.notnull(x) else '-')
+    return temp_formatted_df
 LEADERBOARD_DF_DISPLAY_INIT = format_leaderboard_df_for_display(LEADERBOARD_DF_ORIGINAL)

src/about.py CHANGED Viewed

@@ -31,7 +31,7 @@ TITLE = """
 INTRODUCTION_TEXT = """
 We introduce **LOTUS**, a leaderboard for evaluating detailed captions, addressing three main gaps in existing evaluations: lack of **standardized** criteria, **bias-aware** assessments, and **user preference** considerations.
-LOTUS comprehensively evaluates various aspects, including caption quality (\eg, alignment, descriptiveness), risks (\eg, hallucination), and societal biases (\eg, gender bias) while enabling preference-oriented evaluations by tailoring criteria to diverse user preferences.
 """

 INTRODUCTION_TEXT = """
 We introduce **LOTUS**, a leaderboard for evaluating detailed captions, addressing three main gaps in existing evaluations: lack of **standardized** criteria, **bias-aware** assessments, and **user preference** considerations.
+LOTUS comprehensively evaluates various aspects, including caption quality (e.g., alignment, descriptiveness), risks (e.g., hallucination), and societal biases (e.g., gender bias) while enabling preference-oriented evaluations by tailoring criteria to diverse user preferences.
 """