Spaces:

Metric-AI
/

ArmBench-LLM

Running

App Files Files Community

Bagratuni commited on 12 days ago

Commit

95ec4a1

1 Parent(s): 33a913f

mmlu api models update

Browse files

Files changed (2) hide show

data_handler.py +0 -1
model_results.json +186 -3

data_handler.py CHANGED Viewed

@@ -134,4 +134,3 @@ def mmlu_chart(mmlu_df, plot_column):
     fig.update_yaxes(tickfont=dict(size=10))
     return fig


134	fig.update_yaxes(tickfont=dict(size=10))
135
136	return fig

model_results.json CHANGED Viewed

@@ -837,7 +837,68 @@
   {
     "model_name": "gemini-2.5-pro",
     "results": {
-      "mmlu_results": [],
       "unified_exam_results": [
         {
           "category": "Average",
@@ -861,7 +922,68 @@
   {
     "model_name": "gpt-4.1-2025-04-14",
     "results": {
-      "mmlu_results": [],
       "unified_exam_results": [
         {
           "category": "Average",
@@ -885,7 +1007,68 @@
   {
     "model_name": "claude-sonnet-4-20250514",
     "results": {
-      "mmlu_results": [],
       "unified_exam_results": [
         {
           "category": "Average",

   {
     "model_name": "gemini-2.5-pro",
     "results": {
+      "mmlu_results": [
+        {
+          "category": "Average",
+          "score": 0.8241
+        },
+        {
+          "category": "Biology",
+          "score": 0.8833
+        },
+        {
+          "category": "Business",
+          "score": 0.9242
+        },
+        {
+          "category": "Chemistry",
+          "score": 0.8947
+        },
+        {
+          "category": "Computer Science",
+          "score": 0.8529
+        },
+        {
+          "category": "Economics",
+          "score": 0.8873
+        },
+        {
+          "category": "Engineering",
+          "score": 0.725
+        },
+        {
+          "category": "Health",
+          "score": 0.8088
+        },
+        {
+          "category": "History",
+          "score": 0.6552
+        },
+        {
+          "category": "Law",
+          "score": 0.6517
+        },
+        {
+          "category": "Math",
+          "score": 0.823
+        },
+        {
+          "category": "Other",
+          "score": 0.8312
+        },
+        {
+          "category": "Philosophy",
+          "score": 0.8333
+        },
+        {
+          "category": "Physics",
+          "score": 0.8716
+        },
+        {
+          "category": "Psychology",
+          "score": 0.8955
+        }
+      ],
       "unified_exam_results": [
         {
           "category": "Average",
   {
     "model_name": "gpt-4.1-2025-04-14",
     "results": {
+      "mmlu_results": [
+        {
+          "category": "Average",
+          "score": 0.756
+        },
+        {
+          "category": "Biology",
+          "score": 0.8667
+        },
+        {
+          "category": "Business",
+          "score": 0.8939
+        },
+        {
+          "category": "Chemistry",
+          "score": 0.8632
+        },
+        {
+          "category": "Computer Science",
+          "score": 0.7353
+        },
+        {
+          "category": "Economics",
+          "score": 0.8732
+        },
+        {
+          "category": "Engineering",
+          "score": 0.625
+        },
+        {
+          "category": "Health",
+          "score": 0.7353
+        },
+        {
+          "category": "History",
+          "score": 0.6897
+        },
+        {
+          "category": "Law",
+          "score": 0.573
+        },
+        {
+          "category": "Math",
+          "score": 0.8496
+        },
+        {
+          "category": "Other",
+          "score": 0.6494
+        },
+        {
+          "category": "Philosophy",
+          "score": 0.6429
+        },
+        {
+          "category": "Physics",
+          "score": 0.8257
+        },
+        {
+          "category": "Psychology",
+          "score": 0.7612
+        }
+      ],
       "unified_exam_results": [
         {
           "category": "Average",
   {
     "model_name": "claude-sonnet-4-20250514",
     "results": {
+      "mmlu_results": [
+        {
+          "category": "Average",
+          "score": 0.7459
+        },
+        {
+          "category": "Biology",
+          "score": 0.8167
+        },
+        {
+          "category": "Business",
+          "score": 0.8788
+        },
+        {
+          "category": "Chemistry",
+          "score": 0.7789
+        },
+        {
+          "category": "Computer Science",
+          "score": 0.8824
+        },
+        {
+          "category": "Economics",
+          "score": 0.8873
+        },
+        {
+          "category": "Engineering",
+          "score": 0.6625
+        },
+        {
+          "category": "Health",
+          "score": 0.7206
+        },
+        {
+          "category": "History",
+          "score": 0.5517
+        },
+        {
+          "category": "Law",
+          "score": 0.3933
+        },
+        {
+          "category": "Math",
+          "score": 0.9027
+        },
+        {
+          "category": "Other",
+          "score": 0.6883
+        },
+        {
+          "category": "Philosophy",
+          "score": 0.6667
+        },
+        {
+          "category": "Physics",
+          "score": 0.8073
+        },
+        {
+          "category": "Psychology",
+          "score": 0.806
+        }
+      ],
       "unified_exam_results": [
         {
           "category": "Average",