Spaces:

silma-ai
/

Arabic-LLM-Broad-Leaderboard

Running

App Files Files Community

karimouda commited on May 1

Commit

75c912f

verified ·

1 Parent(s): 5207eb1

Add results file for Llama-3.1-8B-Instruct

Browse files

Files changed (1) hide show

results/meta-llama/Llama-3.1-8B-Instruct_results_2025-05-01_22-05-13.json +153 -0

results/meta-llama/Llama-3.1-8B-Instruct_results_2025-05-01_22-05-13.json ADDED Viewed

	@@ -0,0 +1,153 @@

+{
+  "results": {
+    "average_score": 6.446389496717725,
+    "speed": 11.660307769245577,
+    "contamination_score": -0.05604882648342041,
+    "execution_time": 1583.663173,
+    "errors": [],
+    "scores_by_category": [
+      {
+        "category": "Paraphrasing",
+        "average_score": 10.0,
+        "count": 6
+      },
+      {
+        "category": "Coding",
+        "average_score": 9.666666666666666,
+        "count": 3
+      },
+      {
+        "category": "Sentiment Analysis",
+        "average_score": 8.88888888888889,
+        "count": 9
+      },
+      {
+        "category": "Function Calling",
+        "average_score": 8.666666666666666,
+        "count": 3
+      },
+      {
+        "category": "RAG QA",
+        "average_score": 8.523809523809524,
+        "count": 21
+      },
+      {
+        "category": "Reading Comprehension",
+        "average_score": 8.235294117647058,
+        "count": 17
+      },
+      {
+        "category": "Trust & Safety",
+        "average_score": 7.0,
+        "count": 30
+      },
+      {
+        "category": "Summarization",
+        "average_score": 7.0,
+        "count": 8
+      },
+      {
+        "category": "Transliteration",
+        "average_score": 6.666666666666667,
+        "count": 6
+      },
+      {
+        "category": "Hallucination",
+        "average_score": 6.666666666666667,
+        "count": 3
+      },
+      {
+        "category": "General Knowledge",
+        "average_score": 6.396825396825397,
+        "count": 63
+      },
+      {
+        "category": "MMLU",
+        "average_score": 6.2809917355371905,
+        "count": 121
+      },
+      {
+        "category": "Diacritization",
+        "average_score": 6.25,
+        "count": 12
+      },
+      {
+        "category": "Reasoning & Math",
+        "average_score": 6.069767441860465,
+        "count": 43
+      },
+      {
+        "category": "Arabic Language & Grammar",
+        "average_score": 5.9411764705882355,
+        "count": 17
+      },
+      {
+        "category": "Instruction Following",
+        "average_score": 5.714285714285714,
+        "count": 7
+      },
+      {
+        "category": "Translation (incl Dialects)",
+        "average_score": 5.604651162790698,
+        "count": 43
+      },
+      {
+        "category": "Long Context",
+        "average_score": 5.5,
+        "count": 4
+      },
+      {
+        "category": "Writing (incl Dialects)",
+        "average_score": 5.5,
+        "count": 22
+      },
+      {
+        "category": "Entity Extraction",
+        "average_score": 5.0,
+        "count": 5
+      },
+      {
+        "category": "Structuring",
+        "average_score": 4.333333333333333,
+        "count": 3
+      },
+      {
+        "category": "Dialect Detection",
+        "average_score": 4.0,
+        "count": 11
+      }
+    ],
+    "scores_by_format": [
+      {
+        "format": "Short Answer",
+        "average_score": 8.0,
+        "count": 5
+      },
+      {
+        "format": "MCQ",
+        "average_score": 6.620087336244541,
+        "count": 229
+      },
+      {
+        "format": "Generation",
+        "average_score": 6.27906976744186,
+        "count": 215
+      },
+      {
+        "format": "Fill-in-the-blank",
+        "average_score": 5.0,
+        "count": 8
+      }
+    ]
+  },
+  "config": {
+    "model": "meta-llama/Llama-3.1-8B-Instruct",
+    "model_sha": "0e9e39f249a16976918f6564b8830bc894c89659",
+    "submitted_time": "2025-05-01T21:24:57Z",
+    "likes": 3908,
+    "params": 8.03,
+    "license": "llama3.1",
+    "model_source": "Hugging Face",
+    "model_category": "Small"
+  }
+}