Spaces:

LLM360
/

de-arena

Running

App Files Files Community

yzabc007 commited on Oct 8, 2024

Commit

ee84fd2

1 Parent(s): efb5f5d

Update space

Browse files

Files changed (3) hide show

README.md +1 -1
app.py +6 -1
src/leaderboard/read_evals.py +72 -0

README.md CHANGED Viewed

@@ -1,5 +1,5 @@
 ---
-title: Decentralized Arena
 emoji: 🥇
 colorFrom: green
 colorTo: indigo

 ---
+title: Decentralized Arena Leaderboard
 emoji: 🥇
 colorFrom: green
 colorTo: indigo

app.py CHANGED Viewed

@@ -122,7 +122,12 @@ with demo:
     gr.Markdown(INTRODUCTION_TEXT, elem_classes="markdown-text")
     with gr.Tabs(elem_classes="tab-buttons") as tabs:
-        with gr.TabItem("🏅 Overall", elem_id="llm-benchmark-tab-table", id=0):
             leaderboard = overall_leaderboard(LEADERBOARD_DF)
         with gr.TabItem("🔢 Math", elem_id="math-tab-table", id=1):

     gr.Markdown(INTRODUCTION_TEXT, elem_classes="markdown-text")
     with gr.Tabs(elem_classes="tab-buttons") as tabs:
+        with gr.TabItem("🏅 Overview", elem_id="llm-benchmark-tab-table", id=0):
+            leaderboard = overall_leaderboard(LEADERBOARD_DF)
+        with gr.TabItem("🎯 Overall", elem_id="llm-benchmark-tab-table", id=0):
             leaderboard = overall_leaderboard(LEADERBOARD_DF)
         with gr.TabItem("🔢 Math", elem_id="math-tab-table", id=1):

src/leaderboard/read_evals.py CHANGED Viewed

@@ -12,6 +12,50 @@ from src.display.utils import AutoEvalColumn, ModelType, Tasks, Precision, Weigh
 from src.submission.check_validity import is_model_on_hub
 @dataclass
 class EvalResult:
     """Represents one full evaluation. Built from a combination of the result and request file for a given run.
@@ -195,3 +239,31 @@ def get_raw_eval_results(results_path: str, requests_path: str) -> list[EvalResu
     return results

 from src.submission.check_validity import is_model_on_hub
+@dataclass
+class ModelResult:
+    """Represents one full evaluation. Built from a combination of the result and request file for a given run.
+    """
+    eval_name: str
+    full_model: str
+    @classmethod
+    def init_from_jsonl_file(self, json_filepath):
+        try:
+            with open(json_filepath) as fp:
+                data = json.load(fp)
+        except:
+            data = eval(open(json_filepath).read()) # a list of dicts
+        return
+    def to_dict(self):
+        """Converts the Eval Result to a dict compatible with our dataframe display"""
+        average = sum([v for v in self.results.values() if v is not None]) / len(Tasks)
+        data_dict = {
+            "eval_name": self.eval_name,  # not a column, just a save name,
+            AutoEvalColumn.precision.name: self.precision.value.name,
+            AutoEvalColumn.model_type.name: self.model_type.value.name,
+            AutoEvalColumn.model_type_symbol.name: self.model_type.value.symbol,
+            AutoEvalColumn.weight_type.name: self.weight_type.value.name,
+            AutoEvalColumn.architecture.name: self.architecture,
+            AutoEvalColumn.model.name: make_clickable_model(self.full_model),
+            AutoEvalColumn.revision.name: self.revision,
+            AutoEvalColumn.average.name: average,
+            AutoEvalColumn.license.name: self.license,
+            AutoEvalColumn.likes.name: self.likes,
+            AutoEvalColumn.params.name: self.num_params,
+            AutoEvalColumn.still_on_hub.name: self.still_on_hub,
+        }
+        for task in Tasks:
+            data_dict[task.value.col_name] = self.results[task.value.benchmark]
+        return data_dict
 @dataclass
 class EvalResult:
     """Represents one full evaluation. Built from a combination of the result and request file for a given run.
     return results
+def get_raw_model_results(results_path: str) -> list[EvalResult]:
+    """From the path of the results folder root, extract all needed info for results"""
+    model_result_filepaths = results_path
+    eval_results = {}
+    for model_result_filepath in model_result_filepaths:
+        # Creation of result
+        eval_result = EvalResult.init_from_json_file(model_result_filepath)
+        # Store results of same eval together
+        eval_name = eval_result.eval_name
+        if eval_name in eval_results.keys():
+            eval_results[eval_name].results.update({k: v for k, v in eval_result.results.items() if v is not None})
+        else:
+            eval_results[eval_name] = eval_result
+    results = []
+    for v in eval_results.values():
+        try:
+            v.to_dict() # we test if the dict version is complete
+            results.append(v)
+        except KeyError:  # not all eval values present
+            continue
+    return results