kaz-llm-lb

Running on CPU Upgrade

hi-melnikov commited on May 21, 2024

Commit

80fb33a

1 Parent(s): d3db3e5

change data structure

Files changed (6) hide show

.gitignore ADDED Viewed

	@@ -0,0 +1 @@


1	+ .ruff_cache

{src/gen/data → data}/arena-hard-v0.1/question.jsonl RENAMED Viewed

File without changes

{src/gen/data → data}/arena_hard_battles.jsonl RENAMED Viewed

File without changes

{src/gen/data → data}/bootstrapping_results.jsonl RENAMED Viewed

File without changes

src/gen/show_result.py CHANGED Viewed

@@ -1,17 +1,15 @@
-import pandas as pd
-import numpy as np
-import plotly.express as px
-import datetime
 import argparse
-import os
 import math
 from glob import glob
-from tqdm import tqdm
 from sklearn.linear_model import LogisticRegression
-from collections import defaultdict
 from utils import load_model_answers

 import argparse
+import datetime
 import math
+import os
+from collections import defaultdict
 from glob import glob
+import numpy as np
+import pandas as pd
+import plotly.express as px
 from sklearn.linear_model import LogisticRegression
+from tqdm import tqdm
 from utils import load_model_answers

src/leaderboard/build_leaderboard.py CHANGED Viewed

@@ -58,24 +58,26 @@ def build_leadearboard_df():
     download_dataset("Vikhrmodels/openbench-eval", EVAL_RESULTS_PATH)
     # print(subprocess.Popen('ls src'))
-    # copy the grusted to
     subprocess.run(
         [
             "rsync",
             "-azP",
             "--ignore-existing",
-            f"{EVAL_RESULTS_PATH}/internal/*.jsonl",
-            "src/gen/data/arena-hard-v0.1/model_answer/interla/*",
         ],
         check=False,
     )
     subprocess.run(
         [
             "rsync",
             "-azP",
             "--ignore-existing",
             f"{EVAL_RESULTS_PATH}/model_judgment/*",
-            "src/gen/data/arena-hard-v0.1/model_judgement/",
         ],
         check=False,
     )

     download_dataset("Vikhrmodels/openbench-eval", EVAL_RESULTS_PATH)
     # print(subprocess.Popen('ls src'))
+    # copy the trusted model answers to data
     subprocess.run(
         [
             "rsync",
             "-azP",
             "--ignore-existing",
+            f"{EVAL_RESULTS_PATH}/internal/*",
+            "data/arena-hard-v0.1/model_answer/internal/",
         ],
         check=False,
     )
+    # copy the judgement pre generated
+    # Will be rewritten after we switch to new gen for each submit
     subprocess.run(
         [
             "rsync",
             "-azP",
             "--ignore-existing",
             f"{EVAL_RESULTS_PATH}/model_judgment/*",
+            "data/arena-hard-v0.1/model_judgement/",
         ],
         check=False,
     )