Word2Li
/

Llama3.1-8B-Middo-Wizard

@@ -18,8 +18,8 @@ model-index:
         name: MMLU
         type: MMLU
       metrics:
-        - name: Weighted Avg.
-          type: Weighted Avg.
           value: 48.39
           verified: true
     - task:
@@ -28,8 +28,8 @@ model-index:
         name: IFEval
         type: IFEval
       metrics:
-        - name: Avg.
-          type: Avg.
           value: 50.11
           verified: true
     - task:
@@ -38,8 +38,8 @@ model-index:
         name: GSM8K
         type: GSM8K
       metrics:
-        - name: pass@1
-          type: pass@1
           value: 54.44
           verified: true
     - task:
@@ -48,8 +48,8 @@ model-index:
         name: MATH
         type: MATH
       metrics:
-        - name: pass@1
-          type: pass@1
           value: 13.80
           verified: true
     - task:
@@ -58,8 +58,8 @@ model-index:
         name: HumanEval
         type: HumanEval
       metrics:
-        - name: pass@1
-          type: pass@1
           value: 46.95
           verified: true
     - task:
@@ -68,8 +68,8 @@ model-index:
         name: MBPP
         type: MBPP
       metrics:
-        - name: pass@1
-          type: pass@1
           value: 45.00
           verified: true
     - task:
@@ -78,8 +78,8 @@ model-index:
         name: Hellaswag
         type: Hellaswag
       metrics:
-        - name: pass@1
-          type: pass@1
           value: 63.54
           verified: true
     - task:
@@ -88,8 +88,8 @@ model-index:
         name: GPQA
         type: GPQA
       metrics:
-        - name: pass@1
-          type: pass@1
           value: 20.20
           verified: true
 metrics:
@@ -147,6 +147,15 @@ The following hyperparameters were used during training:
 - lr_scheduler_warmup_ratio: 0.03
 - num_epochs: 1.0
 ### Framework versions
 - Transformers 4.45.2

         name: MMLU
         type: MMLU
       metrics:
+        - name: weighted accuracy
+          type: weighted accuracy
           value: 48.39
           verified: true
     - task:
         name: IFEval
         type: IFEval
       metrics:
+        - name: overall accuracy
+          type: overall accuracy
           value: 50.11
           verified: true
     - task:
         name: GSM8K
         type: GSM8K
       metrics:
+        - name: accuracy
+          type: accuracy
           value: 54.44
           verified: true
     - task:
         name: MATH
         type: MATH
       metrics:
+        - name: accuracy
+          type: accuracy
           value: 13.80
           verified: true
     - task:
         name: HumanEval
         type: HumanEval
       metrics:
+        - name: humaneval_pass@1
+          type: humaneval_pass@1
           value: 46.95
           verified: true
     - task:
         name: MBPP
         type: MBPP
       metrics:
+        - name: score
+          type: score
           value: 45.00
           verified: true
     - task:
         name: Hellaswag
         type: Hellaswag
       metrics:
+        - name: accuracy
+          type: accuracy
           value: 63.54
           verified: true
     - task:
         name: GPQA
         type: GPQA
       metrics:
+        - name: accuracy
+          type: accuracy
           value: 20.20
           verified: true
 metrics:
 - lr_scheduler_warmup_ratio: 0.03
 - num_epochs: 1.0
+### Training results
+- epoch: 0.9973935708079931
+- total_flos: 2.698045158024282e + 18
+- train_loss: 0.5919382667707649
+- train_runtime: 4471.5794
+- train_samples_per_second: 16.469
+- train_steps_per_second: 0.064
 ### Framework versions
 - Transformers 4.45.2