zhangchen1991 commited on May 4

Commit

cb6024c

verified ·

1 Parent(s): 47a1a8c

Upload 20 files

Browse files

Files changed (21) hide show

.gitattributes +1 -0
README.md +61 -3
added_tokens.json +5 -0
all_results.json +8 -0
config.json +28 -0
generation_config.json +14 -0
merges.txt +0 -0
model-00001-of-00004.safetensors +3 -0
model-00002-of-00004.safetensors +3 -0
model-00003-of-00004.safetensors +3 -0
model-00004-of-00004.safetensors +3 -0
model.safetensors.index.json +346 -0
special_tokens_map.json +20 -0
tokenizer.json +3 -0
tokenizer_config.json +45 -0
train_results.json +8 -0
trainer_log.jsonl +94 -0
trainer_state.json +694 -0
training_args.bin +3 -0
training_loss.png +0 -0
vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,3 +1,61 @@
----
-license: apache-2.0
----

+---
+library_name: transformers
+license: other
+base_model: Qwen/Qwen2-7B-Instruct
+tags:
+- llama-factory
+- full
+- generated_from_trainer
+model-index:
+- name: r1baseline_qwen2_7b
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# r1baseline_qwen2_7b
+This model is a fine-tuned version of [Qwen/Qwen2-7B-Instruct](https://huggingface.co/Qwen/Qwen2-7B-Instruct) on the r1baseline dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 1e-05
+- train_batch_size: 2
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 8
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 64
+- total_eval_batch_size: 64
+- optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 1.0
+### Training results
+### Framework versions
+- Transformers 4.50.0
+- Pytorch 2.6.0+cu124
+- Datasets 3.4.1
+- Tokenizers 0.21.0

added_tokens.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "<|endoftext|>": 151643,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644
+}

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 0.999198503873898,
+    "total_flos": 294080346587136.0,
+    "train_loss": 0.8809508724008652,
+    "train_runtime": 6179.7212,
+    "train_samples_per_second": 9.691,
+    "train_steps_per_second": 0.151
+}

config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "architectures": [
+    "Qwen2ForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 3584,
+  "initializer_range": 0.02,
+  "intermediate_size": 18944,
+  "max_position_embeddings": 32768,
+  "max_window_layers": 28,
+  "model_type": "qwen2",
+  "num_attention_heads": 28,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 4,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "sliding_window": 131072,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.50.0",
+  "use_cache": false,
+  "use_sliding_window": false,
+  "vocab_size": 152064
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "repetition_penalty": 1.05,
+  "temperature": 0.7,
+  "top_k": 20,
+  "top_p": 0.8,
+  "transformers_version": "4.50.0"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b1e46c7694da8b15a754e6d2e41761106d783bcd73bda315069441388c8c4ce9
+size 4877660776

model-00002-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:39356877d47e3e6ae171668eed56aa63fa32005cfecbd8c2a2ca2687da38477e
+size 4932751008

model-00003-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9267f24e9d26393277a8481b783d6c20db73ebe0146eebed814e14f6ea074feb
+size 4330865200

model-00004-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:88e7cdfe6ccdb7eae0fe4a3cc7f8a0f7d6b7a627d4c9c64eb0bb058525ee18b6
+size 1089994880

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,346 @@

+{
+  "metadata": {
+    "total_size": 15231233024
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00004-of-00004.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.norm.weight": "model-00003-of-00004.safetensors"
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,20 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bcfe42da0a4497e8b2b172c1f9f4ec423a46dc12907f4349c55025f670422ba9
+size 11418266

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,45 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>"
+  ],
+  "bos_token": null,
+  "chat_template": "{% for message in messages %}{% if loop.first and messages[0]['role'] != 'system' %}{{ '<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n' }}{% endif %}{{'<|im_start|>' + message['role'] + '\n' + message['content'] + '<|im_end|>' + '\n'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant\n' }}{% endif %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "right",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 0.999198503873898,
+    "total_flos": 294080346587136.0,
+    "train_loss": 0.8809508724008652,
+    "train_runtime": 6179.7212,
+    "train_samples_per_second": 9.691,
+    "train_steps_per_second": 0.151
+}

trainer_log.jsonl ADDED Viewed

	@@ -0,0 +1,94 @@

+{"current_steps": 10, "total_steps": 935, "loss": 1.6763, "lr": 1.0638297872340427e-06, "epoch": 0.010686615014694095, "percentage": 1.07, "elapsed_time": "0:01:17", "remaining_time": "1:58:48"}
+{"current_steps": 20, "total_steps": 935, "loss": 1.425, "lr": 2.1276595744680853e-06, "epoch": 0.02137323002938819, "percentage": 2.14, "elapsed_time": "0:02:17", "remaining_time": "1:45:08"}
+{"current_steps": 30, "total_steps": 935, "loss": 1.1906, "lr": 3.191489361702128e-06, "epoch": 0.03205984504408229, "percentage": 3.21, "elapsed_time": "0:03:18", "remaining_time": "1:40:00"}
+{"current_steps": 40, "total_steps": 935, "loss": 1.0792, "lr": 4.255319148936171e-06, "epoch": 0.04274646005877638, "percentage": 4.28, "elapsed_time": "0:04:27", "remaining_time": "1:39:51"}
+{"current_steps": 50, "total_steps": 935, "loss": 1.0284, "lr": 5.319148936170213e-06, "epoch": 0.053433075073470476, "percentage": 5.35, "elapsed_time": "0:05:31", "remaining_time": "1:37:49"}
+{"current_steps": 60, "total_steps": 935, "loss": 1.0023, "lr": 6.382978723404256e-06, "epoch": 0.06411969008816458, "percentage": 6.42, "elapsed_time": "0:06:40", "remaining_time": "1:37:19"}
+{"current_steps": 70, "total_steps": 935, "loss": 0.9698, "lr": 7.446808510638298e-06, "epoch": 0.07480630510285867, "percentage": 7.49, "elapsed_time": "0:07:46", "remaining_time": "1:36:09"}
+{"current_steps": 80, "total_steps": 935, "loss": 0.9759, "lr": 8.510638297872341e-06, "epoch": 0.08549292011755276, "percentage": 8.56, "elapsed_time": "0:08:49", "remaining_time": "1:34:22"}
+{"current_steps": 90, "total_steps": 935, "loss": 0.9531, "lr": 9.574468085106385e-06, "epoch": 0.09617953513224686, "percentage": 9.63, "elapsed_time": "0:09:56", "remaining_time": "1:33:20"}
+{"current_steps": 100, "total_steps": 935, "loss": 0.9628, "lr": 9.998744166446685e-06, "epoch": 0.10686615014694095, "percentage": 10.7, "elapsed_time": "0:11:01", "remaining_time": "1:32:02"}
+{"current_steps": 110, "total_steps": 935, "loss": 0.9529, "lr": 9.991071912495701e-06, "epoch": 0.11755276516163506, "percentage": 11.76, "elapsed_time": "0:12:04", "remaining_time": "1:30:34"}
+{"current_steps": 120, "total_steps": 935, "loss": 0.9425, "lr": 9.97643578176095e-06, "epoch": 0.12823938017632916, "percentage": 12.83, "elapsed_time": "0:13:08", "remaining_time": "1:29:12"}
+{"current_steps": 130, "total_steps": 935, "loss": 0.9351, "lr": 9.95485619554928e-06, "epoch": 0.13892599519102325, "percentage": 13.9, "elapsed_time": "0:14:17", "remaining_time": "1:28:27"}
+{"current_steps": 140, "total_steps": 935, "loss": 0.9183, "lr": 9.926363263140234e-06, "epoch": 0.14961261020571734, "percentage": 14.97, "elapsed_time": "0:15:15", "remaining_time": "1:26:40"}
+{"current_steps": 150, "total_steps": 935, "loss": 0.9164, "lr": 9.890996739775562e-06, "epoch": 0.16029922522041143, "percentage": 16.04, "elapsed_time": "0:16:19", "remaining_time": "1:25:25"}
+{"current_steps": 160, "total_steps": 935, "loss": 0.9158, "lr": 9.848805971190074e-06, "epoch": 0.17098584023510552, "percentage": 17.11, "elapsed_time": "0:17:23", "remaining_time": "1:24:12"}
+{"current_steps": 170, "total_steps": 935, "loss": 0.9049, "lr": 9.799849824761159e-06, "epoch": 0.18167245524979964, "percentage": 18.18, "elapsed_time": "0:18:29", "remaining_time": "1:23:13"}
+{"current_steps": 180, "total_steps": 935, "loss": 0.8936, "lr": 9.744196607373086e-06, "epoch": 0.19235907026449373, "percentage": 19.25, "elapsed_time": "0:19:32", "remaining_time": "1:21:58"}
+{"current_steps": 190, "total_steps": 935, "loss": 0.9022, "lr": 9.681923970110698e-06, "epoch": 0.20304568527918782, "percentage": 20.32, "elapsed_time": "0:20:37", "remaining_time": "1:20:51"}
+{"current_steps": 200, "total_steps": 935, "loss": 0.9003, "lr": 9.613118799915417e-06, "epoch": 0.2137323002938819, "percentage": 21.39, "elapsed_time": "0:21:41", "remaining_time": "1:19:43"}
+{"current_steps": 210, "total_steps": 935, "loss": 0.9008, "lr": 9.537877098354787e-06, "epoch": 0.224418915308576, "percentage": 22.46, "elapsed_time": "0:23:10", "remaining_time": "1:20:01"}
+{"current_steps": 220, "total_steps": 935, "loss": 0.8966, "lr": 9.456303847674674e-06, "epoch": 0.2351055303232701, "percentage": 23.53, "elapsed_time": "0:24:17", "remaining_time": "1:18:56"}
+{"current_steps": 230, "total_steps": 935, "loss": 0.8959, "lr": 9.36851286432104e-06, "epoch": 0.2457921453379642, "percentage": 24.6, "elapsed_time": "0:25:21", "remaining_time": "1:17:44"}
+{"current_steps": 240, "total_steps": 935, "loss": 0.8919, "lr": 9.274626640135616e-06, "epoch": 0.2564787603526583, "percentage": 25.67, "elapsed_time": "0:26:26", "remaining_time": "1:16:33"}
+{"current_steps": 250, "total_steps": 935, "loss": 0.8899, "lr": 9.174776171447126e-06, "epoch": 0.2671653753673524, "percentage": 26.74, "elapsed_time": "0:27:41", "remaining_time": "1:15:51"}
+{"current_steps": 260, "total_steps": 935, "loss": 0.9066, "lr": 9.06910077629645e-06, "epoch": 0.2778519903820465, "percentage": 27.81, "elapsed_time": "0:28:41", "remaining_time": "1:14:28"}
+{"current_steps": 270, "total_steps": 935, "loss": 0.881, "lr": 8.957747900050797e-06, "epoch": 0.2885386053967406, "percentage": 28.88, "elapsed_time": "0:29:46", "remaining_time": "1:13:19"}
+{"current_steps": 280, "total_steps": 935, "loss": 0.8909, "lr": 8.840872909678081e-06, "epoch": 0.2992252204114347, "percentage": 29.95, "elapsed_time": "0:30:49", "remaining_time": "1:12:07"}
+{"current_steps": 290, "total_steps": 935, "loss": 0.8815, "lr": 8.718638876968564e-06, "epoch": 0.30991183542612877, "percentage": 31.02, "elapsed_time": "0:31:49", "remaining_time": "1:10:47"}
+{"current_steps": 300, "total_steps": 935, "loss": 0.8817, "lr": 8.591216351006181e-06, "epoch": 0.32059845044082286, "percentage": 32.09, "elapsed_time": "0:32:54", "remaining_time": "1:09:39"}
+{"current_steps": 310, "total_steps": 935, "loss": 0.8939, "lr": 8.458783120207099e-06, "epoch": 0.33128506545551695, "percentage": 33.16, "elapsed_time": "0:33:56", "remaining_time": "1:08:25"}
+{"current_steps": 320, "total_steps": 935, "loss": 0.8768, "lr": 8.321523964257431e-06, "epoch": 0.34197168047021104, "percentage": 34.22, "elapsed_time": "0:35:06", "remaining_time": "1:07:28"}
+{"current_steps": 330, "total_steps": 935, "loss": 0.8785, "lr": 8.179630396296285e-06, "epoch": 0.3526582954849052, "percentage": 35.29, "elapsed_time": "0:36:13", "remaining_time": "1:06:24"}
+{"current_steps": 340, "total_steps": 935, "loss": 0.8743, "lr": 8.033300395703845e-06, "epoch": 0.36334491049959927, "percentage": 36.36, "elapsed_time": "0:37:10", "remaining_time": "1:05:04"}
+{"current_steps": 350, "total_steps": 935, "loss": 0.8745, "lr": 7.88273813186732e-06, "epoch": 0.37403152551429336, "percentage": 37.43, "elapsed_time": "0:38:18", "remaining_time": "1:04:01"}
+{"current_steps": 360, "total_steps": 935, "loss": 0.8695, "lr": 7.728153679310186e-06, "epoch": 0.38471814052898745, "percentage": 38.5, "elapsed_time": "0:39:20", "remaining_time": "1:02:49"}
+{"current_steps": 370, "total_steps": 935, "loss": 0.8658, "lr": 7.569762724582179e-06, "epoch": 0.39540475554368154, "percentage": 39.57, "elapsed_time": "0:40:21", "remaining_time": "1:01:37"}
+{"current_steps": 380, "total_steps": 935, "loss": 0.8744, "lr": 7.407786265319023e-06, "epoch": 0.40609137055837563, "percentage": 40.64, "elapsed_time": "0:41:24", "remaining_time": "1:00:28"}
+{"current_steps": 390, "total_steps": 935, "loss": 0.8656, "lr": 7.242450301891772e-06, "epoch": 0.4167779855730697, "percentage": 41.71, "elapsed_time": "0:42:29", "remaining_time": "0:59:22"}
+{"current_steps": 400, "total_steps": 935, "loss": 0.8749, "lr": 7.073985522076001e-06, "epoch": 0.4274646005877638, "percentage": 42.78, "elapsed_time": "0:43:32", "remaining_time": "0:58:14"}
+{"current_steps": 410, "total_steps": 935, "loss": 0.8583, "lr": 6.902626979180821e-06, "epoch": 0.4381512156024579, "percentage": 43.85, "elapsed_time": "0:44:56", "remaining_time": "0:57:32"}
+{"current_steps": 420, "total_steps": 935, "loss": 0.8658, "lr": 6.728613764086806e-06, "epoch": 0.448837830617152, "percentage": 44.92, "elapsed_time": "0:46:04", "remaining_time": "0:56:29"}
+{"current_steps": 430, "total_steps": 935, "loss": 0.8588, "lr": 6.552188671650434e-06, "epoch": 0.45952444563184613, "percentage": 45.99, "elapsed_time": "0:47:05", "remaining_time": "0:55:18"}
+{"current_steps": 440, "total_steps": 935, "loss": 0.8474, "lr": 6.373597861940488e-06, "epoch": 0.4702110606465402, "percentage": 47.06, "elapsed_time": "0:48:11", "remaining_time": "0:54:13"}
+{"current_steps": 450, "total_steps": 935, "loss": 0.85, "lr": 6.1930905167791025e-06, "epoch": 0.4808976756612343, "percentage": 48.13, "elapsed_time": "0:49:18", "remaining_time": "0:53:08"}
+{"current_steps": 460, "total_steps": 935, "loss": 0.8446, "lr": 6.010918492066628e-06, "epoch": 0.4915842906759284, "percentage": 49.2, "elapsed_time": "0:50:27", "remaining_time": "0:52:06"}
+{"current_steps": 470, "total_steps": 935, "loss": 0.8568, "lr": 5.827335966375485e-06, "epoch": 0.5022709056906225, "percentage": 50.27, "elapsed_time": "0:51:36", "remaining_time": "0:51:03"}
+{"current_steps": 480, "total_steps": 935, "loss": 0.8546, "lr": 5.642599086303233e-06, "epoch": 0.5129575207053166, "percentage": 51.34, "elapsed_time": "0:52:37", "remaining_time": "0:49:53"}
+{"current_steps": 490, "total_steps": 935, "loss": 0.841, "lr": 5.456965609079741e-06, "epoch": 0.5236441357200107, "percentage": 52.41, "elapsed_time": "0:53:42", "remaining_time": "0:48:46"}
+{"current_steps": 500, "total_steps": 935, "loss": 0.8489, "lr": 5.270694542927089e-06, "epoch": 0.5343307507347048, "percentage": 53.48, "elapsed_time": "0:54:47", "remaining_time": "0:47:40"}
+{"current_steps": 510, "total_steps": 935, "loss": 0.8348, "lr": 5.084045785674001e-06, "epoch": 0.5450173657493989, "percentage": 54.55, "elapsed_time": "0:55:49", "remaining_time": "0:46:31"}
+{"current_steps": 520, "total_steps": 935, "loss": 0.8409, "lr": 4.897279762129044e-06, "epoch": 0.555703980764093, "percentage": 55.61, "elapsed_time": "0:56:56", "remaining_time": "0:45:26"}
+{"current_steps": 530, "total_steps": 935, "loss": 0.8499, "lr": 4.710657060718547e-06, "epoch": 0.566390595778787, "percentage": 56.68, "elapsed_time": "0:58:07", "remaining_time": "0:44:25"}
+{"current_steps": 540, "total_steps": 935, "loss": 0.8433, "lr": 4.52443806989622e-06, "epoch": 0.5770772107934812, "percentage": 57.75, "elapsed_time": "0:59:08", "remaining_time": "0:43:15"}
+{"current_steps": 550, "total_steps": 935, "loss": 0.8412, "lr": 4.338882614831817e-06, "epoch": 0.5877638258081752, "percentage": 58.82, "elapsed_time": "1:00:16", "remaining_time": "0:42:11"}
+{"current_steps": 560, "total_steps": 935, "loss": 0.8335, "lr": 4.154249594885687e-06, "epoch": 0.5984504408228694, "percentage": 59.89, "elapsed_time": "1:01:21", "remaining_time": "0:41:05"}
+{"current_steps": 570, "total_steps": 935, "loss": 0.8257, "lr": 3.970796622375116e-06, "epoch": 0.6091370558375635, "percentage": 60.96, "elapsed_time": "1:02:22", "remaining_time": "0:39:56"}
+{"current_steps": 580, "total_steps": 935, "loss": 0.8417, "lr": 3.78877966313642e-06, "epoch": 0.6198236708522575, "percentage": 62.03, "elapsed_time": "1:03:24", "remaining_time": "0:38:48"}
+{"current_steps": 590, "total_steps": 935, "loss": 0.8394, "lr": 3.608452679384311e-06, "epoch": 0.6305102858669517, "percentage": 63.1, "elapsed_time": "1:04:28", "remaining_time": "0:37:42"}
+{"current_steps": 600, "total_steps": 935, "loss": 0.8363, "lr": 3.4300672753668635e-06, "epoch": 0.6411969008816457, "percentage": 64.17, "elapsed_time": "1:05:33", "remaining_time": "0:36:36"}
+{"current_steps": 610, "total_steps": 935, "loss": 0.8237, "lr": 3.2538723463104737e-06, "epoch": 0.6518835158963399, "percentage": 65.24, "elapsed_time": "1:07:04", "remaining_time": "0:35:44"}
+{"current_steps": 620, "total_steps": 935, "loss": 0.8403, "lr": 3.0801137311446087e-06, "epoch": 0.6625701309110339, "percentage": 66.31, "elapsed_time": "1:08:13", "remaining_time": "0:34:39"}
+{"current_steps": 630, "total_steps": 935, "loss": 0.8283, "lr": 2.9090338694909254e-06, "epoch": 0.673256745925728, "percentage": 67.38, "elapsed_time": "1:09:22", "remaining_time": "0:33:35"}
+{"current_steps": 640, "total_steps": 935, "loss": 0.8288, "lr": 2.740871463395325e-06, "epoch": 0.6839433609404221, "percentage": 68.45, "elapsed_time": "1:10:29", "remaining_time": "0:32:29"}
+{"current_steps": 650, "total_steps": 935, "loss": 0.829, "lr": 2.575861144274914e-06, "epoch": 0.6946299759551162, "percentage": 69.52, "elapsed_time": "1:11:35", "remaining_time": "0:31:23"}
+{"current_steps": 660, "total_steps": 935, "loss": 0.8256, "lr": 2.414233145544585e-06, "epoch": 0.7053165909698104, "percentage": 70.59, "elapsed_time": "1:12:39", "remaining_time": "0:30:16"}
+{"current_steps": 670, "total_steps": 935, "loss": 0.813, "lr": 2.256212981379996e-06, "epoch": 0.7160032059845044, "percentage": 71.66, "elapsed_time": "1:13:42", "remaining_time": "0:29:09"}
+{"current_steps": 680, "total_steps": 935, "loss": 0.8196, "lr": 2.1020211320651135e-06, "epoch": 0.7266898209991985, "percentage": 72.73, "elapsed_time": "1:14:44", "remaining_time": "0:28:01"}
+{"current_steps": 690, "total_steps": 935, "loss": 0.8186, "lr": 1.9518727363634187e-06, "epoch": 0.7373764360138926, "percentage": 73.8, "elapsed_time": "1:15:47", "remaining_time": "0:26:54"}
+{"current_steps": 700, "total_steps": 935, "loss": 0.8301, "lr": 1.8059772913419305e-06, "epoch": 0.7480630510285867, "percentage": 74.87, "elapsed_time": "1:16:56", "remaining_time": "0:25:49"}
+{"current_steps": 710, "total_steps": 935, "loss": 0.8278, "lr": 1.6645383600669124e-06, "epoch": 0.7587496660432808, "percentage": 75.94, "elapsed_time": "1:17:57", "remaining_time": "0:24:42"}
+{"current_steps": 720, "total_steps": 935, "loss": 0.8067, "lr": 1.527753287579084e-06, "epoch": 0.7694362810579749, "percentage": 77.01, "elapsed_time": "1:18:56", "remaining_time": "0:23:34"}
+{"current_steps": 730, "total_steps": 935, "loss": 0.8201, "lr": 1.3958129255446585e-06, "epoch": 0.7801228960726689, "percentage": 78.07, "elapsed_time": "1:20:08", "remaining_time": "0:22:30"}
+{"current_steps": 740, "total_steps": 935, "loss": 0.8143, "lr": 1.268901365966337e-06, "epoch": 0.7908095110873631, "percentage": 79.14, "elapsed_time": "1:21:14", "remaining_time": "0:21:24"}
+{"current_steps": 750, "total_steps": 935, "loss": 0.8227, "lr": 1.1471956843258676e-06, "epoch": 0.8014961261020572, "percentage": 80.21, "elapsed_time": "1:22:28", "remaining_time": "0:20:20"}
+{"current_steps": 760, "total_steps": 935, "loss": 0.8061, "lr": 1.0308656925165033e-06, "epoch": 0.8121827411167513, "percentage": 81.28, "elapsed_time": "1:23:26", "remaining_time": "0:19:12"}
+{"current_steps": 770, "total_steps": 935, "loss": 0.8167, "lr": 9.200737019101169e-07, "epoch": 0.8228693561314454, "percentage": 82.35, "elapsed_time": "1:24:37", "remaining_time": "0:18:08"}
+{"current_steps": 780, "total_steps": 935, "loss": 0.8238, "lr": 8.149742968895253e-07, "epoch": 0.8335559711461394, "percentage": 83.42, "elapsed_time": "1:25:40", "remaining_time": "0:17:01"}
+{"current_steps": 790, "total_steps": 935, "loss": 0.8121, "lr": 7.157141191620548e-07, "epoch": 0.8442425861608336, "percentage": 84.49, "elapsed_time": "1:26:42", "remaining_time": "0:15:54"}
+{"current_steps": 800, "total_steps": 935, "loss": 0.8215, "lr": 6.224316631552207e-07, "epoch": 0.8549292011755276, "percentage": 85.56, "elapsed_time": "1:27:44", "remaining_time": "0:14:48"}
+{"current_steps": 810, "total_steps": 935, "loss": 0.8097, "lr": 5.35257082780069e-07, "epoch": 0.8656158161902218, "percentage": 86.63, "elapsed_time": "1:29:15", "remaining_time": "0:13:46"}
+{"current_steps": 820, "total_steps": 935, "loss": 0.8155, "lr": 4.5431200983174493e-07, "epoch": 0.8763024312049158, "percentage": 87.7, "elapsed_time": "1:30:23", "remaining_time": "0:12:40"}
+{"current_steps": 830, "total_steps": 935, "loss": 0.8074, "lr": 3.7970938428068813e-07, "epoch": 0.88698904621961, "percentage": 88.77, "elapsed_time": "1:31:30", "remaining_time": "0:11:34"}
+{"current_steps": 840, "total_steps": 935, "loss": 0.8174, "lr": 3.1155329669124876e-07, "epoch": 0.897675661234304, "percentage": 89.84, "elapsed_time": "1:32:36", "remaining_time": "0:10:28"}
+{"current_steps": 850, "total_steps": 935, "loss": 0.8224, "lr": 2.4993884298758097e-07, "epoch": 0.9083622762489981, "percentage": 90.91, "elapsed_time": "1:33:42", "remaining_time": "0:09:22"}
+{"current_steps": 860, "total_steps": 935, "loss": 0.8165, "lr": 1.9495199176945977e-07, "epoch": 0.9190488912636923, "percentage": 91.98, "elapsed_time": "1:34:44", "remaining_time": "0:08:15"}
+{"current_steps": 870, "total_steps": 935, "loss": 0.81, "lr": 1.4666946436314832e-07, "epoch": 0.9297355062783863, "percentage": 93.05, "elapsed_time": "1:35:51", "remaining_time": "0:07:09"}
+{"current_steps": 880, "total_steps": 935, "loss": 0.8017, "lr": 1.0515862777468689e-07, "epoch": 0.9404221212930804, "percentage": 94.12, "elapsed_time": "1:36:55", "remaining_time": "0:06:03"}
+{"current_steps": 890, "total_steps": 935, "loss": 0.8027, "lr": 7.047740069494102e-08, "epoch": 0.9511087363077745, "percentage": 95.19, "elapsed_time": "1:37:58", "remaining_time": "0:04:57"}
+{"current_steps": 900, "total_steps": 935, "loss": 0.8162, "lr": 4.267417268758123e-08, "epoch": 0.9617953513224686, "percentage": 96.26, "elapsed_time": "1:39:03", "remaining_time": "0:03:51"}
+{"current_steps": 910, "total_steps": 935, "loss": 0.7977, "lr": 2.178773667273204e-08, "epoch": 0.9724819663371627, "percentage": 97.33, "elapsed_time": "1:40:06", "remaining_time": "0:02:45"}
+{"current_steps": 920, "total_steps": 935, "loss": 0.7983, "lr": 7.84723480049765e-09, "epoch": 0.9831685813518568, "percentage": 98.4, "elapsed_time": "1:41:05", "remaining_time": "0:01:38"}
+{"current_steps": 930, "total_steps": 935, "loss": 0.8076, "lr": 8.721177898912691e-10, "epoch": 0.9938551963665508, "percentage": 99.47, "elapsed_time": "1:42:06", "remaining_time": "0:00:32"}
+{"current_steps": 935, "total_steps": 935, "epoch": 0.999198503873898, "percentage": 100.0, "elapsed_time": "1:42:59", "remaining_time": "0:00:00"}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,694 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.999198503873898,
+  "eval_steps": 500,
+  "global_step": 935,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.010686615014694095,
+      "grad_norm": 9.303718590529266,
+      "learning_rate": 1.0638297872340427e-06,
+      "loss": 1.6763,
+      "step": 10
+    },
+    {
+      "epoch": 0.02137323002938819,
+      "grad_norm": 4.2049552040041025,
+      "learning_rate": 2.1276595744680853e-06,
+      "loss": 1.425,
+      "step": 20
+    },
+    {
+      "epoch": 0.03205984504408229,
+      "grad_norm": 2.5917969502796803,
+      "learning_rate": 3.191489361702128e-06,
+      "loss": 1.1906,
+      "step": 30
+    },
+    {
+      "epoch": 0.04274646005877638,
+      "grad_norm": 2.0653738579527476,
+      "learning_rate": 4.255319148936171e-06,
+      "loss": 1.0792,
+      "step": 40
+    },
+    {
+      "epoch": 0.053433075073470476,
+      "grad_norm": 2.184126642400671,
+      "learning_rate": 5.319148936170213e-06,
+      "loss": 1.0284,
+      "step": 50
+    },
+    {
+      "epoch": 0.06411969008816458,
+      "grad_norm": 1.9923309458736422,
+      "learning_rate": 6.382978723404256e-06,
+      "loss": 1.0023,
+      "step": 60
+    },
+    {
+      "epoch": 0.07480630510285867,
+      "grad_norm": 2.287951064859182,
+      "learning_rate": 7.446808510638298e-06,
+      "loss": 0.9698,
+      "step": 70
+    },
+    {
+      "epoch": 0.08549292011755276,
+      "grad_norm": 2.043235348375586,
+      "learning_rate": 8.510638297872341e-06,
+      "loss": 0.9759,
+      "step": 80
+    },
+    {
+      "epoch": 0.09617953513224686,
+      "grad_norm": 2.1176843964719225,
+      "learning_rate": 9.574468085106385e-06,
+      "loss": 0.9531,
+      "step": 90
+    },
+    {
+      "epoch": 0.10686615014694095,
+      "grad_norm": 2.0184548371650677,
+      "learning_rate": 9.998744166446685e-06,
+      "loss": 0.9628,
+      "step": 100
+    },
+    {
+      "epoch": 0.11755276516163506,
+      "grad_norm": 1.9759360997141997,
+      "learning_rate": 9.991071912495701e-06,
+      "loss": 0.9529,
+      "step": 110
+    },
+    {
+      "epoch": 0.12823938017632916,
+      "grad_norm": 1.9057746837755876,
+      "learning_rate": 9.97643578176095e-06,
+      "loss": 0.9425,
+      "step": 120
+    },
+    {
+      "epoch": 0.13892599519102325,
+      "grad_norm": 1.8896256230313964,
+      "learning_rate": 9.95485619554928e-06,
+      "loss": 0.9351,
+      "step": 130
+    },
+    {
+      "epoch": 0.14961261020571734,
+      "grad_norm": 1.822347337941142,
+      "learning_rate": 9.926363263140234e-06,
+      "loss": 0.9183,
+      "step": 140
+    },
+    {
+      "epoch": 0.16029922522041143,
+      "grad_norm": 1.8750489996356339,
+      "learning_rate": 9.890996739775562e-06,
+      "loss": 0.9164,
+      "step": 150
+    },
+    {
+      "epoch": 0.17098584023510552,
+      "grad_norm": 1.9672887139009323,
+      "learning_rate": 9.848805971190074e-06,
+      "loss": 0.9158,
+      "step": 160
+    },
+    {
+      "epoch": 0.18167245524979964,
+      "grad_norm": 1.906400621786519,
+      "learning_rate": 9.799849824761159e-06,
+      "loss": 0.9049,
+      "step": 170
+    },
+    {
+      "epoch": 0.19235907026449373,
+      "grad_norm": 1.8045388292051818,
+      "learning_rate": 9.744196607373086e-06,
+      "loss": 0.8936,
+      "step": 180
+    },
+    {
+      "epoch": 0.20304568527918782,
+      "grad_norm": 1.6986711816736872,
+      "learning_rate": 9.681923970110698e-06,
+      "loss": 0.9022,
+      "step": 190
+    },
+    {
+      "epoch": 0.2137323002938819,
+      "grad_norm": 1.7502980629856069,
+      "learning_rate": 9.613118799915417e-06,
+      "loss": 0.9003,
+      "step": 200
+    },
+    {
+      "epoch": 0.224418915308576,
+      "grad_norm": 1.7942316840778598,
+      "learning_rate": 9.537877098354787e-06,
+      "loss": 0.9008,
+      "step": 210
+    },
+    {
+      "epoch": 0.2351055303232701,
+      "grad_norm": 1.6977332582107252,
+      "learning_rate": 9.456303847674674e-06,
+      "loss": 0.8966,
+      "step": 220
+    },
+    {
+      "epoch": 0.2457921453379642,
+      "grad_norm": 1.8046282276555958,
+      "learning_rate": 9.36851286432104e-06,
+      "loss": 0.8959,
+      "step": 230
+    },
+    {
+      "epoch": 0.2564787603526583,
+      "grad_norm": 1.7598460527365811,
+      "learning_rate": 9.274626640135616e-06,
+      "loss": 0.8919,
+      "step": 240
+    },
+    {
+      "epoch": 0.2671653753673524,
+      "grad_norm": 1.7306968231867716,
+      "learning_rate": 9.174776171447126e-06,
+      "loss": 0.8899,
+      "step": 250
+    },
+    {
+      "epoch": 0.2778519903820465,
+      "grad_norm": 1.8487739920505808,
+      "learning_rate": 9.06910077629645e-06,
+      "loss": 0.9066,
+      "step": 260
+    },
+    {
+      "epoch": 0.2885386053967406,
+      "grad_norm": 1.8204032354319712,
+      "learning_rate": 8.957747900050797e-06,
+      "loss": 0.881,
+      "step": 270
+    },
+    {
+      "epoch": 0.2992252204114347,
+      "grad_norm": 1.7438745810568204,
+      "learning_rate": 8.840872909678081e-06,
+      "loss": 0.8909,
+      "step": 280
+    },
+    {
+      "epoch": 0.30991183542612877,
+      "grad_norm": 1.6992585656448118,
+      "learning_rate": 8.718638876968564e-06,
+      "loss": 0.8815,
+      "step": 290
+    },
+    {
+      "epoch": 0.32059845044082286,
+      "grad_norm": 1.7385894205587356,
+      "learning_rate": 8.591216351006181e-06,
+      "loss": 0.8817,
+      "step": 300
+    },
+    {
+      "epoch": 0.33128506545551695,
+      "grad_norm": 1.84244911709608,
+      "learning_rate": 8.458783120207099e-06,
+      "loss": 0.8939,
+      "step": 310
+    },
+    {
+      "epoch": 0.34197168047021104,
+      "grad_norm": 1.9043335502002536,
+      "learning_rate": 8.321523964257431e-06,
+      "loss": 0.8768,
+      "step": 320
+    },
+    {
+      "epoch": 0.3526582954849052,
+      "grad_norm": 1.7768671122350428,
+      "learning_rate": 8.179630396296285e-06,
+      "loss": 0.8785,
+      "step": 330
+    },
+    {
+      "epoch": 0.36334491049959927,
+      "grad_norm": 1.6006153712263769,
+      "learning_rate": 8.033300395703845e-06,
+      "loss": 0.8743,
+      "step": 340
+    },
+    {
+      "epoch": 0.37403152551429336,
+      "grad_norm": 1.5679354254760447,
+      "learning_rate": 7.88273813186732e-06,
+      "loss": 0.8745,
+      "step": 350
+    },
+    {
+      "epoch": 0.38471814052898745,
+      "grad_norm": 1.606479410734,
+      "learning_rate": 7.728153679310186e-06,
+      "loss": 0.8695,
+      "step": 360
+    },
+    {
+      "epoch": 0.39540475554368154,
+      "grad_norm": 1.6159012242347945,
+      "learning_rate": 7.569762724582179e-06,
+      "loss": 0.8658,
+      "step": 370
+    },
+    {
+      "epoch": 0.40609137055837563,
+      "grad_norm": 1.5775692676139867,
+      "learning_rate": 7.407786265319023e-06,
+      "loss": 0.8744,
+      "step": 380
+    },
+    {
+      "epoch": 0.4167779855730697,
+      "grad_norm": 1.646902202098876,
+      "learning_rate": 7.242450301891772e-06,
+      "loss": 0.8656,
+      "step": 390
+    },
+    {
+      "epoch": 0.4274646005877638,
+      "grad_norm": 1.8815811353495957,
+      "learning_rate": 7.073985522076001e-06,
+      "loss": 0.8749,
+      "step": 400
+    },
+    {
+      "epoch": 0.4381512156024579,
+      "grad_norm": 1.7119004087394138,
+      "learning_rate": 6.902626979180821e-06,
+      "loss": 0.8583,
+      "step": 410
+    },
+    {
+      "epoch": 0.448837830617152,
+      "grad_norm": 1.7052535262427972,
+      "learning_rate": 6.728613764086806e-06,
+      "loss": 0.8658,
+      "step": 420
+    },
+    {
+      "epoch": 0.45952444563184613,
+      "grad_norm": 1.6949567528292615,
+      "learning_rate": 6.552188671650434e-06,
+      "loss": 0.8588,
+      "step": 430
+    },
+    {
+      "epoch": 0.4702110606465402,
+      "grad_norm": 1.712559437409894,
+      "learning_rate": 6.373597861940488e-06,
+      "loss": 0.8474,
+      "step": 440
+    },
+    {
+      "epoch": 0.4808976756612343,
+      "grad_norm": 1.5211458326520666,
+      "learning_rate": 6.1930905167791025e-06,
+      "loss": 0.85,
+      "step": 450
+    },
+    {
+      "epoch": 0.4915842906759284,
+      "grad_norm": 1.6809900461998935,
+      "learning_rate": 6.010918492066628e-06,
+      "loss": 0.8446,
+      "step": 460
+    },
+    {
+      "epoch": 0.5022709056906225,
+      "grad_norm": 1.6045002009736615,
+      "learning_rate": 5.827335966375485e-06,
+      "loss": 0.8568,
+      "step": 470
+    },
+    {
+      "epoch": 0.5129575207053166,
+      "grad_norm": 1.7403739000791214,
+      "learning_rate": 5.642599086303233e-06,
+      "loss": 0.8546,
+      "step": 480
+    },
+    {
+      "epoch": 0.5236441357200107,
+      "grad_norm": 1.5403177746230916,
+      "learning_rate": 5.456965609079741e-06,
+      "loss": 0.841,
+      "step": 490
+    },
+    {
+      "epoch": 0.5343307507347048,
+      "grad_norm": 1.6247784516190182,
+      "learning_rate": 5.270694542927089e-06,
+      "loss": 0.8489,
+      "step": 500
+    },
+    {
+      "epoch": 0.5450173657493989,
+      "grad_norm": 1.5920701242817856,
+      "learning_rate": 5.084045785674001e-06,
+      "loss": 0.8348,
+      "step": 510
+    },
+    {
+      "epoch": 0.555703980764093,
+      "grad_norm": 1.5609228162933224,
+      "learning_rate": 4.897279762129044e-06,
+      "loss": 0.8409,
+      "step": 520
+    },
+    {
+      "epoch": 0.566390595778787,
+      "grad_norm": 1.5517291862499378,
+      "learning_rate": 4.710657060718547e-06,
+      "loss": 0.8499,
+      "step": 530
+    },
+    {
+      "epoch": 0.5770772107934812,
+      "grad_norm": 1.5438065032843633,
+      "learning_rate": 4.52443806989622e-06,
+      "loss": 0.8433,
+      "step": 540
+    },
+    {
+      "epoch": 0.5877638258081752,
+      "grad_norm": 1.570747625419,
+      "learning_rate": 4.338882614831817e-06,
+      "loss": 0.8412,
+      "step": 550
+    },
+    {
+      "epoch": 0.5984504408228694,
+      "grad_norm": 1.578653927808263,
+      "learning_rate": 4.154249594885687e-06,
+      "loss": 0.8335,
+      "step": 560
+    },
+    {
+      "epoch": 0.6091370558375635,
+      "grad_norm": 1.5460487548547177,
+      "learning_rate": 3.970796622375116e-06,
+      "loss": 0.8257,
+      "step": 570
+    },
+    {
+      "epoch": 0.6198236708522575,
+      "grad_norm": 1.6247896398878883,
+      "learning_rate": 3.78877966313642e-06,
+      "loss": 0.8417,
+      "step": 580
+    },
+    {
+      "epoch": 0.6305102858669517,
+      "grad_norm": 1.5766609294405798,
+      "learning_rate": 3.608452679384311e-06,
+      "loss": 0.8394,
+      "step": 590
+    },
+    {
+      "epoch": 0.6411969008816457,
+      "grad_norm": 1.5009363290484534,
+      "learning_rate": 3.4300672753668635e-06,
+      "loss": 0.8363,
+      "step": 600
+    },
+    {
+      "epoch": 0.6518835158963399,
+      "grad_norm": 1.3449975185358125,
+      "learning_rate": 3.2538723463104737e-06,
+      "loss": 0.8237,
+      "step": 610
+    },
+    {
+      "epoch": 0.6625701309110339,
+      "grad_norm": 1.5414021316742408,
+      "learning_rate": 3.0801137311446087e-06,
+      "loss": 0.8403,
+      "step": 620
+    },
+    {
+      "epoch": 0.673256745925728,
+      "grad_norm": 1.5417414906318716,
+      "learning_rate": 2.9090338694909254e-06,
+      "loss": 0.8283,
+      "step": 630
+    },
+    {
+      "epoch": 0.6839433609404221,
+      "grad_norm": 1.611712800585379,
+      "learning_rate": 2.740871463395325e-06,
+      "loss": 0.8288,
+      "step": 640
+    },
+    {
+      "epoch": 0.6946299759551162,
+      "grad_norm": 1.5836781341981323,
+      "learning_rate": 2.575861144274914e-06,
+      "loss": 0.829,
+      "step": 650
+    },
+    {
+      "epoch": 0.7053165909698104,
+      "grad_norm": 1.5725193301762863,
+      "learning_rate": 2.414233145544585e-06,
+      "loss": 0.8256,
+      "step": 660
+    },
+    {
+      "epoch": 0.7160032059845044,
+      "grad_norm": 1.611578698840131,
+      "learning_rate": 2.256212981379996e-06,
+      "loss": 0.813,
+      "step": 670
+    },
+    {
+      "epoch": 0.7266898209991985,
+      "grad_norm": 1.6351602980260465,
+      "learning_rate": 2.1020211320651135e-06,
+      "loss": 0.8196,
+      "step": 680
+    },
+    {
+      "epoch": 0.7373764360138926,
+      "grad_norm": 1.5674828913506538,
+      "learning_rate": 1.9518727363634187e-06,
+      "loss": 0.8186,
+      "step": 690
+    },
+    {
+      "epoch": 0.7480630510285867,
+      "grad_norm": 1.5827636966731728,
+      "learning_rate": 1.8059772913419305e-06,
+      "loss": 0.8301,
+      "step": 700
+    },
+    {
+      "epoch": 0.7587496660432808,
+      "grad_norm": 1.5766941762097497,
+      "learning_rate": 1.6645383600669124e-06,
+      "loss": 0.8278,
+      "step": 710
+    },
+    {
+      "epoch": 0.7694362810579749,
+      "grad_norm": 1.3889367362711451,
+      "learning_rate": 1.527753287579084e-06,
+      "loss": 0.8067,
+      "step": 720
+    },
+    {
+      "epoch": 0.7801228960726689,
+      "grad_norm": 1.4818805825718362,
+      "learning_rate": 1.3958129255446585e-06,
+      "loss": 0.8201,
+      "step": 730
+    },
+    {
+      "epoch": 0.7908095110873631,
+      "grad_norm": 1.5506195665632077,
+      "learning_rate": 1.268901365966337e-06,
+      "loss": 0.8143,
+      "step": 740
+    },
+    {
+      "epoch": 0.8014961261020572,
+      "grad_norm": 1.5473244103552335,
+      "learning_rate": 1.1471956843258676e-06,
+      "loss": 0.8227,
+      "step": 750
+    },
+    {
+      "epoch": 0.8121827411167513,
+      "grad_norm": 1.5416734356294126,
+      "learning_rate": 1.0308656925165033e-06,
+      "loss": 0.8061,
+      "step": 760
+    },
+    {
+      "epoch": 0.8228693561314454,
+      "grad_norm": 1.533940388246987,
+      "learning_rate": 9.200737019101169e-07,
+      "loss": 0.8167,
+      "step": 770
+    },
+    {
+      "epoch": 0.8335559711461394,
+      "grad_norm": 1.5428459412647224,
+      "learning_rate": 8.149742968895253e-07,
+      "loss": 0.8238,
+      "step": 780
+    },
+    {
+      "epoch": 0.8442425861608336,
+      "grad_norm": 1.5243535258550542,
+      "learning_rate": 7.157141191620548e-07,
+      "loss": 0.8121,
+      "step": 790
+    },
+    {
+      "epoch": 0.8549292011755276,
+      "grad_norm": 1.5090393842399528,
+      "learning_rate": 6.224316631552207e-07,
+      "loss": 0.8215,
+      "step": 800
+    },
+    {
+      "epoch": 0.8656158161902218,
+      "grad_norm": 1.5455226884316506,
+      "learning_rate": 5.35257082780069e-07,
+      "loss": 0.8097,
+      "step": 810
+    },
+    {
+      "epoch": 0.8763024312049158,
+      "grad_norm": 1.5725635552110713,
+      "learning_rate": 4.5431200983174493e-07,
+      "loss": 0.8155,
+      "step": 820
+    },
+    {
+      "epoch": 0.88698904621961,
+      "grad_norm": 1.5330525300887172,
+      "learning_rate": 3.7970938428068813e-07,
+      "loss": 0.8074,
+      "step": 830
+    },
+    {
+      "epoch": 0.897675661234304,
+      "grad_norm": 1.5669753095302341,
+      "learning_rate": 3.1155329669124876e-07,
+      "loss": 0.8174,
+      "step": 840
+    },
+    {
+      "epoch": 0.9083622762489981,
+      "grad_norm": 1.4999285751677753,
+      "learning_rate": 2.4993884298758097e-07,
+      "loss": 0.8224,
+      "step": 850
+    },
+    {
+      "epoch": 0.9190488912636923,
+      "grad_norm": 1.575834305911122,
+      "learning_rate": 1.9495199176945977e-07,
+      "loss": 0.8165,
+      "step": 860
+    },
+    {
+      "epoch": 0.9297355062783863,
+      "grad_norm": 1.5453590208287702,
+      "learning_rate": 1.4666946436314832e-07,
+      "loss": 0.81,
+      "step": 870
+    },
+    {
+      "epoch": 0.9404221212930804,
+      "grad_norm": 1.517809787007839,
+      "learning_rate": 1.0515862777468689e-07,
+      "loss": 0.8017,
+      "step": 880
+    },
+    {
+      "epoch": 0.9511087363077745,
+      "grad_norm": 1.458666629774803,
+      "learning_rate": 7.047740069494102e-08,
+      "loss": 0.8027,
+      "step": 890
+    },
+    {
+      "epoch": 0.9617953513224686,
+      "grad_norm": 1.4699204057681212,
+      "learning_rate": 4.267417268758123e-08,
+      "loss": 0.8162,
+      "step": 900
+    },
+    {
+      "epoch": 0.9724819663371627,
+      "grad_norm": 1.4226825019870848,
+      "learning_rate": 2.178773667273204e-08,
+      "loss": 0.7977,
+      "step": 910
+    },
+    {
+      "epoch": 0.9831685813518568,
+      "grad_norm": 1.5106026858790984,
+      "learning_rate": 7.84723480049765e-09,
+      "loss": 0.7983,
+      "step": 920
+    },
+    {
+      "epoch": 0.9938551963665508,
+      "grad_norm": 1.603850822361151,
+      "learning_rate": 8.721177898912691e-10,
+      "loss": 0.8076,
+      "step": 930
+    },
+    {
+      "epoch": 0.999198503873898,
+      "step": 935,
+      "total_flos": 294080346587136.0,
+      "train_loss": 0.8809508724008652,
+      "train_runtime": 6179.7212,
+      "train_samples_per_second": 9.691,
+      "train_steps_per_second": 0.151
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 935,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 200,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 294080346587136.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:661d07d9ec55bce1aad4a70c54f3d86db40381deb914150ad8abbc6cebda6295
+size 7480

training_loss.png ADDED Viewed

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff