BabyLM-community/jpn-baseline-small

Files changed (6) hide show

README.md CHANGED Viewed

@@ -13,6 +13,8 @@ should probably proofread and complete it, then remove this comment. -->
 # jpn-baseline-small
 This model is a fine-tuned version of [](https://huggingface.co/) on an unknown dataset.
 ## Model description
@@ -32,7 +34,7 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 0.0001
-- train_batch_size: 64
 - eval_batch_size: 8
 - seed: 42
 - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
@@ -41,6 +43,18 @@ The following hyperparameters were used during training:
 ### Training results
 ### Framework versions

 # jpn-baseline-small
 This model is a fine-tuned version of [](https://huggingface.co/) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 2.7324
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 0.0001
+- train_batch_size: 16
 - eval_batch_size: 8
 - seed: 42
 - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 ### Training results
+| Training Loss | Epoch | Step  | Validation Loss |
+|:-------------:|:-----:|:-----:|:---------------:|
+| 3.9496        | 1.0   | 2351  | 3.4641          |
+| 3.365         | 2.0   | 4702  | 3.1854          |
+| 3.1541        | 3.0   | 7053  | 3.0350          |
+| 3.0258        | 4.0   | 9404  | 2.9401          |
+| 2.9369        | 5.0   | 11755 | 2.8713          |
+| 2.868         | 6.0   | 14106 | 2.8226          |
+| 2.8159        | 7.0   | 16457 | 2.7853          |
+| 2.7741        | 8.0   | 18808 | 2.7567          |
+| 2.7428        | 9.0   | 21159 | 2.7413          |
+| 2.7204        | 10.0  | 23510 | 2.7324          |
 ### Framework versions

merges.txt CHANGED Viewed

The diff for this file is too large to render. See raw diff

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba6a5f5069250a330b1725e900f3a63f0ca59421099b2940cf66b40962ab713d
 size 68273200

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c231ce67019e232a03afa9cff4c8e8f456f061a8fb2b1010ced09eb7a06dc64
 size 68273200

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a81bffc859acdeb006685162fb1af2bd7a9fea69ecbab04c0f9d1a3d08c2b80
 size 5777

 version https://git-lfs.github.com/spec/v1
+oid sha256:61b6568a7c3514f6dcc44ff4871410ed605cd79b59771d6b3dd38a258e06e570
 size 5777

vocab.json CHANGED Viewed

The diff for this file is too large to render. See raw diff