Upload 11 files

Browse files

Files changed (12) hide show

.gitattributes +1 -0
all_results.json +16 -0
config.json +37 -0
eval_results.json +10 -0
model.safetensors +3 -0
sentencepiece.bpe.model +3 -0
special_tokens_map.json +51 -0
tokenizer.json +3 -0
tokenizer_config.json +63 -0
train_results.json +10 -0
trainer_state.json +434 -0
training_args.bin +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

all_results.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+    "epoch": 10.0,
+    "eval_accuracy": 0.9015177065767285,
+    "eval_loss": 0.2585154175758362,
+    "eval_runtime": 1.5991,
+    "eval_samples": 2965,
+    "eval_samples_per_second": 1854.212,
+    "eval_steps_per_second": 232.011,
+    "num_input_tokens_seen": 15175680,
+    "total_flos": 1952467720519680.0,
+    "train_loss": 0.1272777229185529,
+    "train_runtime": 445.3252,
+    "train_samples": 11856,
+    "train_samples_per_second": 266.232,
+    "train_steps_per_second": 33.279
+}

config.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "dtype": "float32",
+  "eos_token_id": 2,
+  "finetuning_task": "text-classification",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 384,
+  "id2label": {
+    "0": "False",
+    "1": "True"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 1536,
+  "label2id": {
+    "False": 0,
+    "True": 1
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "tokenizer_class": "XLMRobertaTokenizer",
+  "transformers_version": "5.0.0.dev0",
+  "type_vocab_size": 2,
+  "use_cache": false,
+  "vocab_size": 250037
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "epoch": 10.0,
+    "eval_accuracy": 0.9015177065767285,
+    "eval_loss": 0.2585154175758362,
+    "eval_runtime": 1.5991,
+    "eval_samples": 2965,
+    "eval_samples_per_second": 1854.212,
+    "eval_steps_per_second": 232.011,
+    "num_input_tokens_seen": 15175680
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4058cab6a49e456434b0ed21f33d32bde158795e7e8c36347ffb94bd3c7c06dd
+size 470641664

sentencepiece.bpe.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
+size 5069051

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:66e2c4647474659095b757711e8aef0583d58dbb50e3349958ebc460a9cf4977
+size 17083065

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,63 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "250001": {
+      "content": "<mask>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "mask_token": "<mask>",
+  "max_length": 512,
+  "model_max_length": 512,
+  "pad_to_multiple_of": null,
+  "pad_token": "<pad>",
+  "pad_token_type_id": 0,
+  "padding_side": "right",
+  "sep_token": "</s>",
+  "sp_model_kwargs": {},
+  "stride": 0,
+  "tokenizer_class": "XLMRobertaTokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "<unk>"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "epoch": 10.0,
+    "num_input_tokens_seen": 15175680,
+    "total_flos": 1952467720519680.0,
+    "train_loss": 0.1272777229185529,
+    "train_runtime": 445.3252,
+    "train_samples": 11856,
+    "train_samples_per_second": 266.232,
+    "train_steps_per_second": 33.279
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,434 @@

+{
+  "best_global_step": 1482,
+  "best_metric": 0.2585154175758362,
+  "best_model_checkpoint": "multilingual-e5-small-aligned-v2-pii-detector/checkpoint-1482",
+  "epoch": 10.0,
+  "eval_steps": 500,
+  "global_step": 14820,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.33738191632928477,
+      "grad_norm": 2.627490997314453,
+      "learning_rate": 4.8316464237516873e-05,
+      "loss": 0.3028,
+      "num_input_tokens_seen": 512000,
+      "step": 500,
+      "train_runtime": 13.9553,
+      "train_tokens_per_second": 36688.687
+    },
+    {
+      "epoch": 0.6747638326585695,
+      "grad_norm": 0.09764809906482697,
+      "learning_rate": 4.662955465587045e-05,
+      "loss": 0.238,
+      "num_input_tokens_seen": 1024000,
+      "step": 1000,
+      "train_runtime": 27.6858,
+      "train_tokens_per_second": 36986.469
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.9015177065767285,
+      "eval_loss": 0.2585154175758362,
+      "eval_runtime": 1.648,
+      "eval_samples_per_second": 1799.16,
+      "eval_steps_per_second": 225.122,
+      "num_input_tokens_seen": 1517568,
+      "step": 1482
+    },
+    {
+      "epoch": 1.0121457489878543,
+      "grad_norm": 2.041290521621704,
+      "learning_rate": 4.494264507422402e-05,
+      "loss": 0.2022,
+      "num_input_tokens_seen": 1536000,
+      "step": 1500,
+      "train_runtime": 43.9883,
+      "train_tokens_per_second": 34918.384
+    },
+    {
+      "epoch": 1.349527665317139,
+      "grad_norm": 0.10939698666334152,
+      "learning_rate": 4.32557354925776e-05,
+      "loss": 0.1781,
+      "num_input_tokens_seen": 2048000,
+      "step": 2000,
+      "train_runtime": 57.4658,
+      "train_tokens_per_second": 35638.593
+    },
+    {
+      "epoch": 1.686909581646424,
+      "grad_norm": 5.614178657531738,
+      "learning_rate": 4.156882591093118e-05,
+      "loss": 0.1922,
+      "num_input_tokens_seen": 2560000,
+      "step": 2500,
+      "train_runtime": 71.0513,
+      "train_tokens_per_second": 36030.282
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.9173693086003373,
+      "eval_loss": 0.3090151250362396,
+      "eval_runtime": 1.6796,
+      "eval_samples_per_second": 1765.251,
+      "eval_steps_per_second": 220.88,
+      "num_input_tokens_seen": 3035136,
+      "step": 2964
+    },
+    {
+      "epoch": 2.0242914979757085,
+      "grad_norm": 0.06700567156076431,
+      "learning_rate": 3.9881916329284755e-05,
+      "loss": 0.1585,
+      "num_input_tokens_seen": 3072000,
+      "step": 3000,
+      "train_runtime": 87.6915,
+      "train_tokens_per_second": 35031.905
+    },
+    {
+      "epoch": 2.361673414304993,
+      "grad_norm": 0.5916054844856262,
+      "learning_rate": 3.8195006747638326e-05,
+      "loss": 0.1549,
+      "num_input_tokens_seen": 3584000,
+      "step": 3500,
+      "train_runtime": 101.7739,
+      "train_tokens_per_second": 35215.309
+    },
+    {
+      "epoch": 2.699055330634278,
+      "grad_norm": 0.6893392205238342,
+      "learning_rate": 3.6508097165991904e-05,
+      "loss": 0.1517,
+      "num_input_tokens_seen": 4096000,
+      "step": 4000,
+      "train_runtime": 116.1299,
+      "train_tokens_per_second": 35270.842
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.9079258010118044,
+      "eval_loss": 0.28507259488105774,
+      "eval_runtime": 1.6356,
+      "eval_samples_per_second": 1812.841,
+      "eval_steps_per_second": 226.834,
+      "num_input_tokens_seen": 4552704,
+      "step": 4446
+    },
+    {
+      "epoch": 3.0364372469635628,
+      "grad_norm": 6.807932376861572,
+      "learning_rate": 3.482118758434548e-05,
+      "loss": 0.156,
+      "num_input_tokens_seen": 4608000,
+      "step": 4500,
+      "train_runtime": 133.056,
+      "train_tokens_per_second": 34632.022
+    },
+    {
+      "epoch": 3.3738191632928474,
+      "grad_norm": 52.58000946044922,
+      "learning_rate": 3.313427800269906e-05,
+      "loss": 0.1233,
+      "num_input_tokens_seen": 5120000,
+      "step": 5000,
+      "train_runtime": 147.2098,
+      "train_tokens_per_second": 34780.299
+    },
+    {
+      "epoch": 3.7112010796221324,
+      "grad_norm": 0.09153091162443161,
+      "learning_rate": 3.144736842105263e-05,
+      "loss": 0.1412,
+      "num_input_tokens_seen": 5632000,
+      "step": 5500,
+      "train_runtime": 161.9414,
+      "train_tokens_per_second": 34778.016
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.9059021922428331,
+      "eval_loss": 0.31255096197128296,
+      "eval_runtime": 1.8022,
+      "eval_samples_per_second": 1645.244,
+      "eval_steps_per_second": 205.864,
+      "num_input_tokens_seen": 6070272,
+      "step": 5928
+    },
+    {
+      "epoch": 4.048582995951417,
+      "grad_norm": 0.014544670470058918,
+      "learning_rate": 2.9760458839406208e-05,
+      "loss": 0.1248,
+      "num_input_tokens_seen": 6144000,
+      "step": 6000,
+      "train_runtime": 179.8529,
+      "train_tokens_per_second": 34161.242
+    },
+    {
+      "epoch": 4.385964912280702,
+      "grad_norm": 0.022761313244700432,
+      "learning_rate": 2.8073549257759785e-05,
+      "loss": 0.0975,
+      "num_input_tokens_seen": 6656000,
+      "step": 6500,
+      "train_runtime": 194.2334,
+      "train_tokens_per_second": 34268.042
+    },
+    {
+      "epoch": 4.723346828609986,
+      "grad_norm": 0.27537310123443604,
+      "learning_rate": 2.6386639676113363e-05,
+      "loss": 0.1271,
+      "num_input_tokens_seen": 7168000,
+      "step": 7000,
+      "train_runtime": 207.8817,
+      "train_tokens_per_second": 34481.154
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.9018549747048904,
+      "eval_loss": 0.34343627095222473,
+      "eval_runtime": 1.8728,
+      "eval_samples_per_second": 1583.159,
+      "eval_steps_per_second": 198.095,
+      "num_input_tokens_seen": 7587840,
+      "step": 7410
+    },
+    {
+      "epoch": 5.060728744939271,
+      "grad_norm": 0.3377642333507538,
+      "learning_rate": 2.4699730094466937e-05,
+      "loss": 0.1278,
+      "num_input_tokens_seen": 7680000,
+      "step": 7500,
+      "train_runtime": 224.822,
+      "train_tokens_per_second": 34160.358
+    },
+    {
+      "epoch": 5.398110661268556,
+      "grad_norm": 0.011958185583353043,
+      "learning_rate": 2.301282051282051e-05,
+      "loss": 0.0988,
+      "num_input_tokens_seen": 8192000,
+      "step": 8000,
+      "train_runtime": 238.5719,
+      "train_tokens_per_second": 34337.661
+    },
+    {
+      "epoch": 5.7354925775978405,
+      "grad_norm": 0.01739046536386013,
+      "learning_rate": 2.132591093117409e-05,
+      "loss": 0.1018,
+      "num_input_tokens_seen": 8704000,
+      "step": 8500,
+      "train_runtime": 253.495,
+      "train_tokens_per_second": 34335.983
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.8930860033726813,
+      "eval_loss": 0.38996028900146484,
+      "eval_runtime": 1.6539,
+      "eval_samples_per_second": 1792.721,
+      "eval_steps_per_second": 224.317,
+      "num_input_tokens_seen": 9105408,
+      "step": 8892
+    },
+    {
+      "epoch": 6.0728744939271255,
+      "grad_norm": 0.3100438714027405,
+      "learning_rate": 1.9639001349527667e-05,
+      "loss": 0.1168,
+      "num_input_tokens_seen": 9216000,
+      "step": 9000,
+      "train_runtime": 271.7013,
+      "train_tokens_per_second": 33919.602
+    },
+    {
+      "epoch": 6.410256410256411,
+      "grad_norm": 0.43619751930236816,
+      "learning_rate": 1.7952091767881245e-05,
+      "loss": 0.0869,
+      "num_input_tokens_seen": 9728000,
+      "step": 9500,
+      "train_runtime": 285.8275,
+      "train_tokens_per_second": 34034.516
+    },
+    {
+      "epoch": 6.747638326585695,
+      "grad_norm": 0.006818657275289297,
+      "learning_rate": 1.626518218623482e-05,
+      "loss": 0.1037,
+      "num_input_tokens_seen": 10240000,
+      "step": 10000,
+      "train_runtime": 299.932,
+      "train_tokens_per_second": 34141.069
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.8944350758853289,
+      "eval_loss": 0.39529648423194885,
+      "eval_runtime": 1.7201,
+      "eval_samples_per_second": 1723.784,
+      "eval_steps_per_second": 215.691,
+      "num_input_tokens_seen": 10622976,
+      "step": 10374
+    },
+    {
+      "epoch": 7.08502024291498,
+      "grad_norm": 0.07480119913816452,
+      "learning_rate": 1.4578272604588395e-05,
+      "loss": 0.1063,
+      "num_input_tokens_seen": 10752000,
+      "step": 10500,
+      "train_runtime": 316.9384,
+      "train_tokens_per_second": 33924.575
+    },
+    {
+      "epoch": 7.422402159244265,
+      "grad_norm": 0.008870264515280724,
+      "learning_rate": 1.289136302294197e-05,
+      "loss": 0.0908,
+      "num_input_tokens_seen": 11264000,
+      "step": 11000,
+      "train_runtime": 331.4588,
+      "train_tokens_per_second": 33983.108
+    },
+    {
+      "epoch": 7.759784075573549,
+      "grad_norm": 0.33139288425445557,
+      "learning_rate": 1.1204453441295547e-05,
+      "loss": 0.0902,
+      "num_input_tokens_seen": 11776000,
+      "step": 11500,
+      "train_runtime": 345.9573,
+      "train_tokens_per_second": 34038.879
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.894097807757167,
+      "eval_loss": 0.5339534282684326,
+      "eval_runtime": 1.8369,
+      "eval_samples_per_second": 1614.124,
+      "eval_steps_per_second": 201.97,
+      "num_input_tokens_seen": 12140544,
+      "step": 11856
+    },
+    {
+      "epoch": 8.097165991902834,
+      "grad_norm": 1.103989839553833,
+      "learning_rate": 9.517543859649124e-06,
+      "loss": 0.0792,
+      "num_input_tokens_seen": 12288000,
+      "step": 12000,
+      "train_runtime": 363.0247,
+      "train_tokens_per_second": 33848.936
+    },
+    {
+      "epoch": 8.434547908232119,
+      "grad_norm": 0.19695305824279785,
+      "learning_rate": 7.830634278002699e-06,
+      "loss": 0.0771,
+      "num_input_tokens_seen": 12800000,
+      "step": 12500,
+      "train_runtime": 376.8777,
+      "train_tokens_per_second": 33963.276
+    },
+    {
+      "epoch": 8.771929824561404,
+      "grad_norm": 3.2966551780700684,
+      "learning_rate": 6.1437246963562756e-06,
+      "loss": 0.077,
+      "num_input_tokens_seen": 13312000,
+      "step": 13000,
+      "train_runtime": 390.4455,
+      "train_tokens_per_second": 34094.384
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.8900505902192243,
+      "eval_loss": 0.6329491138458252,
+      "eval_runtime": 1.6301,
+      "eval_samples_per_second": 1818.909,
+      "eval_steps_per_second": 227.594,
+      "num_input_tokens_seen": 13658112,
+      "step": 13338
+    },
+    {
+      "epoch": 9.109311740890687,
+      "grad_norm": 2.050884485244751,
+      "learning_rate": 4.4568151147098515e-06,
+      "loss": 0.0783,
+      "num_input_tokens_seen": 13824000,
+      "step": 13500,
+      "train_runtime": 406.9294,
+      "train_tokens_per_second": 33971.492
+    },
+    {
+      "epoch": 9.446693657219972,
+      "grad_norm": 0.005987819749861956,
+      "learning_rate": 2.769905533063428e-06,
+      "loss": 0.0717,
+      "num_input_tokens_seen": 14336000,
+      "step": 14000,
+      "train_runtime": 420.4707,
+      "train_tokens_per_second": 34095.126
+    },
+    {
+      "epoch": 9.784075573549257,
+      "grad_norm": 0.0041707539930939674,
+      "learning_rate": 1.0829959514170041e-06,
+      "loss": 0.0685,
+      "num_input_tokens_seen": 14848000,
+      "step": 14500,
+      "train_runtime": 433.8559,
+      "train_tokens_per_second": 34223.346
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.8920741989881956,
+      "eval_loss": 0.6290408968925476,
+      "eval_runtime": 1.6333,
+      "eval_samples_per_second": 1815.288,
+      "eval_steps_per_second": 227.141,
+      "num_input_tokens_seen": 15175680,
+      "step": 14820
+    },
+    {
+      "epoch": 10.0,
+      "num_input_tokens_seen": 15175680,
+      "step": 14820,
+      "total_flos": 1952467720519680.0,
+      "train_loss": 0.1272777229185529,
+      "train_runtime": 445.3252,
+      "train_samples_per_second": 266.232,
+      "train_steps_per_second": 33.279
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 14820,
+  "num_input_tokens_seen": 15175680,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1952467720519680.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:32ce1e246e8da9cb1f7bf84495bb07f5e6a549f44f69a69266d1dec339ecb772
+size 5201