SentenceTransformer based on FacebookAI/xlm-roberta-base

This is a sentence-transformers model finetuned from FacebookAI/xlm-roberta-base on the en-sa dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: FacebookAI/xlm-roberta-base
  • Maximum Sequence Length: 128 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity
  • Training Dataset:
    • en-sa

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("saikasyap/xlm-roberta-base-multilingual-en-sa")
# Run inference
sentences = [
    'Magazines and Periodicals   that are published periodically.',
    'पत्रिकाणां (Magazines) तथा नियतकालिकानां च (Periodicals) ग्राहकत्वस्य निर्वहणार्थम् उपयुज्यन्ते ।',
    '"अस्योपरि नुदामश्चेत्, इदं पेन्-ड्रैव् मध्ये, विद्यमानानि सर्वाणि फैल्स् फोल्डर्स् च दर्शयति ।"',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Knowledge Distillation

Metric Value
negative_mse -13.0248

Translation

Metric Value
src2trg_accuracy 0.927
trg2src_accuracy 0.903
mean_accuracy 0.915

Training Details

Training Dataset

en-sa

  • Dataset: en-sa
  • Size: 257,886 training samples
  • Columns: english, non_english, and label
  • Approximate statistics based on the first 1000 samples:
    english non_english label
    type string string list
    details
    • min: 12 tokens
    • mean: 34.23 tokens
    • max: 113 tokens
    • min: 14 tokens
    • mean: 49.72 tokens
    • max: 128 tokens
    • size: 768 elements
  • Samples:
    english non_english label
    There was no Mughal tradition of primogeniture, the systematic passing of rule, upon an emperor's death, to his eldest son.
    चक्रवर्तिनः मृत्योः अनन्तरं तस्य शासनस्य व्यवस्थितरूपेण सङ्क्रमणस्य, मुघलपरम्परायाः ज्येष्ठपुत्राधिकारपद्धतिः नासीत्।
    [-0.5880301594734192, -0.20026817917823792, 0.372330904006958, -0.9807565808296204, -0.35607191920280457, ...]
    The four sons of Shah Jahan all held governorships during their father's reign.
    शाह्-जहाँ-नामकस्य चत्वारः पुत्राः, सर्वे पितुः शासनकाले शासकपदम् अधारयन्।
    [-0.5090229511260986, 0.33517003059387207, 0.27507224678993225, -0.05707915127277374, -0.5126022100448608, ...]
    In this regard he discusses the correlation between social opportunities of education and health and how both of these complement economic and political freedoms as a healthy and well-educated person is better suited to make informed economic decisions and be involved in fruitful political demonstrations etc.
    अस्मिन् विषये सः शिक्षणस्य स्वास्थ्यस्य च सामाजिकावकाशानाम् अन्योन्य-सम्बन्धस्य, तथा च एतद्द्वयम् अपि आर्थिक-राजनैतिक-स्वातन्त्र्ययोः कथं पूरकं भवतः इति च चर्चां करोति, यतोहि स्वस्था सुशिक्षिता च व्यक्तिः ज्ञानपूर्वम् आर्थिकविषयान् निर्णेतुं तथा फलप्रदेषु राजनैतिकेषु प्रतिपादनादिषु संलग्नः भवितुं च अधिकारी भवति इति।
    [0.16507332026958466, -0.1722974181175232, 0.02585001103579998, 0.36087149381637573, -0.6401643753051758, ...]
  • Loss: MSELoss

Evaluation Dataset

en-sa

  • Dataset: en-sa
  • Size: 1,000 evaluation samples
  • Columns: english, non_english, and label
  • Approximate statistics based on the first 1000 samples:
    english non_english label
    type string string list
    details
    • min: 4 tokens
    • mean: 21.38 tokens
    • max: 68 tokens
    • min: 4 tokens
    • mean: 27.89 tokens
    • max: 91 tokens
    • size: 768 elements
  • Samples:
    english non_english label
    """So they cast him out of the vineyard, and killed him. What therefore shall the lord of the vineyard do unto them?""" ततस्ते तं क्षेत्राद् बहि र्निपात्य जघ्नुस्तस्मात् स क्षेत्रपतिस्तान् प्रति किं करिष्यति? [-0.06878167390823364, -0.5150429606437683, -0.09011576324701309, -0.7458725571632385, 0.050420328974723816, ...]
    Avogadro application window opens. Avogadro एप्लिकेशन् विण्डो उद्घट्यते । [0.9054689407348633, -0.2203768789768219, -0.19827595353126526, 0.23870715498924255, -0.3162331283092499, ...]
    Svangah: One whose limbs are beautiful. स्वंग:यस्य अङ्गानि सुन्दराणि सन्ति [0.6443825960159302, 0.4850354492664337, -0.4563218355178833, -0.4771449863910675, 0.6588209867477417, ...]
  • Loss: MSELoss

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • learning_rate: 2e-05
  • num_train_epochs: 10
  • warmup_ratio: 0.1

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 8
  • per_device_eval_batch_size: 8
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 10
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: proportional

Training Logs

Click to expand
Epoch Step Training Loss en-sa loss en-sa_negative_mse en-sa_mean_accuracy
0.0124 100 0.6774 - - -
0.0248 200 0.6328 - - -
0.0372 300 0.5541 - - -
0.0496 400 0.4007 - - -
0.0620 500 0.3031 - - -
0.0745 600 0.2789 - - -
0.0869 700 0.2674 - - -
0.0993 800 0.2603 - - -
0.1117 900 0.2564 - - -
0.1241 1000 0.254 - - -
0.1365 1100 0.2496 - - -
0.1489 1200 0.2486 - - -
0.1613 1300 0.2476 - - -
0.1737 1400 0.2487 - - -
0.1861 1500 0.2439 - - -
0.1985 1600 0.2441 - - -
0.2109 1700 0.2427 - - -
0.2234 1800 0.2414 - - -
0.2358 1900 0.2395 - - -
0.2482 2000 0.2395 - - -
0.2606 2100 0.2383 - - -
0.2730 2200 0.2363 - - -
0.2854 2300 0.2348 - - -
0.2978 2400 0.2316 - - -
0.3102 2500 0.235 - - -
0.3226 2600 0.2328 - - -
0.3350 2700 0.2307 - - -
0.3474 2800 0.2295 - - -
0.3598 2900 0.2267 - - -
0.3723 3000 0.2246 - - -
0.3847 3100 0.225 - - -
0.3971 3200 0.2239 - - -
0.4095 3300 0.2201 - - -
0.4219 3400 0.2149 - - -
0.4343 3500 0.2161 - - -
0.4467 3600 0.2168 - - -
0.4591 3700 0.212 - - -
0.4715 3800 0.2135 - - -
0.4839 3900 0.2087 - - -
0.4963 4000 0.2083 - - -
0.5087 4100 0.2061 - - -
0.5212 4200 0.2084 - - -
0.5336 4300 0.2011 - - -
0.5460 4400 0.2023 - - -
0.5584 4500 0.2 - - -
0.5708 4600 0.2006 - - -
0.5832 4700 0.1987 - - -
0.5956 4800 0.1946 - - -
0.6080 4900 0.197 - - -
0.6204 5000 0.1962 - - -
0.6328 5100 0.192 - - -
0.6452 5200 0.1931 - - -
0.6576 5300 0.1928 - - -
0.6701 5400 0.1896 - - -
0.6825 5500 0.1906 - - -
0.6949 5600 0.1882 - - -
0.7073 5700 0.1867 - - -
0.7197 5800 0.1867 - - -
0.7321 5900 0.1847 - - -
0.7445 6000 0.186 - - -
0.7569 6100 0.1843 - - -
0.7693 6200 0.1806 - - -
0.7817 6300 0.1812 - - -
0.7941 6400 0.1779 - - -
0.8066 6500 0.178 - - -
0.8190 6600 0.1778 - - -
0.8314 6700 0.1769 - - -
0.8438 6800 0.1768 - - -
0.8562 6900 0.1753 - - -
0.8686 7000 0.1749 - - -
0.8810 7100 0.1722 - - -
0.8934 7200 0.1727 - - -
0.9058 7300 0.1736 - - -
0.9182 7400 0.1717 - - -
0.9306 7500 0.1691 - - -
0.9430 7600 0.1678 - - -
0.9555 7700 0.1709 - - -
0.9679 7800 0.168 - - -
0.9803 7900 0.167 - - -
0.9927 8000 0.1647 - - -
1.0051 8100 0.1658 - - -
1.0175 8200 0.1661 - - -
1.0299 8300 0.1629 - - -
1.0423 8400 0.1646 - - -
1.0547 8500 0.1631 - - -
1.0671 8600 0.1603 - - -
1.0795 8700 0.1608 - - -
1.0919 8800 0.1605 - - -
1.1044 8900 0.1593 - - -
1.1168 9000 0.1598 - - -
1.1292 9100 0.158 - - -
1.1416 9200 0.1561 - - -
1.1540 9300 0.1562 - - -
1.1664 9400 0.1563 - - -
1.1788 9500 0.1545 - - -
1.1912 9600 0.1525 - - -
1.2036 9700 0.1531 - - -
1.2160 9800 0.1534 - - -
1.2284 9900 0.1525 - - -
1.2408 10000 0.1515 0.1755 -19.4347 0.7575
1.2533 10100 0.152 - - -
1.2657 10200 0.1507 - - -
1.2781 10300 0.1492 - - -
1.2905 10400 0.1485 - - -
1.3029 10500 0.1488 - - -
1.3153 10600 0.1496 - - -
1.3277 10700 0.1495 - - -
1.3401 10800 0.1475 - - -
1.3525 10900 0.1484 - - -
1.3649 11000 0.1465 - - -
1.3773 11100 0.1481 - - -
1.3898 11200 0.1477 - - -
1.4022 11300 0.148 - - -
1.4146 11400 0.1445 - - -
1.4270 11500 0.1429 - - -
1.4394 11600 0.1443 - - -
1.4518 11700 0.144 - - -
1.4642 11800 0.1455 - - -
1.4766 11900 0.1438 - - -
1.4890 12000 0.1425 - - -
1.5014 12100 0.1427 - - -
1.5138 12200 0.1426 - - -
1.5262 12300 0.1422 - - -
1.5387 12400 0.1395 - - -
1.5511 12500 0.1403 - - -
1.5635 12600 0.1414 - - -
1.5759 12700 0.1404 - - -
1.5883 12800 0.1391 - - -
1.6007 12900 0.1377 - - -
1.6131 13000 0.1408 - - -
1.6255 13100 0.1378 - - -
1.6379 13200 0.1387 - - -
1.6503 13300 0.1383 - - -
1.6627 13400 0.1393 - - -
1.6751 13500 0.137 - - -
1.6876 13600 0.1386 - - -
1.7000 13700 0.1366 - - -
1.7124 13800 0.137 - - -
1.7248 13900 0.1365 - - -
1.7372 14000 0.1367 - - -
1.7496 14100 0.1379 - - -
1.7620 14200 0.1355 - - -
1.7744 14300 0.1349 - - -
1.7868 14400 0.134 - - -
1.7992 14500 0.133 - - -
1.8116 14600 0.1337 - - -
1.8240 14700 0.1332 - - -
1.8365 14800 0.1335 - - -
1.8489 14900 0.1334 - - -
1.8613 15000 0.1333 - - -
1.8737 15100 0.1329 - - -
1.8861 15200 0.132 - - -
1.8985 15300 0.1322 - - -
1.9109 15400 0.1334 - - -
1.9233 15500 0.1308 - - -
1.9357 15600 0.1302 - - -
1.9481 15700 0.1313 - - -
1.9605 15800 0.1319 - - -
1.9729 15900 0.1305 - - -
1.9854 16000 0.1299 - - -
1.9978 16100 0.1288 - - -
2.0102 16200 0.1313 - - -
2.0226 16300 0.1299 - - -
2.0350 16400 0.1304 - - -
2.0474 16500 0.1304 - - -
2.0598 16600 0.1292 - - -
2.0722 16700 0.1276 - - -
2.0846 16800 0.1283 - - -
2.0970 16900 0.129 - - -
2.1094 17000 0.1294 - - -
2.1219 17100 0.1281 - - -
2.1343 17200 0.1276 - - -
2.1467 17300 0.1266 - - -
2.1591 17400 0.1263 - - -
2.1715 17500 0.1273 - - -
2.1839 17600 0.1263 - - -
2.1963 17700 0.1257 - - -
2.2087 17800 0.1256 - - -
2.2211 17900 0.1269 - - -
2.2335 18000 0.1256 - - -
2.2459 18100 0.1255 - - -
2.2583 18200 0.126 - - -
2.2708 18300 0.1243 - - -
2.2832 18400 0.125 - - -
2.2956 18500 0.1242 - - -
2.3080 18600 0.1249 - - -
2.3204 18700 0.1248 - - -
2.3328 18800 0.1248 - - -
2.3452 18900 0.1245 - - -
2.3576 19000 0.124 - - -
2.3700 19100 0.1246 - - -
2.3824 19200 0.125 - - -
2.3948 19300 0.1251 - - -
2.4072 19400 0.1243 - - -
2.4197 19500 0.1218 - - -
2.4321 19600 0.1217 - - -
2.4445 19700 0.1239 - - -
2.4569 19800 0.1219 - - -
2.4693 19900 0.1241 - - -
2.4817 20000 0.1222 0.1380 -16.1712 0.864
2.4941 20100 0.1223 - - -
2.5065 20200 0.1216 - - -
2.5189 20300 0.1231 - - -
2.5313 20400 0.1208 - - -
2.5437 20500 0.1208 - - -
2.5561 20600 0.1202 - - -
2.5686 20700 0.1225 - - -
2.5810 20800 0.1209 - - -
2.5934 20900 0.1201 - - -
2.6058 21000 0.1203 - - -
2.6182 21100 0.1212 - - -
2.6306 21200 0.1199 - - -
2.6430 21300 0.1198 - - -
2.6554 21400 0.1212 - - -
2.6678 21500 0.1207 - - -
2.6802 21600 0.1199 - - -
2.6926 21700 0.1198 - - -
2.7051 21800 0.1196 - - -
2.7175 21900 0.1196 - - -
2.7299 22000 0.119 - - -
2.7423 22100 0.1197 - - -
2.7547 22200 0.1201 - - -
2.7671 22300 0.1187 - - -
2.7795 22400 0.1184 - - -
2.7919 22500 0.1177 - - -
2.8043 22600 0.1167 - - -
2.8167 22700 0.1187 - - -
2.8291 22800 0.1168 - - -
2.8415 22900 0.1174 - - -
2.8540 23000 0.1181 - - -
2.8664 23100 0.1185 - - -
2.8788 23200 0.1167 - - -
2.8912 23300 0.1169 - - -
2.9036 23400 0.1171 - - -
2.9160 23500 0.1179 - - -
2.9284 23600 0.116 - - -
2.9408 23700 0.1148 - - -
2.9532 23800 0.1183 - - -
2.9656 23900 0.1162 - - -
2.9780 24000 0.1165 - - -
2.9904 24100 0.115 - - -
3.0029 24200 0.1155 - - -
3.0153 24300 0.1177 - - -
3.0277 24400 0.1145 - - -
3.0401 24500 0.1175 - - -
3.0525 24600 0.1159 - - -
3.0649 24700 0.1149 - - -
3.0773 24800 0.1144 - - -
3.0897 24900 0.1152 - - -
3.1021 25000 0.1157 - - -
3.1145 25100 0.116 - - -
3.1269 25200 0.1145 - - -
3.1393 25300 0.1139 - - -
3.1518 25400 0.1141 - - -
3.1642 25500 0.114 - - -
3.1766 25600 0.1144 - - -
3.1890 25700 0.113 - - -
3.2014 25800 0.1133 - - -
3.2138 25900 0.1136 - - -
3.2262 26000 0.1138 - - -
3.2386 26100 0.1128 - - -
3.2510 26200 0.1144 - - -
3.2634 26300 0.1126 - - -
3.2758 26400 0.1126 - - -
3.2882 26500 0.1121 - - -
3.3007 26600 0.1126 - - -
3.3131 26700 0.1134 - - -
3.3255 26800 0.1131 - - -
3.3379 26900 0.1122 - - -
3.3503 27000 0.113 - - -
3.3627 27100 0.1124 - - -
3.3751 27200 0.1134 - - -
3.3875 27300 0.1142 - - -
3.3999 27400 0.113 - - -
3.4123 27500 0.1125 - - -
3.4247 27600 0.1102 - - -
3.4372 27700 0.1116 - - -
3.4496 27800 0.1116 - - -
3.4620 27900 0.1122 - - -
3.4744 28000 0.112 - - -
3.4868 28100 0.1114 - - -
3.4992 28200 0.1112 - - -
3.5116 28300 0.1112 - - -
3.5240 28400 0.1125 - - -
3.5364 28500 0.1095 - - -
3.5488 28600 0.1105 - - -
3.5612 28700 0.1107 - - -
3.5736 28800 0.1106 - - -
3.5861 28900 0.1105 - - -
3.5985 29000 0.1095 - - -
3.6109 29100 0.111 - - -
3.6233 29200 0.11 - - -
3.6357 29300 0.11 - - -
3.6481 29400 0.1111 - - -
3.6605 29500 0.1116 - - -
3.6729 29600 0.1095 - - -
3.6853 29700 0.1104 - - -
3.6977 29800 0.1095 - - -
3.7101 29900 0.1098 - - -
3.7225 30000 0.1095 0.1235 -14.8315 0.8875
3.7350 30100 0.1104 - - -
3.7474 30200 0.1099 - - -
3.7598 30300 0.1106 - - -
3.7722 30400 0.1085 - - -
3.7846 30500 0.1086 - - -
3.7970 30600 0.108 - - -
3.8094 30700 0.1087 - - -
3.8218 30800 0.1081 - - -
3.8342 30900 0.1084 - - -
3.8466 31000 0.1088 - - -
3.8590 31100 0.1086 - - -
3.8714 31200 0.1091 - - -
3.8839 31300 0.1074 - - -
3.8963 31400 0.1079 - - -
3.9087 31500 0.11 - - -
3.9211 31600 0.1077 - - -
3.9335 31700 0.1072 - - -
3.9459 31800 0.1072 - - -
3.9583 31900 0.1089 - - -
3.9707 32000 0.1079 - - -
3.9831 32100 0.1072 - - -
3.9955 32200 0.1064 - - -
4.0079 32300 0.1081 - - -
4.0203 32400 0.1083 - - -
4.0328 32500 0.1074 - - -
4.0452 32600 0.1084 - - -
4.0576 32700 0.107 - - -
4.0700 32800 0.1065 - - -
4.0824 32900 0.1071 - - -
4.0948 33000 0.107 - - -
4.1072 33100 0.1077 - - -
4.1196 33200 0.107 - - -
4.1320 33300 0.1067 - - -
4.1444 33400 0.1057 - - -
4.1568 33500 0.1062 - - -
4.1693 33600 0.1071 - - -
4.1817 33700 0.1055 - - -
4.1941 33800 0.106 - - -
4.2065 33900 0.1048 - - -
4.2189 34000 0.1069 - - -
4.2313 34100 0.1054 - - -
4.2437 34200 0.1055 - - -
4.2561 34300 0.1058 - - -
4.2685 34400 0.1057 - - -
4.2809 34500 0.1045 - - -
4.2933 34600 0.1055 - - -
4.3057 34700 0.1055 - - -
4.3182 34800 0.1053 - - -
4.3306 34900 0.1056 - - -
4.3430 35000 0.1051 - - -
4.3554 35100 0.1059 - - -
4.3678 35200 0.1054 - - -
4.3802 35300 0.1064 - - -
4.3926 35400 0.1064 - - -
4.4050 35500 0.106 - - -
4.4174 35600 0.1037 - - -
4.4298 35700 0.1044 - - -
4.4422 35800 0.1052 - - -
4.4546 35900 0.1041 - - -
4.4671 36000 0.1057 - - -
4.4795 36100 0.1044 - - -
4.4919 36200 0.1049 - - -
4.5043 36300 0.1042 - - -
4.5167 36400 0.1055 - - -
4.5291 36500 0.1035 - - -
4.5415 36600 0.1038 - - -
4.5539 36700 0.1033 - - -
4.5663 36800 0.1046 - - -
4.5787 36900 0.104 - - -
4.5911 37000 0.1038 - - -
4.6035 37100 0.1031 - - -
4.6160 37200 0.1051 - - -
4.6284 37300 0.1034 - - -
4.6408 37400 0.1034 - - -
4.6532 37500 0.1045 - - -
4.6656 37600 0.1049 - - -
4.6780 37700 0.1034 - - -
4.6904 37800 0.1043 - - -
4.7028 37900 0.1026 - - -
4.7152 38000 0.104 - - -
4.7276 38100 0.103 - - -
4.7400 38200 0.1034 - - -
4.7525 38300 0.1045 - - -
4.7649 38400 0.1032 - - -
4.7773 38500 0.1029 - - -
4.7897 38600 0.1026 - - -
4.8021 38700 0.1017 - - -
4.8145 38800 0.103 - - -
4.8269 38900 0.1021 - - -
4.8393 39000 0.1029 - - -
4.8517 39100 0.1029 - - -
4.8641 39200 0.1033 - - -
4.8765 39300 0.1021 - - -
4.8889 39400 0.102 - - -
4.9014 39500 0.1027 - - -
4.9138 39600 0.1032 - - -
4.9262 39700 0.1018 - - -
4.9386 39800 0.1011 - - -
4.9510 39900 0.103 - - -
4.9634 40000 0.1023 0.1152 -14.0327 0.9
4.9758 40100 0.102 - - -
4.9882 40200 0.1018 - - -
5.0006 40300 0.1012 - - -
5.0130 40400 0.1029 - - -
5.0254 40500 0.1014 - - -
5.0378 40600 0.103 - - -
5.0503 40700 0.1019 - - -
5.0627 40800 0.1019 - - -
5.0751 40900 0.1003 - - -
5.0875 41000 0.1016 - - -
5.0999 41100 0.1019 - - -
5.1123 41200 0.1028 - - -
5.1247 41300 0.1011 - - -
5.1371 41400 0.1012 - - -
5.1495 41500 0.1005 - - -
5.1619 41600 0.101 - - -
5.1743 41700 0.101 - - -
5.1867 41800 0.1004 - - -
5.1992 41900 0.1006 - - -
5.2116 42000 0.101 - - -
5.2240 42100 0.1004 - - -
5.2364 42200 0.1006 - - -
5.2488 42300 0.1012 - - -
5.2612 42400 0.1005 - - -
5.2736 42500 0.0997 - - -
5.2860 42600 0.1004 - - -
5.2984 42700 0.0998 - - -
5.3108 42800 0.1008 - - -
5.3232 42900 0.1008 - - -
5.3356 43000 0.1001 - - -
5.3481 43100 0.1007 - - -
5.3605 43200 0.1005 - - -
5.3729 43300 0.1007 - - -
5.3853 43400 0.1019 - - -
5.3977 43500 0.1016 - - -
5.4101 43600 0.1004 - - -
5.4225 43700 0.0987 - - -
5.4349 43800 0.1001 - - -
5.4473 43900 0.1003 - - -
5.4597 44000 0.0996 - - -
5.4721 44100 0.1004 - - -
5.4846 44200 0.0994 - - -
5.4970 44300 0.1002 - - -
5.5094 44400 0.0996 - - -
5.5218 44500 0.1012 - - -
5.5342 44600 0.0983 - - -
5.5466 44700 0.0992 - - -
5.5590 44800 0.0987 - - -
5.5714 44900 0.1005 - - -
5.5838 45000 0.0996 - - -
5.5962 45100 0.0986 - - -
5.6086 45200 0.0995 - - -
5.6210 45300 0.0999 - - -
5.6335 45400 0.0984 - - -
5.6459 45500 0.1001 - - -
5.6583 45600 0.1006 - - -
5.6707 45700 0.0994 - - -
5.6831 45800 0.0994 - - -
5.6955 45900 0.0988 - - -
5.7079 46000 0.0985 - - -
5.7203 46100 0.0991 - - -
5.7327 46200 0.0996 - - -
5.7451 46300 0.0991 - - -
5.7575 46400 0.0997 - - -
5.7699 46500 0.0984 - - -
5.7824 46600 0.0987 - - -
5.7948 46700 0.0977 - - -
5.8072 46800 0.0984 - - -
5.8196 46900 0.0977 - - -
5.8320 47000 0.0987 - - -
5.8444 47100 0.0983 - - -
5.8568 47200 0.0985 - - -
5.8692 47300 0.0993 - - -
5.8816 47400 0.0974 - - -
5.8940 47500 0.0978 - - -
5.9064 47600 0.0996 - - -
5.9188 47700 0.0981 - - -
5.9313 47800 0.0981 - - -
5.9437 47900 0.0969 - - -
5.9561 48000 0.0997 - - -
5.9685 48100 0.098 - - -
5.9809 48200 0.0981 - - -
5.9933 48300 0.0969 - - -
6.0057 48400 0.0982 - - -
6.0181 48500 0.0983 - - -
6.0305 48600 0.0974 - - -
6.0429 48700 0.0991 - - -
6.0553 48800 0.0978 - - -
6.0678 48900 0.0973 - - -
6.0802 49000 0.0976 - - -
6.0926 49100 0.0978 - - -
6.1050 49200 0.0976 - - -
6.1174 49300 0.0981 - - -
6.1298 49400 0.0974 - - -
6.1422 49500 0.0967 - - -
6.1546 49600 0.0966 - - -
6.1670 49700 0.098 - - -
6.1794 49800 0.0967 - - -
6.1918 49900 0.0964 - - -
6.2042 50000 0.0966 0.1101 -13.5564 0.9045
6.2167 50100 0.0975 - - -
6.2291 50200 0.0968 - - -
6.2415 50300 0.0972 - - -
6.2539 50400 0.0967 - - -
6.2663 50500 0.0971 - - -
6.2787 50600 0.0961 - - -
6.2911 50700 0.0967 - - -
6.3035 50800 0.0969 - - -
6.3159 50900 0.0965 - - -
6.3283 51000 0.0972 - - -
6.3407 51100 0.0967 - - -
6.3531 51200 0.0972 - - -
6.3656 51300 0.0965 - - -
6.3780 51400 0.0978 - - -
6.3904 51500 0.0976 - - -
6.4028 51600 0.0986 - - -
6.4152 51700 0.0957 - - -
6.4276 51800 0.0957 - - -
6.4400 51900 0.0966 - - -
6.4524 52000 0.096 - - -
6.4648 52100 0.097 - - -
6.4772 52200 0.0971 - - -
6.4896 52300 0.0959 - - -
6.5020 52400 0.0967 - - -
6.5145 52500 0.0967 - - -
6.5269 52600 0.0964 - - -
6.5393 52700 0.0954 - - -
6.5517 52800 0.096 - - -
6.5641 52900 0.0963 - - -
6.5765 53000 0.0963 - - -
6.5889 53100 0.0958 - - -
6.6013 53200 0.0951 - - -
6.6137 53300 0.0973 - - -
6.6261 53400 0.0955 - - -
6.6385 53500 0.0958 - - -
6.6509 53600 0.0967 - - -
6.6634 53700 0.0971 - - -
6.6758 53800 0.0957 - - -
6.6882 53900 0.0968 - - -
6.7006 54000 0.0951 - - -
6.7130 54100 0.0957 - - -
6.7254 54200 0.0958 - - -
6.7378 54300 0.0962 - - -
6.7502 54400 0.0971 - - -
6.7626 54500 0.0957 - - -
6.7750 54600 0.0955 - - -
6.7874 54700 0.0953 - - -
6.7999 54800 0.0951 - - -
6.8123 54900 0.095 - - -
6.8247 55000 0.095 - - -
6.8371 55100 0.0954 - - -
6.8495 55200 0.0955 - - -
6.8619 55300 0.0959 - - -
6.8743 55400 0.0952 - - -
6.8867 55500 0.0951 - - -
6.8991 55600 0.0951 - - -
6.9115 55700 0.0966 - - -
6.9239 55800 0.0947 - - -
6.9363 55900 0.0943 - - -
6.9488 56000 0.0955 - - -
6.9612 56100 0.0959 - - -
6.9736 56200 0.095 - - -
6.9860 56300 0.0941 - - -
6.9984 56400 0.0945 - - -
7.0108 56500 0.0957 - - -
7.0232 56600 0.0952 - - -
7.0356 56700 0.0956 - - -
7.0480 56800 0.0955 - - -
7.0604 56900 0.0951 - - -
7.0728 57000 0.0938 - - -
7.0852 57100 0.0947 - - -
7.0977 57200 0.0952 - - -
7.1101 57300 0.0956 - - -
7.1225 57400 0.0949 - - -
7.1349 57500 0.0947 - - -
7.1473 57600 0.0937 - - -
7.1597 57700 0.0943 - - -
7.1721 57800 0.0948 - - -
7.1845 57900 0.094 - - -
7.1969 58000 0.0942 - - -
7.2093 58100 0.0939 - - -
7.2217 58200 0.0944 - - -
7.2341 58300 0.0943 - - -
7.2466 58400 0.0944 - - -
7.2590 58500 0.0945 - - -
7.2714 58600 0.0936 - - -
7.2838 58700 0.0941 - - -
7.2962 58800 0.0937 - - -
7.3086 58900 0.0942 - - -
7.3210 59000 0.0942 - - -
7.3334 59100 0.0945 - - -
7.3458 59200 0.0942 - - -
7.3582 59300 0.0944 - - -
7.3706 59400 0.0943 - - -
7.3831 59500 0.0951 - - -
7.3955 59600 0.0952 - - -
7.4079 59700 0.0949 - - -
7.4203 59800 0.0931 - - -
7.4327 59900 0.0936 - - -
7.4451 60000 0.095 0.1070 -13.2648 0.9125
7.4575 60100 0.0931 - - -
7.4699 60200 0.095 - - -
7.4823 60300 0.0936 - - -
7.4947 60400 0.0943 - - -
7.5071 60500 0.0934 - - -
7.5195 60600 0.095 - - -
7.5320 60700 0.0927 - - -
7.5444 60800 0.0939 - - -
7.5568 60900 0.0931 - - -
7.5692 61000 0.0944 - - -
7.5816 61100 0.0938 - - -
7.5940 61200 0.0931 - - -
7.6064 61300 0.0935 - - -
7.6188 61400 0.0945 - - -
7.6312 61500 0.0932 - - -
7.6436 61600 0.094 - - -
7.6560 61700 0.0944 - - -
7.6684 61800 0.0942 - - -
7.6809 61900 0.0941 - - -
7.6933 62000 0.0932 - - -
7.7057 62100 0.0935 - - -
7.7181 62200 0.0932 - - -
7.7305 62300 0.094 - - -
7.7429 62400 0.0935 - - -
7.7553 62500 0.0944 - - -
7.7677 62600 0.0933 - - -
7.7801 62700 0.0938 - - -
7.7925 62800 0.0924 - - -
7.8049 62900 0.0926 - - -
7.8173 63000 0.0935 - - -
7.8298 63100 0.0926 - - -
7.8422 63200 0.0928 - - -
7.8546 63300 0.0937 - - -
7.8670 63400 0.0938 - - -
7.8794 63500 0.0927 - - -
7.8918 63600 0.0929 - - -
7.9042 63700 0.0938 - - -
7.9166 63800 0.0934 - - -
7.9290 63900 0.093 - - -
7.9414 64000 0.0916 - - -
7.9538 64100 0.0946 - - -
7.9662 64200 0.0929 - - -
7.9787 64300 0.0934 - - -
7.9911 64400 0.0922 - - -
8.0035 64500 0.0928 - - -
8.0159 64600 0.0938 - - -
8.0283 64700 0.092 - - -
8.0407 64800 0.0944 - - -
8.0531 64900 0.093 - - -
8.0655 65000 0.0924 - - -
8.0779 65100 0.0924 - - -
8.0903 65200 0.093 - - -
8.1027 65300 0.0931 - - -
8.1152 65400 0.0935 - - -
8.1276 65500 0.0927 - - -
8.1400 65600 0.0921 - - -
8.1524 65700 0.0923 - - -
8.1648 65800 0.0925 - - -
8.1772 65900 0.0926 - - -
8.1896 66000 0.0916 - - -
8.2020 66100 0.0925 - - -
8.2144 66200 0.0921 - - -
8.2268 66300 0.0927 - - -
8.2392 66400 0.0924 - - -
8.2516 66500 0.0927 - - -
8.2641 66600 0.0923 - - -
8.2765 66700 0.0919 - - -
8.2889 66800 0.0918 - - -
8.3013 66900 0.0923 - - -
8.3137 67000 0.0922 - - -
8.3261 67100 0.0925 - - -
8.3385 67200 0.0923 - - -
8.3509 67300 0.093 - - -
8.3633 67400 0.0923 - - -
8.3757 67500 0.093 - - -
8.3881 67600 0.0939 - - -
8.4005 67700 0.0931 - - -
8.4130 67800 0.0922 - - -
8.4254 67900 0.091 - - -
8.4378 68000 0.0922 - - -
8.4502 68100 0.0922 - - -
8.4626 68200 0.0923 - - -
8.4750 68300 0.0927 - - -
8.4874 68400 0.092 - - -
8.4998 68500 0.0922 - - -
8.5122 68600 0.0923 - - -
8.5246 68700 0.0927 - - -
8.5370 68800 0.0914 - - -
8.5494 68900 0.0916 - - -
8.5619 69000 0.0923 - - -
8.5743 69100 0.0921 - - -
8.5867 69200 0.092 - - -
8.5991 69300 0.091 - - -
8.6115 69400 0.0929 - - -
8.6239 69500 0.0917 - - -
8.6363 69600 0.0915 - - -
8.6487 69700 0.0931 - - -
8.6611 69800 0.0937 - - -
8.6735 69900 0.0916 - - -
8.6859 70000 0.0924 0.1055 -13.1395 0.9135
8.6983 70100 0.0915 - - -
8.7108 70200 0.0918 - - -
8.7232 70300 0.0919 - - -
8.7356 70400 0.0927 - - -
8.7480 70500 0.0926 - - -
8.7604 70600 0.0926 - - -
8.7728 70700 0.0914 - - -
8.7852 70800 0.0916 - - -
8.7976 70900 0.0907 - - -
8.8100 71000 0.0916 - - -
8.8224 71100 0.0914 - - -
8.8348 71200 0.0916 - - -
8.8473 71300 0.092 - - -
8.8597 71400 0.0917 - - -
8.8721 71500 0.0923 - - -
8.8845 71600 0.0908 - - -
8.8969 71700 0.0917 - - -
8.9093 71800 0.093 - - -
8.9217 71900 0.0912 - - -
8.9341 72000 0.0911 - - -
8.9465 72100 0.0912 - - -
8.9589 72200 0.0923 - - -
8.9713 72300 0.0914 - - -
8.9837 72400 0.0911 - - -
8.9962 72500 0.0908 - - -
9.0086 72600 0.0922 - - -
9.0210 72700 0.0918 - - -
9.0334 72800 0.0917 - - -
9.0458 72900 0.0925 - - -
9.0582 73000 0.0914 - - -
9.0706 73100 0.0907 - - -
9.0830 73200 0.0916 - - -
9.0954 73300 0.0916 - - -
9.1078 73400 0.0918 - - -
9.1202 73500 0.0918 - - -
9.1326 73600 0.0913 - - -
9.1451 73700 0.0901 - - -
9.1575 73800 0.0912 - - -
9.1699 73900 0.0916 - - -
9.1823 74000 0.0906 - - -
9.1947 74100 0.0913 - - -
9.2071 74200 0.0899 - - -
9.2195 74300 0.0919 - - -
9.2319 74400 0.0908 - - -
9.2443 74500 0.0911 - - -
9.2567 74600 0.0913 - - -
9.2691 74700 0.0909 - - -
9.2815 74800 0.0905 - - -
9.2940 74900 0.091 - - -
9.3064 75000 0.091 - - -
9.3188 75100 0.0908 - - -
9.3312 75200 0.0915 - - -
9.3436 75300 0.091 - - -
9.3560 75400 0.0915 - - -
9.3684 75500 0.0915 - - -
9.3808 75600 0.0917 - - -
9.3932 75700 0.0925 - - -
9.4056 75800 0.0918 - - -
9.4180 75900 0.0903 - - -
9.4305 76000 0.0907 - - -
9.4429 76100 0.0916 - - -
9.4553 76200 0.0906 - - -
9.4677 76300 0.0919 - - -
9.4801 76400 0.0907 - - -
9.4925 76500 0.0915 - - -
9.5049 76600 0.0908 - - -
9.5173 76700 0.092 - - -
9.5297 76800 0.0902 - - -
9.5421 76900 0.0909 - - -
9.5545 77000 0.09 - - -
9.5669 77100 0.0917 - - -
9.5794 77200 0.091 - - -
9.5918 77300 0.0906 - - -
9.6042 77400 0.0902 - - -
9.6166 77500 0.0921 - - -
9.6290 77600 0.0907 - - -
9.6414 77700 0.0908 - - -
9.6538 77800 0.0917 - - -
9.6662 77900 0.092 - - -
9.6786 78000 0.091 - - -
9.6910 78100 0.0909 - - -
9.7034 78200 0.0903 - - -
9.7158 78300 0.0914 - - -
9.7283 78400 0.091 - - -
9.7407 78500 0.0909 - - -
9.7531 78600 0.0922 - - -
9.7655 78700 0.0907 - - -
9.7779 78800 0.0909 - - -
9.7903 78900 0.0905 - - -
9.8027 79000 0.0898 - - -
9.8151 79100 0.091 - - -
9.8275 79200 0.09 - - -
9.8399 79300 0.0908 - - -
9.8523 79400 0.0911 - - -
9.8647 79500 0.0913 - - -
9.8772 79600 0.0902 - - -
9.8896 79700 0.0904 - - -
9.9020 79800 0.0908 - - -
9.9144 79900 0.0918 - - -
9.9268 80000 0.0905 0.1044 -13.0248 0.915
9.9392 80100 0.0894 - - -
9.9516 80200 0.0917 - - -
9.9640 80300 0.0908 - - -
9.9764 80400 0.0907 - - -
9.9888 80500 0.0905 - - -

Framework Versions

  • Python: 3.10.17
  • Sentence Transformers: 4.1.0
  • Transformers: 4.46.3
  • PyTorch: 2.2.0+cu121
  • Accelerate: 1.1.1
  • Datasets: 2.18.0
  • Tokenizers: 0.20.3

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MSELoss

@inproceedings{reimers-2020-multilingual-sentence-bert,
    title = "Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2020",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/2004.09813",
}
Downloads last month
8
Safetensors
Model size
0.3B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for saikasyap/xlm-roberta-base-multilingual-en-sa

Finetuned
(3704)
this model

Evaluation results