Upload fine-tuned Turkish embedding model (bge-m3, Sungur-9B prepared datasets)

Browse files

Files changed (14) hide show

.gitattributes +1 -0
1_Pooling/config.json +10 -0
README.md +476 -0
config.json +27 -0
config_sentence_transformers.json +14 -0
eval/similarity_evaluation_sts-validation_results.csv +27 -0
model.safetensors +3 -0
modules.json +20 -0
sentence_bert_config.json +4 -0
sentencepiece.bpe.model +3 -0
special_tokens_map.json +51 -0
tokenizer.json +3 -0
tokenizer_config.json +56 -0
training_history.json +64 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

1_Pooling/config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "word_embedding_dimension": 1024,
+    "pooling_mode_cls_token": true,
+    "pooling_mode_mean_tokens": false,
+    "pooling_mode_max_tokens": false,
+    "pooling_mode_mean_sqrt_len_tokens": false,
+    "pooling_mode_weightedmean_tokens": false,
+    "pooling_mode_lasttoken": false,
+    "include_prompt": true
+}

README.md ADDED Viewed

	@@ -0,0 +1,476 @@

+---
+tags:
+- sentence-transformers
+- sentence-similarity
+- feature-extraction
+- dense
+- generated_from_trainer
+- dataset_size:704
+- loss:MultipleNegativesRankingLoss
+- loss:TripletLoss
+base_model: BAAI/bge-m3
+widget:
+- source_sentence: '** İstanbul, Türkiye''nin en büyük şehridir.'
+  sentences:
+  - '** Bir tweet''in milyonlarca dolar değer kazanması kulağa inanılmaz geliyor değil
+    mi'
+  - '** İstanbul, dünyanın en küçük şehridir.'
+  - '** Türkiye''deki şehirler arasında nüfus bakımından İstanbul ilk sırada yer alır.'
+- source_sentence: '** Türkiye''de boşanma davası açmak için hangi koşullar gereklidir?'
+  sentences:
+  - '** Süper Lig''in zirvesinde kıyasıya mücadele devam ederken, Fenerbahçe bu akşam
+    sahasında Trabzonspor ile karşılaştı. Sarı-lacivertli ekip, taraftarlarının coşkulu
+    desteğine rağmen zorlu rakibine karşı net gol fırsatlarından yararlanamadı. Maç
+    boyunca tempolu bir oyun sergileyen Fenerbahçe, son düdüğe kadar şampiyonluk hedefini
+    korumak için mücadelesini sürdürdü. Ancak puan kaybına engel olamadı.'
+  - '** Türk Medeni Kanunu''na göre boşanma davası açılabilmesi için evlilik birliğinin
+    temelinden sarsılması veya kanunda açıkça belirtilen sebeplerin bulunması gerekir.
+    Bu sebepler arasında; eşlerin birbirinden ayrı yaşaması (yalnızca 1 yıl şartıyla),
+    terk, ihmal, sadakatsizlik, şiddet, suç işleme gibi durumlar yer alır. Boşanma
+    davaları, mahkeme kararıyla kesinleşir.'
+  - '** Türkiye''de boşanma davası açabilmek için evlilik birliğinin temelinden sarsıldığı
+    kanıtlanmalıdır. Bu durum; eşlerin birlikte yaşamaktan kaçınması (ayrılık), sadakatsizlik,
+    şiddet, terk veya mal paylaşımındaki anlaşmazlıklar gibi sebeplerle ortaya çıkabilir.
+    Boşanma davası için en az bir yıl evli olma şartı aranır ve dava ya tarafların
+    ortak muvafakatle (rızaya dayalı) ya da hakim kararıyla sonuçlanır.'
+- source_sentence: '** Bol su tüketmek vücudun sağlıklı çalışması açısından kritik
+    önem taşır.'
+  sentences:
+  - '** Sınav odaklı eğitim sistemi, öğrencileri ezberleme ve testlerde yüksek puan
+    almaya yönlendirerek eleştirel düşünme, problem çözme ve yaratıcı becerilerini
+    yeterince geliştirmekte zorlanır. Bu durum, bireylerin özgün fikirler üretmelerini
+    sınırlayabilir ve yenilikçi yaklaşımlara olan ilgiyi azaltabilir. Ayrıca sürekli
+    değerlendirme baskısı, öğrencilerde stres ve kaygı yaratarak yaratıcı potansiyellerini
+    ortaya koymalarını engelleyebilir.'
+  - '** Vücut fonksiyonlarının düzgün işlemesi için yeterli miktarda su içmek gerekir.'
+  - Araştırmacılar, evrendeki bilinmeyenleri aydınlatmak adına durmadan çalışmalar
+    yürütmektedirler.
+- source_sentence: '** Antibiyotik direnci neden artıyor?'
+  sentences:
+  - '** Antibiyotik direncinin artmasının temel sebepleri arasında aşırı ve yanlış
+    antibiyotik kullanımı yer alır. Hastaların tam tedavi süresince ilacı almaması,
+    hayvancılıkta büyüme hormonu olarak antibiyotik kullanımının yaygınlaşması ve
+    gelişmekte olan ülkelerdeki düşük standartlarda antibiyotik üretimi gibi faktörler
+    bu sorunu daha da kötüleştiriyor. Dirençli bakterilerin çoğalmasıyla birlikte
+    enfeksiyonların tedavisi zorlaşıyor ve ölüm oranları yükseliyor.'
+  - '** Bir tweet''in milyonlarca dolar değer kazanması kulağa inanılmaz geliyor değil
+    mi'
+  - '** Eğitim, kişinin hayat boyu öğrenerek kendini geliştirmesiyle ilgili sistematik
+    bir yolculuktur.'
+- source_sentence: '** Diyabet hastaları hangi besinleri tüketmeli?'
+  sentences:
+  - Bu ay uçak yolculuğu için biletlerin maliyeti önemli ölçüde yükseldi.
+  - '** Diyabet hastalarının karbonhidrat alımını dikkatlice yönetmeleri gerekir.
+    Tam tahıllı ekmekler, bulgur, yulaf ezmesi gibi kompleks karbonhidratlar kan şekerini
+    daha yavaş yükseltir. Lif bakımından zengin sebzeler, meyveler (özellikle düşük
+    glisemik indeksli olanlar) ve baklagiller de diyetlerinde bulunmalıdır. Ayrıca
+    sağlıklı yağ kaynakları (zeytinyağı, avokado, ceviz), protein (tavuk, balık, fasulye)
+    ve düzenli egzersiz kan şekeri kontrolüne yardımcı olur.'
+  - '** Burada farklı kültürlerin varlığı kabul görür ve korunur.'
+pipeline_tag: sentence-similarity
+library_name: sentence-transformers
+metrics:
+- pearson_cosine
+- spearman_cosine
+model-index:
+- name: SentenceTransformer based on BAAI/bge-m3
+  results:
+  - task:
+      type: semantic-similarity
+      name: Semantic Similarity
+    dataset:
+      name: sts validation
+      type: sts-validation
+    metrics:
+    - type: pearson_cosine
+      value: 0.909334340084967
+      name: Pearson Cosine
+    - type: spearman_cosine
+      value: 0.6848030018761727
+      name: Spearman Cosine
+---
+# SentenceTransformer based on BAAI/bge-m3
+This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [BAAI/bge-m3](https://huggingface.co/BAAI/bge-m3). It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
+## Model Details
+### Model Description
+- **Model Type:** Sentence Transformer
+- **Base model:** [BAAI/bge-m3](https://huggingface.co/BAAI/bge-m3) <!-- at revision 5617a9f61b028005a4858fdac845db406aefb181 -->
+- **Maximum Sequence Length:** 8192 tokens
+- **Output Dimensionality:** 1024 dimensions
+- **Similarity Function:** Cosine Similarity
+<!-- - **Training Dataset:** Unknown -->
+<!-- - **Language:** Unknown -->
+<!-- - **License:** Unknown -->
+### Model Sources
+- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
+- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
+- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
+### Full Model Architecture
+```
+SentenceTransformer(
+  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False, 'architecture': 'XLMRobertaModel'})
+  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
+  (2): Normalize()
+)
+```
+## Usage
+### Direct Usage (Sentence Transformers)
+First install the Sentence Transformers library:
+```bash
+pip install -U sentence-transformers
+```
+Then you can load this model and run inference.
+```python
+from sentence_transformers import SentenceTransformer
+# Download from the 🤗 Hub
+model = SentenceTransformer("sentence_transformers_model_id")
+# Run inference
+sentences = [
+    '** Diyabet hastaları hangi besinleri tüketmeli?',
+    '** Diyabet hastalarının karbonhidrat alımını dikkatlice yönetmeleri gerekir. Tam tahıllı ekmekler, bulgur, yulaf ezmesi gibi kompleks karbonhidratlar kan şekerini daha yavaş yükseltir. Lif bakımından zengin sebzeler, meyveler (özellikle düşük glisemik indeksli olanlar) ve baklagiller de diyetlerinde bulunmalıdır. Ayrıca sağlıklı yağ kaynakları (zeytinyağı, avokado, ceviz), protein (tavuk, balık, fasulye) ve düzenli egzersiz kan şekeri kontrolüne yardımcı olur.',
+    '** Burada farklı kültürlerin varlığı kabul görür ve korunur.',
+]
+embeddings = model.encode(sentences)
+print(embeddings.shape)
+# [3, 1024]
+# Get the similarity scores for the embeddings
+similarities = model.similarity(embeddings, embeddings)
+print(similarities)
+# tensor([[1.0000, 0.6500, 0.2933],
+#         [0.6500, 1.0000, 0.2652],
+#         [0.2933, 0.2652, 1.0000]])
+```
+<!--
+### Direct Usage (Transformers)
+<details><summary>Click to see the direct usage in Transformers</summary>
+</details>
+-->
+<!--
+### Downstream Usage (Sentence Transformers)
+You can finetune this model on your own dataset.
+<details><summary>Click to expand</summary>
+</details>
+-->
+<!--
+### Out-of-Scope Use
+*List how the model may foreseeably be misused and address what users ought not to do with the model.*
+-->
+## Evaluation
+### Metrics
+#### Semantic Similarity
+* Dataset: `sts-validation`
+* Evaluated with <code>__main__.TrackedEvaluator</code>
+| Metric              | Value      |
+|:--------------------|:-----------|
+| pearson_cosine      | 0.9093     |
+| **spearman_cosine** | **0.6848** |
+<!--
+## Bias, Risks and Limitations
+*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
+-->
+<!--
+### Recommendations
+*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
+-->
+## Training Details
+### Training Datasets
+#### Unnamed Dataset
+* Size: 320 training samples
+* Columns: <code>sentence_0</code> and <code>sentence_1</code>
+* Approximate statistics based on the first 320 samples:
+  |         | sentence_0                                                                        | sentence_1                                                                         |
+  |:--------|:----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
+  | type    | string                                                                            | string                                                                             |
+  | details | <ul><li>min: 9 tokens</li><li>mean: 17.78 tokens</li><li>max: 37 tokens</li></ul> | <ul><li>min: 7 tokens</li><li>mean: 50.98 tokens</li><li>max: 130 tokens</li></ul> |
+* Samples:
+  | sentence_0                                                                                 | sentence_1                                                                                                                                                                                                                                                                                                                                                                                          |
+  |:-------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
+  | <code>** Olimpiyatlarda hangi spor dalları her yaz oyunlarında kesinlikle yer alır?</code> | <code>** Yaz Olimpiyatları'nda **atletizm, yüzme, jimnastik, bisiklet, okçuluk ve atıcılık** dalları tüm organizasyonlarda resmi olarak bulunmuştur. Bu altı spor dalı, modern Olimpiyat Oyunları'nın temelini oluşturan disiplinler arasında kabul edilir.</code>                                                                                                                                  |
+  | <code>** Şehir içi ulaşımı geliştirmek için yeni tramvay hatları inşa ediliyor.</code>     | <code>** Yeni tramvay hatlarının inşasıyla şehir içindeki ulaşım daha rahat hale gelecek.</code>                                                                                                                                                                                                                                                                                                    |
+  | <code>** Milliler, Avrupa Şampiyonası'nda Tarihi Zafer! 🏆</code>                           | <code>** Türk milli basketbol takımı, Avrupa Basketbol Şampiyonası finalinde güçlü rakibi Slovenya'yı 85-76 mağlup ederek tarihindeki ilk şampiyonluğa ulaştı. Bu zafer, ülke genelinde büyük sevinç yarattı ve oyuncuların inanılmaz mücadelesi tribünleri coşturdu. Turnuva boyunca sergilediği performansla tüm dikkatleri üzerine çeken Türkiye, altın madalyayı hak ettiğini kanıtladı.</code> |
+* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
+  ```json
+  {
+      "scale": 20.0,
+      "similarity_fct": "cos_sim",
+      "gather_across_devices": false
+  }
+  ```
+#### Unnamed Dataset
+* Size: 384 training samples
+* Columns: <code>sentence_0</code>, <code>sentence_1</code>, and <code>sentence_2</code>
+* Approximate statistics based on the first 384 samples:
+  |         | sentence_0                                                                        | sentence_1                                                                        | sentence_2                                                                         |
+  |:--------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
+  | type    | string                                                                            | string                                                                            | string                                                                             |
+  | details | <ul><li>min: 3 tokens</li><li>mean: 17.15 tokens</li><li>max: 37 tokens</li></ul> | <ul><li>min: 3 tokens</li><li>mean: 46.8 tokens</li><li>max: 130 tokens</li></ul> | <ul><li>min: 3 tokens</li><li>mean: 37.94 tokens</li><li>max: 124 tokens</li></ul> |
+* Samples:
+  | sentence_0                                                                                             | sentence_1                                                                                                                                                                                                                                                                                                                                                                                                                                                                    | sentence_2                                                                                                                                                                                                                                                                                                                                                                                                                            |
+  |:-------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
+  | <code>** Su 0°C'de donar.</code>                                                                       | <code>** Donma noktası 0°C olan maddeler arasında su bulunur.</code>                                                                                                                                                                                                                                                                                                                                                                                                          | <code>** Su -10°C'de donar.</code>                                                                                                                                                                                                                                                                                                                                                                                                    |
+  | <code>** Stres ve anksiyete sürekli olarak yaşandığında vücuda hangi fiziksel etkiler olabilir?</code> | <code>** Kronik stres ve anksiyetenin vücuda olan etkileri oldukça geniştir. Sürekli stres hormonlarının salgılanması, bağışıklık sistemini zayıflatarak hastalıklara karşı direnci düşürebilir. Ayrıca yüksek tansiyon, kalp çarpıntısı, baş ağrıları, uyku problemleri, mide-bağırsak rahatsızlıkları gibi çeşitli fiziksel semptomlara yol açabilir. Uzun vadede ise kronik stres, depresyon, obezite ve diyabet gibi ciddi sağlık sorunlarına katkıda bulunabilir.</code> | <code>** Sağlıklı bir yaşam sürmek için sürekli fiziksel aktivitede bulunmak şarttır.</code>                                                                                                                                                                                                                                                                                                                                          |
+  | <code>** Dolar kuru tekrar rekor kırdı.</code>                                                         | <code>** Döviz kurları yeni bir zirveye ulaştı.</code>                                                                                                                                                                                                                                                                                                                                                                                                                        | <code>** Türk Lirası'nın dolar karşısında tarihi düşük seviyelere gerilemesi ekonomistleri endişelendiriyor. Dolar/TL kuru bugün 18.50 sınırını aşarak yeni bir rekor kırdı. Uzmanlar bu durumun enflasyonu daha da tetikleyebileceğini ve ithalat maliyetlerini artırabileceğini belirtiyor. Merkez Bankası'nın faiz indirimlerinin etkisiyle devam eden kur dalgalanmaları, yatırımcıların güvenini sarstığı ifade ediliyor.</code> |
+* Loss: [<code>TripletLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#tripletloss) with these parameters:
+  ```json
+  {
+      "distance_metric": "TripletDistanceMetric.EUCLIDEAN",
+      "triplet_margin": 0.5
+  }
+  ```
+### Training Hyperparameters
+#### Non-Default Hyperparameters
+- `eval_strategy`: steps
+- `per_device_train_batch_size`: 48
+- `per_device_eval_batch_size`: 48
+- `num_train_epochs`: 8
+- `fp16`: True
+- `multi_dataset_batch_sampler`: round_robin
+#### All Hyperparameters
+<details><summary>Click to expand</summary>
+- `overwrite_output_dir`: False
+- `do_predict`: False
+- `eval_strategy`: steps
+- `prediction_loss_only`: True
+- `per_device_train_batch_size`: 48
+- `per_device_eval_batch_size`: 48
+- `per_gpu_train_batch_size`: None
+- `per_gpu_eval_batch_size`: None
+- `gradient_accumulation_steps`: 1
+- `eval_accumulation_steps`: None
+- `torch_empty_cache_steps`: None
+- `learning_rate`: 5e-05
+- `weight_decay`: 0.0
+- `adam_beta1`: 0.9
+- `adam_beta2`: 0.999
+- `adam_epsilon`: 1e-08
+- `max_grad_norm`: 1
+- `num_train_epochs`: 8
+- `max_steps`: -1
+- `lr_scheduler_type`: linear
+- `lr_scheduler_kwargs`: {}
+- `warmup_ratio`: 0.0
+- `warmup_steps`: 0
+- `log_level`: passive
+- `log_level_replica`: warning
+- `log_on_each_node`: True
+- `logging_nan_inf_filter`: True
+- `save_safetensors`: True
+- `save_on_each_node`: False
+- `save_only_model`: False
+- `restore_callback_states_from_checkpoint`: False
+- `no_cuda`: False
+- `use_cpu`: False
+- `use_mps_device`: False
+- `seed`: 42
+- `data_seed`: None
+- `jit_mode_eval`: False
+- `bf16`: False
+- `fp16`: True
+- `fp16_opt_level`: O1
+- `half_precision_backend`: auto
+- `bf16_full_eval`: False
+- `fp16_full_eval`: False
+- `tf32`: None
+- `local_rank`: 0
+- `ddp_backend`: None
+- `tpu_num_cores`: None
+- `tpu_metrics_debug`: False
+- `debug`: []
+- `dataloader_drop_last`: False
+- `dataloader_num_workers`: 0
+- `dataloader_prefetch_factor`: None
+- `past_index`: -1
+- `disable_tqdm`: False
+- `remove_unused_columns`: True
+- `label_names`: None
+- `load_best_model_at_end`: False
+- `ignore_data_skip`: False
+- `fsdp`: []
+- `fsdp_min_num_params`: 0
+- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
+- `fsdp_transformer_layer_cls_to_wrap`: None
+- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
+- `parallelism_config`: None
+- `deepspeed`: None
+- `label_smoothing_factor`: 0.0
+- `optim`: adamw_torch_fused
+- `optim_args`: None
+- `adafactor`: False
+- `group_by_length`: False
+- `length_column_name`: length
+- `project`: huggingface
+- `trackio_space_id`: trackio
+- `ddp_find_unused_parameters`: None
+- `ddp_bucket_cap_mb`: None
+- `ddp_broadcast_buffers`: False
+- `dataloader_pin_memory`: True
+- `dataloader_persistent_workers`: False
+- `skip_memory_metrics`: True
+- `use_legacy_prediction_loop`: False
+- `push_to_hub`: False
+- `resume_from_checkpoint`: None
+- `hub_model_id`: None
+- `hub_strategy`: every_save
+- `hub_private_repo`: None
+- `hub_always_push`: False
+- `hub_revision`: None
+- `gradient_checkpointing`: False
+- `gradient_checkpointing_kwargs`: None
+- `include_inputs_for_metrics`: False
+- `include_for_metrics`: []
+- `eval_do_concat_batches`: True
+- `fp16_backend`: auto
+- `push_to_hub_model_id`: None
+- `push_to_hub_organization`: None
+- `mp_parameters`:
+- `auto_find_batch_size`: False
+- `full_determinism`: False
+- `torchdynamo`: None
+- `ray_scope`: last
+- `ddp_timeout`: 1800
+- `torch_compile`: False
+- `torch_compile_backend`: None
+- `torch_compile_mode`: None
+- `include_tokens_per_second`: False
+- `include_num_input_tokens_seen`: no
+- `neftune_noise_alpha`: None
+- `optim_target_modules`: None
+- `batch_eval_metrics`: False
+- `eval_on_start`: False
+- `use_liger_kernel`: False
+- `liger_kernel_config`: None
+- `eval_use_gather_object`: False
+- `average_tokens_across_devices`: True
+- `prompts`: None
+- `batch_sampler`: batch_sampler
+- `multi_dataset_batch_sampler`: round_robin
+- `router_mapping`: {}
+- `learning_rate_mapping`: {}
+</details>
+### Training Logs
+| Epoch  | Step | sts-validation_spearman_cosine |
+|:------:|:----:|:------------------------------:|
+| 1.0    | 14   | 0.6814                         |
+| 2.0    | 28   | 0.6820                         |
+| 3.0    | 42   | 0.6797                         |
+| 3.5714 | 50   | 0.6816                         |
+| 4.0    | 56   | 0.6745                         |
+| 5.0    | 70   | 0.6824                         |
+| 6.0    | 84   | 0.6827                         |
+| 7.0    | 98   | 0.6846                         |
+| 7.1429 | 100  | 0.6811                         |
+| 8.0    | 112  | 0.6848                         |
+### Framework Versions
+- Python: 3.12.12
+- Sentence Transformers: 5.1.1
+- Transformers: 4.57.0
+- PyTorch: 2.8.0+cu126
+- Accelerate: 1.10.1
+- Datasets: 4.0.0
+- Tokenizers: 0.22.1
+## Citation
+### BibTeX
+#### Sentence Transformers
+```bibtex
+@inproceedings{reimers-2019-sentence-bert,
+    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
+    author = "Reimers, Nils and Gurevych, Iryna",
+    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
+    month = "11",
+    year = "2019",
+    publisher = "Association for Computational Linguistics",
+    url = "https://arxiv.org/abs/1908.10084",
+}
+```
+#### MultipleNegativesRankingLoss
+```bibtex
+@misc{henderson2017efficient,
+    title={Efficient Natural Language Response Suggestion for Smart Reply},
+    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
+    year={2017},
+    eprint={1705.00652},
+    archivePrefix={arXiv},
+    primaryClass={cs.CL}
+}
+```
+#### TripletLoss
+```bibtex
+@misc{hermans2017defense,
+    title={In Defense of the Triplet Loss for Person Re-Identification},
+    author={Alexander Hermans and Lucas Beyer and Bastian Leibe},
+    year={2017},
+    eprint={1703.07737},
+    archivePrefix={arXiv},
+    primaryClass={cs.CV}
+}
+```
+<!--
+## Glossary
+*Clearly define terms in order to be accessible across audiences.*
+-->
+<!--
+## Model Card Authors
+*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
+-->
+<!--
+## Model Card Contact
+*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
+-->

config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "architectures": [
+    "XLMRobertaModel"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "dtype": "float32",
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 8194,
+  "model_type": "xlm-roberta",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "output_past": true,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "transformers_version": "4.57.0",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 250002
+}

config_sentence_transformers.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "__version__": {
+    "sentence_transformers": "5.1.1",
+    "transformers": "4.57.0",
+    "pytorch": "2.8.0+cu126"
+  },
+  "model_type": "SentenceTransformer",
+  "prompts": {
+    "query": "",
+    "document": ""
+  },
+  "default_prompt_name": null,
+  "similarity_fn_name": "cosine"
+}

eval/similarity_evaluation_sts-validation_results.csv ADDED Viewed

	@@ -0,0 +1,27 @@

+epoch,steps,cosine_pearson,cosine_spearman
+1.0,14,0.8537418419006333,0.6814258911819888
+1.0,14,0.8537211443069036,0.6814258911819888
+2.0,28,0.8559980358492751,0.6812382739212008
+3.0,42,0.8624920976876257,0.6825515947467169
+4.0,56,0.8729684959807873,0.6801125703564729
+5.0,70,0.8843317432159102,0.6842401500938087
+6.0,84,0.8940153158531169,0.6810506566604129
+7.0,98,0.9025515311923669,0.6804878048780489
+8.0,112,0.9089235520988124,0.6834896810506568
+1.0,14,0.8537285250303269,0.6814258911819888
+1.0,14,0.8537211443069036,0.6814258911819888
+2.0,28,0.8559980358492751,0.6812382739212008
+3.0,42,0.8624712304708901,0.6825515947467169
+4.0,56,0.872950003348859,0.6801125703564729
+5.0,70,0.8841844493956517,0.6842401500938087
+6.0,84,0.8935150884139742,0.6829268292682927
+7.0,98,0.9017373896177431,0.6804878048780489
+8.0,112,0.9082756555307265,0.6814258911819888
+1.0,14,0.8537285250303269,0.6814258911819888
+2.0,28,0.8556070887165274,0.6819887429643529
+3.0,42,0.8603007353436536,0.6797373358348969
+4.0,56,0.8695005980140013,0.6744840525328332
+5.0,70,0.8820484817932658,0.6823639774859288
+6.0,84,0.8925334419449267,0.6827392120075048
+7.0,98,0.9011719631970071,0.6846153846153846
+8.0,112,0.909334340084967,0.6848030018761727

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:300e6231d6fd385ea08f5a3fa1204385858eb747f1705ce2bfb7061b43920cc8
+size 2271064456

modules.json ADDED Viewed

	@@ -0,0 +1,20 @@

+[
+  {
+    "idx": 0,
+    "name": "0",
+    "path": "",
+    "type": "sentence_transformers.models.Transformer"
+  },
+  {
+    "idx": 1,
+    "name": "1",
+    "path": "1_Pooling",
+    "type": "sentence_transformers.models.Pooling"
+  },
+  {
+    "idx": 2,
+    "name": "2",
+    "path": "2_Normalize",
+    "type": "sentence_transformers.models.Normalize"
+  }
+]

sentence_bert_config.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+    "max_seq_length": 8192,
+    "do_lower_case": false
+}

sentencepiece.bpe.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
+size 5069051

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e4f7e21bec3fb0044ca0bb2d50eb5d4d8c596273c422baef84466d2c73748b9c
+size 17083053

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "250001": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "mask_token": "<mask>",
+  "model_max_length": 8192,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "XLMRobertaTokenizer",
+  "unk_token": "<unk>"
+}

training_history.json ADDED Viewed

	@@ -0,0 +1,64 @@

+{
+  "best_score": 0.909334340084967,
+  "final_score": 0.909334340084967,
+  "history": [
+    {
+      "epoch": 1.0,
+      "steps": 14,
+      "score": 0.8537285250303269
+    },
+    {
+      "epoch": 2.0,
+      "steps": 28,
+      "score": 0.8556070887165274
+    },
+    {
+      "epoch": 3.0,
+      "steps": 42,
+      "score": 0.8603007353436536
+    },
+    {
+      "epoch": 3.571428571428571,
+      "steps": 50,
+      "score": 0.8648446733007412
+    },
+    {
+      "epoch": 4.0,
+      "steps": 56,
+      "score": 0.8695005980140013
+    },
+    {
+      "epoch": 5.0,
+      "steps": 70,
+      "score": 0.8820484817932658
+    },
+    {
+      "epoch": 6.0,
+      "steps": 84,
+      "score": 0.8925334419449267
+    },
+    {
+      "epoch": 7.0,
+      "steps": 98,
+      "score": 0.9011719631970071
+    },
+    {
+      "epoch": 7.142857142857143,
+      "steps": 100,
+      "score": 0.9023417449209123
+    },
+    {
+      "epoch": 8.0,
+      "steps": 112,
+      "score": 0.909334340084967
+    }
+  ],
+  "config": {
+    "epochs": 8,
+    "learning_rate": 1e-05,
+    "weight_decay": 0.01,
+    "warmup_steps": 500,
+    "batch_size_pairs": 64,
+    "batch_size_triplets": 48
+  }
+}