Sentence Similarity
sentence-transformers
Safetensors
Turkish
xlm-roberta
feature-extraction
dense
turkish
semantic-search
Eval Results
text-embeddings-inference
nezahatkorkmaz commited on
Commit
1021714
·
verified ·
1 Parent(s): 6db6743

Upload fine-tuned Turkish embedding model (bge-m3, Sungur-9B prepared datasets)

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 1024,
3
+ "pooling_mode_cls_token": true,
4
+ "pooling_mode_mean_tokens": false,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,476 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - dense
7
+ - generated_from_trainer
8
+ - dataset_size:704
9
+ - loss:MultipleNegativesRankingLoss
10
+ - loss:TripletLoss
11
+ base_model: BAAI/bge-m3
12
+ widget:
13
+ - source_sentence: '** İstanbul, Türkiye''nin en büyük şehridir.'
14
+ sentences:
15
+ - '** Bir tweet''in milyonlarca dolar değer kazanması kulağa inanılmaz geliyor değil
16
+ mi'
17
+ - '** İstanbul, dünyanın en küçük şehridir.'
18
+ - '** Türkiye''deki şehirler arasında nüfus bakımından İstanbul ilk sırada yer alır.'
19
+ - source_sentence: '** Türkiye''de boşanma davası açmak için hangi koşullar gereklidir?'
20
+ sentences:
21
+ - '** Süper Lig''in zirvesinde kıyasıya mücadele devam ederken, Fenerbahçe bu akşam
22
+ sahasında Trabzonspor ile karşılaştı. Sarı-lacivertli ekip, taraftarlarının coşkulu
23
+ desteğine rağmen zorlu rakibine karşı net gol fırsatlarından yararlanamadı. Maç
24
+ boyunca tempolu bir oyun sergileyen Fenerbahçe, son düdüğe kadar şampiyonluk hedefini
25
+ korumak için mücadelesini sürdürdü. Ancak puan kaybına engel olamadı.'
26
+ - '** Türk Medeni Kanunu''na göre boşanma davası açılabilmesi için evlilik birliğinin
27
+ temelinden sarsılması veya kanunda açıkça belirtilen sebeplerin bulunması gerekir.
28
+ Bu sebepler arasında; eşlerin birbirinden ayrı yaşaması (yalnızca 1 yıl şartıyla),
29
+ terk, ihmal, sadakatsizlik, şiddet, suç işleme gibi durumlar yer alır. Boşanma
30
+ davaları, mahkeme kararıyla kesinleşir.'
31
+ - '** Türkiye''de boşanma davası açabilmek için evlilik birliğinin temelinden sarsıldığı
32
+ kanıtlanmalıdır. Bu durum; eşlerin birlikte yaşamaktan kaçınması (ayrılık), sadakatsizlik,
33
+ şiddet, terk veya mal paylaşımındaki anlaşmazlıklar gibi sebeplerle ortaya çıkabilir.
34
+ Boşanma davası için en az bir yıl evli olma şartı aranır ve dava ya tarafların
35
+ ortak muvafakatle (rızaya dayalı) ya da hakim kararıyla sonuçlanır.'
36
+ - source_sentence: '** Bol su tüketmek vücudun sağlıklı çalışması açısından kritik
37
+ önem taşır.'
38
+ sentences:
39
+ - '** Sınav odaklı eğitim sistemi, öğrencileri ezberleme ve testlerde yüksek puan
40
+ almaya yönlendirerek eleştirel düşünme, problem çözme ve yaratıcı becerilerini
41
+ yeterince geliştirmekte zorlanır. Bu durum, bireylerin özgün fikirler üretmelerini
42
+ sınırlayabilir ve yenilikçi yaklaşımlara olan ilgiyi azaltabilir. Ayrıca sürekli
43
+ değerlendirme baskısı, öğrencilerde stres ve kaygı yaratarak yaratıcı potansiyellerini
44
+ ortaya koymalarını engelleyebilir.'
45
+ - '** Vücut fonksiyonlarının düzgün işlemesi için yeterli miktarda su içmek gerekir.'
46
+ - Araştırmacılar, evrendeki bilinmeyenleri aydınlatmak adına durmadan çalışmalar
47
+ yürütmektedirler.
48
+ - source_sentence: '** Antibiyotik direnci neden artıyor?'
49
+ sentences:
50
+ - '** Antibiyotik direncinin artmasının temel sebepleri arasında aşırı ve yanlış
51
+ antibiyotik kullanımı yer alır. Hastaların tam tedavi süresince ilacı almaması,
52
+ hayvancılıkta büyüme hormonu olarak antibiyotik kullanımının yaygınlaşması ve
53
+ gelişmekte olan ülkelerdeki düşük standartlarda antibiyotik üretimi gibi faktörler
54
+ bu sorunu daha da kötüleştiriyor. Dirençli bakterilerin çoğalmasıyla birlikte
55
+ enfeksiyonların tedavisi zorlaşıyor ve ölüm oranları yükseliyor.'
56
+ - '** Bir tweet''in milyonlarca dolar değer kazanması kulağa inanılmaz geliyor değil
57
+ mi'
58
+ - '** Eğitim, kişinin hayat boyu öğrenerek kendini geliştirmesiyle ilgili sistematik
59
+ bir yolculuktur.'
60
+ - source_sentence: '** Diyabet hastaları hangi besinleri tüketmeli?'
61
+ sentences:
62
+ - Bu ay uçak yolculuğu için biletlerin maliyeti önemli ölçüde yükseldi.
63
+ - '** Diyabet hastalarının karbonhidrat alımını dikkatlice yönetmeleri gerekir.
64
+ Tam tahıllı ekmekler, bulgur, yulaf ezmesi gibi kompleks karbonhidratlar kan şekerini
65
+ daha yavaş yükseltir. Lif bakımından zengin sebzeler, meyveler (özellikle düşük
66
+ glisemik indeksli olanlar) ve baklagiller de diyetlerinde bulunmalıdır. Ayrıca
67
+ sağlıklı yağ kaynakları (zeytinyağı, avokado, ceviz), protein (tavuk, balık, fasulye)
68
+ ve düzenli egzersiz kan şekeri kontrolüne yardımcı olur.'
69
+ - '** Burada farklı kültürlerin varlığı kabul görür ve korunur.'
70
+ pipeline_tag: sentence-similarity
71
+ library_name: sentence-transformers
72
+ metrics:
73
+ - pearson_cosine
74
+ - spearman_cosine
75
+ model-index:
76
+ - name: SentenceTransformer based on BAAI/bge-m3
77
+ results:
78
+ - task:
79
+ type: semantic-similarity
80
+ name: Semantic Similarity
81
+ dataset:
82
+ name: sts validation
83
+ type: sts-validation
84
+ metrics:
85
+ - type: pearson_cosine
86
+ value: 0.909334340084967
87
+ name: Pearson Cosine
88
+ - type: spearman_cosine
89
+ value: 0.6848030018761727
90
+ name: Spearman Cosine
91
+ ---
92
+
93
+ # SentenceTransformer based on BAAI/bge-m3
94
+
95
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [BAAI/bge-m3](https://huggingface.co/BAAI/bge-m3). It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
96
+
97
+ ## Model Details
98
+
99
+ ### Model Description
100
+ - **Model Type:** Sentence Transformer
101
+ - **Base model:** [BAAI/bge-m3](https://huggingface.co/BAAI/bge-m3) <!-- at revision 5617a9f61b028005a4858fdac845db406aefb181 -->
102
+ - **Maximum Sequence Length:** 8192 tokens
103
+ - **Output Dimensionality:** 1024 dimensions
104
+ - **Similarity Function:** Cosine Similarity
105
+ <!-- - **Training Dataset:** Unknown -->
106
+ <!-- - **Language:** Unknown -->
107
+ <!-- - **License:** Unknown -->
108
+
109
+ ### Model Sources
110
+
111
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
112
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
113
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
114
+
115
+ ### Full Model Architecture
116
+
117
+ ```
118
+ SentenceTransformer(
119
+ (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False, 'architecture': 'XLMRobertaModel'})
120
+ (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
121
+ (2): Normalize()
122
+ )
123
+ ```
124
+
125
+ ## Usage
126
+
127
+ ### Direct Usage (Sentence Transformers)
128
+
129
+ First install the Sentence Transformers library:
130
+
131
+ ```bash
132
+ pip install -U sentence-transformers
133
+ ```
134
+
135
+ Then you can load this model and run inference.
136
+ ```python
137
+ from sentence_transformers import SentenceTransformer
138
+
139
+ # Download from the 🤗 Hub
140
+ model = SentenceTransformer("sentence_transformers_model_id")
141
+ # Run inference
142
+ sentences = [
143
+ '** Diyabet hastaları hangi besinleri tüketmeli?',
144
+ '** Diyabet hastalarının karbonhidrat alımını dikkatlice yönetmeleri gerekir. Tam tahıllı ekmekler, bulgur, yulaf ezmesi gibi kompleks karbonhidratlar kan şekerini daha yavaş yükseltir. Lif bakımından zengin sebzeler, meyveler (özellikle düşük glisemik indeksli olanlar) ve baklagiller de diyetlerinde bulunmalıdır. Ayrıca sağlıklı yağ kaynakları (zeytinyağı, avokado, ceviz), protein (tavuk, balık, fasulye) ve düzenli egzersiz kan şekeri kontrolüne yardımcı olur.',
145
+ '** Burada farklı kültürlerin varlığı kabul görür ve korunur.',
146
+ ]
147
+ embeddings = model.encode(sentences)
148
+ print(embeddings.shape)
149
+ # [3, 1024]
150
+
151
+ # Get the similarity scores for the embeddings
152
+ similarities = model.similarity(embeddings, embeddings)
153
+ print(similarities)
154
+ # tensor([[1.0000, 0.6500, 0.2933],
155
+ # [0.6500, 1.0000, 0.2652],
156
+ # [0.2933, 0.2652, 1.0000]])
157
+ ```
158
+
159
+ <!--
160
+ ### Direct Usage (Transformers)
161
+
162
+ <details><summary>Click to see the direct usage in Transformers</summary>
163
+
164
+ </details>
165
+ -->
166
+
167
+ <!--
168
+ ### Downstream Usage (Sentence Transformers)
169
+
170
+ You can finetune this model on your own dataset.
171
+
172
+ <details><summary>Click to expand</summary>
173
+
174
+ </details>
175
+ -->
176
+
177
+ <!--
178
+ ### Out-of-Scope Use
179
+
180
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
181
+ -->
182
+
183
+ ## Evaluation
184
+
185
+ ### Metrics
186
+
187
+ #### Semantic Similarity
188
+
189
+ * Dataset: `sts-validation`
190
+ * Evaluated with <code>__main__.TrackedEvaluator</code>
191
+
192
+ | Metric | Value |
193
+ |:--------------------|:-----------|
194
+ | pearson_cosine | 0.9093 |
195
+ | **spearman_cosine** | **0.6848** |
196
+
197
+ <!--
198
+ ## Bias, Risks and Limitations
199
+
200
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
201
+ -->
202
+
203
+ <!--
204
+ ### Recommendations
205
+
206
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
207
+ -->
208
+
209
+ ## Training Details
210
+
211
+ ### Training Datasets
212
+
213
+ #### Unnamed Dataset
214
+
215
+ * Size: 320 training samples
216
+ * Columns: <code>sentence_0</code> and <code>sentence_1</code>
217
+ * Approximate statistics based on the first 320 samples:
218
+ | | sentence_0 | sentence_1 |
219
+ |:--------|:----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
220
+ | type | string | string |
221
+ | details | <ul><li>min: 9 tokens</li><li>mean: 17.78 tokens</li><li>max: 37 tokens</li></ul> | <ul><li>min: 7 tokens</li><li>mean: 50.98 tokens</li><li>max: 130 tokens</li></ul> |
222
+ * Samples:
223
+ | sentence_0 | sentence_1 |
224
+ |:-------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
225
+ | <code>** Olimpiyatlarda hangi spor dalları her yaz oyunlarında kesinlikle yer alır?</code> | <code>** Yaz Olimpiyatları'nda **atletizm, yüzme, jimnastik, bisiklet, okçuluk ve atıcılık** dalları tüm organizasyonlarda resmi olarak bulunmuştur. Bu altı spor dalı, modern Olimpiyat Oyunları'nın temelini oluşturan disiplinler arasında kabul edilir.</code> |
226
+ | <code>** Şehir içi ulaşımı geliştirmek için yeni tramvay hatları inşa ediliyor.</code> | <code>** Yeni tramvay hatlarının inşasıyla şehir içindeki ulaşım daha rahat hale gelecek.</code> |
227
+ | <code>** Milliler, Avrupa Şampiyonası'nda Tarihi Zafer! 🏆</code> | <code>** Türk milli basketbol takımı, Avrupa Basketbol Şampiyonası finalinde güçlü rakibi Slovenya'yı 85-76 mağlup ederek tarihindeki ilk şampiyonluğa ulaştı. Bu zafer, ülke genelinde büyük sevinç yarattı ve oyuncuların inanılmaz mücadelesi tribünleri coşturdu. Turnuva boyunca sergilediği performansla tüm dikkatleri üzerine çeken Türkiye, altın madalyayı hak ettiğini kanıtladı.</code> |
228
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
229
+ ```json
230
+ {
231
+ "scale": 20.0,
232
+ "similarity_fct": "cos_sim",
233
+ "gather_across_devices": false
234
+ }
235
+ ```
236
+
237
+ #### Unnamed Dataset
238
+
239
+ * Size: 384 training samples
240
+ * Columns: <code>sentence_0</code>, <code>sentence_1</code>, and <code>sentence_2</code>
241
+ * Approximate statistics based on the first 384 samples:
242
+ | | sentence_0 | sentence_1 | sentence_2 |
243
+ |:--------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
244
+ | type | string | string | string |
245
+ | details | <ul><li>min: 3 tokens</li><li>mean: 17.15 tokens</li><li>max: 37 tokens</li></ul> | <ul><li>min: 3 tokens</li><li>mean: 46.8 tokens</li><li>max: 130 tokens</li></ul> | <ul><li>min: 3 tokens</li><li>mean: 37.94 tokens</li><li>max: 124 tokens</li></ul> |
246
+ * Samples:
247
+ | sentence_0 | sentence_1 | sentence_2 |
248
+ |:-------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
249
+ | <code>** Su 0°C'de donar.</code> | <code>** Donma noktası 0°C olan maddeler arasında su bulunur.</code> | <code>** Su -10°C'de donar.</code> |
250
+ | <code>** Stres ve anksiyete sürekli olarak yaşandığında vücuda hangi fiziksel etkiler olabilir?</code> | <code>** Kronik stres ve anksiyetenin vücuda olan etkileri oldukça geniştir. Sürekli stres hormonlarının salgılanması, bağışıklık sistemini zayıflatarak hastalıklara karşı direnci düşürebilir. Ayrıca yüksek tansiyon, kalp çarpıntısı, baş ağrıları, uyku problemleri, mide-bağırsak rahatsızlıkları gibi çeşitli fiziksel semptomlara yol açabilir. Uzun vadede ise kronik stres, depresyon, obezite ve diyabet gibi ciddi sağlık sorunlarına katkıda bulunabilir.</code> | <code>** Sağlıklı bir yaşam sürmek için sürekli fiziksel aktivitede bulunmak şarttır.</code> |
251
+ | <code>** Dolar kuru tekrar rekor kırdı.</code> | <code>** Döviz kurları yeni bir zirveye ulaştı.</code> | <code>** Türk Lirası'nın dolar karşısında tarihi düşük seviyelere gerilemesi ekonomistleri endişelendiriyor. Dolar/TL kuru bugün 18.50 sınırını aşarak yeni bir rekor kırdı. Uzmanlar bu durumun enflasyonu daha da tetikleyebileceğini ve ithalat maliyetlerini artırabileceğini belirtiyor. Merkez Bankası'nın faiz indirimlerinin etkisiyle devam eden kur dalgalanmaları, yatırımcıların güvenini sarstığı ifade ediliyor.</code> |
252
+ * Loss: [<code>TripletLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#tripletloss) with these parameters:
253
+ ```json
254
+ {
255
+ "distance_metric": "TripletDistanceMetric.EUCLIDEAN",
256
+ "triplet_margin": 0.5
257
+ }
258
+ ```
259
+
260
+ ### Training Hyperparameters
261
+ #### Non-Default Hyperparameters
262
+
263
+ - `eval_strategy`: steps
264
+ - `per_device_train_batch_size`: 48
265
+ - `per_device_eval_batch_size`: 48
266
+ - `num_train_epochs`: 8
267
+ - `fp16`: True
268
+ - `multi_dataset_batch_sampler`: round_robin
269
+
270
+ #### All Hyperparameters
271
+ <details><summary>Click to expand</summary>
272
+
273
+ - `overwrite_output_dir`: False
274
+ - `do_predict`: False
275
+ - `eval_strategy`: steps
276
+ - `prediction_loss_only`: True
277
+ - `per_device_train_batch_size`: 48
278
+ - `per_device_eval_batch_size`: 48
279
+ - `per_gpu_train_batch_size`: None
280
+ - `per_gpu_eval_batch_size`: None
281
+ - `gradient_accumulation_steps`: 1
282
+ - `eval_accumulation_steps`: None
283
+ - `torch_empty_cache_steps`: None
284
+ - `learning_rate`: 5e-05
285
+ - `weight_decay`: 0.0
286
+ - `adam_beta1`: 0.9
287
+ - `adam_beta2`: 0.999
288
+ - `adam_epsilon`: 1e-08
289
+ - `max_grad_norm`: 1
290
+ - `num_train_epochs`: 8
291
+ - `max_steps`: -1
292
+ - `lr_scheduler_type`: linear
293
+ - `lr_scheduler_kwargs`: {}
294
+ - `warmup_ratio`: 0.0
295
+ - `warmup_steps`: 0
296
+ - `log_level`: passive
297
+ - `log_level_replica`: warning
298
+ - `log_on_each_node`: True
299
+ - `logging_nan_inf_filter`: True
300
+ - `save_safetensors`: True
301
+ - `save_on_each_node`: False
302
+ - `save_only_model`: False
303
+ - `restore_callback_states_from_checkpoint`: False
304
+ - `no_cuda`: False
305
+ - `use_cpu`: False
306
+ - `use_mps_device`: False
307
+ - `seed`: 42
308
+ - `data_seed`: None
309
+ - `jit_mode_eval`: False
310
+ - `bf16`: False
311
+ - `fp16`: True
312
+ - `fp16_opt_level`: O1
313
+ - `half_precision_backend`: auto
314
+ - `bf16_full_eval`: False
315
+ - `fp16_full_eval`: False
316
+ - `tf32`: None
317
+ - `local_rank`: 0
318
+ - `ddp_backend`: None
319
+ - `tpu_num_cores`: None
320
+ - `tpu_metrics_debug`: False
321
+ - `debug`: []
322
+ - `dataloader_drop_last`: False
323
+ - `dataloader_num_workers`: 0
324
+ - `dataloader_prefetch_factor`: None
325
+ - `past_index`: -1
326
+ - `disable_tqdm`: False
327
+ - `remove_unused_columns`: True
328
+ - `label_names`: None
329
+ - `load_best_model_at_end`: False
330
+ - `ignore_data_skip`: False
331
+ - `fsdp`: []
332
+ - `fsdp_min_num_params`: 0
333
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
334
+ - `fsdp_transformer_layer_cls_to_wrap`: None
335
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
336
+ - `parallelism_config`: None
337
+ - `deepspeed`: None
338
+ - `label_smoothing_factor`: 0.0
339
+ - `optim`: adamw_torch_fused
340
+ - `optim_args`: None
341
+ - `adafactor`: False
342
+ - `group_by_length`: False
343
+ - `length_column_name`: length
344
+ - `project`: huggingface
345
+ - `trackio_space_id`: trackio
346
+ - `ddp_find_unused_parameters`: None
347
+ - `ddp_bucket_cap_mb`: None
348
+ - `ddp_broadcast_buffers`: False
349
+ - `dataloader_pin_memory`: True
350
+ - `dataloader_persistent_workers`: False
351
+ - `skip_memory_metrics`: True
352
+ - `use_legacy_prediction_loop`: False
353
+ - `push_to_hub`: False
354
+ - `resume_from_checkpoint`: None
355
+ - `hub_model_id`: None
356
+ - `hub_strategy`: every_save
357
+ - `hub_private_repo`: None
358
+ - `hub_always_push`: False
359
+ - `hub_revision`: None
360
+ - `gradient_checkpointing`: False
361
+ - `gradient_checkpointing_kwargs`: None
362
+ - `include_inputs_for_metrics`: False
363
+ - `include_for_metrics`: []
364
+ - `eval_do_concat_batches`: True
365
+ - `fp16_backend`: auto
366
+ - `push_to_hub_model_id`: None
367
+ - `push_to_hub_organization`: None
368
+ - `mp_parameters`:
369
+ - `auto_find_batch_size`: False
370
+ - `full_determinism`: False
371
+ - `torchdynamo`: None
372
+ - `ray_scope`: last
373
+ - `ddp_timeout`: 1800
374
+ - `torch_compile`: False
375
+ - `torch_compile_backend`: None
376
+ - `torch_compile_mode`: None
377
+ - `include_tokens_per_second`: False
378
+ - `include_num_input_tokens_seen`: no
379
+ - `neftune_noise_alpha`: None
380
+ - `optim_target_modules`: None
381
+ - `batch_eval_metrics`: False
382
+ - `eval_on_start`: False
383
+ - `use_liger_kernel`: False
384
+ - `liger_kernel_config`: None
385
+ - `eval_use_gather_object`: False
386
+ - `average_tokens_across_devices`: True
387
+ - `prompts`: None
388
+ - `batch_sampler`: batch_sampler
389
+ - `multi_dataset_batch_sampler`: round_robin
390
+ - `router_mapping`: {}
391
+ - `learning_rate_mapping`: {}
392
+
393
+ </details>
394
+
395
+ ### Training Logs
396
+ | Epoch | Step | sts-validation_spearman_cosine |
397
+ |:------:|:----:|:------------------------------:|
398
+ | 1.0 | 14 | 0.6814 |
399
+ | 2.0 | 28 | 0.6820 |
400
+ | 3.0 | 42 | 0.6797 |
401
+ | 3.5714 | 50 | 0.6816 |
402
+ | 4.0 | 56 | 0.6745 |
403
+ | 5.0 | 70 | 0.6824 |
404
+ | 6.0 | 84 | 0.6827 |
405
+ | 7.0 | 98 | 0.6846 |
406
+ | 7.1429 | 100 | 0.6811 |
407
+ | 8.0 | 112 | 0.6848 |
408
+
409
+
410
+ ### Framework Versions
411
+ - Python: 3.12.12
412
+ - Sentence Transformers: 5.1.1
413
+ - Transformers: 4.57.0
414
+ - PyTorch: 2.8.0+cu126
415
+ - Accelerate: 1.10.1
416
+ - Datasets: 4.0.0
417
+ - Tokenizers: 0.22.1
418
+
419
+ ## Citation
420
+
421
+ ### BibTeX
422
+
423
+ #### Sentence Transformers
424
+ ```bibtex
425
+ @inproceedings{reimers-2019-sentence-bert,
426
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
427
+ author = "Reimers, Nils and Gurevych, Iryna",
428
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
429
+ month = "11",
430
+ year = "2019",
431
+ publisher = "Association for Computational Linguistics",
432
+ url = "https://arxiv.org/abs/1908.10084",
433
+ }
434
+ ```
435
+
436
+ #### MultipleNegativesRankingLoss
437
+ ```bibtex
438
+ @misc{henderson2017efficient,
439
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
440
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
441
+ year={2017},
442
+ eprint={1705.00652},
443
+ archivePrefix={arXiv},
444
+ primaryClass={cs.CL}
445
+ }
446
+ ```
447
+
448
+ #### TripletLoss
449
+ ```bibtex
450
+ @misc{hermans2017defense,
451
+ title={In Defense of the Triplet Loss for Person Re-Identification},
452
+ author={Alexander Hermans and Lucas Beyer and Bastian Leibe},
453
+ year={2017},
454
+ eprint={1703.07737},
455
+ archivePrefix={arXiv},
456
+ primaryClass={cs.CV}
457
+ }
458
+ ```
459
+
460
+ <!--
461
+ ## Glossary
462
+
463
+ *Clearly define terms in order to be accessible across audiences.*
464
+ -->
465
+
466
+ <!--
467
+ ## Model Card Authors
468
+
469
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
470
+ -->
471
+
472
+ <!--
473
+ ## Model Card Contact
474
+
475
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
476
+ -->
config.json ADDED
@@ -0,0 +1,27 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "XLMRobertaModel"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.1,
6
+ "bos_token_id": 0,
7
+ "classifier_dropout": null,
8
+ "dtype": "float32",
9
+ "eos_token_id": 2,
10
+ "hidden_act": "gelu",
11
+ "hidden_dropout_prob": 0.1,
12
+ "hidden_size": 1024,
13
+ "initializer_range": 0.02,
14
+ "intermediate_size": 4096,
15
+ "layer_norm_eps": 1e-05,
16
+ "max_position_embeddings": 8194,
17
+ "model_type": "xlm-roberta",
18
+ "num_attention_heads": 16,
19
+ "num_hidden_layers": 24,
20
+ "output_past": true,
21
+ "pad_token_id": 1,
22
+ "position_embedding_type": "absolute",
23
+ "transformers_version": "4.57.0",
24
+ "type_vocab_size": 1,
25
+ "use_cache": true,
26
+ "vocab_size": 250002
27
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "5.1.1",
4
+ "transformers": "4.57.0",
5
+ "pytorch": "2.8.0+cu126"
6
+ },
7
+ "model_type": "SentenceTransformer",
8
+ "prompts": {
9
+ "query": "",
10
+ "document": ""
11
+ },
12
+ "default_prompt_name": null,
13
+ "similarity_fn_name": "cosine"
14
+ }
eval/similarity_evaluation_sts-validation_results.csv ADDED
@@ -0,0 +1,27 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ epoch,steps,cosine_pearson,cosine_spearman
2
+ 1.0,14,0.8537418419006333,0.6814258911819888
3
+ 1.0,14,0.8537211443069036,0.6814258911819888
4
+ 2.0,28,0.8559980358492751,0.6812382739212008
5
+ 3.0,42,0.8624920976876257,0.6825515947467169
6
+ 4.0,56,0.8729684959807873,0.6801125703564729
7
+ 5.0,70,0.8843317432159102,0.6842401500938087
8
+ 6.0,84,0.8940153158531169,0.6810506566604129
9
+ 7.0,98,0.9025515311923669,0.6804878048780489
10
+ 8.0,112,0.9089235520988124,0.6834896810506568
11
+ 1.0,14,0.8537285250303269,0.6814258911819888
12
+ 1.0,14,0.8537211443069036,0.6814258911819888
13
+ 2.0,28,0.8559980358492751,0.6812382739212008
14
+ 3.0,42,0.8624712304708901,0.6825515947467169
15
+ 4.0,56,0.872950003348859,0.6801125703564729
16
+ 5.0,70,0.8841844493956517,0.6842401500938087
17
+ 6.0,84,0.8935150884139742,0.6829268292682927
18
+ 7.0,98,0.9017373896177431,0.6804878048780489
19
+ 8.0,112,0.9082756555307265,0.6814258911819888
20
+ 1.0,14,0.8537285250303269,0.6814258911819888
21
+ 2.0,28,0.8556070887165274,0.6819887429643529
22
+ 3.0,42,0.8603007353436536,0.6797373358348969
23
+ 4.0,56,0.8695005980140013,0.6744840525328332
24
+ 5.0,70,0.8820484817932658,0.6823639774859288
25
+ 6.0,84,0.8925334419449267,0.6827392120075048
26
+ 7.0,98,0.9011719631970071,0.6846153846153846
27
+ 8.0,112,0.909334340084967,0.6848030018761727
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:300e6231d6fd385ea08f5a3fa1204385858eb747f1705ce2bfb7061b43920cc8
3
+ size 2271064456
modules.json ADDED
@@ -0,0 +1,20 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ },
14
+ {
15
+ "idx": 2,
16
+ "name": "2",
17
+ "path": "2_Normalize",
18
+ "type": "sentence_transformers.models.Normalize"
19
+ }
20
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 8192,
3
+ "do_lower_case": false
4
+ }
sentencepiece.bpe.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
3
+ size 5069051
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e4f7e21bec3fb0044ca0bb2d50eb5d4d8c596273c422baef84466d2c73748b9c
3
+ size 17083053
tokenizer_config.json ADDED
@@ -0,0 +1,56 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "extra_special_tokens": {},
49
+ "mask_token": "<mask>",
50
+ "model_max_length": 8192,
51
+ "pad_token": "<pad>",
52
+ "sep_token": "</s>",
53
+ "sp_model_kwargs": {},
54
+ "tokenizer_class": "XLMRobertaTokenizer",
55
+ "unk_token": "<unk>"
56
+ }
training_history.json ADDED
@@ -0,0 +1,64 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_score": 0.909334340084967,
3
+ "final_score": 0.909334340084967,
4
+ "history": [
5
+ {
6
+ "epoch": 1.0,
7
+ "steps": 14,
8
+ "score": 0.8537285250303269
9
+ },
10
+ {
11
+ "epoch": 2.0,
12
+ "steps": 28,
13
+ "score": 0.8556070887165274
14
+ },
15
+ {
16
+ "epoch": 3.0,
17
+ "steps": 42,
18
+ "score": 0.8603007353436536
19
+ },
20
+ {
21
+ "epoch": 3.571428571428571,
22
+ "steps": 50,
23
+ "score": 0.8648446733007412
24
+ },
25
+ {
26
+ "epoch": 4.0,
27
+ "steps": 56,
28
+ "score": 0.8695005980140013
29
+ },
30
+ {
31
+ "epoch": 5.0,
32
+ "steps": 70,
33
+ "score": 0.8820484817932658
34
+ },
35
+ {
36
+ "epoch": 6.0,
37
+ "steps": 84,
38
+ "score": 0.8925334419449267
39
+ },
40
+ {
41
+ "epoch": 7.0,
42
+ "steps": 98,
43
+ "score": 0.9011719631970071
44
+ },
45
+ {
46
+ "epoch": 7.142857142857143,
47
+ "steps": 100,
48
+ "score": 0.9023417449209123
49
+ },
50
+ {
51
+ "epoch": 8.0,
52
+ "steps": 112,
53
+ "score": 0.909334340084967
54
+ }
55
+ ],
56
+ "config": {
57
+ "epochs": 8,
58
+ "learning_rate": 1e-05,
59
+ "weight_decay": 0.01,
60
+ "warmup_steps": 500,
61
+ "batch_size_pairs": 64,
62
+ "batch_size_triplets": 48
63
+ }
64
+ }