Andrianos commited on
Commit
38795bb
·
verified ·
1 Parent(s): 8346f83

Updated README

Browse files
Files changed (1) hide show
  1. README.md +174 -403
README.md CHANGED
@@ -2,468 +2,239 @@
2
  tags:
3
  - sentence-transformers
4
  - sentence-similarity
5
- - feature-extraction
6
- - dense
7
- - generated_from_trainer
8
- - dataset_size:24000
9
- - loss:MultipleNegativesRankingLoss
10
- base_model: impresso-project/histlux-gte-multilingual-base
11
  widget:
12
- - source_sentence: Das geschah vor fast 4 Jahren.
13
  sentences:
14
- - Das geschah vqr fast 4 Jahren.
15
- - 'Bundesbeschluss über dFetigstellung der kombinierten Anlage bei der Schweizerischen
16
- Meterologischen Anstalt (METALERT II) vom. September 1982Die Bundesveramlung der
17
- Schweizerischen Eidgenosseschaft, gestützt auf Artikel 85 Ziffer 10 der Bundesverfassung,
18
- nach Einsicht in eine Botschaft des Bundesrates vom 21. Dezember 1981 ''), beschliesst:
19
- Art. l Für die Fertigstellung der kombinierten Anlage bei der Schweizerischen
20
- Meteorologischen Anstalt nach der Botschaft vom 21. Dezember 1981 wird ein Objektkedit
21
- von 8,95 Millionen Franken bewilgt. Art. Dieser Beschluss ist nicht allgemeinverbindlich;
22
- er untersteht nict dem Referendum. tänderat,. Juni 1982 Nationalrat,. eptember
23
- 1982 Der Präsident: Dreyer Die Präsidentin: Lang Die Sekretärin: Hube Der Protokollführer:
24
- Zwicker 8177 '') BB11982 I 153 ,. 1982-870'
25
- - 'Ei weise Rat. Ludwig XIV. von Frankreich erschien im Jahre 1872 mit einer ansehnlichen
26
- Macht vor den Toren Amsterdams, welches nicht dn nötigen Widersand zu leisten
27
- imstande war. Bei der Bevülke» rung herrscte die glühte Bestürzung und der Magistrat
28
- beratschlagte, was unter diesen Umständen zu tun sei. Man kam dain überein. dem
29
- König de Schlssel der Stadt zu überreichen. In diesem Augenblick bemerkte man.
30
- daß ein alter Bürgermeister eingeschlafen war und seine Stimme noch nicht abgegeben
31
- hatte Man weckte ihn: er erkundigte sich nach dem Resultat der Beratung. »Wir
32
- wllen" hieß es.dem Knige die Schlüssel der Stadt übergeben." »Hat er se schon
33
- verlangt?" fragte der ehrwüdige Vater der Stadt. »Noch nicht", mar die ntwort..Dann,
34
- meine Herren", erwiderte er, »wollen wir wenigstens so lange waten, bis er sie
35
- fordert. Dieser Einfall rettete die Reublik, denn schon am nächstenTage sah Ludwig
36
- sich, eingetretener Umstände wegen, veranlaßt, der Stadt den Rücken zu wenden.'
37
- - source_sentence: CHP lideri Kemal Kılıçdaroğlu, şehit cenazesinde kendisine yumurta
38
- atan eylemciyi, 'Sen Müslüman bile olamazsın' diye eleştirdi.
39
  sentences:
40
- - Nous l'apcpelons ainsi car c'ebst un gamin, un gosse, et Goliath est ce géant
41
- costafdzet immense.
42
- - wHP liderıi Klemal Kılıçdaroğlu, şehit cenazesinde kendiEsine yumurta atan eylemciyi,
43
- 'Sen Müslüman bile olmazsın' iye eleştirdi.
44
- - Der ausserordentliche Parteitag der westdeutschen Sozialdemokraten Bonn. Der ausserordentliche
45
- Parteitag der wesdeutschen Sozialdemokraten begann am Mittwoch, ‘l6. April, in
46
- Godesberg. Der Parteivorstand hatte ich mit sechs Anträgen bemüht, das Heft in
47
- die Hand zu bekommen. Um die Wähler nicht zu verärgern und die Eiigkeit zu bwahren,
48
- legte di Parteispitze eine eigene Resolution zur Deutschlandpolitik vo, die das
49
- Wort «Anerkennung» für die DDR vermeidt. Dem linken Flügel kommt die Parteispitze
50
- dadurch entgegen, dass die «Staatliche Existenz» der DDR anerkannt wird. Zwischen
51
- den gleichberechtigten Regierungen in Bon und Ostberlin werden Verträge un Verhandlungen
52
- in Aussicht genommen. Das auptthema des Parteitages soll aberdas Regierungsprogramm
53
- der SPD abgebe. Als Kanzlekandidaten will die Parteispitze den jetzigen Aussenminister
54
- Willy Brand vorschlagn.
55
- - source_sentence: Aber ich gab ihnen den Raum dafür.
56
  sentences:
57
- - Initiative américaine pour réduire la dette de l'Argentine et du Brésil New York
58
- (AFP).-Les autorités bancares américaines ont invité les banques commerciales
59
- amricaines à nnuler 20 % de leur créance de 14 milliards de dollrs sur leBrésil
60
- et l'Argentine, selon un article paru dans l'édition de jeudidu Wall Street Journal.
61
- Le Wall Street Journal écrit, citant des sources bancaires, que les banques ont
62
- reçu une lettre de la Commission publique officielle Interagency Counry Exposure
63
- eview Committe, regroupant notamment la Réserve'Fédérale, (Fed) et un fons de
64
- garantie (Fédéral Deposit Insurance Cor.) leurenjoignant de prendre des mesures
65
- comptables. Les banques se sont refusées jeudi matin à tout commentaire Le Brésil
66
- et l'Argentineont suspendu le paiement des intérêts et du principal d leur dette.
67
- Alors qu'une décision de ce type était attendue de la part de la Commission e
68
- ce qui concerne l'Argentine, compte tenu de la dgradation de lasituation financière
69
- du pays, linclusion du Brésil a causé une surprise, indique-t-on par ailleurs
70
- dans les mileux bancaires. Le Brésil, aen pline restructuration économique, devait
71
- retourner à la table des négociations à l'automne. Cette décision va compliquer
72
- les négociations entre les banues commerciales et les pays endettés.
73
- - Aber ichgab ihnen den Raum dafür.
74
- - '1709 Botschaft des Bndesrates an die Bundesversammlung bereffend Übertragung
75
- der Konzession der Strassenbahn von Bern nach Zollikofen (B. Z. B.), mit Abzwegung
76
- von der Tiefenaubrücke nach orblaufen, auf die Solothurn- Zollikof en-Bern-B ahn
77
- A. -G. in Solothurn. (Vom 2. Februar 1923.) Mit Eingabe vom 30. Juni 1922 stellte
78
- die Direktion der Solothurn-Zollikofen-Bern-Bhn (S. Z. B.) in Solothurn das Gesuch,
79
- es sei die am 25. Juni 1909 (E. A. S. XXV, 195) erteilte und am 22. Dezember 1911
80
- (E. A. S. XXVII, 273) abgeändert Konzession dr Strassenbahn von Bern nah Zollikofen,
81
- mit Abzweigung von der Tiefenaubrückenach Worblaufen, auf sie (S. Z. B.) m Sinnedes
82
- zwischen beiden Bahngesellschaften abgeschlossenen Fusionsvertrages vom 16. Mrz
83
- 1922 zu übertragen. Gemäss diesem Fusions vertrag (§ 1) haben sich die Solothurn-Bern-Bahn
84
- (E. S. B.) und die Bern-Worblaufen-Zollikofen- Bahn (B. Z. B.) unter dem Namen
85
- Solothurn-Zollikofen-Bern Bahn (S. Z. B.)zu einer einzigen Gesellschaft in der
86
- Weise vereinigt, dass die Solothurn-Bern-Bahn (E. S. B.) die Bern-Worblaufen-
87
- Zollikofen-Bahn (B. Z. B.) in sich aufnimmt. Infolge dieser Fusion gehen die Konzssion
88
- der letztern, soie alle Akiven und Passiven mit Einschluss derMiet-, Pacht-, Betriebs-
89
- und sonstigen Verträge auf die Solothurn-Bern-Bahn (E. S. B.), nun Solothurn-Zollikofen-Bern-Bahn
90
- (S. Z. B.) über, während die Bern-Worblaufen-Zollikofen-Bahn (B. Z. B. mit Wirkung
91
- auf den 1 Januar 1922 aufgelöst wird. Lau § des Fusionsvertrages übernimmt die
92
- Solothurn-Bern- Bahn (E. S. B.), nun Solothurn-Zollikofen-Bern-Bahn (S. Z. B.),
93
- das gesamte ständige, sich inangekündigter Stellung befindliche Personal der Bern-Worblaufen-Zollikofen-Bahn.
94
- Sie verpflichtet sih ( 6), der Verwirklichung des Zweckes der Bern-Worblaufen-Zollikofe-Bahn,
95
- d h. dem Betrieb einer Strassenbahn Zollikofe-Bern alle Aufmerksamkeit zu schenken,
96
- den Lokalverkehr Zollikofen-Bern voll aufrechtzuerhalten ud nach Bedürfnis und
97
- Möglichkeit auszubauen, also nebn dein durchgehenden Verkehr dienenden Zügen auch
98
- dio nötige Zahl von Lokalzügen zu führen. Die berechtigten Wünsche der interessierten
99
- Bevölkrung sind dabei nach Möglichkeit zu berücksichtigen. In ihren Vernehmlassungen
100
- vom 14. August bzw. 8. Dezember 1922 erheben die Regierungen der Kantone Solothurn
101
- und Bern gegen die Konzessonsübertragung kine Einwendung. Da auch von unserer
102
- Seite nichts zu bemerken ist, beantragen wir Ihnen, dem Übertragungsesuchedurch
103
- Annahm des nachfolgenden Bundesbeschlussentwurfes zu entsprechen. Wir benützen
104
- auch diesen Anlass, Sie unserer ausgezeichnetn Hochachtung z versichern. Bern,
105
- den 2. Februar 1923. Im Namen des Schweiz. Bundesrates, Der Bundespräsident: Scheurer.
106
- Der Bundeskanzler: Steiger. (Entwurf.) Bndesbeschluss betreffend Übertraung der
107
- Konzession der Strassenbahnvon Bern nach Zollikofen (ß. Z. B.), mit Abzweigung
108
- von der Tiefenaubrücke nach Worblaufen, aufdieSolothurn- Zollikofen-Bern-Bahn
109
- A. -G. in Solothurn. Die Bundesversammlung. der schweizerischen Eidgenssenschft,nach
110
- Einsicht . einer Engabe de Diretion der Solothurn-Zollikofen-Bern- Bahn in Solothurn,
111
- vom 30. Juni 1922, samt Beilagen, 2. einer Botschaft des Bundesrates vom 2. Februar
112
- 1923, beschliesst: . Die durch Bundesbeschlus vom 25. Juni 1909 (E. A. S. XXV,
113
- 195) erteilte und durch Bundesbeschluss vom 22. Der zember 1911 (E. A. S. XXVII,
114
- 273) abgeänderte Konzession einer Strassenbahn von Bern nach Zollikofen, mit Abzweigung
115
- von de- Tiefenaubrücke nach Worblaufen, wird unter den gleichen Bedingungen auf
116
- die Solothurn-ollikofen-Bern-Bahn A.-G. in Solothurn übertragen. . Der Bundesrat
117
- ist mit dem Vollzug des gegenwärtigen Beschlusses, welcher am in Kraft tritt,
118
- beauftragt.'
119
- - source_sentence: Der syrische Bürgerkrieg, die Flüchtlingskrise und der Weltklimagipfel
120
- in Paris waren Themen, die das Jahr 2015 dominierten. Der Blick zurück wird so
121
- zu einem Ausblick auf das, was uns erst noch bevorsteht.
122
  sentences:
123
- - Der syrische Bügerkrieg, die Flüchtlibgskrise und der Welitklimagipifel in Pais
124
- waren Themen, die das Jahr 2015 dominiRrten.üDekr Blick zJrück wird so zu einem
125
- Ausblick auf das, was uns erst nch bevorsteht.
126
- - Und dann beginnen i ein unglaubliches Ballett.
127
- - El malagueño Antoio Galdeano, Apoño, las ha visto de todos los colores para asentarse
128
- en el centro del campo del Zaragoza
129
- - source_sentence: Denken Sie nur an Sebastian und wie er die Katze kaufte, um seine
130
- Reputation zu schützen.
131
  sentences:
132
- - et sivous êtes trsèse sincère, c'est dur d'aimer un toxicomane. Il w a beaucoup
133
- de gens qui savent ça dans cette ièce.
134
- - J'ai reçu un bip des srgences vers 2hldu matin pour unhe fzmme avec un ulcère
135
- diabtique à son pied.
136
- - Denken Sie nur an Sebastian und wise er die Kakze kaute, um rseine Reputation
137
- zu schützen.
 
138
  pipeline_tag: sentence-similarity
139
  library_name: sentence-transformers
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
140
  ---
141
 
142
- # SentenceTransformer based on impresso-project/histlux-gte-multilingual-base
 
 
143
 
144
- This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [impresso-project/histlux-gte-multilingual-base](https://huggingface.co/impresso-project/histlux-gte-multilingual-base). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
145
 
146
  ## Model Details
147
 
 
 
 
 
 
 
 
 
148
  ### Model Description
149
- - **Model Type:** Sentence Transformer
150
- - **Base model:** [impresso-project/histlux-gte-multilingual-base](https://huggingface.co/impresso-project/histlux-gte-multilingual-base) <!-- at revision 52be259f395fcf46ea47d0ebec8598392a90107f -->
151
  - **Maximum Sequence Length:** 8192 tokens
152
  - **Output Dimensionality:** 768 dimensions
153
  - **Similarity Function:** Cosine Similarity
154
- <!-- - **Training Dataset:** Unknown -->
155
- <!-- - **Language:** Unknown -->
156
- <!-- - **License:** Unknown -->
157
 
158
- ### Model Sources
159
 
160
- - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
161
- - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
162
- - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
163
 
164
- ### Full Model Architecture
165
 
166
  ```
167
- SentenceTransformer(
168
- (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False, 'architecture': 'NewModel'})
169
- (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
170
- (2): Normalize()
171
- )
172
- ```
173
-
174
- ## Usage
175
-
176
- ### Direct Usage (Sentence Transformers)
177
-
178
- First install the Sentence Transformers library:
179
-
180
- ```bash
181
  pip install -U sentence-transformers
182
  ```
183
 
184
- Then you can load this model and run inference.
 
185
  ```python
186
  from sentence_transformers import SentenceTransformer
 
187
 
188
- # Download from the 🤗 Hub
189
- model = SentenceTransformer("sentence_transformers_model_id")
190
- # Run inference
191
- sentences = [
192
- 'Denken Sie nur an Sebastian und wie er die Katze kaufte, um seine Reputation zu schützen.',
193
- 'Denken Sie nur an Sebastian und wise er die Kakze kaute, um rseine Reputation zu schützen.',
194
- "J'ai reçu un bip des srgences vers 2hldu matin pour unhe fzmme avec un ulcère diabtique à son pied.",
195
- ]
196
  embeddings = model.encode(sentences)
197
- print(embeddings.shape)
198
- # [3, 768]
199
-
200
- # Get the similarity scores for the embeddings
201
- similarities = model.similarity(embeddings, embeddings)
202
- print(similarities)
203
- # tensor([[1.0000, 0.9083, 0.0497],
204
- # [0.9083, 1.0000, 0.0266],
205
- # [0.0497, 0.0266, 1.0000]])
206
  ```
207
 
208
- <!--
209
- ### Direct Usage (Transformers)
210
-
211
- <details><summary>Click to see the direct usage in Transformers</summary>
212
-
213
- </details>
214
- -->
215
-
216
- <!--
217
- ### Downstream Usage (Sentence Transformers)
218
-
219
- You can finetune this model on your own dataset.
220
-
221
- <details><summary>Click to expand</summary>
222
-
223
- </details>
224
- -->
225
 
226
- <!--
227
- ### Out-of-Scope Use
228
 
229
- *List how the model may foreseeably be misused and address what users ought not to do with the model.*
230
- -->
231
 
232
- <!--
233
- ## Bias, Risks and Limitations
234
 
235
- *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
236
- -->
 
 
237
 
238
- <!--
239
- ### Recommendations
 
240
 
241
- *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
242
- -->
243
 
244
- ## Training Details
245
 
246
- ### Training Dataset
 
 
 
247
 
248
- #### Unnamed Dataset
249
-
250
- * Size: 24,000 training samples
251
- * Columns: <code>sentence_0</code>, <code>sentence_1</code>, and <code>label</code>
252
- * Approximate statistics based on the first 1000 samples:
253
- | | sentence_0 | sentence_1 | label |
254
- |:--------|:-------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:--------------------------------------------------------------|
255
- | type | string | string | float |
256
- | details | <ul><li>min: 6 tokens</li><li>mean: 302.64 tokens</li><li>max: 8192 tokens</li></ul> | <ul><li>min: 6 tokens</li><li>mean: 312.67 tokens</li><li>max: 8192 tokens</li></ul> | <ul><li>min: 1.0</li><li>mean: 1.0</li><li>max: 1.0</li></ul> |
257
- * Samples:
258
- | sentence_0 | sentence_1 | label |
259
- |:------------------------------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------|:-----------------|
260
- | <code>Le Thaïlandais Apichatpong Weerasethakul est le grand gagnant d'un Festival marqué par des surprises</code> | <code>Le TÜaïlandais Apichatpong Weeraswethakul est e grand gagnantC d'un Fesiival marqué par des surprises</code> | <code>1.0</code> |
261
- | <code>Конкурс - не цыганский табор, не может в одночасье сорваться с места</code> | <code>Конкурс - нехцыганскиб табор, не может в одночасье сорваться с ыеста</code> | <code>1.0</code> |
262
- | <code>Произошли «сход с рельсов поезда, взрыв на химкомбинате, пожары и даже крушения самолетов»</code> | <code>Произошли «сход ьс рельсов поезда, взрыв нза химкомбикнате, шпожары и даже крушения самолетов»</code> | <code>1.0</code> |
263
- * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
264
- ```json
265
- {
266
- "scale": 20.0,
267
- "similarity_fct": "cos_sim",
268
- "gather_across_devices": false
269
- }
270
  ```
271
 
272
- ### Training Hyperparameters
273
- #### Non-Default Hyperparameters
274
-
275
- - `num_train_epochs`: 1
276
- - `fp16`: True
277
- - `multi_dataset_batch_sampler`: round_robin
278
-
279
- #### All Hyperparameters
280
- <details><summary>Click to expand</summary>
281
-
282
- - `overwrite_output_dir`: False
283
- - `do_predict`: False
284
- - `eval_strategy`: no
285
- - `prediction_loss_only`: True
286
- - `per_device_train_batch_size`: 8
287
- - `per_device_eval_batch_size`: 8
288
- - `per_gpu_train_batch_size`: None
289
- - `per_gpu_eval_batch_size`: None
290
- - `gradient_accumulation_steps`: 1
291
- - `eval_accumulation_steps`: None
292
- - `torch_empty_cache_steps`: None
293
- - `learning_rate`: 5e-05
294
- - `weight_decay`: 0.0
295
- - `adam_beta1`: 0.9
296
- - `adam_beta2`: 0.999
297
- - `adam_epsilon`: 1e-08
298
- - `max_grad_norm`: 1
299
- - `num_train_epochs`: 1
300
- - `max_steps`: -1
301
- - `lr_scheduler_type`: linear
302
- - `lr_scheduler_kwargs`: {}
303
- - `warmup_ratio`: 0.0
304
- - `warmup_steps`: 0
305
- - `log_level`: passive
306
- - `log_level_replica`: warning
307
- - `log_on_each_node`: True
308
- - `logging_nan_inf_filter`: True
309
- - `save_safetensors`: True
310
- - `save_on_each_node`: False
311
- - `save_only_model`: False
312
- - `restore_callback_states_from_checkpoint`: False
313
- - `no_cuda`: False
314
- - `use_cpu`: False
315
- - `use_mps_device`: False
316
- - `seed`: 42
317
- - `data_seed`: None
318
- - `jit_mode_eval`: False
319
- - `bf16`: False
320
- - `fp16`: True
321
- - `fp16_opt_level`: O1
322
- - `half_precision_backend`: auto
323
- - `bf16_full_eval`: False
324
- - `fp16_full_eval`: False
325
- - `tf32`: None
326
- - `local_rank`: 0
327
- - `ddp_backend`: None
328
- - `tpu_num_cores`: None
329
- - `tpu_metrics_debug`: False
330
- - `debug`: []
331
- - `dataloader_drop_last`: False
332
- - `dataloader_num_workers`: 0
333
- - `dataloader_prefetch_factor`: None
334
- - `past_index`: -1
335
- - `disable_tqdm`: False
336
- - `remove_unused_columns`: True
337
- - `label_names`: None
338
- - `load_best_model_at_end`: False
339
- - `ignore_data_skip`: False
340
- - `fsdp`: []
341
- - `fsdp_min_num_params`: 0
342
- - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
343
- - `fsdp_transformer_layer_cls_to_wrap`: None
344
- - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
345
- - `parallelism_config`: None
346
- - `deepspeed`: None
347
- - `label_smoothing_factor`: 0.0
348
- - `optim`: adamw_torch_fused
349
- - `optim_args`: None
350
- - `adafactor`: False
351
- - `group_by_length`: False
352
- - `length_column_name`: length
353
- - `project`: huggingface
354
- - `trackio_space_id`: trackio
355
- - `ddp_find_unused_parameters`: None
356
- - `ddp_bucket_cap_mb`: None
357
- - `ddp_broadcast_buffers`: False
358
- - `dataloader_pin_memory`: True
359
- - `dataloader_persistent_workers`: False
360
- - `skip_memory_metrics`: True
361
- - `use_legacy_prediction_loop`: False
362
- - `push_to_hub`: False
363
- - `resume_from_checkpoint`: None
364
- - `hub_model_id`: None
365
- - `hub_strategy`: every_save
366
- - `hub_private_repo`: None
367
- - `hub_always_push`: False
368
- - `hub_revision`: None
369
- - `gradient_checkpointing`: False
370
- - `gradient_checkpointing_kwargs`: None
371
- - `include_inputs_for_metrics`: False
372
- - `include_for_metrics`: []
373
- - `eval_do_concat_batches`: True
374
- - `fp16_backend`: auto
375
- - `push_to_hub_model_id`: None
376
- - `push_to_hub_organization`: None
377
- - `mp_parameters`:
378
- - `auto_find_batch_size`: False
379
- - `full_determinism`: False
380
- - `torchdynamo`: None
381
- - `ray_scope`: last
382
- - `ddp_timeout`: 1800
383
- - `torch_compile`: False
384
- - `torch_compile_backend`: None
385
- - `torch_compile_mode`: None
386
- - `include_tokens_per_second`: False
387
- - `include_num_input_tokens_seen`: no
388
- - `neftune_noise_alpha`: None
389
- - `optim_target_modules`: None
390
- - `batch_eval_metrics`: False
391
- - `eval_on_start`: False
392
- - `use_liger_kernel`: False
393
- - `liger_kernel_config`: None
394
- - `eval_use_gather_object`: False
395
- - `average_tokens_across_devices`: True
396
- - `prompts`: None
397
- - `batch_sampler`: batch_sampler
398
- - `multi_dataset_batch_sampler`: round_robin
399
- - `router_mapping`: {}
400
- - `learning_rate_mapping`: {}
401
-
402
- </details>
403
-
404
- ### Training Logs
405
- | Epoch | Step | Training Loss |
406
- |:------:|:----:|:-------------:|
407
- | 0.1667 | 500 | 0.0 |
408
- | 0.3333 | 1000 | 0.0003 |
409
- | 0.5 | 1500 | 0.0 |
410
- | 0.6667 | 2000 | 0.0 |
411
- | 0.8333 | 2500 | 0.0 |
412
- | 1.0 | 3000 | 0.0 |
413
-
414
-
415
- ### Framework Versions
416
- - Python: 3.12.12
417
- - Sentence Transformers: 5.1.1
418
- - Transformers: 4.57.1
419
- - PyTorch: 2.8.0+cu126
420
- - Accelerate: 1.10.1
421
- - Datasets: 4.0.0
422
- - Tokenizers: 0.22.1
423
 
424
  ## Citation
425
 
426
  ### BibTeX
427
 
428
- #### Sentence Transformers
 
429
  ```bibtex
430
- @inproceedings{reimers-2019-sentence-bert,
431
- title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
432
- author = "Reimers, Nils and Gurevych, Iryna",
433
- booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
434
- month = "11",
435
- year = "2019",
 
 
 
 
 
 
 
 
 
436
  publisher = "Association for Computational Linguistics",
437
- url = "https://arxiv.org/abs/1908.10084",
 
 
 
438
  }
439
  ```
440
 
441
- #### MultipleNegativesRankingLoss
 
442
  ```bibtex
443
- @misc{henderson2017efficient,
444
- title={Efficient Natural Language Response Suggestion for Smart Reply},
445
- author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
446
- year={2017},
447
- eprint={1705.00652},
448
- archivePrefix={arXiv},
449
- primaryClass={cs.CL}
450
  }
451
  ```
452
 
453
- <!--
454
- ## Glossary
455
 
456
- *Clearly define terms in order to be accessible across audiences.*
457
- -->
458
 
459
- <!--
460
- ## Model Card Authors
461
 
462
- *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
463
- -->
464
 
465
- <!--
466
- ## Model Card Contact
 
 
 
 
 
467
 
468
- *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
469
- -->
 
 
2
  tags:
3
  - sentence-transformers
4
  - sentence-similarity
5
+ - dataset_size:120000
6
+ - multilingual
7
+ base_model: Alibaba-NLP/gte-multilingual-base
 
 
 
8
  widget:
9
+ - source_sentence: Who is filming along?
10
  sentences:
11
+ - Wién filmt mat?
12
+ - >-
13
+ Weider huet den Tatarescu drop higewisen, datt Rumänien durch seng
14
+ krichsbedélegong op de 6eite vun den allie'erten 110.000 mann verluer hätt.
15
+ - Brambilla 130.08.03 St.
16
+ - source_sentence: 'Four potential scenarios could still play out: Jean Asselborn.'
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
17
  sentences:
18
+ - >-
19
+ Dann ass nach eng Antenne hei um Kierchbierg virgesi Richtung RTL Gebai, do
20
+ gëtt jo een ganz neie Wunnquartier gebaut.
21
+ - >-
22
+ D'bedélegong un de wählen wir ganz stärk gewiéscht a munche ge'genden wor re
23
+ eso'gucr me' we' 90 prozent.
24
+ - Jean Asselborn gesäit 4 Méiglechkeeten, wéi et kéint virugoen.
25
+ - source_sentence: >-
26
+ Non-profit organisation Passerell, which provides legal council to refugees
27
+ in Luxembourg, announced that it has to make four employees redundant in
28
+ August due to a lack of funding.
 
 
 
 
 
29
  sentences:
30
+ - Oetringen nach Remich....8.20» 215»
31
+ - >-
32
+ D'ASBL Passerell, déi sech ëm d'Berodung vu Refugiéeën a Saache Rechtsfroe
33
+ këmmert, wäert am August mussen hir véier fix Salariéen entloossen.
34
+ - D'Regierung huet allerdéngs "just" 180.041 Doudeger verzeechent.
35
+ - source_sentence: This regulation was temporarily lifted during the Covid pandemic.
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
36
  sentences:
37
+ - Six Jours vu New-York si fir d’équipe Girgetti Debacco
38
+ - Dës Reegelung gouf wärend der Covid-Pandemie ausgesat.
39
+ - ING-Marathon ouni gréisser Tëschefäll ofgelaf - 18 Leit hospitaliséiert.
40
+ - source_sentence: The cross-border workers should also receive more wages.
 
 
 
 
41
  sentences:
42
+ - D'grenzarbechetr missten och me' lo'n kre'en.
43
+ - >-
44
+ De Néckel: Firun! Dât ass jo ailes, wèll 't get dach neischt un der Bréck
45
+ gemâcht!
46
+ - >-
47
+ D'Grande-Duchesse Josephine Charlotte an hir Ministeren hunn d'Land
48
+ verlooss, et war den Optakt vun der Zäit am Exil.
49
  pipeline_tag: sentence-similarity
50
  library_name: sentence-transformers
51
+ model-index:
52
+ - name: >-
53
+ SentenceTransformer based on
54
+ Alibaba-NLP/gte-multilingual-base
55
+ results:
56
+ - task:
57
+ type: contemporary-lb
58
+ name: Contemporary-lb
59
+ dataset:
60
+ name: Contemporary-lb
61
+ type: contemporary-lb
62
+ metrics:
63
+ - type: accuracy
64
+ value: 0.6216
65
+ name: SIB-200(LB) accuracy
66
+ - type: accuracy
67
+ value: 0.6282
68
+ name: ParaLUX accuracy
69
+ - task:
70
+ type: bitext-mining
71
+ name: LBHistoricalBitextMining
72
+ dataset:
73
+ name: LBHistoricalBitextMining
74
+ type: lb-en
75
+ metrics:
76
+ - type: accuracy
77
+ value: 0.9683
78
+ name: LB<->FR accuracy
79
+ - type: accuracy
80
+ value: 0.9715
81
+ name: LB<->EN accuracy
82
+ - type: mean_accuracy
83
+ value: 0.9793
84
+ name: LB<->DE accuracy
85
+ license: agpl-3.0
86
+ datasets:
87
+ - impresso-project/HistLuxAlign
88
+ - fredxlpy/LuxAlign
89
+ language:
90
+ - lb
91
  ---
92
 
93
+ # Luxembourgish adaptation of Alibaba-NLP/gte-multilingual-base
94
+
95
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [Alibaba-NLP/gte-multilingual-base](https://huggingface.co/Alibaba-NLP/gte-multilingual-base) further adapted to support Historical and Contemporary Luxembourgish. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for (cross-lingual) semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
96
 
 
97
 
98
  ## Model Details
99
 
100
+ This model is specialised to perform cross-lingual semantic search to and from Historical/Contemporary Luxembourgish. This model would be particularly useful for libraries and archives that want to perform semantic search and longitudinal studies within their collections.
101
+
102
+ This is an [Alibaba-NLP/gte-multilingual-base](https://huggingface.co/Alibaba-NLP/gte-multilingual-base) model that was further adapted by (Michail et al., 2025)
103
+
104
+ ## Limitations
105
+
106
+ We also release a model that performs better (18pp) on ParaLUX. If finding monolingual exact matches within adversarial collections is of at-most importance, please use [histlux-paraphrase-multilingual-mpnet-base-v2](https://huggingface.co/impresso-project/histlux-paraphrase-multilingual-mpnet-base-v2)
107
+
108
  ### Model Description
109
+ - **Model Type:** GTE-Multilingual-Base
110
+ - **Base model:** [Alibaba-NLP/gte-multilingual-base](https://huggingface.co/Alibaba-NLP/gte-multilingual-base)
111
  - **Maximum Sequence Length:** 8192 tokens
112
  - **Output Dimensionality:** 768 dimensions
113
  - **Similarity Function:** Cosine Similarity
114
+ - **Training Dataset:** See below
 
 
115
 
 
116
 
117
+ ## Usage (Sentence-Transformers)
 
 
118
 
119
+ Using this model becomes easy when you have [sentence-transformers](https://www.SBERT.net) installed:
120
 
121
  ```
 
 
 
 
 
 
 
 
 
 
 
 
 
 
122
  pip install -U sentence-transformers
123
  ```
124
 
125
+ Then you can use the model like this:
126
+
127
  ```python
128
  from sentence_transformers import SentenceTransformer
129
+ sentences = ["This is an example sentence", "Each sentence is converted"]
130
 
131
+ model = SentenceTransformer('impresso-project/halloween_workshop_ocr_robust_with_lux_preview', trust_remote_code=True)
 
 
 
 
 
 
 
132
  embeddings = model.encode(sentences)
133
+ print(embeddings)
 
 
 
 
 
 
 
 
134
  ```
135
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
136
 
137
+ ## Training Details
 
138
 
139
+ ### Training Dataset
 
140
 
141
+ The parallel sentences data mix is the following:
 
142
 
143
+ impresso-project/HistLuxAlign:
144
+ - LB-FR (x20,000)
145
+ - LB-EN (x20,000)
146
+ - LB-DE (x20,000)
147
 
148
+ fredxlpy/LuxAlign:
149
+ - LB-FR (x40,000)
150
+ - LB-EN (x20,000)
151
 
152
+ Total: 120 000 Sentence pairs in mixed batches of size 8
 
153
 
 
154
 
155
+ ### Contrastive Training
156
+ The model was trained with the parameters:
157
+ ```
158
+ **Loss**:
159
 
160
+ `sentence_transformers.losses.MultipleNegativesRankingLoss.MultipleNegativesRankingLoss` with parameters:
161
+ ```
162
+ {'scale': 20.0, 'similarity_fct': 'cos_sim'}
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
163
  ```
164
 
165
+ Parameters of the fit()-Method:
166
+ ```
167
+ {
168
+ "epochs": 1,
169
+ "evaluation_steps": 520,
170
+ "max_grad_norm": 1,
171
+ "optimizer_class": "<class 'torch.optim.adamw.AdamW'>",
172
+ "optimizer_params": {
173
+ "lr": 2e-05
174
+ },
175
+ "scheduler": "WarmupLinear",
176
+ }
177
+ ```
178
+ ```
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
179
 
180
  ## Citation
181
 
182
  ### BibTeX
183
 
184
+ #### Adapting Multilingual Embedding Models to Historical Luxembourgish (introducing paper)
185
+
186
  ```bibtex
187
+ @inproceedings{michail-etal-2025-adapting,
188
+ title = "Adapting Multilingual Embedding Models to Historical {L}uxembourgish",
189
+ author = "Michail, Andrianos and
190
+ Racl{\'e}, Corina and
191
+ Opitz, Juri and
192
+ Clematide, Simon",
193
+ editor = "Kazantseva, Anna and
194
+ Szpakowicz, Stan and
195
+ Degaetano-Ortlieb, Stefania and
196
+ Bizzoni, Yuri and
197
+ Pagel, Janis",
198
+ booktitle = "Proceedings of the 9th Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature (LaTeCH-CLfL 2025)",
199
+ month = may,
200
+ year = "2025",
201
+ address = "Albuquerque, New Mexico",
202
  publisher = "Association for Computational Linguistics",
203
+ url = "https://aclanthology.org/2025.latechclfl-1.26/",
204
+ doi = "10.18653/v1/2025.latechclfl-1.26",
205
+ pages = "291--298",
206
+ ISBN = "979-8-89176-241-1"
207
  }
208
  ```
209
 
210
+ #### Original Multilingual GTE Model
211
+
212
  ```bibtex
213
+ @inproceedings{zhang2024mgte,
214
+ title={mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval},
215
+ author={Zhang, Xin and Zhang, Yanzhao and Long, Dingkun and Xie, Wen and Dai, Ziqi and Tang, Jialong and Lin, Huan and Yang, Baosong and Xie, Pengjun and Huang, Fei and others},
216
+ booktitle={Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing: Industry Track},
217
+ pages={1393--1412},
218
+ year={2024}
 
219
  }
220
  ```
221
 
222
+ ## About Impresso
 
223
 
224
+ ### Impresso project
 
225
 
226
+ [Impresso - Media Monitoring of the Past](https://impresso-project.ch) is an interdisciplinary research project that aims to develop and consolidate tools for processing and exploring large collections of media archives across modalities, time, languages and national borders. The first project (2017-2021) was funded by the Swiss National Science Foundation under grant No. [CRSII5_173719](http://p3.snf.ch/project-173719) and the second project (2023-2027) by the SNSF under grant No. [CRSII5_213585](https://data.snf.ch/grants/grant/213585) and the Luxembourg National Research Fund under grant No. 17498891.
 
227
 
228
+ ### Copyright
 
229
 
230
+ Copyright (C) 2025 The Impresso team.
231
+
232
+ ### License
233
+
234
+ This program is provided as open source under the [GNU Affero General Public License](https://github.com/impresso/impresso-pyindexation/blob/master/LICENSE) v3 or later.
235
+
236
+ ---
237
 
238
+ <p align="center">
239
+ <img src="https://github.com/impresso/impresso.github.io/blob/master/assets/images/3x1--Yellow-Impresso-Black-on-White--transparent.png?raw=true" width="350" alt="Impresso Project Logo"/>
240
+ </p>