aimarsg commited on
Commit
3d03922
·
verified ·
1 Parent(s): 5893953

Add new SentenceTransformer model

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 1024,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,863 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - dense
7
+ - generated_from_trainer
8
+ - dataset_size:20201
9
+ - loss:MultipleNegativesRankingLoss
10
+ base_model: intfloat/multilingual-e5-large
11
+ widget:
12
+ - source_sentence: Zer iritzi dute Talgoko langileek enpresaren salmentari buruz?
13
+ sentences:
14
+ - 'Euskal giroa
15
+
16
+
17
+ Iñaki eta Maite Imoberdoffek ere umetatik izan dute beren jatorriaren berri. «Amonak
18
+ beti eramaten gintuen euskal etxera. Baserritarrez janzten ginen, txapela janzten
19
+ genuen... Geure heziketaren parte izan dira euskal sinboloak eta kultura», kontatu
20
+ du Iñakik. «Euskal dantzak ere bai. Nik arin-arina eta fandangoa dantzatzen ikasi
21
+ nuen umetan. Gogoratzen dut!», erantsi du Maitek.
22
+
23
+
24
+ 2019an ezagutu zuten Euskal Herria, aitona-amonekin eta gurasoekin. «Oso ederra
25
+ iruditu zitzaidan!», oroitu du Maitek. «Hogei egunean goitik behera ezagutu genuen
26
+ Euskal Herria, eta euskara entzun! Nahiz eta amonak eta amak zerbait erakutsia
27
+ ziguten, ez genuen ezer ulertzen. Garai hartan, hizkuntza berri bat zen guretzat»,
28
+ kontatu du Iñakik.
29
+
30
+
31
+ Bidaia hori ez zen kasualitatea izan. «Argentina gainbeheran zegoen garai hartan.
32
+ Ez soilik arazo ekonomikoengatik: segurtasun falta handia zegoen. Hau da, behin
33
+ pistola batekin apuntatu zidaten, eta beste behin ama bahitzen saiatu ziren. Geure
34
+ etxean ere sartu ziren... Gauetan ez nuen lorik egiten. Horregatik egin genuen
35
+ bidaia, seme-alabek Euskal Herria ezagutu zezaten. Bueltatzean, hemen lana bilatzen
36
+ hasi ginen, hona migratzeko», adierazi du Fernandesek.
37
+
38
+
39
+ Aitortu du erabakia hartzea «oso gogorra» izan zela: «Banekien Argentinan utziko
40
+ genituela gurasoak, anaia eta bizitza osoko lagunak, baina Danielek eta biok geure
41
+ seme-alaben etorkizuna lehenetsi genuen: haiek kaletik lasai ibili ahal izatea
42
+ nahi genuen, inolako segurtasun arazorik gabe».
43
+
44
+
45
+ Hutsetik hastea'
46
+ - 'Irudikatzen duzue horrelako zerbait baina Euskal Herrian asmatutako karta-joko
47
+ ezagunena ardatz hartuz? Bada, utzi irudipenak; fikziozko filmik oraindik ez,
48
+ baina mus partidak pantailetan ikusteko aukera jada existitzen delako, Kanaldudek
49
+ sortutako Mintza saioari esker. Telebistan ematen den mus emankizuna da, jokoan
50
+ zortzi bikote jarri dituzte, eta saria proiektu kultural eta solidario bati bideratuko
51
+ diote. Formatu horri Poker tour deituriko partida laburpenak ere gehitu dizkiote,
52
+ lehiakideen gaineko informazioa eransteko. Zortzi taldeek herrialde bana ordezkatuko
53
+ dute: Lapurdi, Zuberoa, Nafarroa Beherea, Nafarroa, Bizkaia, Araba, Gipuzkoa eta
54
+ diaspora. Pantxoa Bergara Xabaltx musikariak gidatzen du saioa. Otsailaren 21ean
55
+ estreinatu zuten emankizuna eta gaur bertan emango dute 5. atala. Miarritzeko
56
+ Atabal aretoan grabatu den saioak hainbat ikuspuntu desberdinetatik erakusten
57
+ dizkigu partidak, eta errealizazioari eta edizioari dagokionez aparta iruditu
58
+ zait. Lan bikaina osatu du Iban Rusiñolek. Parte hartzaileen kartak lehen planoan
59
+ ikusteaz gain, bereziki gustatu zaidana da jokalarien arteko keinu eta hizketak
60
+ gertutik ikusten ditugula. Musaren munduan ezjakinak garenontzat —aitortza honek
61
+ euskaldun txartelean puntuak kenduko dizkit?— oso baliagarria iruditu zait Komentaristen
62
+ gela delakoa, izandako jokaldiak azaldu eta komentatzen dituztelako. Oinarriak
63
+ eta azalpen bereziak ematen dituzte, eta asko eskertu dut. EITB aipatzen hasita,
64
+ orain urte asko saiakera egin zen antzeko saio bat egiteko, baina proiektuak ez
65
+ zuen aurrera egin. Nik dakidala, beraz, lehen aldia da horrelako zerbait egiten
66
+ dela. Biba zuek, Kanaldude! Bejondeizuela!'
67
+ - '«Talgo hemengo batek erosi izanak bermatzen digu ez dutela ekoizpena kanpora
68
+ eramango»
69
+
70
+
71
+ Urte gogorra izan da Talgoko langileentzat, lantegiaren etorkizuna kolokan egon
72
+ baita. Hala berretsi du Kepa Alkainek. Talgok Ribabellosan (Araba) duen lantegiko
73
+ behargina eta CCOO sindikatuko ordezkaria da Alkaine. «Urtebete daramagu enpresaren
74
+ salmentarekin gora eta behera. Azkenerako nazkatu ginen. Langileok ez geunden
75
+ eroso egoera horrekin, segurtasunik ez edukitzea ez baita erosoa. Ezegonkortasun
76
+ hori ez zen onuragarria ez enpresarentzat ez langileontzat».
77
+
78
+
79
+ Prozesu gorabeheratsu hori larritasun handiz bizi izan dutela aitortu du CCOOeko
80
+ ordezkariak. «Espainiako Gobernuak Hungariako enpresari betoa ezarri zionean,
81
+ lasaitu ederra hartu genuen. Trenak fabrikatzeko ahalmena du enpresa horrek, eta
82
+ gure kezka zera zen, Talgo erosi, teknologia bereganatu eta hemendik bi urtera
83
+ ekoizpena hara eraman zezakeela».
84
+
85
+
86
+ «Urtebete daramagu salmentaren gorabeherekin. Ezegonkortasun hori ez zen onuragarria
87
+ ez enpresarentzat ez langileontzat»
88
+
89
+
90
+ KEPA ALKAINE CCOOko ordezkaria
91
+
92
+
93
+ Ribabellosako lantegian CCOO sindikatuak du ordezkaritzarik handiena, eta sindikatuak
94
+ begi onez ikusi zuen Sidenor buru duen euskal partzuergoa erosteko lehian sartzea.
95
+ Alkaine: «Enpresa guztientzat da ziurgabea etorkizuna, baina euskal enpresa industrial
96
+ batek kontrola hartzeak bermea ematen digu hemen inbertituko dutela eta lantegia
97
+ ez dutela inora eramango». Gainera, lasaitasuna ematen die Eusko Jaurlaritzaren
98
+ babesa eta BBK eta Vital fundazioen parte hartzea izateak. Emaitzarekin, beraz,
99
+ pozik daude.'
100
+ - source_sentence: Zein urtetan lortu zuen Eibarrek Athletic Kopatik kanpo uztea San
101
+ Mamesen?
102
+ sentences:
103
+ - 'Xavi Hernandez berak Athletic jotzen du faboritotzat: «San Mamesen irabaztea
104
+ oso zaila izango da. Zozketan ez genuen nahi Athletic egokitzerik, baina tokatutakoari
105
+ aurre egin beharko diogu.'
106
+ - 'Futbolean ezinezkorik ez dago. Txikiak handia mendean hartzea ez da horren arraroa,
107
+ eta Kopan are eta ohikoagoa da. Zale armaginek oraindik ez dute ahaztu duela hamahiru
108
+ urte gertatu zena. 2012ko abenduaren 12a iltzatua dute euren oroimenean. Gaizka
109
+ Garitanoren Eibarrek kanpoan utzi zuen Marcelo Bielsaren Athletic San Mamesen.
110
+ Joanekoan hutsean berdindu ostean banakoarekin amaitu zen itzulikoa. Etxetik kanpo
111
+ sartutako golari esker sailkatu zen Eibar. Mikel Arruabarrenak penaltiz egindako
112
+ golaren saria izan zen. Bada, orduko Eibar Bigarren B Mailan ari zen, eta ez zegoen
113
+ unerik gozoenean Athleticen kontra indarrak neurtu zituenean. «Ederra izan zen.
114
+ Bolada txarrean geunden. Neurketa asko kateatu genituen irabazi ezinik. Bada,
115
+ kanporaketa hori mugarri izan zen. San Mamesen Athletic kanporatu ostean, taldea
116
+ itxuraldatu egin zen», esan du Añibarrok, «Urtea izan zen ederra. San Mameseko
117
+ lorpena, igoera, taldean sortu zen giro berezia… Bigarren Mailara igo ginen urtea
118
+ Lehen Milara igo ginenekoa baino politagoa izan zen».
119
+
120
+
121
+ Eibar Bizkaiako mugatik gertu dago, eta beti egon da zale zuri-gorri asko. Realekoak
122
+ ere makina bat dira, baina azken urteotan gauzak aldatu egin dira. Etxeko taldeak
123
+ aurrea hartu die bi taldeei herritarren lehentasunetan. «Eibartarra, lehen, Athleticekoa
124
+ eta Realekoa zen, eta Eibar bigarren talde gisa zuen. Hori aldatu egin da. Orain,
125
+ jarraitzaileak herriko taldekoak dira, eta ondoren daude beste biak. Klubak azken
126
+ urteotan egin duen lan bikainaren isla da. Eibar sentimendua asko handitu da herrian».
127
+ Añibarro berari ere aspaldi lapurtu zion bihotza armaginen klubak. «Bihotzak Eibarren
128
+ alde egitea eskatzen dit. Bat eta huts irabaziko du. Ederra izango zen Eibar gorengo
129
+ mailara itzultzea Kopan aurrera eginda, eta Athletic Europarako sailkatzea».
130
+
131
+
132
+ Gaurko beste partidak'
133
+ - 'Liburu honetan zentrala da amodioa. Sentimendu bera ezagutzen dute nobelan hala
134
+ hilda agertzen den Irati gazteak nola haren heriotza ikertzen duen Agurtzane narratzaileak.
135
+ Nerabezaroaren indar inarrosaldi horretan maitemintzen da lehena, eta nagusitasunaren
136
+ patxadan deskubritzen du berriz amodioa bigarrenak.
137
+
138
+
139
+ Kontuan hartu behar dugu Irati adoleszentzia betean dagoela. Bota dezakegu 19
140
+ urte edo badituela, eta Agurtzane 60 urte inguru beteta dago jada. Baina berak
141
+ birloratzeko irrika hori sentitzen du, eta berriz maitatzeko eta maitatua izateko
142
+ ahaleginetan hasiko da. Horregatik ematen du izena jendea ezagutzeko plataforma
143
+ batean. Ez da emakume pasibo bat; bizitzan gorabehera latzak izan dituen emakume
144
+ bat da, eta aurreko harreman batek utzitako lorratz itsusi bat duena, baina, hala
145
+ ere, berak aurrera egin nahi du. Eta Iratiren heriotzari buruzko ikerketa horretan
146
+ zenbat eta gehiago inplikatu, orduan eta gehiago ikertzen du beste ikerketa paralelo
147
+ horretan ere. Ez da guztiz baliokidea, baina, kasua argitu ahala, bere bizitza
148
+ ere argituz doa.
149
+
150
+
151
+ Maitasunaren pozarekin batera, haren itzala ere garrantzitsua da nobelan. Hala
152
+ deskribatzen du Agurtzanek amodioa, Iratiren ispiluan: «Maitasuna uhal puta bat
153
+ da batzuetan».
154
+
155
+
156
+ Zer arrisku duen maitasunak, maitasun erromantiko eta toxikoak, bereziki emakumeentzat.
157
+ Bere arrazoia eta bere esperientzia baliatuz, Irati harreman korapilatsu batean
158
+ egon dela ondorioztatzen du Agurtzanek.
159
+
160
+
161
+ «Urte asko eman ditut gertatu zaizkidanak kudeatzen, eta literatura izan da horretako
162
+ nire salbazio ohola»
163
+
164
+
165
+ Erronka literario konplexuentzako soluzio tekniko oso zehatzak topatu dituzu liburuan.
166
+ Nobelako pertsonaia bakoitzari hitz egiteko modu propio bat sortu diozu, esaterako.
167
+ Agurtzaneren ahizpa mintzo denean, adibidez, silabak bereizita idatzi dituzu,
168
+ eta Kaladun gizona izeneko pertsonaiak puntu etenekin amaitzen ditu esaldiak beti.'
169
+ - source_sentence: Zer eragin izango du Errobiren itzulerak Anje Duhalderen eta Mixel
170
+ Ducauren ibilbideetan?
171
+ sentences:
172
+ - 'Mugerreko auzapezak Aturriko partetan eman eraikitzeko baimena ez dela legezkoa
173
+ diote ingurumen elkarteek
174
+
175
+
176
+ Mouguerre Cadre de Vie, Cade eta Bizi ingurumen elkarteek salatu dute, ostiral
177
+ goiz honetan partetako gunean berean egin agerraldian, Mugerreko (Lapurdi) auzapez
178
+ Roland Hirigoienek Enovis enpresari Mugerreko pleitagune gibelean eraikitzeko
179
+ eman dion baimena legez kontrakoa dela, lehentasunezko hezegunearengatik. 2024ko
180
+ urtarrilaren 30ean izenpetu zuen auzapezak eraikitzeko baimena, eta hiru hilabete
181
+ ditu gibel egiteko, sekula beharra ikusten balu. Mouguerre Cadre de Vie elkarteak
182
+ errekurtso administratibo bat ezarria du auzapezaren erabakiaren kontra, eta Cade
183
+ elkarteak auzibidea irekiko du auzitegi administratiboan.
184
+
185
+
186
+ Baionako ateetan, Mugerre eta Lehuntze (Lapurdi) artean, Aturri ibai bazterreko
187
+ eremu zabalak dira partak. Horretan kokatua da pleitagunea. Mugerreko auzapezak
188
+ hamabi hektareatan eman dio eraikin berriak egiteko baimena medikuntza materialaren
189
+ ekoizle Enovis enpresari. Hezeguneak dira eremu horiek.
190
+
191
+
192
+ Baimena eman aitzin, 2023ko abenduan, herritarrek tarte bat zeukaten beren ikusmoldea
193
+ emateko molde elektronikoan. Ingurumen elkarteek salatu dute oso zaila zela herritarrentzat
194
+ kontsulta horren berri jakitea, eta Mouguerre Cadre de Vie elkarteko kide Martine
195
+ Bouchetek adierazi du trumilka dokumentu administratibo bazeudela aztertzeko:
196
+ «Sekulako dokumentu andana behar izan ditugu irakurri, digeritu, ikusmolde bat
197
+ zabaltzeko». Baina dokumentu bat eskas zela dio, «informazio kapitala» zekarrena:
198
+ SAGE erakundearen mapa eta oharra gune horri buruz.'
199
+ - Bereziki problematikoa ez den zentro baten eguneroko egoera bat da. Burokraziaz
200
+ gainezka gauden irakasleok, burua ordenagailuaren pantailan betiko sartuta, gure
201
+ osasunarekin ordaintzen dugu urrats bakoitzean agertzen zaizkigun egoera guztiei
202
+ erantzun nahi izatea. Eta hori ezin dugunez egin, bizirauteko estrategiak garatzen
203
+ ditugu. Estrategia horiek irakasle eta hezitzaile gisako gure atazaren kalitatearen
204
+ kalterako dira. Baina zer egin ahal dugu guk? Jaurlaritzako Sailak edo Berritzeguneak
205
+ bezalako erakundeek ez digute ezertarako balio, ez digute laguntzen eguneroko
206
+ gatazka horiek edo beste asko konpontzen. Aitzitik, alferrikako lan-karga gehitzen
207
+ digute askotan. Ez al da garaia txorakeriak esan eta egiteari uzteko eta ea nola
208
+ hobetzen dugun hezkuntza-kalitatea eta elkarbizitza ikastetxeetan ikusten hasteko
209
+ behingoz?
210
+ - '«Gitarra elektrikorik ez dut luzaz jo, eta orain ezin utzi dut. Pozik naiz: keinu
211
+ guztiak hor dira, eta plazeraz ari naiz. Musikari bikainak ditugu, eta gu baino
212
+ gazteagoak, gainera. Indarra eta freskotasuna ekartzen digute».
213
+
214
+
215
+ MIXEL DUCAU
216
+
217
+
218
+ Errobi berpizteak zer eragin izango du bakoitzaren ibilbidean? Zer ekarriko dizue?
219
+
220
+
221
+ DUCAU: Hasteko, gaztetasuna. Gitarra elektrikorik ez dut luzaz jo, xoko batean
222
+ zen. Oreka TXrekin nabil kasik hogei urtez, eta bestelako tresnak jo ditut, alboka
223
+ eta abar. Helburu horrekin, gitarra hartu dut berriro, eta ezin utzi dut. Pozik
224
+ naiz: keinu guztiak hor dira, eta plazeraz ari naiz. Musikari bikainak ditugu,
225
+ eta gu baino gazteagoak, gainera. Indarra eta freskotasuna ekartzen digute. Egia
226
+ da Errobiren errepertorioak merezi zuela ber entzutea, eta belaunaldi berri batzuei
227
+ ber aurkeztea.
228
+
229
+
230
+ DUHALDE: Nire kasuan, ez da funtsezko aldaketarik. Errobiren Bizi-bizian zuzeneko
231
+ diskoari beti egin diot jarraipena, niretzat iparrorratza izan baita.
232
+
233
+
234
+ «Errobiren Bizi-bizian zuzeneko diskoari beti egin diot jarraipena, niretzat iparrorratza
235
+ izan baita».
236
+
237
+
238
+ ANJE DUHALDE
239
+
240
+
241
+ Moldaketarik egin diezue abestiei?
242
+
243
+
244
+ DUCAU: Guti. Kasik berdinak izango dira. Soinua aldatzen da. Formaz ere ez dugu
245
+ askorik aldatu.
246
+
247
+
248
+ DUHALDE: Ahal teknikoak ere bestelakoak dira guztiz. Mixelek berriz begiratu ditu,
249
+ eta hori oso esperientzia polita izan da. Produktu bat izoztu eta desizozten duzularik,
250
+ beti da inkognita zer zapore izango duen. Polita eta interesgarria izan da.
251
+
252
+
253
+ Ardoaren adibideak ere balio lezake.
254
+
255
+
256
+ DUHALDE: Hain zuzen, ardo ona ongi zahartzen da, baina bestea...'
257
+ - source_sentence: Zein da Milosz poetaren Alfabetoa liburuaren ezaugarri nagusia?
258
+ sentences:
259
+ - Bien arteko ispilu-jokoan taxutzen da, ordea, poetaren egiazko irudia.
260
+ - 'Liburua aurkeztu zenutenean, «hibridoa» dela esan zuten editoreek, eta zuk esan
261
+ izan duzu berritasuna gustatzen zaizula. Gauza berri baten bila joan zarela esan
262
+ liteke?
263
+
264
+
265
+ Ez da halako kalkulurik izan. Kalkulua baino gehiago, denbora bat dago, eta denbora
266
+ horretan ideia bat joan da heltzen. Etxean apunte pila bat neukan, koadernoetan,
267
+ paper muturretan, baita liburuetan ere, barreiatuta. Horiekin zer egin bueltaka
268
+ ari nintzela, nire idazle kuttun batekin akordatu nintzen, Milosz poeta poloniarrarekin.
269
+ Hark badu alfabeto bat bere bizitzako pasarte eta oroitzapenenekin. Niri bezala
270
+ gertatuko zitzaion hari ere, ez zuela jakingo gauza horiek denak nola eman. Bere
271
+ ibilerak eta lagunenak, bizitzaren etapa desberdinak, auzi politikoak eta debate
272
+ literarioak bigarren mundu gerraren aldirietan, elementu horiek alfabetikoki eman
273
+ zituen Alfabetoa izeneko liburuan, eta Miloszen formula horrek oso ongi funtzionatzen
274
+ du.
275
+
276
+
277
+ Hondartzako mutiko bat aipatu duzu, baina amona bat ere sarri ageri da.
278
+
279
+
280
+ Amonaren kasuan, gehien interesatzen zaidana izena da. Mutil koxkorretan Orion
281
+ bizi nintzenean, bazen amona bat, Dominika; ez dakit zer familiatakoa zen, zortzi
282
+ urterekin alde egin bainuen handik. Oso hiztun aparta zen, eta Berbelitzen amona
283
+ bihurtu dut.
284
+
285
+
286
+ Etorri handia du Dominikak. Hitz eta esamolde asko hartu dizkiozu. Galdutakoa
287
+ berreskuratu nahian?'
288
+ - '20
289
+
290
+
291
+ AEBetan kaltetutako langileak. Altzairua erabiltzen duten industrien arabera,
292
+ inportazio horien gaineko muga zergak burdina eta altzairu sorkuntzan babestuko
293
+ duen lanpostu bakoitzeko, hogei langileri egingo zaie kalte.
294
+
295
+
296
+ Zer eragin izango dute muga zergek AEBetan?
297
+
298
+
299
+ Bada, AEBetako altzairu eta aluminio industria indartzeko xedea zuten muga zerga
300
+ haiek apenas ekarri zuten hazkunderik AEBetako ekoizleen artean. Gaur egun, industria
301
+ horiek gaitasunaren %80an ari dira lanean, eta, altzairuarekin zehazki, gaitasunaren
302
+ %69an.
303
+
304
+
305
+ Aluminioari dagokionez, aluminio primarioa ekoizteko energia izugarria behar da,
306
+ eta, energia Kanadan merkeagoa izan denez azken urteetan, han ekoizpena indartu
307
+ egin da, eta AEBetan jaitsi. Hango aluminio industriako lobby nagusiaren arabera,
308
+ herrialdeak ez du bere aluminio beharrak asetzeko adina ekoizteko ahalmenik.
309
+
310
+
311
+ Zein izango da erantzuna oraingo honetan?
312
+
313
+
314
+ AEBei beste muga zerga batzuekin erantzuteaz eta MME Munduko Merkataritza Erakundean
315
+ salaketa jartzeaz gain, EBk bere muga zerga propioak ezarri zizkien altzairu eta
316
+ aluminio inportazioei, beldur baitzen mundu guztiak Europara joko zuela AEBetan
317
+ saldu ezin zuen horia saltzera. Europak bere sektorea babesteko beharra ikusi
318
+ zuen.
319
+
320
+
321
+ Txinako Gobernuak diruz lagundutako altzairu merkea da altzairu merkatuaren mamu
322
+ handia
323
+
324
+
325
+ Eta horretan dago oraindik ere, altzairuari dagokionez benetako arazoa gehiegizko
326
+ gaitasuna baita, eta Txina dago horren atzean. Pekingo gobernuak diruz lagundutako
327
+ altzairu merkea da altzairu merkatuaren mamu handia.
328
+
329
+
330
+ Hain zuzen, Trump iritsi aurretik, Joe Bidenen gobernua eta EB adostu nahian ari
331
+ ziren Txinaren lehiari nola aurre egin. AEBei, Txinatik zuzenean ez, baina Mexikotik
332
+ eta beste herrialdeetatik iristen zaie Txinako altzairu merkea.'
333
+ - source_sentence: Zein dira Frantziako Gobernuaren aurrekontu proposamenak Ipar Euskal
334
+ Herriko euskarazko irratiei eragingo dizkien ondorioak?
335
+ sentences:
336
+ - 'Gipuzkoako Elikagai Bankuak laguntza eskatu du: «Biltegia ia hutsik dago»
337
+
338
+
339
+ Gipuzkoako Elikagai Bankuak, Gipuzkoako Foru Aldundiarekin batera, herritar guztiei
340
+ dei egin die ostiralean eta larunbatean udaberriko bilketan parte hartzeko lurraldeko
341
+ supermerkatu nagusietan. Janaria eta dirua bilduko dituzte Euskal Herriko elikagai
342
+ bankuek. Gipuzkoakoak gutxienez 350.000 kilo elikagai bildu behar ditu, bermatu
343
+ ahal izateko zaurgarri dauden 17.000 pertsonari baino gehiagori janaria banatzea
344
+ udazkenera arte.
345
+
346
+
347
+ Belen Mendez de Vigok, Gipuzkoako Elikagai Bankuko lehendakariak, eta Jose Ignacio
348
+ Asensiok, Jasangarritasun diputatuak, azaldu dute «kritikoa» dela egoera, baliabideak
349
+ pixkanaka galtzen ari direlako eta horrek arriskuan jartzen duelako elikagaien
350
+ hileko banaketa. 2022tik, etengabe urritu dira Gipuzkoako Elikagai Bankuari egindako
351
+ dohaintza ekonomikoak eta emandako janaria.
352
+
353
+
354
+ Gainera, galdu egin dituzte lehen Europako Batasuneko funtsetatik iristen zitzaizkien
355
+ laguntza garrantzitsu batzuk: 2023 eta 2024 artean, Europako funtsetatik 400.000
356
+ kilo janari jasotzeari utzi zioten. Aintzat hartu behar da elikagai horiekin 6.000
357
+ pertsona inguru artatzen zituztela. Orain, berriz, diru txartelen bidez bideratzen
358
+ da Europako laguntza hori, baina laguntza mota horrekin lehen artatzen zuten pertsona
359
+ kopuruaren erdira baino ez dira iristen.
360
+
361
+
362
+ Jendeak emandako dirua ere gutxitu da. Adibide bat: aurtengo lehen lauhilekoan,
363
+ Gipuzkoako Elikagai Bankuak 70.000 euro gutxiago izan ditu janaria erosteko, iazko
364
+ garai beraren aldean.'
365
+ - 'Euskal Irratiak arriskuan
366
+
367
+
368
+ Pantxoa eta Pello kantariek erakutsi ziguten Baionako suprefetak buruan zuela
369
+ kasketa, eta berarentzat itsusia zela Euskal Herriko boneta. Iduri luke suprefeta
370
+ hark –eta ondoren izan direnek– euskal boneta maite ez zuen bezala, Frantziako
371
+ lehen ministro izendatu berriari –Michel Barnierri– ez zaiola laketgarri Asanblea
372
+ Nazionalerako hauteskundeetan ezker frantziarrak eta EH Baik egindako elkarlanaren
373
+ emaitza: hiru diputatuetatik hirurak eskuratu zituzten.
374
+
375
+
376
+ Zekena, eta elitista, izan beharra dago Frantziako aurrekontu proposamenean tokiko
377
+ irratiei bizirauten laguntzeko diru poltsa %35 murrizteko —11 milioi euro—, horrekin
378
+ Frantziak daukan zulo ekonomikoa konponduko balu. Zekena, aurreztu nahi duen diru
379
+ kopurua huskeria delako Frantziako aurrekontuaren barruan; eta elitista, 2025eko
380
+ aurrekontuetarako agindu duen mozketa orokorraren aitzakiarekin harentzat ezdeusa
381
+ diren komunikabide komunitarioak oso egoera larrian uzten dituelako.
382
+
383
+
384
+ Ipar Euskal Herrian euskaraz lan egiten duten lau irratiei —Antxeta Irratia, Gure
385
+ Irratia, Irulegi eta Amikuzeko Irratia eta Xiberoko Boza— egingo die kalte larria
386
+ murrizketak.
387
+
388
+
389
+ Elkartasunarekin erantzuteko ordua da, iraganean beste auzi batzuekin egin den
390
+ bezala, herritarrak eta tokian tokiko erakunde publikoak elkar hartuta: presioa
391
+ egin Parisek atzera egin dezan. Hego Euskal Herriko herritarren eta erakundeen
392
+ ordua ere bada.'
393
+ - 'Euskotren zerbitzua etenda Elgoibar eta Mendaro artean
394
+
395
+
396
+ Euriteek bestelako kalteak ere eragin dituzte egunotan. Elgoibar eta Mendaro arteko
397
+ trenbidean (Gipuzkoa), esate baterako, ezponda bat erori da luizi baten ondorioz;
398
+ hortaz, bi herri horien arteko tren zerbitzua etenda izanen da hamar egunez, konpontze
399
+ lanek iraun bitartean. ETS Euskal Trenbide Sareak jakinarazi duenez, eguraldiak
400
+ eragin zuen luizia.
401
+
402
+
403
+ Zerbitzua etenda dagoen bitartean, bidaiariek autobusa hartu beharko dute Mendaroko
404
+ geltokitik (Bilborako noranzkoan) Elgoibarreraino, eta Elgoibarko geltokitik (Donostiarako
405
+ noranzkoan) Mendaroraino.'
406
+ pipeline_tag: sentence-similarity
407
+ library_name: sentence-transformers
408
+ metrics:
409
+ - cosine_accuracy
410
+ model-index:
411
+ - name: SentenceTransformer based on intfloat/multilingual-e5-large
412
+ results:
413
+ - task:
414
+ type: triplet
415
+ name: Triplet
416
+ dataset:
417
+ name: multilingual e5 large
418
+ type: multilingual-e5-large
419
+ metrics:
420
+ - type: cosine_accuracy
421
+ value: 0.8519999980926514
422
+ name: Cosine Accuracy
423
+ ---
424
+
425
+ # SentenceTransformer based on intfloat/multilingual-e5-large
426
+
427
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large). It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
428
+
429
+ ## Model Details
430
+
431
+ ### Model Description
432
+ - **Model Type:** Sentence Transformer
433
+ - **Base model:** [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large) <!-- at revision 0dc5580a448e4284468b8909bae50fa925907bc5 -->
434
+ - **Maximum Sequence Length:** 512 tokens
435
+ - **Output Dimensionality:** 1024 dimensions
436
+ - **Similarity Function:** Cosine Similarity
437
+ <!-- - **Training Dataset:** Unknown -->
438
+ <!-- - **Language:** Unknown -->
439
+ <!-- - **License:** Unknown -->
440
+
441
+ ### Model Sources
442
+
443
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
444
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
445
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
446
+
447
+ ### Full Model Architecture
448
+
449
+ ```
450
+ SentenceTransformer(
451
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'XLMRobertaModel'})
452
+ (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
453
+ (2): Normalize()
454
+ )
455
+ ```
456
+
457
+ ## Usage
458
+
459
+ ### Direct Usage (Sentence Transformers)
460
+
461
+ First install the Sentence Transformers library:
462
+
463
+ ```bash
464
+ pip install -U sentence-transformers
465
+ ```
466
+
467
+ Then you can load this model and run inference.
468
+ ```python
469
+ from sentence_transformers import SentenceTransformer
470
+
471
+ # Download from the 🤗 Hub
472
+ model = SentenceTransformer("aimarsg/mle5_berria_s_contrastive")
473
+ # Run inference
474
+ sentences = [
475
+ 'Zein dira Frantziako Gobernuaren aurrekontu proposamenak Ipar Euskal Herriko euskarazko irratiei eragingo dizkien ondorioak?',
476
+ 'Euskal Irratiak arriskuan\n\nPantxoa eta Pello kantariek erakutsi ziguten Baionako suprefetak buruan zuela kasketa, eta berarentzat itsusia zela Euskal Herriko boneta. Iduri luke suprefeta hark –eta ondoren izan direnek– euskal boneta maite ez zuen bezala, Frantziako lehen ministro izendatu berriari –Michel Barnierri– ez zaiola laketgarri Asanblea Nazionalerako hauteskundeetan ezker frantziarrak eta EH Baik egindako elkarlanaren emaitza: hiru diputatuetatik hirurak eskuratu zituzten.\n\nZekena, eta elitista, izan beharra dago Frantziako aurrekontu proposamenean tokiko irratiei bizirauten laguntzeko diru poltsa %35 murrizteko —11 milioi euro—, horrekin Frantziak daukan zulo ekonomikoa konponduko balu. Zekena, aurreztu nahi duen diru kopurua huskeria delako Frantziako aurrekontuaren barruan; eta elitista, 2025eko aurrekontuetarako agindu duen mozketa orokorraren aitzakiarekin harentzat ezdeusa diren komunikabide komunitarioak oso egoera larrian uzten dituelako.\n\nIpar Euskal Herrian euskaraz lan egiten duten lau irratiei —Antxeta Irratia, Gure Irratia, Irulegi eta Amikuzeko Irratia eta Xiberoko Boza— egingo die kalte larria murrizketak.\n\nElkartasunarekin erantzuteko ordua da, iraganean beste auzi batzuekin egin den bezala, herritarrak eta tokian tokiko erakunde publikoak elkar hartuta: presioa egin Parisek atzera egin dezan. Hego Euskal Herriko herritarren eta erakundeen ordua ere bada.',
477
+ 'Gipuzkoako Elikagai Bankuak laguntza eskatu du: «Biltegia ia hutsik dago»\n\nGipuzkoako Elikagai Bankuak, Gipuzkoako Foru Aldundiarekin batera, herritar guztiei dei egin die ostiralean eta larunbatean udaberriko bilketan parte hartzeko lurraldeko supermerkatu nagusietan. Janaria eta dirua bilduko dituzte Euskal Herriko elikagai bankuek. Gipuzkoakoak gutxienez 350.000 kilo elikagai bildu behar ditu, bermatu ahal izateko zaurgarri dauden 17.000 pertsonari baino gehiagori janaria banatzea udazkenera arte.\n\nBelen Mendez de Vigok, Gipuzkoako Elikagai Bankuko lehendakariak, eta Jose Ignacio Asensiok, Jasangarritasun diputatuak, azaldu dute «kritikoa» dela egoera, baliabideak pixkanaka galtzen ari direlako eta horrek arriskuan jartzen duelako elikagaien hileko banaketa. 2022tik, etengabe urritu dira Gipuzkoako Elikagai Bankuari egindako dohaintza ekonomikoak eta emandako janaria.\n\nGainera, galdu egin dituzte lehen Europako Batasuneko funtsetatik iristen zitzaizkien laguntza garrantzitsu batzuk: 2023 eta 2024 artean, Europako funtsetatik 400.000 kilo janari jasotzeari utzi zioten. Aintzat hartu behar da elikagai horiekin 6.000 pertsona inguru artatzen zituztela. Orain, berriz, diru txartelen bidez bideratzen da Europako laguntza hori, baina laguntza mota horrekin lehen artatzen zuten pertsona kopuruaren erdira baino ez dira iristen.\n\nJendeak emandako dirua ere gutxitu da. Adibide bat: aurtengo lehen lauhilekoan, Gipuzkoako Elikagai Bankuak 70.000 euro gutxiago izan ditu janaria erosteko, iazko garai beraren aldean.',
478
+ ]
479
+ embeddings = model.encode(sentences)
480
+ print(embeddings.shape)
481
+ # [3, 1024]
482
+
483
+ # Get the similarity scores for the embeddings
484
+ similarities = model.similarity(embeddings, embeddings)
485
+ print(similarities)
486
+ # tensor([[1.0000, 0.8214, 0.0880],
487
+ # [0.8214, 1.0000, 0.1572],
488
+ # [0.0880, 0.1572, 1.0000]])
489
+ ```
490
+
491
+ <!--
492
+ ### Direct Usage (Transformers)
493
+
494
+ <details><summary>Click to see the direct usage in Transformers</summary>
495
+
496
+ </details>
497
+ -->
498
+
499
+ <!--
500
+ ### Downstream Usage (Sentence Transformers)
501
+
502
+ You can finetune this model on your own dataset.
503
+
504
+ <details><summary>Click to expand</summary>
505
+
506
+ </details>
507
+ -->
508
+
509
+ <!--
510
+ ### Out-of-Scope Use
511
+
512
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
513
+ -->
514
+
515
+ ## Evaluation
516
+
517
+ ### Metrics
518
+
519
+ #### Triplet
520
+
521
+ * Dataset: `multilingual-e5-large`
522
+ * Evaluated with [<code>TripletEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.TripletEvaluator)
523
+
524
+ | Metric | Value |
525
+ |:--------------------|:----------|
526
+ | **cosine_accuracy** | **0.852** |
527
+
528
+ <!--
529
+ ## Bias, Risks and Limitations
530
+
531
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
532
+ -->
533
+
534
+ <!--
535
+ ### Recommendations
536
+
537
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
538
+ -->
539
+
540
+ ## Training Details
541
+
542
+ ### Training Dataset
543
+
544
+ #### Unnamed Dataset
545
+
546
+ * Size: 20,201 training samples
547
+ * Columns: <code>anchor</code> and <code>positive</code>
548
+ * Approximate statistics based on the first 1000 samples:
549
+ | | anchor | positive |
550
+ |:--------|:----------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------|
551
+ | type | string | string |
552
+ | details | <ul><li>min: 8 tokens</li><li>mean: 20.69 tokens</li><li>max: 45 tokens</li></ul> | <ul><li>min: 103 tokens</li><li>mean: 382.84 tokens</li><li>max: 503 tokens</li></ul> |
553
+ * Samples:
554
+ | anchor | positive |
555
+ |:------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
556
+ | <code>Itziar Ituño Martinezekin kontratua zergatik hautsi zuten BMW eta Iberia enpresek?</code> | <code>Ituño Martinezen oraingo kasuan dagoen ideologia bakarra BMW eta Iberia enpresena da: uste sendoengatik bereizten duena (bide batez esan beharra dago eraginkortasun ekonomikoan oinarritutako paradigma ekonomiko liberaletik oso urrun dagoen enpresa-portaera dela). Itziar Ituño Martinez aktoreak, bere uste legitimo zehatzetatik haratago, adierazpen askatasuna erabili du, eta ez hori bakarrik, baita presoen eskubideen berme sozial gisa jardun ere. Bi gauza horiek oinarrizkoak dira edozein sistema demokratikotan; eta, gainera, adierazpen-askatasunak eta gizarte-bermearen izaerak banakoaren dimentsioa gainditzen dute, beste eskubide batzuen zerbitzura baitaude. Eskubideen defentsaren aurrean, eskubideen izaera objektiboa dela-eta, ez dago inolako neutraltasunik, ezta enpresa-neutraltasunik ere.<br><br>Beste era batera esanda: ez hemen, ez Europako esparru demokratiko osoan, ezin da esan zilegi eta legezkoa denik enpresa-askatasuna erabiltzea kontratatu den hirugarren pertsona bati kaltea eragitek...</code> |
557
+ | <code>Nor dira Juntsen alde agertu diren Convergenciako bi presidente ohiak?</code> | <code>Juntsen aldaketa<br><br>Joan Gaspart. Harrigarri samarra izan daiteke 22 urtez Bartzelona Futbol Taldearen presidenteorde eta gero presidente (2000-2003) izandakoaren izena hona ekartzea, baina ezinezkoa denez zehatz-mehatz jakitea gaurko hauteskundeetan zer emaitza izango diren eta ia ezinezkoa iragartzea inbestidura bati bide emateko sedukzio jokoetan nork norekin egingo duen dantza —edo, are, nor norekin arituko den perreo-an— esanguratsua behintzat bada ikustea hura nola atera den plazara: aitortu du Carles Puigdemonti emango diola botoa. Lluis Llachek ere Juntseko presidentegaiaren alde egingo du, baina ezin da esan Gasparti, hotelen sektoreko enpresariari, PPren bozkatzailea izandakoari, kantugilearen aurpegia jarri zaionik. «Ez naiz independentista; lidergo kontua da», adierazi zion orain dela egun batzuk El Nacional.cat hedabideari.<br><br>Lidergoak aipatuta, Convergencia zenarekin Generalitateko presidente izan ziren biek ere modu aktiboan eskatu dute Puigdemonten aldeko botoa, beste haut...</code> |
558
+ | <code>Zein dira Pedro Migel Etxenikek aipatzen dituen etorkizuneko aurkikuntza garrantzitsuak?</code> | <code>Zaila da baliokidea aurreratzen saiatzea. Garrantzitsuena ikertzaileak heztea da, etorkizuneko aurkikuntzak egin ditzaten. Oraingoz, nanoteknologia, konputazio kuantikoa eta adimen artifiziala izango lirateke.<br><br>Zientzialari berriei aholku bat?<br><br>Utz diezaiegun etorkizuneko artistei partitura idazten. Zientzia egitera animatzen ditut; nahiz eta egiten duten ekarpena txikia izan, garrantzitsua izango da zientziaren katean. Aurreko zientzialarien lanak ere aztertu behar dituzte, iraganak etorkizuna argitzen duelako. Joxan Artzek esaten duen bezala: «Iturri zaharretik edaten dut, ur berria edaten, beti berri den ura, betiko iturri zaharretik».<br><br>Inoiz esan duzu fisikariak unibertsoko profetak zaretela. Zer aurreikusten duzu?<br><br>Tenperatura altuko supereroankortasunaren jatorria ezagutzea nahi nuke. Batzuetan galdera handiek oso erantzun mugatuak ematen dituzte, eta galdera txikiek, berriz, oso erantzun zabalak. Baina ez dut astirik interesatzen zaidan guztia ikertzeko. Pena ematen dit, interes...</code> |
559
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
560
+ ```json
561
+ {
562
+ "scale": 20.0,
563
+ "similarity_fct": "cos_sim",
564
+ "gather_across_devices": false
565
+ }
566
+ ```
567
+
568
+ ### Evaluation Dataset
569
+
570
+ #### Unnamed Dataset
571
+
572
+ * Size: 6,000 evaluation samples
573
+ * Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
574
+ * Approximate statistics based on the first 1000 samples:
575
+ | | anchor | positive | negative |
576
+ |:--------|:---------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
577
+ | type | string | string | string |
578
+ | details | <ul><li>min: 9 tokens</li><li>mean: 21.3 tokens</li><li>max: 51 tokens</li></ul> | <ul><li>min: 92 tokens</li><li>mean: 377.1 tokens</li><li>max: 502 tokens</li></ul> | <ul><li>min: 5 tokens</li><li>mean: 179.92 tokens</li><li>max: 497 tokens</li></ul> |
579
+ * Samples:
580
+ | anchor | positive | negative |
581
+ |:------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
582
+ | <code>Non jokatuko du Eibarrek bihar?</code> | <code>ESPANYOL-OSASUNA<br><br>Espanyol. Joan Garcia; Tejero, Kumbulla, Cabrera, Brian Olivan; Pol Lozano, Kral, Romero (Justin, 86. min), Antoniu Roca (Cheddira, 60. min); Cardona (Milla, 74. min) eta Puado.<br><br>Osasuna. Sergio Herrera; Areso (Nacho Vidal, 83. min), Catena, Boyomo, Bretones (Juan Cruz, 87. min); Ruben Garcia, Pablo Ibañez (Iker Muñoz, 67. min), Torro, Aimar Oroz (Kike Barja, 86. min); Budimir eta Raul Garcia (Ruben Peña, 67. min).<br><br>REALAK BOLADA ONA LUZATU NAHI DU ETXEAN<br><br>Realak etxean jokatuko du bihar berriro, Las Palmasen aurka (18:30, Movistar). Txuri-urdinek bolada ona luzatu nahi dute, azken lau partidak irabazi baitituzte Anoetan. Aurkaria hamalaugarren postuan dago, eta Realak baino sei puntu gutxiago ditu.<br><br>Emakumeen taldeak, berriz, 2-0 irabazi dio gaur Granadillari. Amaiur Sarriegik eta Nerea Eizagirrek sartu dituzte golak. Bihar, Eibar Levante Badalonaren zelaian ariko da (16:00, Dazn), eta Athletic, Sevillarenean (19:00, Dazn).</code> | <code>Trumpen distira gutxiko lehenengo garaikurra<br><br>Donald Trumpen hiztegi ez oso aberatsean badira nabarmentzen diren bi hitz: muga zergak —«I love tariffs!» izan zen bere gerra oihua hauteskunde kanpainan— eta akordioak —The Art of the Deal deitzen da bere liburu hagiografikoa—. Bada, bi hitzak —hiru euskaraz— esaldi bakar batean aipa ditzake orain AEBetako presidenteak, dagoeneko lortu duelako lehen akordioa berak hasitako gerra komertzialean. Erresuma Batua izan da aukeratua, «agian geure aliatu nagusia», Trumpen beraren arabera.<br><br>Itunaren xehetasunak lotzeko daude, baina, oraingoz zabaldu denaren arabera, Trumpek berak hasitako gerraren kalteak konpontzeko akordio bat besterik ez da. Horrela, Erresuma Batuaren esportazioek %10eko muga zerga ordainduko dute aurrerantzean, eta horixe bera izango da tasa lehen 100.000 autoentzat; hau da, tasa handiagoak ordainduko dituztela Trumpek tarifekin jolasten hasi aurretik baino. Hau da, izerdi asko lehen baino okerrago geratzeko.<br><br>JD Vance AEBetak...</code> |
583
+ | <code>Zein urtetan sinatu zuten PPk eta PSOEk Askatasunaren Aldeko eta Terrorismoaren Aurkako Ituna?</code> | <code>«Gogor eta zorrotz»<br><br>Bi hamarkada igaro dira PPk eta PSOEk euskal presoei ezarritako salbuespen legedia onartu zutenetik. Ordukoa da Aznarren esaldi ezaguna: «Kartzelan usteldu daitezela».<br><br>Egun euskal presoei aplikatzen zaizkien salbuespen politikek beste testuinguru politiko eta sozial bat dute sorburu. Zehazki, XXI. mende hasierakoa, Teresa Whitfield idazleak euskal politikagintzak trantsiziotik jasaniko krisi sakonenaren garai gisa definitu zuenekoa. Atzean geratu zen Lizarra-Garazi akordioa, eta atzean Espainiako Gobernuak «Euskal Nazio Askapenerako Mugimenduaren inguruarekin» egindako elkarrizketak eta presoen gerturatzeak. PPk eta PSOEk sinatutako Askatasunaren Aldeko eta Terrorismoaren Aurkako Itunaren ostean, bestelako norabide bat hartu zuen Espainiako Gobernuak, jomugan jarrita, besteak beste, espetxe politika. Jose Maria Aznar gobernuburuak argi adierazi zuen helburua, 7/2003 Lege Organikoa hizpide zuela: «Kartzelan usteldu daitezela».<br><br>Lizarrako itunaren testuinguruan ezar...</code> | <code>«Israelgo armada ez da Gazako zerrendatik irtengo, eta ez ditugu aske utziko milaka terrorista palestinar».<br><br>BENJAMIN NETANYAHU Israelgo lehen ministroa<br><br>The Jerusalem Post egunkariak atzo kaleratu zuenez, hiru fase izango lituzke: lehenengo fasean, 35-40 gatibu israeldar askatuko lituzke Hamasek, emakumeak, osasunez larri daudenak eta 60 urtetik gorako gizonak, eta, trukean, sei asteko su etena indarrean jarriko lukete eta hainbat preso palestinar askatuko lituzkete; bigarren fasean, bahitutako gizonezko soldaduak eta 60 urtetik beherako zibilak utziko lituzkete aske; azkenik, hirugarren fasean, bahiturik zeudela hil direnen gorpuak emango lizkioke Hamasek Tel Avivi. Joan den asteburuan ondu zuten menia proposamena, Parisen.<br><br>Beste aliantza bat<br><br>EB Europako Batasuna ia-ia prest dago Itsaso Gorriko «nabigazioa babesteko» misioa abian jartzeko, erakundeko diplomaziaburu Josep Borrellen arabera. Litekeena da datorren otsailaren 17an operazioarekin hasi ahal izatea, nahiz eta oraindik zen...</code> |
584
+ | <code>Zein urtetan argitaratu ziren lehen aldiz Hergeren Tintin pertsonaiaren komikiak Le Petit Vingtième aldizkarian?</code> | <code>Kapitain, asteazkena da<br><br>Adin zehaztugabea duen tipoa, abenturazalea, alfer xamarra, janzkera sinplekoa, kopetako ileak gora, gehiegikeria gutxi. Gaurko egun batekoa da Tintin pertsonaia. 1929ko urtarrilaren 10a zen eta Le Petit Vingtième aldizkarian argitaratu zituzten Herge ezizenez ezagutzen den Georges Prosper Remi belgiarraren komikiak. Milu, dupontdarrak eta Haddock kapitaina lagun hartuta han eta hemen izandako hainbat abentura kontatu ditu Tintinek, kolonialismoaren ikuskera paternalista xalo defendatu, tolerantzia eta bakea aldarrikatu, eta komunismoaren aurka egin. Pertsonaiaren hasieretan horixe baitzen helburu behinena. Tintin Sobieten herrian izenburua du lehen albumak, eta bertan Tintinek eta Miluk Moskura bidaiatzen dute gertutik kontatzeko boltxebikeen hauteskunde xantaia, erailtzeak, lapurretak, Stalinen diktadura.<br><br>Badago Tintinen bineta bat sareetan sarri ikusi dudana aspaldian. Haddock kapitana nekoso mintzo da. «A ze astea!». Eta Tintinek erantzun: «Kapitain, astea...</code> | <code>Azkenik, Eusko Ikaskuntzak Nafarroan eginiko euskarari buruzko ikerketa berritzaile batek agerian utzi du hizkuntzaren eta euskal komunitatearen estimazio indize altua Nafarroan. Ikerketaren arabera, bertako herritarren %63 euskara sustatzearen alde daude eta %52k euskal komunitatea erreferente positibo gisa ikusten dute.<br><br>Hizkuntzen eta kulturen balioez eta euskara bezalako hizkuntza minorizatu baten normalizazioaz, hiritar orok kontzientzia hartzea eta iritzi landua edukitzea izan beharko litzateke xedea. Gainera, gizartean hausturak josten lagunduko luke. Eredua dago, Zientziaren Komunikazioko ekimen eta politikak begira ditzagun; eta orain arte soziolinguistikan egin denari hedapen handiagoa, sistematikoa eta egiturazkoa eman diezaiogun.<br><br>Euskarari diogun maitasuna begi bistakoa da, eta maitasun horrek hizkuntza eta kultura zaintzeko eta garatzeko ematen digun indarra aldarrikatu nahiko nuke amaitu aurretik. Izan ere, harriduraz entzuten baitut zenbait kasutan, «euskara maite dut, ...</code> |
585
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
586
+ ```json
587
+ {
588
+ "scale": 20.0,
589
+ "similarity_fct": "cos_sim",
590
+ "gather_across_devices": false
591
+ }
592
+ ```
593
+
594
+ ### Training Hyperparameters
595
+ #### Non-Default Hyperparameters
596
+
597
+ - `eval_strategy`: epoch
598
+ - `learning_rate`: 2e-05
599
+ - `warmup_ratio`: 0.1
600
+ - `batch_sampler`: no_duplicates
601
+
602
+ #### All Hyperparameters
603
+ <details><summary>Click to expand</summary>
604
+
605
+ - `overwrite_output_dir`: False
606
+ - `do_predict`: False
607
+ - `eval_strategy`: epoch
608
+ - `prediction_loss_only`: True
609
+ - `per_device_train_batch_size`: 8
610
+ - `per_device_eval_batch_size`: 8
611
+ - `per_gpu_train_batch_size`: None
612
+ - `per_gpu_eval_batch_size`: None
613
+ - `gradient_accumulation_steps`: 1
614
+ - `eval_accumulation_steps`: None
615
+ - `torch_empty_cache_steps`: None
616
+ - `learning_rate`: 2e-05
617
+ - `weight_decay`: 0.0
618
+ - `adam_beta1`: 0.9
619
+ - `adam_beta2`: 0.999
620
+ - `adam_epsilon`: 1e-08
621
+ - `max_grad_norm`: 1.0
622
+ - `num_train_epochs`: 3
623
+ - `max_steps`: -1
624
+ - `lr_scheduler_type`: linear
625
+ - `lr_scheduler_kwargs`: {}
626
+ - `warmup_ratio`: 0.1
627
+ - `warmup_steps`: 0
628
+ - `log_level`: passive
629
+ - `log_level_replica`: warning
630
+ - `log_on_each_node`: True
631
+ - `logging_nan_inf_filter`: True
632
+ - `save_safetensors`: True
633
+ - `save_on_each_node`: False
634
+ - `save_only_model`: False
635
+ - `restore_callback_states_from_checkpoint`: False
636
+ - `no_cuda`: False
637
+ - `use_cpu`: False
638
+ - `use_mps_device`: False
639
+ - `seed`: 42
640
+ - `data_seed`: None
641
+ - `jit_mode_eval`: False
642
+ - `use_ipex`: False
643
+ - `bf16`: False
644
+ - `fp16`: False
645
+ - `fp16_opt_level`: O1
646
+ - `half_precision_backend`: auto
647
+ - `bf16_full_eval`: False
648
+ - `fp16_full_eval`: False
649
+ - `tf32`: None
650
+ - `local_rank`: 0
651
+ - `ddp_backend`: None
652
+ - `tpu_num_cores`: None
653
+ - `tpu_metrics_debug`: False
654
+ - `debug`: []
655
+ - `dataloader_drop_last`: False
656
+ - `dataloader_num_workers`: 0
657
+ - `dataloader_prefetch_factor`: None
658
+ - `past_index`: -1
659
+ - `disable_tqdm`: False
660
+ - `remove_unused_columns`: True
661
+ - `label_names`: None
662
+ - `load_best_model_at_end`: False
663
+ - `ignore_data_skip`: False
664
+ - `fsdp`: []
665
+ - `fsdp_min_num_params`: 0
666
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
667
+ - `fsdp_transformer_layer_cls_to_wrap`: None
668
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
669
+ - `parallelism_config`: None
670
+ - `deepspeed`: None
671
+ - `label_smoothing_factor`: 0.0
672
+ - `optim`: adamw_torch_fused
673
+ - `optim_args`: None
674
+ - `adafactor`: False
675
+ - `group_by_length`: False
676
+ - `length_column_name`: length
677
+ - `ddp_find_unused_parameters`: None
678
+ - `ddp_bucket_cap_mb`: None
679
+ - `ddp_broadcast_buffers`: False
680
+ - `dataloader_pin_memory`: True
681
+ - `dataloader_persistent_workers`: False
682
+ - `skip_memory_metrics`: True
683
+ - `use_legacy_prediction_loop`: False
684
+ - `push_to_hub`: False
685
+ - `resume_from_checkpoint`: None
686
+ - `hub_model_id`: None
687
+ - `hub_strategy`: every_save
688
+ - `hub_private_repo`: None
689
+ - `hub_always_push`: False
690
+ - `hub_revision`: None
691
+ - `gradient_checkpointing`: False
692
+ - `gradient_checkpointing_kwargs`: None
693
+ - `include_inputs_for_metrics`: False
694
+ - `include_for_metrics`: []
695
+ - `eval_do_concat_batches`: True
696
+ - `fp16_backend`: auto
697
+ - `push_to_hub_model_id`: None
698
+ - `push_to_hub_organization`: None
699
+ - `mp_parameters`:
700
+ - `auto_find_batch_size`: False
701
+ - `full_determinism`: False
702
+ - `torchdynamo`: None
703
+ - `ray_scope`: last
704
+ - `ddp_timeout`: 1800
705
+ - `torch_compile`: False
706
+ - `torch_compile_backend`: None
707
+ - `torch_compile_mode`: None
708
+ - `include_tokens_per_second`: False
709
+ - `include_num_input_tokens_seen`: False
710
+ - `neftune_noise_alpha`: None
711
+ - `optim_target_modules`: None
712
+ - `batch_eval_metrics`: False
713
+ - `eval_on_start`: False
714
+ - `use_liger_kernel`: False
715
+ - `liger_kernel_config`: None
716
+ - `eval_use_gather_object`: False
717
+ - `average_tokens_across_devices`: False
718
+ - `prompts`: None
719
+ - `batch_sampler`: no_duplicates
720
+ - `multi_dataset_batch_sampler`: proportional
721
+ - `router_mapping`: {}
722
+ - `learning_rate_mapping`: {}
723
+
724
+ </details>
725
+
726
+ ### Training Logs
727
+ | Epoch | Step | Training Loss | Validation Loss | multilingual-e5-large_cosine_accuracy |
728
+ |:------:|:----:|:-------------:|:---------------:|:-------------------------------------:|
729
+ | 0.0396 | 100 | 0.5802 | - | - |
730
+ | 0.0792 | 200 | 0.0603 | - | - |
731
+ | 0.1188 | 300 | 0.0257 | - | - |
732
+ | 0.1584 | 400 | 0.021 | - | - |
733
+ | 0.1979 | 500 | 0.0335 | - | - |
734
+ | 0.2375 | 600 | 0.0262 | - | - |
735
+ | 0.2771 | 700 | 0.0214 | - | - |
736
+ | 0.3167 | 800 | 0.028 | - | - |
737
+ | 0.3563 | 900 | 0.0362 | - | - |
738
+ | 0.3959 | 1000 | 0.0315 | - | - |
739
+ | 0.4355 | 1100 | 0.0473 | - | - |
740
+ | 0.4751 | 1200 | 0.0364 | - | - |
741
+ | 0.5146 | 1300 | 0.0293 | - | - |
742
+ | 0.5542 | 1400 | 0.0307 | - | - |
743
+ | 0.5938 | 1500 | 0.0319 | - | - |
744
+ | 0.6334 | 1600 | 0.0166 | - | - |
745
+ | 0.6730 | 1700 | 0.0252 | - | - |
746
+ | 0.7126 | 1800 | 0.0273 | - | - |
747
+ | 0.7522 | 1900 | 0.0191 | - | - |
748
+ | 0.7918 | 2000 | 0.021 | - | - |
749
+ | 0.8314 | 2100 | 0.0226 | - | - |
750
+ | 0.8709 | 2200 | 0.0197 | - | - |
751
+ | 0.9105 | 2300 | 0.0147 | - | - |
752
+ | 0.9501 | 2400 | 0.0153 | - | - |
753
+ | 0.9897 | 2500 | 0.0188 | - | - |
754
+ | 1.0 | 2526 | - | 0.4859 | 0.8327 |
755
+ | 1.0293 | 2600 | 0.0093 | - | - |
756
+ | 1.0689 | 2700 | 0.0073 | - | - |
757
+ | 1.1085 | 2800 | 0.01 | - | - |
758
+ | 1.1481 | 2900 | 0.0076 | - | - |
759
+ | 1.1876 | 3000 | 0.0086 | - | - |
760
+ | 1.2272 | 3100 | 0.0085 | - | - |
761
+ | 1.2668 | 3200 | 0.0093 | - | - |
762
+ | 1.3064 | 3300 | 0.0056 | - | - |
763
+ | 1.3460 | 3400 | 0.0166 | - | - |
764
+ | 1.3856 | 3500 | 0.0071 | - | - |
765
+ | 1.4252 | 3600 | 0.0057 | - | - |
766
+ | 1.4648 | 3700 | 0.0068 | - | - |
767
+ | 1.5044 | 3800 | 0.0043 | - | - |
768
+ | 1.5439 | 3900 | 0.0067 | - | - |
769
+ | 1.5835 | 4000 | 0.0099 | - | - |
770
+ | 1.6231 | 4100 | 0.0053 | - | - |
771
+ | 1.6627 | 4200 | 0.0056 | - | - |
772
+ | 1.7023 | 4300 | 0.0091 | - | - |
773
+ | 1.7419 | 4400 | 0.005 | - | - |
774
+ | 1.7815 | 4500 | 0.007 | - | - |
775
+ | 1.8211 | 4600 | 0.0052 | - | - |
776
+ | 1.8606 | 4700 | 0.0102 | - | - |
777
+ | 1.9002 | 4800 | 0.0048 | - | - |
778
+ | 1.9398 | 4900 | 0.005 | - | - |
779
+ | 1.9794 | 5000 | 0.0052 | - | - |
780
+ | 2.0 | 5052 | - | 0.5244 | 0.8262 |
781
+ | 2.0190 | 5100 | 0.0036 | - | - |
782
+ | 2.0586 | 5200 | 0.0018 | - | - |
783
+ | 2.0982 | 5300 | 0.0017 | - | - |
784
+ | 2.1378 | 5400 | 0.0023 | - | - |
785
+ | 2.1774 | 5500 | 0.0048 | - | - |
786
+ | 2.2169 | 5600 | 0.0024 | - | - |
787
+ | 2.2565 | 5700 | 0.0075 | - | - |
788
+ | 2.2961 | 5800 | 0.0043 | - | - |
789
+ | 2.3357 | 5900 | 0.0031 | - | - |
790
+ | 2.3753 | 6000 | 0.0013 | - | - |
791
+ | 2.4149 | 6100 | 0.0023 | - | - |
792
+ | 2.4545 | 6200 | 0.0038 | - | - |
793
+ | 2.4941 | 6300 | 0.0012 | - | - |
794
+ | 2.5337 | 6400 | 0.0035 | - | - |
795
+ | 2.5732 | 6500 | 0.0018 | - | - |
796
+ | 2.6128 | 6600 | 0.0042 | - | - |
797
+ | 2.6524 | 6700 | 0.0023 | - | - |
798
+ | 2.6920 | 6800 | 0.0019 | - | - |
799
+ | 2.7316 | 6900 | 0.0013 | - | - |
800
+ | 2.7712 | 7000 | 0.0049 | - | - |
801
+ | 2.8108 | 7100 | 0.0031 | - | - |
802
+ | 2.8504 | 7200 | 0.0069 | - | - |
803
+ | 2.8899 | 7300 | 0.0045 | - | - |
804
+ | 2.9295 | 7400 | 0.002 | - | - |
805
+ | 2.9691 | 7500 | 0.005 | - | - |
806
+ | 3.0 | 7578 | - | 0.4369 | 0.8520 |
807
+
808
+
809
+ ### Framework Versions
810
+ - Python: 3.10.8
811
+ - Sentence Transformers: 5.1.0
812
+ - Transformers: 4.56.0
813
+ - PyTorch: 2.8.0+cu128
814
+ - Accelerate: 1.10.1
815
+ - Datasets: 4.0.0
816
+ - Tokenizers: 0.22.0
817
+
818
+ ## Citation
819
+
820
+ ### BibTeX
821
+
822
+ #### Sentence Transformers
823
+ ```bibtex
824
+ @inproceedings{reimers-2019-sentence-bert,
825
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
826
+ author = "Reimers, Nils and Gurevych, Iryna",
827
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
828
+ month = "11",
829
+ year = "2019",
830
+ publisher = "Association for Computational Linguistics",
831
+ url = "https://arxiv.org/abs/1908.10084",
832
+ }
833
+ ```
834
+
835
+ #### MultipleNegativesRankingLoss
836
+ ```bibtex
837
+ @misc{henderson2017efficient,
838
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
839
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
840
+ year={2017},
841
+ eprint={1705.00652},
842
+ archivePrefix={arXiv},
843
+ primaryClass={cs.CL}
844
+ }
845
+ ```
846
+
847
+ <!--
848
+ ## Glossary
849
+
850
+ *Clearly define terms in order to be accessible across audiences.*
851
+ -->
852
+
853
+ <!--
854
+ ## Model Card Authors
855
+
856
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
857
+ -->
858
+
859
+ <!--
860
+ ## Model Card Contact
861
+
862
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
863
+ -->
config.json ADDED
@@ -0,0 +1,27 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "XLMRobertaModel"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.1,
6
+ "bos_token_id": 0,
7
+ "classifier_dropout": null,
8
+ "dtype": "float32",
9
+ "eos_token_id": 2,
10
+ "hidden_act": "gelu",
11
+ "hidden_dropout_prob": 0.1,
12
+ "hidden_size": 1024,
13
+ "initializer_range": 0.02,
14
+ "intermediate_size": 4096,
15
+ "layer_norm_eps": 1e-05,
16
+ "max_position_embeddings": 514,
17
+ "model_type": "xlm-roberta",
18
+ "num_attention_heads": 16,
19
+ "num_hidden_layers": 24,
20
+ "output_past": true,
21
+ "pad_token_id": 1,
22
+ "position_embedding_type": "absolute",
23
+ "transformers_version": "4.56.0",
24
+ "type_vocab_size": 1,
25
+ "use_cache": true,
26
+ "vocab_size": 250002
27
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "model_type": "SentenceTransformer",
3
+ "__version__": {
4
+ "sentence_transformers": "5.1.0",
5
+ "transformers": "4.56.0",
6
+ "pytorch": "2.8.0+cu128"
7
+ },
8
+ "prompts": {
9
+ "query": "",
10
+ "document": ""
11
+ },
12
+ "default_prompt_name": null,
13
+ "similarity_fn_name": "cosine"
14
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c1d5bc81abdb2684cb282803856db0e68977faf2df282a21f2e8cd7c3920df67
3
+ size 2239607176
modules.json ADDED
@@ -0,0 +1,20 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ },
14
+ {
15
+ "idx": 2,
16
+ "name": "2",
17
+ "path": "2_Normalize",
18
+ "type": "sentence_transformers.models.Normalize"
19
+ }
20
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
sentencepiece.bpe.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
3
+ size 5069051
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:883b037111086fd4dfebbbc9b7cee11e1517b5e0c0514879478661440f137085
3
+ size 17082987
tokenizer_config.json ADDED
@@ -0,0 +1,55 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "extra_special_tokens": {},
49
+ "mask_token": "<mask>",
50
+ "model_max_length": 512,
51
+ "pad_token": "<pad>",
52
+ "sep_token": "</s>",
53
+ "tokenizer_class": "XLMRobertaTokenizer",
54
+ "unk_token": "<unk>"
55
+ }