Add new SentenceTransformer model
Browse files- .gitattributes +1 -0
- 1_Pooling/config.json +10 -0
- README.md +863 -0
- config.json +27 -0
- config_sentence_transformers.json +14 -0
- model.safetensors +3 -0
- modules.json +20 -0
- sentence_bert_config.json +4 -0
- sentencepiece.bpe.model +3 -0
- special_tokens_map.json +51 -0
- tokenizer.json +3 -0
- tokenizer_config.json +55 -0
.gitattributes
CHANGED
|
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
|
|
| 33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
| 34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
| 35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
|
|
|
|
|
| 33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
| 34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
| 35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
| 36 |
+
tokenizer.json filter=lfs diff=lfs merge=lfs -text
|
1_Pooling/config.json
ADDED
|
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"word_embedding_dimension": 1024,
|
| 3 |
+
"pooling_mode_cls_token": false,
|
| 4 |
+
"pooling_mode_mean_tokens": true,
|
| 5 |
+
"pooling_mode_max_tokens": false,
|
| 6 |
+
"pooling_mode_mean_sqrt_len_tokens": false,
|
| 7 |
+
"pooling_mode_weightedmean_tokens": false,
|
| 8 |
+
"pooling_mode_lasttoken": false,
|
| 9 |
+
"include_prompt": true
|
| 10 |
+
}
|
README.md
ADDED
|
@@ -0,0 +1,863 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
---
|
| 2 |
+
tags:
|
| 3 |
+
- sentence-transformers
|
| 4 |
+
- sentence-similarity
|
| 5 |
+
- feature-extraction
|
| 6 |
+
- dense
|
| 7 |
+
- generated_from_trainer
|
| 8 |
+
- dataset_size:20201
|
| 9 |
+
- loss:MultipleNegativesRankingLoss
|
| 10 |
+
base_model: intfloat/multilingual-e5-large
|
| 11 |
+
widget:
|
| 12 |
+
- source_sentence: Zer iritzi dute Talgoko langileek enpresaren salmentari buruz?
|
| 13 |
+
sentences:
|
| 14 |
+
- 'Euskal giroa
|
| 15 |
+
|
| 16 |
+
|
| 17 |
+
Iñaki eta Maite Imoberdoffek ere umetatik izan dute beren jatorriaren berri. «Amonak
|
| 18 |
+
beti eramaten gintuen euskal etxera. Baserritarrez janzten ginen, txapela janzten
|
| 19 |
+
genuen... Geure heziketaren parte izan dira euskal sinboloak eta kultura», kontatu
|
| 20 |
+
du Iñakik. «Euskal dantzak ere bai. Nik arin-arina eta fandangoa dantzatzen ikasi
|
| 21 |
+
nuen umetan. Gogoratzen dut!», erantsi du Maitek.
|
| 22 |
+
|
| 23 |
+
|
| 24 |
+
2019an ezagutu zuten Euskal Herria, aitona-amonekin eta gurasoekin. «Oso ederra
|
| 25 |
+
iruditu zitzaidan!», oroitu du Maitek. «Hogei egunean goitik behera ezagutu genuen
|
| 26 |
+
Euskal Herria, eta euskara entzun! Nahiz eta amonak eta amak zerbait erakutsia
|
| 27 |
+
ziguten, ez genuen ezer ulertzen. Garai hartan, hizkuntza berri bat zen guretzat»,
|
| 28 |
+
kontatu du Iñakik.
|
| 29 |
+
|
| 30 |
+
|
| 31 |
+
Bidaia hori ez zen kasualitatea izan. «Argentina gainbeheran zegoen garai hartan.
|
| 32 |
+
Ez soilik arazo ekonomikoengatik: segurtasun falta handia zegoen. Hau da, behin
|
| 33 |
+
pistola batekin apuntatu zidaten, eta beste behin ama bahitzen saiatu ziren. Geure
|
| 34 |
+
etxean ere sartu ziren... Gauetan ez nuen lorik egiten. Horregatik egin genuen
|
| 35 |
+
bidaia, seme-alabek Euskal Herria ezagutu zezaten. Bueltatzean, hemen lana bilatzen
|
| 36 |
+
hasi ginen, hona migratzeko», adierazi du Fernandesek.
|
| 37 |
+
|
| 38 |
+
|
| 39 |
+
Aitortu du erabakia hartzea «oso gogorra» izan zela: «Banekien Argentinan utziko
|
| 40 |
+
genituela gurasoak, anaia eta bizitza osoko lagunak, baina Danielek eta biok geure
|
| 41 |
+
seme-alaben etorkizuna lehenetsi genuen: haiek kaletik lasai ibili ahal izatea
|
| 42 |
+
nahi genuen, inolako segurtasun arazorik gabe».
|
| 43 |
+
|
| 44 |
+
|
| 45 |
+
Hutsetik hastea'
|
| 46 |
+
- 'Irudikatzen duzue horrelako zerbait baina Euskal Herrian asmatutako karta-joko
|
| 47 |
+
ezagunena ardatz hartuz? Bada, utzi irudipenak; fikziozko filmik oraindik ez,
|
| 48 |
+
baina mus partidak pantailetan ikusteko aukera jada existitzen delako, Kanaldudek
|
| 49 |
+
sortutako Mintza saioari esker. Telebistan ematen den mus emankizuna da, jokoan
|
| 50 |
+
zortzi bikote jarri dituzte, eta saria proiektu kultural eta solidario bati bideratuko
|
| 51 |
+
diote. Formatu horri Poker tour deituriko partida laburpenak ere gehitu dizkiote,
|
| 52 |
+
lehiakideen gaineko informazioa eransteko. Zortzi taldeek herrialde bana ordezkatuko
|
| 53 |
+
dute: Lapurdi, Zuberoa, Nafarroa Beherea, Nafarroa, Bizkaia, Araba, Gipuzkoa eta
|
| 54 |
+
diaspora. Pantxoa Bergara Xabaltx musikariak gidatzen du saioa. Otsailaren 21ean
|
| 55 |
+
estreinatu zuten emankizuna eta gaur bertan emango dute 5. atala. Miarritzeko
|
| 56 |
+
Atabal aretoan grabatu den saioak hainbat ikuspuntu desberdinetatik erakusten
|
| 57 |
+
dizkigu partidak, eta errealizazioari eta edizioari dagokionez aparta iruditu
|
| 58 |
+
zait. Lan bikaina osatu du Iban Rusiñolek. Parte hartzaileen kartak lehen planoan
|
| 59 |
+
ikusteaz gain, bereziki gustatu zaidana da jokalarien arteko keinu eta hizketak
|
| 60 |
+
gertutik ikusten ditugula. Musaren munduan ezjakinak garenontzat —aitortza honek
|
| 61 |
+
euskaldun txartelean puntuak kenduko dizkit?— oso baliagarria iruditu zait Komentaristen
|
| 62 |
+
gela delakoa, izandako jokaldiak azaldu eta komentatzen dituztelako. Oinarriak
|
| 63 |
+
eta azalpen bereziak ematen dituzte, eta asko eskertu dut. EITB aipatzen hasita,
|
| 64 |
+
orain urte asko saiakera egin zen antzeko saio bat egiteko, baina proiektuak ez
|
| 65 |
+
zuen aurrera egin. Nik dakidala, beraz, lehen aldia da horrelako zerbait egiten
|
| 66 |
+
dela. Biba zuek, Kanaldude! Bejondeizuela!'
|
| 67 |
+
- '«Talgo hemengo batek erosi izanak bermatzen digu ez dutela ekoizpena kanpora
|
| 68 |
+
eramango»
|
| 69 |
+
|
| 70 |
+
|
| 71 |
+
Urte gogorra izan da Talgoko langileentzat, lantegiaren etorkizuna kolokan egon
|
| 72 |
+
baita. Hala berretsi du Kepa Alkainek. Talgok Ribabellosan (Araba) duen lantegiko
|
| 73 |
+
behargina eta CCOO sindikatuko ordezkaria da Alkaine. «Urtebete daramagu enpresaren
|
| 74 |
+
salmentarekin gora eta behera. Azkenerako nazkatu ginen. Langileok ez geunden
|
| 75 |
+
eroso egoera horrekin, segurtasunik ez edukitzea ez baita erosoa. Ezegonkortasun
|
| 76 |
+
hori ez zen onuragarria ez enpresarentzat ez langileontzat».
|
| 77 |
+
|
| 78 |
+
|
| 79 |
+
Prozesu gorabeheratsu hori larritasun handiz bizi izan dutela aitortu du CCOOeko
|
| 80 |
+
ordezkariak. «Espainiako Gobernuak Hungariako enpresari betoa ezarri zionean,
|
| 81 |
+
lasaitu ederra hartu genuen. Trenak fabrikatzeko ahalmena du enpresa horrek, eta
|
| 82 |
+
gure kezka zera zen, Talgo erosi, teknologia bereganatu eta hemendik bi urtera
|
| 83 |
+
ekoizpena hara eraman zezakeela».
|
| 84 |
+
|
| 85 |
+
|
| 86 |
+
«Urtebete daramagu salmentaren gorabeherekin. Ezegonkortasun hori ez zen onuragarria
|
| 87 |
+
ez enpresarentzat ez langileontzat»
|
| 88 |
+
|
| 89 |
+
|
| 90 |
+
KEPA ALKAINE CCOOko ordezkaria
|
| 91 |
+
|
| 92 |
+
|
| 93 |
+
Ribabellosako lantegian CCOO sindikatuak du ordezkaritzarik handiena, eta sindikatuak
|
| 94 |
+
begi onez ikusi zuen Sidenor buru duen euskal partzuergoa erosteko lehian sartzea.
|
| 95 |
+
Alkaine: «Enpresa guztientzat da ziurgabea etorkizuna, baina euskal enpresa industrial
|
| 96 |
+
batek kontrola hartzeak bermea ematen digu hemen inbertituko dutela eta lantegia
|
| 97 |
+
ez dutela inora eramango». Gainera, lasaitasuna ematen die Eusko Jaurlaritzaren
|
| 98 |
+
babesa eta BBK eta Vital fundazioen parte hartzea izateak. Emaitzarekin, beraz,
|
| 99 |
+
pozik daude.'
|
| 100 |
+
- source_sentence: Zein urtetan lortu zuen Eibarrek Athletic Kopatik kanpo uztea San
|
| 101 |
+
Mamesen?
|
| 102 |
+
sentences:
|
| 103 |
+
- 'Xavi Hernandez berak Athletic jotzen du faboritotzat: «San Mamesen irabaztea
|
| 104 |
+
oso zaila izango da. Zozketan ez genuen nahi Athletic egokitzerik, baina tokatutakoari
|
| 105 |
+
aurre egin beharko diogu.'
|
| 106 |
+
- 'Futbolean ezinezkorik ez dago. Txikiak handia mendean hartzea ez da horren arraroa,
|
| 107 |
+
eta Kopan are eta ohikoagoa da. Zale armaginek oraindik ez dute ahaztu duela hamahiru
|
| 108 |
+
urte gertatu zena. 2012ko abenduaren 12a iltzatua dute euren oroimenean. Gaizka
|
| 109 |
+
Garitanoren Eibarrek kanpoan utzi zuen Marcelo Bielsaren Athletic San Mamesen.
|
| 110 |
+
Joanekoan hutsean berdindu ostean banakoarekin amaitu zen itzulikoa. Etxetik kanpo
|
| 111 |
+
sartutako golari esker sailkatu zen Eibar. Mikel Arruabarrenak penaltiz egindako
|
| 112 |
+
golaren saria izan zen. Bada, orduko Eibar Bigarren B Mailan ari zen, eta ez zegoen
|
| 113 |
+
unerik gozoenean Athleticen kontra indarrak neurtu zituenean. «Ederra izan zen.
|
| 114 |
+
Bolada txarrean geunden. Neurketa asko kateatu genituen irabazi ezinik. Bada,
|
| 115 |
+
kanporaketa hori mugarri izan zen. San Mamesen Athletic kanporatu ostean, taldea
|
| 116 |
+
itxuraldatu egin zen», esan du Añibarrok, «Urtea izan zen ederra. San Mameseko
|
| 117 |
+
lorpena, igoera, taldean sortu zen giro berezia… Bigarren Mailara igo ginen urtea
|
| 118 |
+
Lehen Milara igo ginenekoa baino politagoa izan zen».
|
| 119 |
+
|
| 120 |
+
|
| 121 |
+
Eibar Bizkaiako mugatik gertu dago, eta beti egon da zale zuri-gorri asko. Realekoak
|
| 122 |
+
ere makina bat dira, baina azken urteotan gauzak aldatu egin dira. Etxeko taldeak
|
| 123 |
+
aurrea hartu die bi taldeei herritarren lehentasunetan. «Eibartarra, lehen, Athleticekoa
|
| 124 |
+
eta Realekoa zen, eta Eibar bigarren talde gisa zuen. Hori aldatu egin da. Orain,
|
| 125 |
+
jarraitzaileak herriko taldekoak dira, eta ondoren daude beste biak. Klubak azken
|
| 126 |
+
urteotan egin duen lan bikainaren isla da. Eibar sentimendua asko handitu da herrian».
|
| 127 |
+
Añibarro berari ere aspaldi lapurtu zion bihotza armaginen klubak. «Bihotzak Eibarren
|
| 128 |
+
alde egitea eskatzen dit. Bat eta huts irabaziko du. Ederra izango zen Eibar gorengo
|
| 129 |
+
mailara itzultzea Kopan aurrera eginda, eta Athletic Europarako sailkatzea».
|
| 130 |
+
|
| 131 |
+
|
| 132 |
+
Gaurko beste partidak'
|
| 133 |
+
- 'Liburu honetan zentrala da amodioa. Sentimendu bera ezagutzen dute nobelan hala
|
| 134 |
+
hilda agertzen den Irati gazteak nola haren heriotza ikertzen duen Agurtzane narratzaileak.
|
| 135 |
+
Nerabezaroaren indar inarrosaldi horretan maitemintzen da lehena, eta nagusitasunaren
|
| 136 |
+
patxadan deskubritzen du berriz amodioa bigarrenak.
|
| 137 |
+
|
| 138 |
+
|
| 139 |
+
Kontuan hartu behar dugu Irati adoleszentzia betean dagoela. Bota dezakegu 19
|
| 140 |
+
urte edo badituela, eta Agurtzane 60 urte inguru beteta dago jada. Baina berak
|
| 141 |
+
birloratzeko irrika hori sentitzen du, eta berriz maitatzeko eta maitatua izateko
|
| 142 |
+
ahaleginetan hasiko da. Horregatik ematen du izena jendea ezagutzeko plataforma
|
| 143 |
+
batean. Ez da emakume pasibo bat; bizitzan gorabehera latzak izan dituen emakume
|
| 144 |
+
bat da, eta aurreko harreman batek utzitako lorratz itsusi bat duena, baina, hala
|
| 145 |
+
ere, berak aurrera egin nahi du. Eta Iratiren heriotzari buruzko ikerketa horretan
|
| 146 |
+
zenbat eta gehiago inplikatu, orduan eta gehiago ikertzen du beste ikerketa paralelo
|
| 147 |
+
horretan ere. Ez da guztiz baliokidea, baina, kasua argitu ahala, bere bizitza
|
| 148 |
+
ere argituz doa.
|
| 149 |
+
|
| 150 |
+
|
| 151 |
+
Maitasunaren pozarekin batera, haren itzala ere garrantzitsua da nobelan. Hala
|
| 152 |
+
deskribatzen du Agurtzanek amodioa, Iratiren ispiluan: «Maitasuna uhal puta bat
|
| 153 |
+
da batzuetan».
|
| 154 |
+
|
| 155 |
+
|
| 156 |
+
Zer arrisku duen maitasunak, maitasun erromantiko eta toxikoak, bereziki emakumeentzat.
|
| 157 |
+
Bere arrazoia eta bere esperientzia baliatuz, Irati harreman korapilatsu batean
|
| 158 |
+
egon dela ondorioztatzen du Agurtzanek.
|
| 159 |
+
|
| 160 |
+
|
| 161 |
+
«Urte asko eman ditut gertatu zaizkidanak kudeatzen, eta literatura izan da horretako
|
| 162 |
+
nire salbazio ohola»
|
| 163 |
+
|
| 164 |
+
|
| 165 |
+
Erronka literario konplexuentzako soluzio tekniko oso zehatzak topatu dituzu liburuan.
|
| 166 |
+
Nobelako pertsonaia bakoitzari hitz egiteko modu propio bat sortu diozu, esaterako.
|
| 167 |
+
Agurtzaneren ahizpa mintzo denean, adibidez, silabak bereizita idatzi dituzu,
|
| 168 |
+
eta Kaladun gizona izeneko pertsonaiak puntu etenekin amaitzen ditu esaldiak beti.'
|
| 169 |
+
- source_sentence: Zer eragin izango du Errobiren itzulerak Anje Duhalderen eta Mixel
|
| 170 |
+
Ducauren ibilbideetan?
|
| 171 |
+
sentences:
|
| 172 |
+
- 'Mugerreko auzapezak Aturriko partetan eman eraikitzeko baimena ez dela legezkoa
|
| 173 |
+
diote ingurumen elkarteek
|
| 174 |
+
|
| 175 |
+
|
| 176 |
+
Mouguerre Cadre de Vie, Cade eta Bizi ingurumen elkarteek salatu dute, ostiral
|
| 177 |
+
goiz honetan partetako gunean berean egin agerraldian, Mugerreko (Lapurdi) auzapez
|
| 178 |
+
Roland Hirigoienek Enovis enpresari Mugerreko pleitagune gibelean eraikitzeko
|
| 179 |
+
eman dion baimena legez kontrakoa dela, lehentasunezko hezegunearengatik. 2024ko
|
| 180 |
+
urtarrilaren 30ean izenpetu zuen auzapezak eraikitzeko baimena, eta hiru hilabete
|
| 181 |
+
ditu gibel egiteko, sekula beharra ikusten balu. Mouguerre Cadre de Vie elkarteak
|
| 182 |
+
errekurtso administratibo bat ezarria du auzapezaren erabakiaren kontra, eta Cade
|
| 183 |
+
elkarteak auzibidea irekiko du auzitegi administratiboan.
|
| 184 |
+
|
| 185 |
+
|
| 186 |
+
Baionako ateetan, Mugerre eta Lehuntze (Lapurdi) artean, Aturri ibai bazterreko
|
| 187 |
+
eremu zabalak dira partak. Horretan kokatua da pleitagunea. Mugerreko auzapezak
|
| 188 |
+
hamabi hektareatan eman dio eraikin berriak egiteko baimena medikuntza materialaren
|
| 189 |
+
ekoizle Enovis enpresari. Hezeguneak dira eremu horiek.
|
| 190 |
+
|
| 191 |
+
|
| 192 |
+
Baimena eman aitzin, 2023ko abenduan, herritarrek tarte bat zeukaten beren ikusmoldea
|
| 193 |
+
emateko molde elektronikoan. Ingurumen elkarteek salatu dute oso zaila zela herritarrentzat
|
| 194 |
+
kontsulta horren berri jakitea, eta Mouguerre Cadre de Vie elkarteko kide Martine
|
| 195 |
+
Bouchetek adierazi du trumilka dokumentu administratibo bazeudela aztertzeko:
|
| 196 |
+
«Sekulako dokumentu andana behar izan ditugu irakurri, digeritu, ikusmolde bat
|
| 197 |
+
zabaltzeko». Baina dokumentu bat eskas zela dio, «informazio kapitala» zekarrena:
|
| 198 |
+
SAGE erakundearen mapa eta oharra gune horri buruz.'
|
| 199 |
+
- Bereziki problematikoa ez den zentro baten eguneroko egoera bat da. Burokraziaz
|
| 200 |
+
gainezka gauden irakasleok, burua ordenagailuaren pantailan betiko sartuta, gure
|
| 201 |
+
osasunarekin ordaintzen dugu urrats bakoitzean agertzen zaizkigun egoera guztiei
|
| 202 |
+
erantzun nahi izatea. Eta hori ezin dugunez egin, bizirauteko estrategiak garatzen
|
| 203 |
+
ditugu. Estrategia horiek irakasle eta hezitzaile gisako gure atazaren kalitatearen
|
| 204 |
+
kalterako dira. Baina zer egin ahal dugu guk? Jaurlaritzako Sailak edo Berritzeguneak
|
| 205 |
+
bezalako erakundeek ez digute ezertarako balio, ez digute laguntzen eguneroko
|
| 206 |
+
gatazka horiek edo beste asko konpontzen. Aitzitik, alferrikako lan-karga gehitzen
|
| 207 |
+
digute askotan. Ez al da garaia txorakeriak esan eta egiteari uzteko eta ea nola
|
| 208 |
+
hobetzen dugun hezkuntza-kalitatea eta elkarbizitza ikastetxeetan ikusten hasteko
|
| 209 |
+
behingoz?
|
| 210 |
+
- '«Gitarra elektrikorik ez dut luzaz jo, eta orain ezin utzi dut. Pozik naiz: keinu
|
| 211 |
+
guztiak hor dira, eta plazeraz ari naiz. Musikari bikainak ditugu, eta gu baino
|
| 212 |
+
gazteagoak, gainera. Indarra eta freskotasuna ekartzen digute».
|
| 213 |
+
|
| 214 |
+
|
| 215 |
+
MIXEL DUCAU
|
| 216 |
+
|
| 217 |
+
|
| 218 |
+
Errobi berpizteak zer eragin izango du bakoitzaren ibilbidean? Zer ekarriko dizue?
|
| 219 |
+
|
| 220 |
+
|
| 221 |
+
DUCAU: Hasteko, gaztetasuna. Gitarra elektrikorik ez dut luzaz jo, xoko batean
|
| 222 |
+
zen. Oreka TXrekin nabil kasik hogei urtez, eta bestelako tresnak jo ditut, alboka
|
| 223 |
+
eta abar. Helburu horrekin, gitarra hartu dut berriro, eta ezin utzi dut. Pozik
|
| 224 |
+
naiz: keinu guztiak hor dira, eta plazeraz ari naiz. Musikari bikainak ditugu,
|
| 225 |
+
eta gu baino gazteagoak, gainera. Indarra eta freskotasuna ekartzen digute. Egia
|
| 226 |
+
da Errobiren errepertorioak merezi zuela ber entzutea, eta belaunaldi berri batzuei
|
| 227 |
+
ber aurkeztea.
|
| 228 |
+
|
| 229 |
+
|
| 230 |
+
DUHALDE: Nire kasuan, ez da funtsezko aldaketarik. Errobiren Bizi-bizian zuzeneko
|
| 231 |
+
diskoari beti egin diot jarraipena, niretzat iparrorratza izan baita.
|
| 232 |
+
|
| 233 |
+
|
| 234 |
+
«Errobiren Bizi-bizian zuzeneko diskoari beti egin diot jarraipena, niretzat iparrorratza
|
| 235 |
+
izan baita».
|
| 236 |
+
|
| 237 |
+
|
| 238 |
+
ANJE DUHALDE
|
| 239 |
+
|
| 240 |
+
|
| 241 |
+
Moldaketarik egin diezue abestiei?
|
| 242 |
+
|
| 243 |
+
|
| 244 |
+
DUCAU: Guti. Kasik berdinak izango dira. Soinua aldatzen da. Formaz ere ez dugu
|
| 245 |
+
askorik aldatu.
|
| 246 |
+
|
| 247 |
+
|
| 248 |
+
DUHALDE: Ahal teknikoak ere bestelakoak dira guztiz. Mixelek berriz begiratu ditu,
|
| 249 |
+
eta hori oso esperientzia polita izan da. Produktu bat izoztu eta desizozten duzularik,
|
| 250 |
+
beti da inkognita zer zapore izango duen. Polita eta interesgarria izan da.
|
| 251 |
+
|
| 252 |
+
|
| 253 |
+
Ardoaren adibideak ere balio lezake.
|
| 254 |
+
|
| 255 |
+
|
| 256 |
+
DUHALDE: Hain zuzen, ardo ona ongi zahartzen da, baina bestea...'
|
| 257 |
+
- source_sentence: Zein da Milosz poetaren Alfabetoa liburuaren ezaugarri nagusia?
|
| 258 |
+
sentences:
|
| 259 |
+
- Bien arteko ispilu-jokoan taxutzen da, ordea, poetaren egiazko irudia.
|
| 260 |
+
- 'Liburua aurkeztu zenutenean, «hibridoa» dela esan zuten editoreek, eta zuk esan
|
| 261 |
+
izan duzu berritasuna gustatzen zaizula. Gauza berri baten bila joan zarela esan
|
| 262 |
+
liteke?
|
| 263 |
+
|
| 264 |
+
|
| 265 |
+
Ez da halako kalkulurik izan. Kalkulua baino gehiago, denbora bat dago, eta denbora
|
| 266 |
+
horretan ideia bat joan da heltzen. Etxean apunte pila bat neukan, koadernoetan,
|
| 267 |
+
paper muturretan, baita liburuetan ere, barreiatuta. Horiekin zer egin bueltaka
|
| 268 |
+
ari nintzela, nire idazle kuttun batekin akordatu nintzen, Milosz poeta poloniarrarekin.
|
| 269 |
+
Hark badu alfabeto bat bere bizitzako pasarte eta oroitzapenenekin. Niri bezala
|
| 270 |
+
gertatuko zitzaion hari ere, ez zuela jakingo gauza horiek denak nola eman. Bere
|
| 271 |
+
ibilerak eta lagunenak, bizitzaren etapa desberdinak, auzi politikoak eta debate
|
| 272 |
+
literarioak bigarren mundu gerraren aldirietan, elementu horiek alfabetikoki eman
|
| 273 |
+
zituen Alfabetoa izeneko liburuan, eta Miloszen formula horrek oso ongi funtzionatzen
|
| 274 |
+
du.
|
| 275 |
+
|
| 276 |
+
|
| 277 |
+
Hondartzako mutiko bat aipatu duzu, baina amona bat ere sarri ageri da.
|
| 278 |
+
|
| 279 |
+
|
| 280 |
+
Amonaren kasuan, gehien interesatzen zaidana izena da. Mutil koxkorretan Orion
|
| 281 |
+
bizi nintzenean, bazen amona bat, Dominika; ez dakit zer familiatakoa zen, zortzi
|
| 282 |
+
urterekin alde egin bainuen handik. Oso hiztun aparta zen, eta Berbelitzen amona
|
| 283 |
+
bihurtu dut.
|
| 284 |
+
|
| 285 |
+
|
| 286 |
+
Etorri handia du Dominikak. Hitz eta esamolde asko hartu dizkiozu. Galdutakoa
|
| 287 |
+
berreskuratu nahian?'
|
| 288 |
+
- '20
|
| 289 |
+
|
| 290 |
+
|
| 291 |
+
AEBetan kaltetutako langileak. Altzairua erabiltzen duten industrien arabera,
|
| 292 |
+
inportazio horien gaineko muga zergak burdina eta altzairu sorkuntzan babestuko
|
| 293 |
+
duen lanpostu bakoitzeko, hogei langileri egingo zaie kalte.
|
| 294 |
+
|
| 295 |
+
|
| 296 |
+
Zer eragin izango dute muga zergek AEBetan?
|
| 297 |
+
|
| 298 |
+
|
| 299 |
+
Bada, AEBetako altzairu eta aluminio industria indartzeko xedea zuten muga zerga
|
| 300 |
+
haiek apenas ekarri zuten hazkunderik AEBetako ekoizleen artean. Gaur egun, industria
|
| 301 |
+
horiek gaitasunaren %80an ari dira lanean, eta, altzairuarekin zehazki, gaitasunaren
|
| 302 |
+
%69an.
|
| 303 |
+
|
| 304 |
+
|
| 305 |
+
Aluminioari dagokionez, aluminio primarioa ekoizteko energia izugarria behar da,
|
| 306 |
+
eta, energia Kanadan merkeagoa izan denez azken urteetan, han ekoizpena indartu
|
| 307 |
+
egin da, eta AEBetan jaitsi. Hango aluminio industriako lobby nagusiaren arabera,
|
| 308 |
+
herrialdeak ez du bere aluminio beharrak asetzeko adina ekoizteko ahalmenik.
|
| 309 |
+
|
| 310 |
+
|
| 311 |
+
Zein izango da erantzuna oraingo honetan?
|
| 312 |
+
|
| 313 |
+
|
| 314 |
+
AEBei beste muga zerga batzuekin erantzuteaz eta MME Munduko Merkataritza Erakundean
|
| 315 |
+
salaketa jartzeaz gain, EBk bere muga zerga propioak ezarri zizkien altzairu eta
|
| 316 |
+
aluminio inportazioei, beldur baitzen mundu guztiak Europara joko zuela AEBetan
|
| 317 |
+
saldu ezin zuen horia saltzera. Europak bere sektorea babesteko beharra ikusi
|
| 318 |
+
zuen.
|
| 319 |
+
|
| 320 |
+
|
| 321 |
+
Txinako Gobernuak diruz lagundutako altzairu merkea da altzairu merkatuaren mamu
|
| 322 |
+
handia
|
| 323 |
+
|
| 324 |
+
|
| 325 |
+
Eta horretan dago oraindik ere, altzairuari dagokionez benetako arazoa gehiegizko
|
| 326 |
+
gaitasuna baita, eta Txina dago horren atzean. Pekingo gobernuak diruz lagundutako
|
| 327 |
+
altzairu merkea da altzairu merkatuaren mamu handia.
|
| 328 |
+
|
| 329 |
+
|
| 330 |
+
Hain zuzen, Trump iritsi aurretik, Joe Bidenen gobernua eta EB adostu nahian ari
|
| 331 |
+
ziren Txinaren lehiari nola aurre egin. AEBei, Txinatik zuzenean ez, baina Mexikotik
|
| 332 |
+
eta beste herrialdeetatik iristen zaie Txinako altzairu merkea.'
|
| 333 |
+
- source_sentence: Zein dira Frantziako Gobernuaren aurrekontu proposamenak Ipar Euskal
|
| 334 |
+
Herriko euskarazko irratiei eragingo dizkien ondorioak?
|
| 335 |
+
sentences:
|
| 336 |
+
- 'Gipuzkoako Elikagai Bankuak laguntza eskatu du: «Biltegia ia hutsik dago»
|
| 337 |
+
|
| 338 |
+
|
| 339 |
+
Gipuzkoako Elikagai Bankuak, Gipuzkoako Foru Aldundiarekin batera, herritar guztiei
|
| 340 |
+
dei egin die ostiralean eta larunbatean udaberriko bilketan parte hartzeko lurraldeko
|
| 341 |
+
supermerkatu nagusietan. Janaria eta dirua bilduko dituzte Euskal Herriko elikagai
|
| 342 |
+
bankuek. Gipuzkoakoak gutxienez 350.000 kilo elikagai bildu behar ditu, bermatu
|
| 343 |
+
ahal izateko zaurgarri dauden 17.000 pertsonari baino gehiagori janaria banatzea
|
| 344 |
+
udazkenera arte.
|
| 345 |
+
|
| 346 |
+
|
| 347 |
+
Belen Mendez de Vigok, Gipuzkoako Elikagai Bankuko lehendakariak, eta Jose Ignacio
|
| 348 |
+
Asensiok, Jasangarritasun diputatuak, azaldu dute «kritikoa» dela egoera, baliabideak
|
| 349 |
+
pixkanaka galtzen ari direlako eta horrek arriskuan jartzen duelako elikagaien
|
| 350 |
+
hileko banaketa. 2022tik, etengabe urritu dira Gipuzkoako Elikagai Bankuari egindako
|
| 351 |
+
dohaintza ekonomikoak eta emandako janaria.
|
| 352 |
+
|
| 353 |
+
|
| 354 |
+
Gainera, galdu egin dituzte lehen Europako Batasuneko funtsetatik iristen zitzaizkien
|
| 355 |
+
laguntza garrantzitsu batzuk: 2023 eta 2024 artean, Europako funtsetatik 400.000
|
| 356 |
+
kilo janari jasotzeari utzi zioten. Aintzat hartu behar da elikagai horiekin 6.000
|
| 357 |
+
pertsona inguru artatzen zituztela. Orain, berriz, diru txartelen bidez bideratzen
|
| 358 |
+
da Europako laguntza hori, baina laguntza mota horrekin lehen artatzen zuten pertsona
|
| 359 |
+
kopuruaren erdira baino ez dira iristen.
|
| 360 |
+
|
| 361 |
+
|
| 362 |
+
Jendeak emandako dirua ere gutxitu da. Adibide bat: aurtengo lehen lauhilekoan,
|
| 363 |
+
Gipuzkoako Elikagai Bankuak 70.000 euro gutxiago izan ditu janaria erosteko, iazko
|
| 364 |
+
garai beraren aldean.'
|
| 365 |
+
- 'Euskal Irratiak arriskuan
|
| 366 |
+
|
| 367 |
+
|
| 368 |
+
Pantxoa eta Pello kantariek erakutsi ziguten Baionako suprefetak buruan zuela
|
| 369 |
+
kasketa, eta berarentzat itsusia zela Euskal Herriko boneta. Iduri luke suprefeta
|
| 370 |
+
hark –eta ondoren izan direnek– euskal boneta maite ez zuen bezala, Frantziako
|
| 371 |
+
lehen ministro izendatu berriari –Michel Barnierri– ez zaiola laketgarri Asanblea
|
| 372 |
+
Nazionalerako hauteskundeetan ezker frantziarrak eta EH Baik egindako elkarlanaren
|
| 373 |
+
emaitza: hiru diputatuetatik hirurak eskuratu zituzten.
|
| 374 |
+
|
| 375 |
+
|
| 376 |
+
Zekena, eta elitista, izan beharra dago Frantziako aurrekontu proposamenean tokiko
|
| 377 |
+
irratiei bizirauten laguntzeko diru poltsa %35 murrizteko —11 milioi euro—, horrekin
|
| 378 |
+
Frantziak daukan zulo ekonomikoa konponduko balu. Zekena, aurreztu nahi duen diru
|
| 379 |
+
kopurua huskeria delako Frantziako aurrekontuaren barruan; eta elitista, 2025eko
|
| 380 |
+
aurrekontuetarako agindu duen mozketa orokorraren aitzakiarekin harentzat ezdeusa
|
| 381 |
+
diren komunikabide komunitarioak oso egoera larrian uzten dituelako.
|
| 382 |
+
|
| 383 |
+
|
| 384 |
+
Ipar Euskal Herrian euskaraz lan egiten duten lau irratiei —Antxeta Irratia, Gure
|
| 385 |
+
Irratia, Irulegi eta Amikuzeko Irratia eta Xiberoko Boza— egingo die kalte larria
|
| 386 |
+
murrizketak.
|
| 387 |
+
|
| 388 |
+
|
| 389 |
+
Elkartasunarekin erantzuteko ordua da, iraganean beste auzi batzuekin egin den
|
| 390 |
+
bezala, herritarrak eta tokian tokiko erakunde publikoak elkar hartuta: presioa
|
| 391 |
+
egin Parisek atzera egin dezan. Hego Euskal Herriko herritarren eta erakundeen
|
| 392 |
+
ordua ere bada.'
|
| 393 |
+
- 'Euskotren zerbitzua etenda Elgoibar eta Mendaro artean
|
| 394 |
+
|
| 395 |
+
|
| 396 |
+
Euriteek bestelako kalteak ere eragin dituzte egunotan. Elgoibar eta Mendaro arteko
|
| 397 |
+
trenbidean (Gipuzkoa), esate baterako, ezponda bat erori da luizi baten ondorioz;
|
| 398 |
+
hortaz, bi herri horien arteko tren zerbitzua etenda izanen da hamar egunez, konpontze
|
| 399 |
+
lanek iraun bitartean. ETS Euskal Trenbide Sareak jakinarazi duenez, eguraldiak
|
| 400 |
+
eragin zuen luizia.
|
| 401 |
+
|
| 402 |
+
|
| 403 |
+
Zerbitzua etenda dagoen bitartean, bidaiariek autobusa hartu beharko dute Mendaroko
|
| 404 |
+
geltokitik (Bilborako noranzkoan) Elgoibarreraino, eta Elgoibarko geltokitik (Donostiarako
|
| 405 |
+
noranzkoan) Mendaroraino.'
|
| 406 |
+
pipeline_tag: sentence-similarity
|
| 407 |
+
library_name: sentence-transformers
|
| 408 |
+
metrics:
|
| 409 |
+
- cosine_accuracy
|
| 410 |
+
model-index:
|
| 411 |
+
- name: SentenceTransformer based on intfloat/multilingual-e5-large
|
| 412 |
+
results:
|
| 413 |
+
- task:
|
| 414 |
+
type: triplet
|
| 415 |
+
name: Triplet
|
| 416 |
+
dataset:
|
| 417 |
+
name: multilingual e5 large
|
| 418 |
+
type: multilingual-e5-large
|
| 419 |
+
metrics:
|
| 420 |
+
- type: cosine_accuracy
|
| 421 |
+
value: 0.8519999980926514
|
| 422 |
+
name: Cosine Accuracy
|
| 423 |
+
---
|
| 424 |
+
|
| 425 |
+
# SentenceTransformer based on intfloat/multilingual-e5-large
|
| 426 |
+
|
| 427 |
+
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large). It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
|
| 428 |
+
|
| 429 |
+
## Model Details
|
| 430 |
+
|
| 431 |
+
### Model Description
|
| 432 |
+
- **Model Type:** Sentence Transformer
|
| 433 |
+
- **Base model:** [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large) <!-- at revision 0dc5580a448e4284468b8909bae50fa925907bc5 -->
|
| 434 |
+
- **Maximum Sequence Length:** 512 tokens
|
| 435 |
+
- **Output Dimensionality:** 1024 dimensions
|
| 436 |
+
- **Similarity Function:** Cosine Similarity
|
| 437 |
+
<!-- - **Training Dataset:** Unknown -->
|
| 438 |
+
<!-- - **Language:** Unknown -->
|
| 439 |
+
<!-- - **License:** Unknown -->
|
| 440 |
+
|
| 441 |
+
### Model Sources
|
| 442 |
+
|
| 443 |
+
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
|
| 444 |
+
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
|
| 445 |
+
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
|
| 446 |
+
|
| 447 |
+
### Full Model Architecture
|
| 448 |
+
|
| 449 |
+
```
|
| 450 |
+
SentenceTransformer(
|
| 451 |
+
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'XLMRobertaModel'})
|
| 452 |
+
(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
|
| 453 |
+
(2): Normalize()
|
| 454 |
+
)
|
| 455 |
+
```
|
| 456 |
+
|
| 457 |
+
## Usage
|
| 458 |
+
|
| 459 |
+
### Direct Usage (Sentence Transformers)
|
| 460 |
+
|
| 461 |
+
First install the Sentence Transformers library:
|
| 462 |
+
|
| 463 |
+
```bash
|
| 464 |
+
pip install -U sentence-transformers
|
| 465 |
+
```
|
| 466 |
+
|
| 467 |
+
Then you can load this model and run inference.
|
| 468 |
+
```python
|
| 469 |
+
from sentence_transformers import SentenceTransformer
|
| 470 |
+
|
| 471 |
+
# Download from the 🤗 Hub
|
| 472 |
+
model = SentenceTransformer("aimarsg/mle5_berria_s_contrastive")
|
| 473 |
+
# Run inference
|
| 474 |
+
sentences = [
|
| 475 |
+
'Zein dira Frantziako Gobernuaren aurrekontu proposamenak Ipar Euskal Herriko euskarazko irratiei eragingo dizkien ondorioak?',
|
| 476 |
+
'Euskal Irratiak arriskuan\n\nPantxoa eta Pello kantariek erakutsi ziguten Baionako suprefetak buruan zuela kasketa, eta berarentzat itsusia zela Euskal Herriko boneta. Iduri luke suprefeta hark –eta ondoren izan direnek– euskal boneta maite ez zuen bezala, Frantziako lehen ministro izendatu berriari –Michel Barnierri– ez zaiola laketgarri Asanblea Nazionalerako hauteskundeetan ezker frantziarrak eta EH Baik egindako elkarlanaren emaitza: hiru diputatuetatik hirurak eskuratu zituzten.\n\nZekena, eta elitista, izan beharra dago Frantziako aurrekontu proposamenean tokiko irratiei bizirauten laguntzeko diru poltsa %35 murrizteko —11 milioi euro—, horrekin Frantziak daukan zulo ekonomikoa konponduko balu. Zekena, aurreztu nahi duen diru kopurua huskeria delako Frantziako aurrekontuaren barruan; eta elitista, 2025eko aurrekontuetarako agindu duen mozketa orokorraren aitzakiarekin harentzat ezdeusa diren komunikabide komunitarioak oso egoera larrian uzten dituelako.\n\nIpar Euskal Herrian euskaraz lan egiten duten lau irratiei —Antxeta Irratia, Gure Irratia, Irulegi eta Amikuzeko Irratia eta Xiberoko Boza— egingo die kalte larria murrizketak.\n\nElkartasunarekin erantzuteko ordua da, iraganean beste auzi batzuekin egin den bezala, herritarrak eta tokian tokiko erakunde publikoak elkar hartuta: presioa egin Parisek atzera egin dezan. Hego Euskal Herriko herritarren eta erakundeen ordua ere bada.',
|
| 477 |
+
'Gipuzkoako Elikagai Bankuak laguntza eskatu du: «Biltegia ia hutsik dago»\n\nGipuzkoako Elikagai Bankuak, Gipuzkoako Foru Aldundiarekin batera, herritar guztiei dei egin die ostiralean eta larunbatean udaberriko bilketan parte hartzeko lurraldeko supermerkatu nagusietan. Janaria eta dirua bilduko dituzte Euskal Herriko elikagai bankuek. Gipuzkoakoak gutxienez 350.000 kilo elikagai bildu behar ditu, bermatu ahal izateko zaurgarri dauden 17.000 pertsonari baino gehiagori janaria banatzea udazkenera arte.\n\nBelen Mendez de Vigok, Gipuzkoako Elikagai Bankuko lehendakariak, eta Jose Ignacio Asensiok, Jasangarritasun diputatuak, azaldu dute «kritikoa» dela egoera, baliabideak pixkanaka galtzen ari direlako eta horrek arriskuan jartzen duelako elikagaien hileko banaketa. 2022tik, etengabe urritu dira Gipuzkoako Elikagai Bankuari egindako dohaintza ekonomikoak eta emandako janaria.\n\nGainera, galdu egin dituzte lehen Europako Batasuneko funtsetatik iristen zitzaizkien laguntza garrantzitsu batzuk: 2023 eta 2024 artean, Europako funtsetatik 400.000 kilo janari jasotzeari utzi zioten. Aintzat hartu behar da elikagai horiekin 6.000 pertsona inguru artatzen zituztela. Orain, berriz, diru txartelen bidez bideratzen da Europako laguntza hori, baina laguntza mota horrekin lehen artatzen zuten pertsona kopuruaren erdira baino ez dira iristen.\n\nJendeak emandako dirua ere gutxitu da. Adibide bat: aurtengo lehen lauhilekoan, Gipuzkoako Elikagai Bankuak 70.000 euro gutxiago izan ditu janaria erosteko, iazko garai beraren aldean.',
|
| 478 |
+
]
|
| 479 |
+
embeddings = model.encode(sentences)
|
| 480 |
+
print(embeddings.shape)
|
| 481 |
+
# [3, 1024]
|
| 482 |
+
|
| 483 |
+
# Get the similarity scores for the embeddings
|
| 484 |
+
similarities = model.similarity(embeddings, embeddings)
|
| 485 |
+
print(similarities)
|
| 486 |
+
# tensor([[1.0000, 0.8214, 0.0880],
|
| 487 |
+
# [0.8214, 1.0000, 0.1572],
|
| 488 |
+
# [0.0880, 0.1572, 1.0000]])
|
| 489 |
+
```
|
| 490 |
+
|
| 491 |
+
<!--
|
| 492 |
+
### Direct Usage (Transformers)
|
| 493 |
+
|
| 494 |
+
<details><summary>Click to see the direct usage in Transformers</summary>
|
| 495 |
+
|
| 496 |
+
</details>
|
| 497 |
+
-->
|
| 498 |
+
|
| 499 |
+
<!--
|
| 500 |
+
### Downstream Usage (Sentence Transformers)
|
| 501 |
+
|
| 502 |
+
You can finetune this model on your own dataset.
|
| 503 |
+
|
| 504 |
+
<details><summary>Click to expand</summary>
|
| 505 |
+
|
| 506 |
+
</details>
|
| 507 |
+
-->
|
| 508 |
+
|
| 509 |
+
<!--
|
| 510 |
+
### Out-of-Scope Use
|
| 511 |
+
|
| 512 |
+
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
|
| 513 |
+
-->
|
| 514 |
+
|
| 515 |
+
## Evaluation
|
| 516 |
+
|
| 517 |
+
### Metrics
|
| 518 |
+
|
| 519 |
+
#### Triplet
|
| 520 |
+
|
| 521 |
+
* Dataset: `multilingual-e5-large`
|
| 522 |
+
* Evaluated with [<code>TripletEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.TripletEvaluator)
|
| 523 |
+
|
| 524 |
+
| Metric | Value |
|
| 525 |
+
|:--------------------|:----------|
|
| 526 |
+
| **cosine_accuracy** | **0.852** |
|
| 527 |
+
|
| 528 |
+
<!--
|
| 529 |
+
## Bias, Risks and Limitations
|
| 530 |
+
|
| 531 |
+
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
|
| 532 |
+
-->
|
| 533 |
+
|
| 534 |
+
<!--
|
| 535 |
+
### Recommendations
|
| 536 |
+
|
| 537 |
+
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
|
| 538 |
+
-->
|
| 539 |
+
|
| 540 |
+
## Training Details
|
| 541 |
+
|
| 542 |
+
### Training Dataset
|
| 543 |
+
|
| 544 |
+
#### Unnamed Dataset
|
| 545 |
+
|
| 546 |
+
* Size: 20,201 training samples
|
| 547 |
+
* Columns: <code>anchor</code> and <code>positive</code>
|
| 548 |
+
* Approximate statistics based on the first 1000 samples:
|
| 549 |
+
| | anchor | positive |
|
| 550 |
+
|:--------|:----------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------|
|
| 551 |
+
| type | string | string |
|
| 552 |
+
| details | <ul><li>min: 8 tokens</li><li>mean: 20.69 tokens</li><li>max: 45 tokens</li></ul> | <ul><li>min: 103 tokens</li><li>mean: 382.84 tokens</li><li>max: 503 tokens</li></ul> |
|
| 553 |
+
* Samples:
|
| 554 |
+
| anchor | positive |
|
| 555 |
+
|:------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|
| 556 |
+
| <code>Itziar Ituño Martinezekin kontratua zergatik hautsi zuten BMW eta Iberia enpresek?</code> | <code>Ituño Martinezen oraingo kasuan dagoen ideologia bakarra BMW eta Iberia enpresena da: uste sendoengatik bereizten duena (bide batez esan beharra dago eraginkortasun ekonomikoan oinarritutako paradigma ekonomiko liberaletik oso urrun dagoen enpresa-portaera dela). Itziar Ituño Martinez aktoreak, bere uste legitimo zehatzetatik haratago, adierazpen askatasuna erabili du, eta ez hori bakarrik, baita presoen eskubideen berme sozial gisa jardun ere. Bi gauza horiek oinarrizkoak dira edozein sistema demokratikotan; eta, gainera, adierazpen-askatasunak eta gizarte-bermearen izaerak banakoaren dimentsioa gainditzen dute, beste eskubide batzuen zerbitzura baitaude. Eskubideen defentsaren aurrean, eskubideen izaera objektiboa dela-eta, ez dago inolako neutraltasunik, ezta enpresa-neutraltasunik ere.<br><br>Beste era batera esanda: ez hemen, ez Europako esparru demokratiko osoan, ezin da esan zilegi eta legezkoa denik enpresa-askatasuna erabiltzea kontratatu den hirugarren pertsona bati kaltea eragitek...</code> |
|
| 557 |
+
| <code>Nor dira Juntsen alde agertu diren Convergenciako bi presidente ohiak?</code> | <code>Juntsen aldaketa<br><br>Joan Gaspart. Harrigarri samarra izan daiteke 22 urtez Bartzelona Futbol Taldearen presidenteorde eta gero presidente (2000-2003) izandakoaren izena hona ekartzea, baina ezinezkoa denez zehatz-mehatz jakitea gaurko hauteskundeetan zer emaitza izango diren eta ia ezinezkoa iragartzea inbestidura bati bide emateko sedukzio jokoetan nork norekin egingo duen dantza —edo, are, nor norekin arituko den perreo-an— esanguratsua behintzat bada ikustea hura nola atera den plazara: aitortu du Carles Puigdemonti emango diola botoa. Lluis Llachek ere Juntseko presidentegaiaren alde egingo du, baina ezin da esan Gasparti, hotelen sektoreko enpresariari, PPren bozkatzailea izandakoari, kantugilearen aurpegia jarri zaionik. «Ez naiz independentista; lidergo kontua da», adierazi zion orain dela egun batzuk El Nacional.cat hedabideari.<br><br>Lidergoak aipatuta, Convergencia zenarekin Generalitateko presidente izan ziren biek ere modu aktiboan eskatu dute Puigdemonten aldeko botoa, beste haut...</code> |
|
| 558 |
+
| <code>Zein dira Pedro Migel Etxenikek aipatzen dituen etorkizuneko aurkikuntza garrantzitsuak?</code> | <code>Zaila da baliokidea aurreratzen saiatzea. Garrantzitsuena ikertzaileak heztea da, etorkizuneko aurkikuntzak egin ditzaten. Oraingoz, nanoteknologia, konputazio kuantikoa eta adimen artifiziala izango lirateke.<br><br>Zientzialari berriei aholku bat?<br><br>Utz diezaiegun etorkizuneko artistei partitura idazten. Zientzia egitera animatzen ditut; nahiz eta egiten duten ekarpena txikia izan, garrantzitsua izango da zientziaren katean. Aurreko zientzialarien lanak ere aztertu behar dituzte, iraganak etorkizuna argitzen duelako. Joxan Artzek esaten duen bezala: «Iturri zaharretik edaten dut, ur berria edaten, beti berri den ura, betiko iturri zaharretik».<br><br>Inoiz esan duzu fisikariak unibertsoko profetak zaretela. Zer aurreikusten duzu?<br><br>Tenperatura altuko supereroankortasunaren jatorria ezagutzea nahi nuke. Batzuetan galdera handiek oso erantzun mugatuak ematen dituzte, eta galdera txikiek, berriz, oso erantzun zabalak. Baina ez dut astirik interesatzen zaidan guztia ikertzeko. Pena ematen dit, interes...</code> |
|
| 559 |
+
* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
|
| 560 |
+
```json
|
| 561 |
+
{
|
| 562 |
+
"scale": 20.0,
|
| 563 |
+
"similarity_fct": "cos_sim",
|
| 564 |
+
"gather_across_devices": false
|
| 565 |
+
}
|
| 566 |
+
```
|
| 567 |
+
|
| 568 |
+
### Evaluation Dataset
|
| 569 |
+
|
| 570 |
+
#### Unnamed Dataset
|
| 571 |
+
|
| 572 |
+
* Size: 6,000 evaluation samples
|
| 573 |
+
* Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
|
| 574 |
+
* Approximate statistics based on the first 1000 samples:
|
| 575 |
+
| | anchor | positive | negative |
|
| 576 |
+
|:--------|:---------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
|
| 577 |
+
| type | string | string | string |
|
| 578 |
+
| details | <ul><li>min: 9 tokens</li><li>mean: 21.3 tokens</li><li>max: 51 tokens</li></ul> | <ul><li>min: 92 tokens</li><li>mean: 377.1 tokens</li><li>max: 502 tokens</li></ul> | <ul><li>min: 5 tokens</li><li>mean: 179.92 tokens</li><li>max: 497 tokens</li></ul> |
|
| 579 |
+
* Samples:
|
| 580 |
+
| anchor | positive | negative |
|
| 581 |
+
|:------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|
| 582 |
+
| <code>Non jokatuko du Eibarrek bihar?</code> | <code>ESPANYOL-OSASUNA<br><br>Espanyol. Joan Garcia; Tejero, Kumbulla, Cabrera, Brian Olivan; Pol Lozano, Kral, Romero (Justin, 86. min), Antoniu Roca (Cheddira, 60. min); Cardona (Milla, 74. min) eta Puado.<br><br>Osasuna. Sergio Herrera; Areso (Nacho Vidal, 83. min), Catena, Boyomo, Bretones (Juan Cruz, 87. min); Ruben Garcia, Pablo Ibañez (Iker Muñoz, 67. min), Torro, Aimar Oroz (Kike Barja, 86. min); Budimir eta Raul Garcia (Ruben Peña, 67. min).<br><br>REALAK BOLADA ONA LUZATU NAHI DU ETXEAN<br><br>Realak etxean jokatuko du bihar berriro, Las Palmasen aurka (18:30, Movistar). Txuri-urdinek bolada ona luzatu nahi dute, azken lau partidak irabazi baitituzte Anoetan. Aurkaria hamalaugarren postuan dago, eta Realak baino sei puntu gutxiago ditu.<br><br>Emakumeen taldeak, berriz, 2-0 irabazi dio gaur Granadillari. Amaiur Sarriegik eta Nerea Eizagirrek sartu dituzte golak. Bihar, Eibar Levante Badalonaren zelaian ariko da (16:00, Dazn), eta Athletic, Sevillarenean (19:00, Dazn).</code> | <code>Trumpen distira gutxiko lehenengo garaikurra<br><br>Donald Trumpen hiztegi ez oso aberatsean badira nabarmentzen diren bi hitz: muga zergak —«I love tariffs!» izan zen bere gerra oihua hauteskunde kanpainan— eta akordioak —The Art of the Deal deitzen da bere liburu hagiografikoa—. Bada, bi hitzak —hiru euskaraz— esaldi bakar batean aipa ditzake orain AEBetako presidenteak, dagoeneko lortu duelako lehen akordioa berak hasitako gerra komertzialean. Erresuma Batua izan da aukeratua, «agian geure aliatu nagusia», Trumpen beraren arabera.<br><br>Itunaren xehetasunak lotzeko daude, baina, oraingoz zabaldu denaren arabera, Trumpek berak hasitako gerraren kalteak konpontzeko akordio bat besterik ez da. Horrela, Erresuma Batuaren esportazioek %10eko muga zerga ordainduko dute aurrerantzean, eta horixe bera izango da tasa lehen 100.000 autoentzat; hau da, tasa handiagoak ordainduko dituztela Trumpek tarifekin jolasten hasi aurretik baino. Hau da, izerdi asko lehen baino okerrago geratzeko.<br><br>JD Vance AEBetak...</code> |
|
| 583 |
+
| <code>Zein urtetan sinatu zuten PPk eta PSOEk Askatasunaren Aldeko eta Terrorismoaren Aurkako Ituna?</code> | <code>«Gogor eta zorrotz»<br><br>Bi hamarkada igaro dira PPk eta PSOEk euskal presoei ezarritako salbuespen legedia onartu zutenetik. Ordukoa da Aznarren esaldi ezaguna: «Kartzelan usteldu daitezela».<br><br>Egun euskal presoei aplikatzen zaizkien salbuespen politikek beste testuinguru politiko eta sozial bat dute sorburu. Zehazki, XXI. mende hasierakoa, Teresa Whitfield idazleak euskal politikagintzak trantsiziotik jasaniko krisi sakonenaren garai gisa definitu zuenekoa. Atzean geratu zen Lizarra-Garazi akordioa, eta atzean Espainiako Gobernuak «Euskal Nazio Askapenerako Mugimenduaren inguruarekin» egindako elkarrizketak eta presoen gerturatzeak. PPk eta PSOEk sinatutako Askatasunaren Aldeko eta Terrorismoaren Aurkako Itunaren ostean, bestelako norabide bat hartu zuen Espainiako Gobernuak, jomugan jarrita, besteak beste, espetxe politika. Jose Maria Aznar gobernuburuak argi adierazi zuen helburua, 7/2003 Lege Organikoa hizpide zuela: «Kartzelan usteldu daitezela».<br><br>Lizarrako itunaren testuinguruan ezar...</code> | <code>«Israelgo armada ez da Gazako zerrendatik irtengo, eta ez ditugu aske utziko milaka terrorista palestinar».<br><br>BENJAMIN NETANYAHU Israelgo lehen ministroa<br><br>The Jerusalem Post egunkariak atzo kaleratu zuenez, hiru fase izango lituzke: lehenengo fasean, 35-40 gatibu israeldar askatuko lituzke Hamasek, emakumeak, osasunez larri daudenak eta 60 urtetik gorako gizonak, eta, trukean, sei asteko su etena indarrean jarriko lukete eta hainbat preso palestinar askatuko lituzkete; bigarren fasean, bahitutako gizonezko soldaduak eta 60 urtetik beherako zibilak utziko lituzkete aske; azkenik, hirugarren fasean, bahiturik zeudela hil direnen gorpuak emango lizkioke Hamasek Tel Avivi. Joan den asteburuan ondu zuten menia proposamena, Parisen.<br><br>Beste aliantza bat<br><br>EB Europako Batasuna ia-ia prest dago Itsaso Gorriko «nabigazioa babesteko» misioa abian jartzeko, erakundeko diplomaziaburu Josep Borrellen arabera. Litekeena da datorren otsailaren 17an operazioarekin hasi ahal izatea, nahiz eta oraindik zen...</code> |
|
| 584 |
+
| <code>Zein urtetan argitaratu ziren lehen aldiz Hergeren Tintin pertsonaiaren komikiak Le Petit Vingtième aldizkarian?</code> | <code>Kapitain, asteazkena da<br><br>Adin zehaztugabea duen tipoa, abenturazalea, alfer xamarra, janzkera sinplekoa, kopetako ileak gora, gehiegikeria gutxi. Gaurko egun batekoa da Tintin pertsonaia. 1929ko urtarrilaren 10a zen eta Le Petit Vingtième aldizkarian argitaratu zituzten Herge ezizenez ezagutzen den Georges Prosper Remi belgiarraren komikiak. Milu, dupontdarrak eta Haddock kapitaina lagun hartuta han eta hemen izandako hainbat abentura kontatu ditu Tintinek, kolonialismoaren ikuskera paternalista xalo defendatu, tolerantzia eta bakea aldarrikatu, eta komunismoaren aurka egin. Pertsonaiaren hasieretan horixe baitzen helburu behinena. Tintin Sobieten herrian izenburua du lehen albumak, eta bertan Tintinek eta Miluk Moskura bidaiatzen dute gertutik kontatzeko boltxebikeen hauteskunde xantaia, erailtzeak, lapurretak, Stalinen diktadura.<br><br>Badago Tintinen bineta bat sareetan sarri ikusi dudana aspaldian. Haddock kapitana nekoso mintzo da. «A ze astea!». Eta Tintinek erantzun: «Kapitain, astea...</code> | <code>Azkenik, Eusko Ikaskuntzak Nafarroan eginiko euskarari buruzko ikerketa berritzaile batek agerian utzi du hizkuntzaren eta euskal komunitatearen estimazio indize altua Nafarroan. Ikerketaren arabera, bertako herritarren %63 euskara sustatzearen alde daude eta %52k euskal komunitatea erreferente positibo gisa ikusten dute.<br><br>Hizkuntzen eta kulturen balioez eta euskara bezalako hizkuntza minorizatu baten normalizazioaz, hiritar orok kontzientzia hartzea eta iritzi landua edukitzea izan beharko litzateke xedea. Gainera, gizartean hausturak josten lagunduko luke. Eredua dago, Zientziaren Komunikazioko ekimen eta politikak begira ditzagun; eta orain arte soziolinguistikan egin denari hedapen handiagoa, sistematikoa eta egiturazkoa eman diezaiogun.<br><br>Euskarari diogun maitasuna begi bistakoa da, eta maitasun horrek hizkuntza eta kultura zaintzeko eta garatzeko ematen digun indarra aldarrikatu nahiko nuke amaitu aurretik. Izan ere, harriduraz entzuten baitut zenbait kasutan, «euskara maite dut, ...</code> |
|
| 585 |
+
* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
|
| 586 |
+
```json
|
| 587 |
+
{
|
| 588 |
+
"scale": 20.0,
|
| 589 |
+
"similarity_fct": "cos_sim",
|
| 590 |
+
"gather_across_devices": false
|
| 591 |
+
}
|
| 592 |
+
```
|
| 593 |
+
|
| 594 |
+
### Training Hyperparameters
|
| 595 |
+
#### Non-Default Hyperparameters
|
| 596 |
+
|
| 597 |
+
- `eval_strategy`: epoch
|
| 598 |
+
- `learning_rate`: 2e-05
|
| 599 |
+
- `warmup_ratio`: 0.1
|
| 600 |
+
- `batch_sampler`: no_duplicates
|
| 601 |
+
|
| 602 |
+
#### All Hyperparameters
|
| 603 |
+
<details><summary>Click to expand</summary>
|
| 604 |
+
|
| 605 |
+
- `overwrite_output_dir`: False
|
| 606 |
+
- `do_predict`: False
|
| 607 |
+
- `eval_strategy`: epoch
|
| 608 |
+
- `prediction_loss_only`: True
|
| 609 |
+
- `per_device_train_batch_size`: 8
|
| 610 |
+
- `per_device_eval_batch_size`: 8
|
| 611 |
+
- `per_gpu_train_batch_size`: None
|
| 612 |
+
- `per_gpu_eval_batch_size`: None
|
| 613 |
+
- `gradient_accumulation_steps`: 1
|
| 614 |
+
- `eval_accumulation_steps`: None
|
| 615 |
+
- `torch_empty_cache_steps`: None
|
| 616 |
+
- `learning_rate`: 2e-05
|
| 617 |
+
- `weight_decay`: 0.0
|
| 618 |
+
- `adam_beta1`: 0.9
|
| 619 |
+
- `adam_beta2`: 0.999
|
| 620 |
+
- `adam_epsilon`: 1e-08
|
| 621 |
+
- `max_grad_norm`: 1.0
|
| 622 |
+
- `num_train_epochs`: 3
|
| 623 |
+
- `max_steps`: -1
|
| 624 |
+
- `lr_scheduler_type`: linear
|
| 625 |
+
- `lr_scheduler_kwargs`: {}
|
| 626 |
+
- `warmup_ratio`: 0.1
|
| 627 |
+
- `warmup_steps`: 0
|
| 628 |
+
- `log_level`: passive
|
| 629 |
+
- `log_level_replica`: warning
|
| 630 |
+
- `log_on_each_node`: True
|
| 631 |
+
- `logging_nan_inf_filter`: True
|
| 632 |
+
- `save_safetensors`: True
|
| 633 |
+
- `save_on_each_node`: False
|
| 634 |
+
- `save_only_model`: False
|
| 635 |
+
- `restore_callback_states_from_checkpoint`: False
|
| 636 |
+
- `no_cuda`: False
|
| 637 |
+
- `use_cpu`: False
|
| 638 |
+
- `use_mps_device`: False
|
| 639 |
+
- `seed`: 42
|
| 640 |
+
- `data_seed`: None
|
| 641 |
+
- `jit_mode_eval`: False
|
| 642 |
+
- `use_ipex`: False
|
| 643 |
+
- `bf16`: False
|
| 644 |
+
- `fp16`: False
|
| 645 |
+
- `fp16_opt_level`: O1
|
| 646 |
+
- `half_precision_backend`: auto
|
| 647 |
+
- `bf16_full_eval`: False
|
| 648 |
+
- `fp16_full_eval`: False
|
| 649 |
+
- `tf32`: None
|
| 650 |
+
- `local_rank`: 0
|
| 651 |
+
- `ddp_backend`: None
|
| 652 |
+
- `tpu_num_cores`: None
|
| 653 |
+
- `tpu_metrics_debug`: False
|
| 654 |
+
- `debug`: []
|
| 655 |
+
- `dataloader_drop_last`: False
|
| 656 |
+
- `dataloader_num_workers`: 0
|
| 657 |
+
- `dataloader_prefetch_factor`: None
|
| 658 |
+
- `past_index`: -1
|
| 659 |
+
- `disable_tqdm`: False
|
| 660 |
+
- `remove_unused_columns`: True
|
| 661 |
+
- `label_names`: None
|
| 662 |
+
- `load_best_model_at_end`: False
|
| 663 |
+
- `ignore_data_skip`: False
|
| 664 |
+
- `fsdp`: []
|
| 665 |
+
- `fsdp_min_num_params`: 0
|
| 666 |
+
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
|
| 667 |
+
- `fsdp_transformer_layer_cls_to_wrap`: None
|
| 668 |
+
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
|
| 669 |
+
- `parallelism_config`: None
|
| 670 |
+
- `deepspeed`: None
|
| 671 |
+
- `label_smoothing_factor`: 0.0
|
| 672 |
+
- `optim`: adamw_torch_fused
|
| 673 |
+
- `optim_args`: None
|
| 674 |
+
- `adafactor`: False
|
| 675 |
+
- `group_by_length`: False
|
| 676 |
+
- `length_column_name`: length
|
| 677 |
+
- `ddp_find_unused_parameters`: None
|
| 678 |
+
- `ddp_bucket_cap_mb`: None
|
| 679 |
+
- `ddp_broadcast_buffers`: False
|
| 680 |
+
- `dataloader_pin_memory`: True
|
| 681 |
+
- `dataloader_persistent_workers`: False
|
| 682 |
+
- `skip_memory_metrics`: True
|
| 683 |
+
- `use_legacy_prediction_loop`: False
|
| 684 |
+
- `push_to_hub`: False
|
| 685 |
+
- `resume_from_checkpoint`: None
|
| 686 |
+
- `hub_model_id`: None
|
| 687 |
+
- `hub_strategy`: every_save
|
| 688 |
+
- `hub_private_repo`: None
|
| 689 |
+
- `hub_always_push`: False
|
| 690 |
+
- `hub_revision`: None
|
| 691 |
+
- `gradient_checkpointing`: False
|
| 692 |
+
- `gradient_checkpointing_kwargs`: None
|
| 693 |
+
- `include_inputs_for_metrics`: False
|
| 694 |
+
- `include_for_metrics`: []
|
| 695 |
+
- `eval_do_concat_batches`: True
|
| 696 |
+
- `fp16_backend`: auto
|
| 697 |
+
- `push_to_hub_model_id`: None
|
| 698 |
+
- `push_to_hub_organization`: None
|
| 699 |
+
- `mp_parameters`:
|
| 700 |
+
- `auto_find_batch_size`: False
|
| 701 |
+
- `full_determinism`: False
|
| 702 |
+
- `torchdynamo`: None
|
| 703 |
+
- `ray_scope`: last
|
| 704 |
+
- `ddp_timeout`: 1800
|
| 705 |
+
- `torch_compile`: False
|
| 706 |
+
- `torch_compile_backend`: None
|
| 707 |
+
- `torch_compile_mode`: None
|
| 708 |
+
- `include_tokens_per_second`: False
|
| 709 |
+
- `include_num_input_tokens_seen`: False
|
| 710 |
+
- `neftune_noise_alpha`: None
|
| 711 |
+
- `optim_target_modules`: None
|
| 712 |
+
- `batch_eval_metrics`: False
|
| 713 |
+
- `eval_on_start`: False
|
| 714 |
+
- `use_liger_kernel`: False
|
| 715 |
+
- `liger_kernel_config`: None
|
| 716 |
+
- `eval_use_gather_object`: False
|
| 717 |
+
- `average_tokens_across_devices`: False
|
| 718 |
+
- `prompts`: None
|
| 719 |
+
- `batch_sampler`: no_duplicates
|
| 720 |
+
- `multi_dataset_batch_sampler`: proportional
|
| 721 |
+
- `router_mapping`: {}
|
| 722 |
+
- `learning_rate_mapping`: {}
|
| 723 |
+
|
| 724 |
+
</details>
|
| 725 |
+
|
| 726 |
+
### Training Logs
|
| 727 |
+
| Epoch | Step | Training Loss | Validation Loss | multilingual-e5-large_cosine_accuracy |
|
| 728 |
+
|:------:|:----:|:-------------:|:---------------:|:-------------------------------------:|
|
| 729 |
+
| 0.0396 | 100 | 0.5802 | - | - |
|
| 730 |
+
| 0.0792 | 200 | 0.0603 | - | - |
|
| 731 |
+
| 0.1188 | 300 | 0.0257 | - | - |
|
| 732 |
+
| 0.1584 | 400 | 0.021 | - | - |
|
| 733 |
+
| 0.1979 | 500 | 0.0335 | - | - |
|
| 734 |
+
| 0.2375 | 600 | 0.0262 | - | - |
|
| 735 |
+
| 0.2771 | 700 | 0.0214 | - | - |
|
| 736 |
+
| 0.3167 | 800 | 0.028 | - | - |
|
| 737 |
+
| 0.3563 | 900 | 0.0362 | - | - |
|
| 738 |
+
| 0.3959 | 1000 | 0.0315 | - | - |
|
| 739 |
+
| 0.4355 | 1100 | 0.0473 | - | - |
|
| 740 |
+
| 0.4751 | 1200 | 0.0364 | - | - |
|
| 741 |
+
| 0.5146 | 1300 | 0.0293 | - | - |
|
| 742 |
+
| 0.5542 | 1400 | 0.0307 | - | - |
|
| 743 |
+
| 0.5938 | 1500 | 0.0319 | - | - |
|
| 744 |
+
| 0.6334 | 1600 | 0.0166 | - | - |
|
| 745 |
+
| 0.6730 | 1700 | 0.0252 | - | - |
|
| 746 |
+
| 0.7126 | 1800 | 0.0273 | - | - |
|
| 747 |
+
| 0.7522 | 1900 | 0.0191 | - | - |
|
| 748 |
+
| 0.7918 | 2000 | 0.021 | - | - |
|
| 749 |
+
| 0.8314 | 2100 | 0.0226 | - | - |
|
| 750 |
+
| 0.8709 | 2200 | 0.0197 | - | - |
|
| 751 |
+
| 0.9105 | 2300 | 0.0147 | - | - |
|
| 752 |
+
| 0.9501 | 2400 | 0.0153 | - | - |
|
| 753 |
+
| 0.9897 | 2500 | 0.0188 | - | - |
|
| 754 |
+
| 1.0 | 2526 | - | 0.4859 | 0.8327 |
|
| 755 |
+
| 1.0293 | 2600 | 0.0093 | - | - |
|
| 756 |
+
| 1.0689 | 2700 | 0.0073 | - | - |
|
| 757 |
+
| 1.1085 | 2800 | 0.01 | - | - |
|
| 758 |
+
| 1.1481 | 2900 | 0.0076 | - | - |
|
| 759 |
+
| 1.1876 | 3000 | 0.0086 | - | - |
|
| 760 |
+
| 1.2272 | 3100 | 0.0085 | - | - |
|
| 761 |
+
| 1.2668 | 3200 | 0.0093 | - | - |
|
| 762 |
+
| 1.3064 | 3300 | 0.0056 | - | - |
|
| 763 |
+
| 1.3460 | 3400 | 0.0166 | - | - |
|
| 764 |
+
| 1.3856 | 3500 | 0.0071 | - | - |
|
| 765 |
+
| 1.4252 | 3600 | 0.0057 | - | - |
|
| 766 |
+
| 1.4648 | 3700 | 0.0068 | - | - |
|
| 767 |
+
| 1.5044 | 3800 | 0.0043 | - | - |
|
| 768 |
+
| 1.5439 | 3900 | 0.0067 | - | - |
|
| 769 |
+
| 1.5835 | 4000 | 0.0099 | - | - |
|
| 770 |
+
| 1.6231 | 4100 | 0.0053 | - | - |
|
| 771 |
+
| 1.6627 | 4200 | 0.0056 | - | - |
|
| 772 |
+
| 1.7023 | 4300 | 0.0091 | - | - |
|
| 773 |
+
| 1.7419 | 4400 | 0.005 | - | - |
|
| 774 |
+
| 1.7815 | 4500 | 0.007 | - | - |
|
| 775 |
+
| 1.8211 | 4600 | 0.0052 | - | - |
|
| 776 |
+
| 1.8606 | 4700 | 0.0102 | - | - |
|
| 777 |
+
| 1.9002 | 4800 | 0.0048 | - | - |
|
| 778 |
+
| 1.9398 | 4900 | 0.005 | - | - |
|
| 779 |
+
| 1.9794 | 5000 | 0.0052 | - | - |
|
| 780 |
+
| 2.0 | 5052 | - | 0.5244 | 0.8262 |
|
| 781 |
+
| 2.0190 | 5100 | 0.0036 | - | - |
|
| 782 |
+
| 2.0586 | 5200 | 0.0018 | - | - |
|
| 783 |
+
| 2.0982 | 5300 | 0.0017 | - | - |
|
| 784 |
+
| 2.1378 | 5400 | 0.0023 | - | - |
|
| 785 |
+
| 2.1774 | 5500 | 0.0048 | - | - |
|
| 786 |
+
| 2.2169 | 5600 | 0.0024 | - | - |
|
| 787 |
+
| 2.2565 | 5700 | 0.0075 | - | - |
|
| 788 |
+
| 2.2961 | 5800 | 0.0043 | - | - |
|
| 789 |
+
| 2.3357 | 5900 | 0.0031 | - | - |
|
| 790 |
+
| 2.3753 | 6000 | 0.0013 | - | - |
|
| 791 |
+
| 2.4149 | 6100 | 0.0023 | - | - |
|
| 792 |
+
| 2.4545 | 6200 | 0.0038 | - | - |
|
| 793 |
+
| 2.4941 | 6300 | 0.0012 | - | - |
|
| 794 |
+
| 2.5337 | 6400 | 0.0035 | - | - |
|
| 795 |
+
| 2.5732 | 6500 | 0.0018 | - | - |
|
| 796 |
+
| 2.6128 | 6600 | 0.0042 | - | - |
|
| 797 |
+
| 2.6524 | 6700 | 0.0023 | - | - |
|
| 798 |
+
| 2.6920 | 6800 | 0.0019 | - | - |
|
| 799 |
+
| 2.7316 | 6900 | 0.0013 | - | - |
|
| 800 |
+
| 2.7712 | 7000 | 0.0049 | - | - |
|
| 801 |
+
| 2.8108 | 7100 | 0.0031 | - | - |
|
| 802 |
+
| 2.8504 | 7200 | 0.0069 | - | - |
|
| 803 |
+
| 2.8899 | 7300 | 0.0045 | - | - |
|
| 804 |
+
| 2.9295 | 7400 | 0.002 | - | - |
|
| 805 |
+
| 2.9691 | 7500 | 0.005 | - | - |
|
| 806 |
+
| 3.0 | 7578 | - | 0.4369 | 0.8520 |
|
| 807 |
+
|
| 808 |
+
|
| 809 |
+
### Framework Versions
|
| 810 |
+
- Python: 3.10.8
|
| 811 |
+
- Sentence Transformers: 5.1.0
|
| 812 |
+
- Transformers: 4.56.0
|
| 813 |
+
- PyTorch: 2.8.0+cu128
|
| 814 |
+
- Accelerate: 1.10.1
|
| 815 |
+
- Datasets: 4.0.0
|
| 816 |
+
- Tokenizers: 0.22.0
|
| 817 |
+
|
| 818 |
+
## Citation
|
| 819 |
+
|
| 820 |
+
### BibTeX
|
| 821 |
+
|
| 822 |
+
#### Sentence Transformers
|
| 823 |
+
```bibtex
|
| 824 |
+
@inproceedings{reimers-2019-sentence-bert,
|
| 825 |
+
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
|
| 826 |
+
author = "Reimers, Nils and Gurevych, Iryna",
|
| 827 |
+
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
|
| 828 |
+
month = "11",
|
| 829 |
+
year = "2019",
|
| 830 |
+
publisher = "Association for Computational Linguistics",
|
| 831 |
+
url = "https://arxiv.org/abs/1908.10084",
|
| 832 |
+
}
|
| 833 |
+
```
|
| 834 |
+
|
| 835 |
+
#### MultipleNegativesRankingLoss
|
| 836 |
+
```bibtex
|
| 837 |
+
@misc{henderson2017efficient,
|
| 838 |
+
title={Efficient Natural Language Response Suggestion for Smart Reply},
|
| 839 |
+
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
|
| 840 |
+
year={2017},
|
| 841 |
+
eprint={1705.00652},
|
| 842 |
+
archivePrefix={arXiv},
|
| 843 |
+
primaryClass={cs.CL}
|
| 844 |
+
}
|
| 845 |
+
```
|
| 846 |
+
|
| 847 |
+
<!--
|
| 848 |
+
## Glossary
|
| 849 |
+
|
| 850 |
+
*Clearly define terms in order to be accessible across audiences.*
|
| 851 |
+
-->
|
| 852 |
+
|
| 853 |
+
<!--
|
| 854 |
+
## Model Card Authors
|
| 855 |
+
|
| 856 |
+
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
|
| 857 |
+
-->
|
| 858 |
+
|
| 859 |
+
<!--
|
| 860 |
+
## Model Card Contact
|
| 861 |
+
|
| 862 |
+
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
|
| 863 |
+
-->
|
config.json
ADDED
|
@@ -0,0 +1,27 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"architectures": [
|
| 3 |
+
"XLMRobertaModel"
|
| 4 |
+
],
|
| 5 |
+
"attention_probs_dropout_prob": 0.1,
|
| 6 |
+
"bos_token_id": 0,
|
| 7 |
+
"classifier_dropout": null,
|
| 8 |
+
"dtype": "float32",
|
| 9 |
+
"eos_token_id": 2,
|
| 10 |
+
"hidden_act": "gelu",
|
| 11 |
+
"hidden_dropout_prob": 0.1,
|
| 12 |
+
"hidden_size": 1024,
|
| 13 |
+
"initializer_range": 0.02,
|
| 14 |
+
"intermediate_size": 4096,
|
| 15 |
+
"layer_norm_eps": 1e-05,
|
| 16 |
+
"max_position_embeddings": 514,
|
| 17 |
+
"model_type": "xlm-roberta",
|
| 18 |
+
"num_attention_heads": 16,
|
| 19 |
+
"num_hidden_layers": 24,
|
| 20 |
+
"output_past": true,
|
| 21 |
+
"pad_token_id": 1,
|
| 22 |
+
"position_embedding_type": "absolute",
|
| 23 |
+
"transformers_version": "4.56.0",
|
| 24 |
+
"type_vocab_size": 1,
|
| 25 |
+
"use_cache": true,
|
| 26 |
+
"vocab_size": 250002
|
| 27 |
+
}
|
config_sentence_transformers.json
ADDED
|
@@ -0,0 +1,14 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"model_type": "SentenceTransformer",
|
| 3 |
+
"__version__": {
|
| 4 |
+
"sentence_transformers": "5.1.0",
|
| 5 |
+
"transformers": "4.56.0",
|
| 6 |
+
"pytorch": "2.8.0+cu128"
|
| 7 |
+
},
|
| 8 |
+
"prompts": {
|
| 9 |
+
"query": "",
|
| 10 |
+
"document": ""
|
| 11 |
+
},
|
| 12 |
+
"default_prompt_name": null,
|
| 13 |
+
"similarity_fn_name": "cosine"
|
| 14 |
+
}
|
model.safetensors
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:c1d5bc81abdb2684cb282803856db0e68977faf2df282a21f2e8cd7c3920df67
|
| 3 |
+
size 2239607176
|
modules.json
ADDED
|
@@ -0,0 +1,20 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
[
|
| 2 |
+
{
|
| 3 |
+
"idx": 0,
|
| 4 |
+
"name": "0",
|
| 5 |
+
"path": "",
|
| 6 |
+
"type": "sentence_transformers.models.Transformer"
|
| 7 |
+
},
|
| 8 |
+
{
|
| 9 |
+
"idx": 1,
|
| 10 |
+
"name": "1",
|
| 11 |
+
"path": "1_Pooling",
|
| 12 |
+
"type": "sentence_transformers.models.Pooling"
|
| 13 |
+
},
|
| 14 |
+
{
|
| 15 |
+
"idx": 2,
|
| 16 |
+
"name": "2",
|
| 17 |
+
"path": "2_Normalize",
|
| 18 |
+
"type": "sentence_transformers.models.Normalize"
|
| 19 |
+
}
|
| 20 |
+
]
|
sentence_bert_config.json
ADDED
|
@@ -0,0 +1,4 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"max_seq_length": 512,
|
| 3 |
+
"do_lower_case": false
|
| 4 |
+
}
|
sentencepiece.bpe.model
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
|
| 3 |
+
size 5069051
|
special_tokens_map.json
ADDED
|
@@ -0,0 +1,51 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"bos_token": {
|
| 3 |
+
"content": "<s>",
|
| 4 |
+
"lstrip": false,
|
| 5 |
+
"normalized": false,
|
| 6 |
+
"rstrip": false,
|
| 7 |
+
"single_word": false
|
| 8 |
+
},
|
| 9 |
+
"cls_token": {
|
| 10 |
+
"content": "<s>",
|
| 11 |
+
"lstrip": false,
|
| 12 |
+
"normalized": false,
|
| 13 |
+
"rstrip": false,
|
| 14 |
+
"single_word": false
|
| 15 |
+
},
|
| 16 |
+
"eos_token": {
|
| 17 |
+
"content": "</s>",
|
| 18 |
+
"lstrip": false,
|
| 19 |
+
"normalized": false,
|
| 20 |
+
"rstrip": false,
|
| 21 |
+
"single_word": false
|
| 22 |
+
},
|
| 23 |
+
"mask_token": {
|
| 24 |
+
"content": "<mask>",
|
| 25 |
+
"lstrip": true,
|
| 26 |
+
"normalized": false,
|
| 27 |
+
"rstrip": false,
|
| 28 |
+
"single_word": false
|
| 29 |
+
},
|
| 30 |
+
"pad_token": {
|
| 31 |
+
"content": "<pad>",
|
| 32 |
+
"lstrip": false,
|
| 33 |
+
"normalized": false,
|
| 34 |
+
"rstrip": false,
|
| 35 |
+
"single_word": false
|
| 36 |
+
},
|
| 37 |
+
"sep_token": {
|
| 38 |
+
"content": "</s>",
|
| 39 |
+
"lstrip": false,
|
| 40 |
+
"normalized": false,
|
| 41 |
+
"rstrip": false,
|
| 42 |
+
"single_word": false
|
| 43 |
+
},
|
| 44 |
+
"unk_token": {
|
| 45 |
+
"content": "<unk>",
|
| 46 |
+
"lstrip": false,
|
| 47 |
+
"normalized": false,
|
| 48 |
+
"rstrip": false,
|
| 49 |
+
"single_word": false
|
| 50 |
+
}
|
| 51 |
+
}
|
tokenizer.json
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:883b037111086fd4dfebbbc9b7cee11e1517b5e0c0514879478661440f137085
|
| 3 |
+
size 17082987
|
tokenizer_config.json
ADDED
|
@@ -0,0 +1,55 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"added_tokens_decoder": {
|
| 3 |
+
"0": {
|
| 4 |
+
"content": "<s>",
|
| 5 |
+
"lstrip": false,
|
| 6 |
+
"normalized": false,
|
| 7 |
+
"rstrip": false,
|
| 8 |
+
"single_word": false,
|
| 9 |
+
"special": true
|
| 10 |
+
},
|
| 11 |
+
"1": {
|
| 12 |
+
"content": "<pad>",
|
| 13 |
+
"lstrip": false,
|
| 14 |
+
"normalized": false,
|
| 15 |
+
"rstrip": false,
|
| 16 |
+
"single_word": false,
|
| 17 |
+
"special": true
|
| 18 |
+
},
|
| 19 |
+
"2": {
|
| 20 |
+
"content": "</s>",
|
| 21 |
+
"lstrip": false,
|
| 22 |
+
"normalized": false,
|
| 23 |
+
"rstrip": false,
|
| 24 |
+
"single_word": false,
|
| 25 |
+
"special": true
|
| 26 |
+
},
|
| 27 |
+
"3": {
|
| 28 |
+
"content": "<unk>",
|
| 29 |
+
"lstrip": false,
|
| 30 |
+
"normalized": false,
|
| 31 |
+
"rstrip": false,
|
| 32 |
+
"single_word": false,
|
| 33 |
+
"special": true
|
| 34 |
+
},
|
| 35 |
+
"250001": {
|
| 36 |
+
"content": "<mask>",
|
| 37 |
+
"lstrip": true,
|
| 38 |
+
"normalized": false,
|
| 39 |
+
"rstrip": false,
|
| 40 |
+
"single_word": false,
|
| 41 |
+
"special": true
|
| 42 |
+
}
|
| 43 |
+
},
|
| 44 |
+
"bos_token": "<s>",
|
| 45 |
+
"clean_up_tokenization_spaces": true,
|
| 46 |
+
"cls_token": "<s>",
|
| 47 |
+
"eos_token": "</s>",
|
| 48 |
+
"extra_special_tokens": {},
|
| 49 |
+
"mask_token": "<mask>",
|
| 50 |
+
"model_max_length": 512,
|
| 51 |
+
"pad_token": "<pad>",
|
| 52 |
+
"sep_token": "</s>",
|
| 53 |
+
"tokenizer_class": "XLMRobertaTokenizer",
|
| 54 |
+
"unk_token": "<unk>"
|
| 55 |
+
}
|