SentenceTransformer based on langtech-innovation/mRoBERTA_retrieval

This is a sentence-transformers model finetuned from langtech-innovation/mRoBERTA_retrieval. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: langtech-innovation/mRoBERTA_retrieval
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'RobertaModel'})
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("nicolauduran45/mRoBERTA_retrieval-scientific_domain")
# Run inference
queries = [
    "Llegums",
]
documents = [
    "La salinitat , un factor d'estrès abiòtic , té efectes negatius en els cigrons . El CO 2 , els àcids orgànics i els minerals derivats del Ca s'utilitzen per reduir els efectes de la salinitat . D'aquesta manera s'inicia el mecanisme d'acceptació de la sal . Per eliminar aquests efectes negatius , en aquest estudi , es van aplicar reguladors del creixement de les plantes ( àcid salicílic [ SA ] i àcid giberèl·lic [ GA 3 ] ) i CaCl 2 en dosis baixes a genotips de cigrons exposats a diferents dosis d'estrès salí de NaCl . La investigació es va establir en hivernacles de la Universitat de Ciències Aplicades d'Isparta , Facultat d'Agricultura , Cultius de Camp , l'any 2021 , segons parcel·les completament aleatòries dividides en un disseny d'assaig dividit amb tres rèpliques . Les aplicacions inhibidores aplicades a genotips sota estrès salí van tenir un efecte positiu en els trets examinats en comparació amb els controls . Entre aquestes aplicacions d'inhibidors , es va determinar GA 3 com la més eficaç , seguida de SA i CaCl 2 . En general , amb un augment de la dosi de sal , totes les propietats van disminuir excepte el temps mitjà de germinació i el contingut de prolina . Entre els genotips , es va trobar que Isık-05 era superior pel que fa a les característiques de plàntula i germinació sota estrès salí , mentre que İspanyol era més sensible . Com a resultat , es va predir que les plantes de cigrons sota estrès de sal podrien alleujar-se donant nivells baixos de GA 3 a l'aigua de reg per millorar l'emergència i el desenvolupament .",
    "L'anàlisi d'enriquiment de l'ontologia gènica en dues mostres familiars independents posa de manifest els processos biològicament plausibles per als trastorns de l'espectre autista Estudis recents d'associació a tot el genoma ( GWAS ) han implicat una sèrie de gens de vies biològiques discretes en l'etiologia de l'autisme . Tanmateix , malgrat la forta influència dels factors genètics , els estudis d'associació encara han d'identificar gens o SNP d'efectes principals replicats estadísticament robusts . Apliquem el principi de la metodologia de prova de la relació SNP descrita per O'Dushlaine et al. , ( 2009 ) a més de 2100 famílies del Projecte del genoma de l'autisme ( AGP ) . Mitjançant un disseny en dues etapes , examinem l'enriquiment de l'associació en 5955 classificacions úniques d'ontologia genètica en quatre agrupacions basades en dues classificacions fenotípiques i dues ancestrals . A partir de les estimacions de la simulació , identifiquem l'excés d'enriquiment de l'associació en totes les anàlisis . Observem l'enriquiment en associació de conjunts de gens implicats en diversos processos biològics , com ara el metabolisme del piruvat , l'activació del factor de transcripció , la senyalització cel·lular i la regulació del cicle cel·lular . Tant els gens com els processos que mostren enriquiment s'han examinat prèviament en trastorns autistes i ofereixen plausibilitat biològica a aquestes troballes .",
    'La baixada de microRNA-9 redueix la resposta inflamatòria i la proliferació de fibroblasts en ratolins amb fibrosi pulmonar idiopàtica a través de la via TGF-β-Smad3 mediada per ANO1.',
]
query_embeddings = model.encode_query(queries)
document_embeddings = model.encode_document(documents)
print(query_embeddings.shape, document_embeddings.shape)
# [1, 768] [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(query_embeddings, document_embeddings)
print(similarities)
# tensor([[0.0798, 0.0008, 0.0187]])

Evaluation

Metrics

Triplet

Metric Value
cosine_accuracy 0.9517

Training Details

Training Dataset

Unnamed Dataset

  • Size: 61,083 training samples
  • Columns: query and text
  • Approximate statistics based on the first 1000 samples:
    query text
    type string string
    details
    • min: 1 tokens
    • mean: 6.99 tokens
    • max: 57 tokens
    • min: 2 tokens
    • mean: 218.94 tokens
    • max: 512 tokens
  • Samples:
    query text
    Base de dades espacial MEDIS —Una base de datos espacial completa sobre las islas mediterráneas para la investigación biogeográfica y evolutiva Motivación Las características intrínsecas de las islas las convierten en un sistema de estudio único para la investigación de la dinámica ecológica y evolutiva . La cuenca mediterránea , un punto caliente de biodiversidad rico en islas , aún carece de una base de datos espacial completa para estas características geográficas . Este estudio presenta la primera base de datos espacial completa de todas las islas mediterráneas mayores de 0,01 km 2 , ayudando a las investigaciones ecológicas y la investigación interdisciplinaria . Principales tipos de variable contenida La base de datos espacial MEDIS ofrece información detallada sobre 39 variables geográficas , climáticas , ecológicas y de uso del suelo , incluyendo el área de la isla , el perímetro , las métricas de aislamiento , el espacio climático , los datos del terreno , la cobertura del suelo , la paleogeografía ...
    treatment Les persones amb trastorn de l'espectre autista ( TEA ) tenen un major risc de patir una o més condicions psiquiàtriques concomitants . Quan estan presents , aquestes condicions s'associen a deteriorament i angoixa addicionals . Per tant , és crucial que els metges i els investigadors comprenguin i abordin adequadament aquests reptes . Tanmateix , a causa de la superposició de símptomes , l'eclipsi diagnòstic i la presentació ambigua dels símptomes en el TEA , l'avaluació de les condicions concomitants en el TEA és complexa i desafiant . De la mateixa manera , els factors de diferència individual , com l'edat , el funcionament intel·lectual i el gènere , poden influir en la presentació de símptomes concomitants . En relació , un marc transdiagnòstic pot oferir utilitat per avaluar i tractar les condicions concomitants . Tanmateix , amb l'excepció dels trastorns d'ansietat , la investigació sobre el tractament de les condicions psiquiàtriques concomitants en el TEA és relativament limit...
    CSI Ergodic Secrecy Capacity Analysis Over Composite Weibull/Inverse Gamma Fading Channel In this work , the secrecy performance of traditional Wyner ’ s model over more realistic composite wireless fading channel , i.e. , Weibull/Inverse Gamma , is investigated . The closed-form expression of average ergodic secrecy capacity is developed in terms of Fox ’ s H-function . The efficacy of the proposed solution is validated through Monte–Carlo simulation . Moreover , the importance of channel state information of eavesdropper and the multipath parameter in compensating the secrecy concern at the physical layer is comprehensively discussed .
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false
    }
    

Evaluation Dataset

Unnamed Dataset

  • Size: 7,665 evaluation samples
  • Columns: query, text, and neg_text
  • Approximate statistics based on the first 1000 samples:
    query text neg_text
    type string string string
    details
    • min: 1 tokens
    • mean: 7.26 tokens
    • max: 65 tokens
    • min: 2 tokens
    • mean: 220.71 tokens
    • max: 512 tokens
    • min: 4 tokens
    • mean: 229.24 tokens
    • max: 512 tokens
  • Samples:
    query text neg_text
    Commemoració Simon Perego, Pleurons-les. Les Juifs de Paris et la commémoration de la Shoah (1944-1967) (Ceyzérieu, Champ Vallon, 2020) Problemes d'equilibri de poblacions inverses: heurístiques per a l'agregació/ruptura de cúmuls sòlids en metalls líquids
    Tumor cartilaginós ( La condrometaplàsia de la laringe és una malaltia poc freqüent . Informem d'un cas presentat al servei d'otorinolaringologia del nostre institut l'any 2015 . ) PRESENTACIÓ DEL CAS : Home de 62 anys sense antecedents de trauma presentat amb disfonia progressiva , dispnea , sense cap disfàgia . Un examen laringoscòpic de fibra òptica va revelar una massa nodular sorgida a la unió de 1/3 anterior i 2/3 posterior de la corda vocal esquerra . Una tomografia computeritzada de la regió del coll va mostrar una massa arrodonida i circumscrita sense infiltració dels teixits circumdants . La investigació histològica de la lesió va revelar la presència de teixit cartilaginós fibroelàstic , envoltat per una vora fina de teixit fibrós , amb àrees hipercel·lulars rares , cèl·lules binucleades ocasionals , hipercromàsia lleu i un perfil nuclear irregular . No hi havia activitat mitòtica . El pacient no tenia antecedents de traumatisme laringi . L'aparició subaguda i progressiva dels símptomes clínic... The release of sexual conflict after sex loss is associated with evolutionary changes in gene expression
    Mutation Importance of host cell arginine uptake in Francisella phagosomal escape and ribosomal protein amounts Upon entry into mammalian host cells , the pathogenic bacterium Francisella must import host cell arginine to multiply actively in the host cytoplasm . We identified and functionally characterized an arginine transporter ( hereafter designated ArgP ) whose inactivation considerably delayed bacterial phagosomal escape and intracellular multiplication . Intramacrophagic growth of the ΔargP mutant was fully restored upon supplementation of the growth medium with excess arginine , in both F. tularensis subsp . novicida and F. tularensis subsp . holarctica LVS , demonstrating the importance of arginine acquisition in these two subspecies . High-resolution mass spectrometry revealed that arginine limitation reduced the amount of most of the ribosomal proteins in the ΔargP mutant . In response to stresses such as nutritional limitation , repression of ribosomal protein synthesis has been obs... La decoració esculpida de les lloses del presbiteri de l'església de Santa Maria Assunta d'Aquileia representa un univers harmoniós que canalitza la matèria en procés de transformació , com l'espiritualització del caro a través dels sagraments . Els diferents elements que formen aquest univers s'uneixen entre si per emfatitzar la coherència de la Creació . En aquest espai construït , els límits entre planta , mineral , animal i ornamental es dissolen i es fonen , igual que la distinció entre animals coneguts i imaginaris . En una de les lloses del presbiteri s'hi representen dues criatures amb característiques d'espècies animals terrestres , celestes i aquàtiques . Beuen de la Font-Arbre de la Vida , fent un enllaç entre l'aquí sota i el més enllà i aportant esperança de salvació . Enfrontades , s'oposen per entorpir el pas dels fidels , reforçant la funció separadora del presbiteri , marcant la frontera entre la nau i el cor , entre els laics i els clergues . Presentats sobre un supor...
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • learning_rate: 2e-05
  • warmup_ratio: 0.1
  • fp16: True
  • load_best_model_at_end: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 3
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • parallelism_config: None
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • hub_revision: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • liger_kernel_config: None
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Epoch Step Training Loss Validation Loss mRoBERTA_retrieval-eval_cosine_accuracy
0.0524 100 2.4337 - -
0.1048 200 2.0811 - -
0.1572 300 1.7428 - -
0.2095 400 1.6934 - -
0.2619 500 1.6396 - 0.9237
-1 -1 - - 0.9237
0.2619 500 - 1.9230 -
0.3143 600 1.5936 - -
0.3667 700 1.5836 - -
0.4191 800 1.5668 - -
0.4715 900 1.4878 - -
0.5238 1000 1.4752 - 0.9327
-1 -1 - - 0.9327
0.5238 1000 - 1.7688 -
0.5762 1100 1.4235 - -
0.6286 1200 1.4699 - -
0.6810 1300 1.4307 - -
0.7334 1400 1.4336 - -
0.7858 1500 1.3656 - 0.9395
-1 -1 - - 0.9395
0.7858 1500 - 1.6827 -
0.8381 1600 1.3756 - -
0.8905 1700 1.3727 - -
0.9429 1800 1.3891 - -
0.9953 1900 1.3692 - -
1.0477 2000 1.1712 - 0.9387
-1 -1 - - 0.9387
1.0477 2000 - 1.6457 -
1.1001 2100 1.1501 - -
1.1524 2200 1.1047 - -
1.2048 2300 1.1881 - -
1.2572 2400 1.1363 - -
1.3096 2500 1.1312 - 0.9442
-1 -1 - - 0.9442
1.3096 2500 - 1.6169 -
1.3620 2600 1.1604 - -
1.4144 2700 1.1235 - -
1.4667 2800 1.1338 - -
1.5191 2900 1.1085 - -
1.5715 3000 1.0904 - 0.9464
-1 -1 - - 0.9464
1.5715 3000 - 1.5949 -
1.6239 3100 1.1186 - -
1.6763 3200 1.1282 - -
1.7287 3300 1.0999 - -
1.7810 3400 1.0953 - -
1.8334 3500 1.0732 - 0.9470
-1 -1 - - 0.9470
1.8334 3500 - 1.5622 -
1.8858 3600 1.0556 - -
1.9382 3700 1.0829 - -
1.9906 3800 1.0777 - -
2.0430 3900 0.9616 - -
2.0953 4000 0.9176 - 0.9507
-1 -1 - - 0.9507
2.0953 4000 - 1.5553 -
2.1477 4100 0.8813 - -
2.2001 4200 0.9 - -
2.2525 4300 0.9044 - -
2.3049 4400 0.9249 - -
2.3573 4500 0.8944 - 0.9503
-1 -1 - - 0.9503
2.3573 4500 - 1.5397 -
2.4096 4600 0.8909 - -
2.4620 4700 0.9085 - -
2.5144 4800 0.873 - -
2.5668 4900 0.8816 - -
2.6192 5000 0.8927 - 0.9512
-1 -1 - - 0.9512
2.6192 5000 - 1.5292 -
2.6716 5100 0.9222 - -
2.7239 5200 0.9022 - -
2.7763 5300 0.9096 - -
2.8287 5400 0.8729 - -
2.8811 5500 0.8641 - 0.9517
-1 -1 - - 0.9517
2.8811 5500 - 1.5246 -

Framework Versions

  • Python: 3.12.11
  • Sentence Transformers: 5.1.1
  • Transformers: 4.56.2
  • PyTorch: 2.8.0+cu126
  • Accelerate: 1.10.1
  • Datasets: 4.0.0
  • Tokenizers: 0.22.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
135
Safetensors
Model size
0.3B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for nicolauduran45/mRoBERTA_retrieval-scientific_domain

Base model

BSC-LT/mRoBERTa
Finetuned
(1)
this model

Dataset used to train nicolauduran45/mRoBERTA_retrieval-scientific_domain

Evaluation results