SentenceTransformer based on langtech-innovation/mRoBERTA_retrieval
This is a sentence-transformers model finetuned from langtech-innovation/mRoBERTA_retrieval. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: langtech-innovation/mRoBERTA_retrieval
- Maximum Sequence Length: 512 tokens
- Output Dimensionality: 768 dimensions
- Similarity Function: Cosine Similarity
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'RobertaModel'})
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("nicolauduran45/mRoBERTA_retrieval-scientific_domain")
# Run inference
queries = [
"Llegums",
]
documents = [
"La salinitat , un factor d'estrès abiòtic , té efectes negatius en els cigrons . El CO 2 , els àcids orgànics i els minerals derivats del Ca s'utilitzen per reduir els efectes de la salinitat . D'aquesta manera s'inicia el mecanisme d'acceptació de la sal . Per eliminar aquests efectes negatius , en aquest estudi , es van aplicar reguladors del creixement de les plantes ( àcid salicílic [ SA ] i àcid giberèl·lic [ GA 3 ] ) i CaCl 2 en dosis baixes a genotips de cigrons exposats a diferents dosis d'estrès salí de NaCl . La investigació es va establir en hivernacles de la Universitat de Ciències Aplicades d'Isparta , Facultat d'Agricultura , Cultius de Camp , l'any 2021 , segons parcel·les completament aleatòries dividides en un disseny d'assaig dividit amb tres rèpliques . Les aplicacions inhibidores aplicades a genotips sota estrès salí van tenir un efecte positiu en els trets examinats en comparació amb els controls . Entre aquestes aplicacions d'inhibidors , es va determinar GA 3 com la més eficaç , seguida de SA i CaCl 2 . En general , amb un augment de la dosi de sal , totes les propietats van disminuir excepte el temps mitjà de germinació i el contingut de prolina . Entre els genotips , es va trobar que Isık-05 era superior pel que fa a les característiques de plàntula i germinació sota estrès salí , mentre que İspanyol era més sensible . Com a resultat , es va predir que les plantes de cigrons sota estrès de sal podrien alleujar-se donant nivells baixos de GA 3 a l'aigua de reg per millorar l'emergència i el desenvolupament .",
"L'anàlisi d'enriquiment de l'ontologia gènica en dues mostres familiars independents posa de manifest els processos biològicament plausibles per als trastorns de l'espectre autista Estudis recents d'associació a tot el genoma ( GWAS ) han implicat una sèrie de gens de vies biològiques discretes en l'etiologia de l'autisme . Tanmateix , malgrat la forta influència dels factors genètics , els estudis d'associació encara han d'identificar gens o SNP d'efectes principals replicats estadísticament robusts . Apliquem el principi de la metodologia de prova de la relació SNP descrita per O'Dushlaine et al. , ( 2009 ) a més de 2100 famílies del Projecte del genoma de l'autisme ( AGP ) . Mitjançant un disseny en dues etapes , examinem l'enriquiment de l'associació en 5955 classificacions úniques d'ontologia genètica en quatre agrupacions basades en dues classificacions fenotípiques i dues ancestrals . A partir de les estimacions de la simulació , identifiquem l'excés d'enriquiment de l'associació en totes les anàlisis . Observem l'enriquiment en associació de conjunts de gens implicats en diversos processos biològics , com ara el metabolisme del piruvat , l'activació del factor de transcripció , la senyalització cel·lular i la regulació del cicle cel·lular . Tant els gens com els processos que mostren enriquiment s'han examinat prèviament en trastorns autistes i ofereixen plausibilitat biològica a aquestes troballes .",
'La baixada de microRNA-9 redueix la resposta inflamatòria i la proliferació de fibroblasts en ratolins amb fibrosi pulmonar idiopàtica a través de la via TGF-β-Smad3 mediada per ANO1.',
]
query_embeddings = model.encode_query(queries)
document_embeddings = model.encode_document(documents)
print(query_embeddings.shape, document_embeddings.shape)
# [1, 768] [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(query_embeddings, document_embeddings)
print(similarities)
# tensor([[0.0798, 0.0008, 0.0187]])
Evaluation
Metrics
Triplet
- Dataset:
mRoBERTA_retrieval-eval - Evaluated with
TripletEvaluator
| Metric | Value |
|---|---|
| cosine_accuracy | 0.9517 |
Training Details
Training Dataset
Unnamed Dataset
- Size: 61,083 training samples
- Columns:
queryandtext - Approximate statistics based on the first 1000 samples:
query text type string string details - min: 1 tokens
- mean: 6.99 tokens
- max: 57 tokens
- min: 2 tokens
- mean: 218.94 tokens
- max: 512 tokens
- Samples:
query text Base de dades espacialMEDIS —Una base de datos espacial completa sobre las islas mediterráneas para la investigación biogeográfica y evolutiva Motivación Las características intrínsecas de las islas las convierten en un sistema de estudio único para la investigación de la dinámica ecológica y evolutiva . La cuenca mediterránea , un punto caliente de biodiversidad rico en islas , aún carece de una base de datos espacial completa para estas características geográficas . Este estudio presenta la primera base de datos espacial completa de todas las islas mediterráneas mayores de 0,01 km 2 , ayudando a las investigaciones ecológicas y la investigación interdisciplinaria . Principales tipos de variable contenida La base de datos espacial MEDIS ofrece información detallada sobre 39 variables geográficas , climáticas , ecológicas y de uso del suelo , incluyendo el área de la isla , el perímetro , las métricas de aislamiento , el espacio climático , los datos del terreno , la cobertura del suelo , la paleogeografía ...treatmentLes persones amb trastorn de l'espectre autista ( TEA ) tenen un major risc de patir una o més condicions psiquiàtriques concomitants . Quan estan presents , aquestes condicions s'associen a deteriorament i angoixa addicionals . Per tant , és crucial que els metges i els investigadors comprenguin i abordin adequadament aquests reptes . Tanmateix , a causa de la superposició de símptomes , l'eclipsi diagnòstic i la presentació ambigua dels símptomes en el TEA , l'avaluació de les condicions concomitants en el TEA és complexa i desafiant . De la mateixa manera , els factors de diferència individual , com l'edat , el funcionament intel·lectual i el gènere , poden influir en la presentació de símptomes concomitants . En relació , un marc transdiagnòstic pot oferir utilitat per avaluar i tractar les condicions concomitants . Tanmateix , amb l'excepció dels trastorns d'ansietat , la investigació sobre el tractament de les condicions psiquiàtriques concomitants en el TEA és relativament limit...CSIErgodic Secrecy Capacity Analysis Over Composite Weibull/Inverse Gamma Fading Channel In this work , the secrecy performance of traditional Wyner ’ s model over more realistic composite wireless fading channel , i.e. , Weibull/Inverse Gamma , is investigated . The closed-form expression of average ergodic secrecy capacity is developed in terms of Fox ’ s H-function . The efficacy of the proposed solution is validated through Monte–Carlo simulation . Moreover , the importance of channel state information of eavesdropper and the multipath parameter in compensating the secrecy concern at the physical layer is comprehensively discussed . - Loss:
MultipleNegativesRankingLosswith these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim", "gather_across_devices": false }
Evaluation Dataset
Unnamed Dataset
- Size: 7,665 evaluation samples
- Columns:
query,text, andneg_text - Approximate statistics based on the first 1000 samples:
query text neg_text type string string string details - min: 1 tokens
- mean: 7.26 tokens
- max: 65 tokens
- min: 2 tokens
- mean: 220.71 tokens
- max: 512 tokens
- min: 4 tokens
- mean: 229.24 tokens
- max: 512 tokens
- Samples:
query text neg_text CommemoracióSimon Perego, Pleurons-les. Les Juifs de Paris et la commémoration de la Shoah (1944-1967) (Ceyzérieu, Champ Vallon, 2020)Problemes d'equilibri de poblacions inverses: heurístiques per a l'agregació/ruptura de cúmuls sòlids en metalls líquidsTumor cartilaginós( La condrometaplàsia de la laringe és una malaltia poc freqüent . Informem d'un cas presentat al servei d'otorinolaringologia del nostre institut l'any 2015 . ) PRESENTACIÓ DEL CAS : Home de 62 anys sense antecedents de trauma presentat amb disfonia progressiva , dispnea , sense cap disfàgia . Un examen laringoscòpic de fibra òptica va revelar una massa nodular sorgida a la unió de 1/3 anterior i 2/3 posterior de la corda vocal esquerra . Una tomografia computeritzada de la regió del coll va mostrar una massa arrodonida i circumscrita sense infiltració dels teixits circumdants . La investigació histològica de la lesió va revelar la presència de teixit cartilaginós fibroelàstic , envoltat per una vora fina de teixit fibrós , amb àrees hipercel·lulars rares , cèl·lules binucleades ocasionals , hipercromàsia lleu i un perfil nuclear irregular . No hi havia activitat mitòtica . El pacient no tenia antecedents de traumatisme laringi . L'aparició subaguda i progressiva dels símptomes clínic...The release of sexual conflict after sex loss is associated with evolutionary changes in gene expressionMutationImportance of host cell arginine uptake in Francisella phagosomal escape and ribosomal protein amounts Upon entry into mammalian host cells , the pathogenic bacterium Francisella must import host cell arginine to multiply actively in the host cytoplasm . We identified and functionally characterized an arginine transporter ( hereafter designated ArgP ) whose inactivation considerably delayed bacterial phagosomal escape and intracellular multiplication . Intramacrophagic growth of the ΔargP mutant was fully restored upon supplementation of the growth medium with excess arginine , in both F. tularensis subsp . novicida and F. tularensis subsp . holarctica LVS , demonstrating the importance of arginine acquisition in these two subspecies . High-resolution mass spectrometry revealed that arginine limitation reduced the amount of most of the ribosomal proteins in the ΔargP mutant . In response to stresses such as nutritional limitation , repression of ribosomal protein synthesis has been obs...La decoració esculpida de les lloses del presbiteri de l'església de Santa Maria Assunta d'Aquileia representa un univers harmoniós que canalitza la matèria en procés de transformació , com l'espiritualització del caro a través dels sagraments . Els diferents elements que formen aquest univers s'uneixen entre si per emfatitzar la coherència de la Creació . En aquest espai construït , els límits entre planta , mineral , animal i ornamental es dissolen i es fonen , igual que la distinció entre animals coneguts i imaginaris . En una de les lloses del presbiteri s'hi representen dues criatures amb característiques d'espècies animals terrestres , celestes i aquàtiques . Beuen de la Font-Arbre de la Vida , fent un enllaç entre l'aquí sota i el més enllà i aportant esperança de salvació . Enfrontades , s'oposen per entorpir el pas dels fidels , reforçant la funció separadora del presbiteri , marcant la frontera entre la nau i el cor , entre els laics i els clergues . Presentats sobre un supor... - Loss:
MultipleNegativesRankingLosswith these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim", "gather_across_devices": false }
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy: stepsper_device_train_batch_size: 32per_device_eval_batch_size: 32learning_rate: 2e-05warmup_ratio: 0.1fp16: Trueload_best_model_at_end: Truebatch_sampler: no_duplicates
All Hyperparameters
Click to expand
overwrite_output_dir: Falsedo_predict: Falseeval_strategy: stepsprediction_loss_only: Trueper_device_train_batch_size: 32per_device_eval_batch_size: 32per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 2e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1.0num_train_epochs: 3max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.1warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Truefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Trueignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}parallelism_config: Nonedeepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torch_fusedoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsehub_revision: Nonegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters:auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseliger_kernel_config: Noneeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: no_duplicatesmulti_dataset_batch_sampler: proportionalrouter_mapping: {}learning_rate_mapping: {}
Training Logs
| Epoch | Step | Training Loss | Validation Loss | mRoBERTA_retrieval-eval_cosine_accuracy |
|---|---|---|---|---|
| 0.0524 | 100 | 2.4337 | - | - |
| 0.1048 | 200 | 2.0811 | - | - |
| 0.1572 | 300 | 1.7428 | - | - |
| 0.2095 | 400 | 1.6934 | - | - |
| 0.2619 | 500 | 1.6396 | - | 0.9237 |
| -1 | -1 | - | - | 0.9237 |
| 0.2619 | 500 | - | 1.9230 | - |
| 0.3143 | 600 | 1.5936 | - | - |
| 0.3667 | 700 | 1.5836 | - | - |
| 0.4191 | 800 | 1.5668 | - | - |
| 0.4715 | 900 | 1.4878 | - | - |
| 0.5238 | 1000 | 1.4752 | - | 0.9327 |
| -1 | -1 | - | - | 0.9327 |
| 0.5238 | 1000 | - | 1.7688 | - |
| 0.5762 | 1100 | 1.4235 | - | - |
| 0.6286 | 1200 | 1.4699 | - | - |
| 0.6810 | 1300 | 1.4307 | - | - |
| 0.7334 | 1400 | 1.4336 | - | - |
| 0.7858 | 1500 | 1.3656 | - | 0.9395 |
| -1 | -1 | - | - | 0.9395 |
| 0.7858 | 1500 | - | 1.6827 | - |
| 0.8381 | 1600 | 1.3756 | - | - |
| 0.8905 | 1700 | 1.3727 | - | - |
| 0.9429 | 1800 | 1.3891 | - | - |
| 0.9953 | 1900 | 1.3692 | - | - |
| 1.0477 | 2000 | 1.1712 | - | 0.9387 |
| -1 | -1 | - | - | 0.9387 |
| 1.0477 | 2000 | - | 1.6457 | - |
| 1.1001 | 2100 | 1.1501 | - | - |
| 1.1524 | 2200 | 1.1047 | - | - |
| 1.2048 | 2300 | 1.1881 | - | - |
| 1.2572 | 2400 | 1.1363 | - | - |
| 1.3096 | 2500 | 1.1312 | - | 0.9442 |
| -1 | -1 | - | - | 0.9442 |
| 1.3096 | 2500 | - | 1.6169 | - |
| 1.3620 | 2600 | 1.1604 | - | - |
| 1.4144 | 2700 | 1.1235 | - | - |
| 1.4667 | 2800 | 1.1338 | - | - |
| 1.5191 | 2900 | 1.1085 | - | - |
| 1.5715 | 3000 | 1.0904 | - | 0.9464 |
| -1 | -1 | - | - | 0.9464 |
| 1.5715 | 3000 | - | 1.5949 | - |
| 1.6239 | 3100 | 1.1186 | - | - |
| 1.6763 | 3200 | 1.1282 | - | - |
| 1.7287 | 3300 | 1.0999 | - | - |
| 1.7810 | 3400 | 1.0953 | - | - |
| 1.8334 | 3500 | 1.0732 | - | 0.9470 |
| -1 | -1 | - | - | 0.9470 |
| 1.8334 | 3500 | - | 1.5622 | - |
| 1.8858 | 3600 | 1.0556 | - | - |
| 1.9382 | 3700 | 1.0829 | - | - |
| 1.9906 | 3800 | 1.0777 | - | - |
| 2.0430 | 3900 | 0.9616 | - | - |
| 2.0953 | 4000 | 0.9176 | - | 0.9507 |
| -1 | -1 | - | - | 0.9507 |
| 2.0953 | 4000 | - | 1.5553 | - |
| 2.1477 | 4100 | 0.8813 | - | - |
| 2.2001 | 4200 | 0.9 | - | - |
| 2.2525 | 4300 | 0.9044 | - | - |
| 2.3049 | 4400 | 0.9249 | - | - |
| 2.3573 | 4500 | 0.8944 | - | 0.9503 |
| -1 | -1 | - | - | 0.9503 |
| 2.3573 | 4500 | - | 1.5397 | - |
| 2.4096 | 4600 | 0.8909 | - | - |
| 2.4620 | 4700 | 0.9085 | - | - |
| 2.5144 | 4800 | 0.873 | - | - |
| 2.5668 | 4900 | 0.8816 | - | - |
| 2.6192 | 5000 | 0.8927 | - | 0.9512 |
| -1 | -1 | - | - | 0.9512 |
| 2.6192 | 5000 | - | 1.5292 | - |
| 2.6716 | 5100 | 0.9222 | - | - |
| 2.7239 | 5200 | 0.9022 | - | - |
| 2.7763 | 5300 | 0.9096 | - | - |
| 2.8287 | 5400 | 0.8729 | - | - |
| 2.8811 | 5500 | 0.8641 | - | 0.9517 |
| -1 | -1 | - | - | 0.9517 |
| 2.8811 | 5500 | - | 1.5246 | - |
Framework Versions
- Python: 3.12.11
- Sentence Transformers: 5.1.1
- Transformers: 4.56.2
- PyTorch: 2.8.0+cu126
- Accelerate: 1.10.1
- Datasets: 4.0.0
- Tokenizers: 0.22.1
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
- Downloads last month
- 135
Model tree for nicolauduran45/mRoBERTA_retrieval-scientific_domain
Base model
BSC-LT/mRoBERTa
Finetuned
langtech-innovation/mRoBERTA_retrieval
Dataset used to train nicolauduran45/mRoBERTA_retrieval-scientific_domain
Evaluation results
- Cosine Accuracy on mRoBERTA retrieval evalself-reported0.952