SentenceTransformer based on sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
This is a sentence-transformers model finetuned from sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2 on the experiment_data_knowledge_distillation_vs_fine_tuning dataset. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
- Maximum Sequence Length: 128 tokens
- Output Dimensionality: 384 dimensions
- Similarity Function: Cosine Similarity
- Training Dataset:
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: BertModel
(1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("hatemestinbejaia/mMiniLML-bi-encoder-KD-v1-Student_TripletLoss-Teacher_marginloss-adptativeMargin-lambda002C")
# Run inference
sentences = [
'تحديد المسح',
'المسح أو مسح الأراضي هو تقنية ومهنة وعلم تحديد المواقع الأرضية أو ثلاثية الأبعاد للنقاط والمسافات والزوايا بينها . يطلق على أخصائي مسح الأراضي اسم مساح الأراضي .',
'إجمالي المحطات . تعد المحطات الإجمالية واحدة من أكثر أدوات المسح شيوعا المستخدمة اليوم . وهي تتألف من جهاز ثيودوليت إلكتروني ومكون إلكتروني لقياس المسافة ( EDM ) . تتوفر أيضا محطات روبوتية كاملة تتيح التشغيل لشخص واحد من خلال التحكم في الجهاز باستخدام جهاز التحكم عن بعد . تاريخ',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Evaluation
Metrics
Reranking
- Evaluated with
RerankingEvaluator
| Metric | Value |
|---|---|
| map | 0.5791 |
| mrr@10 | 0.585 |
| ndcg@10 | 0.6491 |
Training Details
Training Dataset
experiment_data_knowledge_distillation_vs_fine_tuning
- Dataset: experiment_data_knowledge_distillation_vs_fine_tuning at 4fe4924
- Size: 5,000,000 training samples
- Columns:
query,pos,neg, andlabel - Approximate statistics based on the first 1000 samples:
query pos neg label type string string string float details - min: 4 tokens
- mean: 11.16 tokens
- max: 70 tokens
- min: 21 tokens
- mean: 95.09 tokens
- max: 128 tokens
- min: 24 tokens
- mean: 94.0 tokens
- max: 128 tokens
- min: -4.05
- mean: 13.0
- max: 22.64
- Samples:
query pos neg label متى تسمم السالمونيلاكيفية علاج السالمونيلا . غالبا ما ينتج تسمم السالمونيلا عن ملامسة الماء أو الطعام الملوث ببكتيريا السالمونيلا . يمكن أن يسبب الحمى والإسهال وتقلصات في البطن ، وغالبا ما يشار إليه بالتسمم الغذائي . تحدث الأعراض في غضون 2 إلى 48 ساعة ويمكن أن تستمر حتى 7 أيام . عادة ما تختفي من تلقاء نفسها ، ولكن يمكن أن تظهر المضاعفات في حالات نادرة . راجع الخطوة 1 لمعرفة كيفية علاج تسمم السالمونيلا وتجنبه في المستقبل .يمكن أن يسبب الحمى والإسهال وتقلصات في البطن ، وغالبا ما يشار إليه بالتسمم الغذائي . تحدث الأعراض في غضون 2 إلى 48 ساعة ويمكن أن تستمر حتى 7 أيام . عادة ما تختفي من تلقاء نفسها ، ولكن يمكن أن تظهر المضاعفات في حالات نادرة . راجع الخطوة 1 لمعرفة كيفية علاج تسمم السالمونيلا وتجنبه في المستقبل .1.3407052357991542ما هي خطة الرعاية المنسقةخطة الرعاية المنسقة هي خطة مكتوبة أو إلكترونية يتم إنشاؤها وصيانتها من قبل المريض . وأسرته ، وفريق الرعاية الصحية بما في ذلك الأطباء الاستشاريين عند الاقتضاء ، و . عند الضرورة ، خدمات المجتمع . ويحدد احتياجات المريض القصيرة والطويلة الأجل ، والتعافي .ضرورة الجودة : يضع التشريع النموذجي للولاية للرعاية المدارة نهجا شاملا ومتكاملا وموحدا لتوفير حماية المستهلك وضمان الجودة في خطط الرعاية المدارة . يدعم تحالف المستهلكين من أجل جودة الرعاية الصحية هذا النهج لجميع أنظمة تقديم الرعاية الصحية . لغرض هذا التقرير ، تم استخدام تعريف واسع لخطة الرعاية المدارة . تعرف خطة الرعاية المدارة بأنها أي خطة توظف شبكة من مقدمي الخدمات المشاركين وتضمن توفير المزايا الصحية لسكان محددين مقابل مدفوعات ثابتة .10.702445447444916في أي عام كان المطر الأرجواني في المسرح ؟بالنسبة للموسيقيين ، لم يكن واضحا إلى أين يتجه كل شيء . بعد عام واحد تقريبا ، في 28 يوليو 1984 ، تم افتتاح Purple Rain في 900 مسارح في جميع أنحاء الولايات المتحدة . استعاد تكلفته البالغة 7 ملايين دولار في عطلة نهاية الأسبوع الأولى ، واستمر في تصفية ما يقرب من 70 مليون دولار في شباك التذاكر .الغابات الاستوائية المطيرة عبارة عن غابة من الأشجار الطويلة في منطقة تتميز بالدفء على مدار العام . يسقط ما متوسطه من 50 إلى 260 بوصة ( 125 إلى 660 سم ) من الأمطار سنويا ، تنتمي الغابات المطيرة إلى مجموعة المناخ الاستوائي الرطب . نادرا ما ترتفع درجة الحرارة في الغابة المطيرة عن 93 درجة فهرنهايت ( 34 درجة مئوية ) أو تنخفض إلى أقل من 68 درجة فهرنهايت ( 20 درجة مئوية ) ؛ يتراوح متوسط الرطوبة بين 77 و 88 ٪ ؛ غالبا ما يكون هطول الأمطار أكثر من 100 بوصة في السنة ، والغابات الاستوائية المطيرة عبارة عن غابة من الأشجار الطويلة في منطقة من الدفء على مدار العام . ما متوسطه 50 إلى 260 بوصة ( 125 إلى 660 سم ) من المطر سنويا .20.240688880284626 - Loss:
main.MarginMSELoss
Evaluation Dataset
experiment_data_knowledge_distillation_vs_fine_tuning
- Dataset: experiment_data_knowledge_distillation_vs_fine_tuning at 4fe4924
- Size: 10,000 evaluation samples
- Columns:
query,pos,neg, andlabel - Approximate statistics based on the first 1000 samples:
query pos neg label type string string string float details - min: 3 tokens
- mean: 10.94 tokens
- max: 33 tokens
- min: 23 tokens
- mean: 91.74 tokens
- max: 128 tokens
- min: 24 tokens
- mean: 87.33 tokens
- max: 128 tokens
- min: -0.75
- mean: 13.72
- max: 22.62
- Samples:
query pos neg label ما هو اسم د . كويناعرض الشخصيات المختلفة التي لعبها نفس الممثل . الدكتورة ميكايلا كوين . ولدت ميكايلا في 15 فبراير 1833 في بوسطن ، ماساتشوستس ، لأبوين جوزيف وإليزابيث كوين . هناك نشأت مع شقيقاتها الأربع : ماري ( التي تم تغيير اسمها إلى ريبيكا ) ، ومارجوري ، وكلوديت ، ومورين . كان والدها يريد ابنا ، لذلك عندما ولدت أطلق عليها اسم ميكايلا ( الملقب مايك ) .ليس لدى د . ماكفارلاند أي تأمينات مدرجة . إذا كنت دكتور ماكفارلاند وترغب في إضافة تأمينات تقبلها ، يرجى تحديث ملفك التعريفي المجاني . الانتساب إلى المستشفى ينتمي د . ماكفارلاند إلى المستشفيات التالية .15.524045944213867من يلعب دور بيرني مادوفساحر الأكاذيب هو واحد من اثنين من مشاريع Madoff التلفزيونية قيد الإعداد . ABC لديها مسلسل قصير قادم يسمى مادوف ، من بطولة ريتشارد دريفوس وبليث دانر . قصص ذات الصلة . روبرت دي نيرو يسجل الدخول للعب بيرني مادوف في فيلم HBO المحتمل .اتهمت السلطات الأمريكية مسؤول تنفيذي للمحاسبة يزعم أنه ساعد برنارد مادوف في مخطط بونزي الذي تبلغ تكلفته عدة مليارات من الدولارات ، والذي يوسع نطاق تحقيقه في الاحتيال بعد خمس سنوات من اكتشافه .13.17703644434611كم قدم مكعب في طن من حصى البازلاءلذلك 1 طن لديه 2000 - 100 أو 20 قدم مكعب من الحصى . الفناء المكعب هو 3x3x3 = 27 قدما مكعبا من الفناء المكعب ، الإجابة 20 - 27 أو 0 . 74 ياردة مكعبة . العوامل الأخرى التي تؤثر على حجم الحصى هي محتوى الرطوبة ودرجات المواد . يحتوي حصى البازلاء على سبيل المثال على جميع الجزيئات ذات الحجم المحدد ، على سبيل المثال ، 1 - 4 بوصة ، حوالي 120 رطلا للإشارة فقط : 1 قدم مكعب = 6 . 25 جالون ( إمبراطوري ) ، جالون من الماء يزن 10 أرطال ، لذا فإن القدم المكعبة من الماء تزن 62 . 5 رطلا . هذا يعني أن الجاذبية النوعية للحصى هي 120 - 62 . 5 ، أو أقل قليلا من 2 .1 كيس قدم مكعب واحد ( التربة والمهاد ) يغطي ما يقرب من 8 أقدام مربعة إلى عمق 3 . 2 كيس واحد 75 رطلا ( الحصى والرمل ) يغطي حوالي 4 أقدام مربعة إلى عمق 3 . 3 بوصات سميكة ستغطي حوالي 300 قدم مربع . سيغطي سمك 1 حوالي 150 قدما مربعا .10.34702980518341 - Loss:
main.MarginMSELoss
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy: stepsper_device_train_batch_size: 128learning_rate: 2e-05num_train_epochs: 1warmup_ratio: 0.1fp16: Truehalf_precision_backend: ampremove_unused_columns: Falseload_best_model_at_end: Truefp16_backend: amp
All Hyperparameters
Click to expand
overwrite_output_dir: Falsedo_predict: Falseeval_strategy: stepsprediction_loss_only: Trueper_device_train_batch_size: 128per_device_eval_batch_size: 8per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 2e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1.0num_train_epochs: 1max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.1warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Truefp16_opt_level: O1half_precision_backend: ampbf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Falselabel_names: Noneload_best_model_at_end: Trueignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: amppush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters:auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Nonedispatch_batches: Nonesplit_batches: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: batch_samplermulti_dataset_batch_sampler: proportional
Training Logs
| Epoch | Step | Training Loss | Validation Loss | map |
|---|---|---|---|---|
| 0.0512 | 2000 | 0.1807 | 0.1185 | 0.4863 |
| 0.1024 | 4000 | 0.1165 | 0.1009 | 0.5063 |
| 0.1536 | 6000 | 0.1009 | 0.0905 | 0.5420 |
| 0.2048 | 8000 | 0.0914 | 0.0836 | 0.5455 |
| 0.2560 | 10000 | 0.0847 | 0.0813 | 0.5556 |
| 0.3072 | 12000 | 0.08 | 0.0742 | 0.5651 |
| 0.3584 | 14000 | 0.0761 | 0.0747 | 0.5623 |
| 0.4096 | 16000 | 0.0731 | 0.0692 | 0.5570 |
| 0.4608 | 18000 | 0.0704 | 0.0672 | 0.5724 |
| 0.5120 | 20000 | 0.0677 | 0.0650 | 0.5688 |
| 0.5632 | 22000 | 0.0656 | 0.0624 | 0.5653 |
| 0.6144 | 24000 | 0.064 | 0.0608 | 0.5875 |
| 0.6656 | 26000 | 0.0622 | 0.0596 | 0.5721 |
| 0.7168 | 28000 | 0.0609 | 0.0594 | 0.5694 |
| 0.7680 | 30000 | 0.0599 | 0.0574 | 0.5757 |
| 0.8192 | 32000 | 0.0588 | 0.0573 | 0.5779 |
| 0.8704 | 34000 | 0.0582 | 0.0571 | 0.5842 |
| 0.9216 | 36000 | 0.0577 | 0.0567 | 0.5797 |
| 0.9728 | 38000 | 0.0571 | 0.0559 | 0.5791 |
- The bold row denotes the saved checkpoint.
Framework Versions
- Python: 3.11.9
- Sentence Transformers: 3.4.1
- Transformers: 4.49.0
- PyTorch: 2.4.1+cu121
- Accelerate: 1.4.0
- Datasets: 3.2.0
- Tokenizers: 0.21.0
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MarginMSELoss
@misc{hofstätter2021improving,
title={Improving Efficient Neural Ranking Models with Cross-Architecture Knowledge Distillation},
author={Sebastian Hofstätter and Sophia Althammer and Michael Schröder and Mete Sertkan and Allan Hanbury},
year={2021},
eprint={2010.02666},
archivePrefix={arXiv},
primaryClass={cs.IR}
}
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
- Downloads last month
- 3
Model tree for hatemestinbejaia/mMiniLML-bi-encoder-KD-v1-Student_TripletLoss-Teacher_marginloss-adptativeMargin-lambda002C
Dataset used to train hatemestinbejaia/mMiniLML-bi-encoder-KD-v1-Student_TripletLoss-Teacher_marginloss-adptativeMargin-lambda002C
Evaluation results
- Map on Unknownself-reported0.579
- Mrr@10 on Unknownself-reported0.585
- Ndcg@10 on Unknownself-reported0.649