SentenceTransformer based on FacebookAI/xlm-roberta-base
This is a sentence-transformers model finetuned from FacebookAI/xlm-roberta-base. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: FacebookAI/xlm-roberta-base
- Maximum Sequence Length: 512 tokens
- Output Dimensionality: 768 dimensions
- Similarity Function: Cosine Similarity
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'XLMRobertaModel'})
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("phuocsang/contrastive-encoder-2")
# Run inference
sentences = [
'Trong năm 2005, mức thu nhập bình quân của người dân độ tuổi trên 18 là 3.317 đô la cho phụ nữ thất nghiệp, có gia đình gốc Á cho tới 55.935 đô la cho đàn ông có việc làm toàn thời gian gốc Á. Theo cục thống kê dân số Mỹ, nam giới có mức thu nhập cao hơn phụ nữ trong khi người Mỹ gốc châu Á và Âu kiếm nhiều tiền hơn người Mỹ gốc Phi và Tây Ban Nha. Thu nhập bình quân chung của tất cả người dân trên 18 tuổi là 24.062 đô la (và 32.140 đô la cho độ tuổi từ 25 trở lên) trong năm 2005.[SEP]Không, thông tin không đúng. Người Mỹ gốc Á không có mức thu nhập thấp nhất. Vào năm 2005, thu nhập bình quân của đàn ông gốc Á có việc làm toàn thời gian là 55.935 đô la mỗi năm.',
'Vào đầu công nguyên, xuất hiện hai vương quốc của người Malayo - Polynesia lớn trên bán đảo Ðông Dương: Phù Nam và Chiêm Thành. Lãnh thổ Phù Nam rộng từ Vịnh Thái Lan đến Biển Hồ nhưng ảnh hưởng tỏa lên Thượng Lào và Bắc Miến Ðiện. Chiêm Thành gồm nhiều vương quốc nhỏ sinh hoạt độc lập với nhau dọc các đồng bằng eo hẹp miền Trung đến chân dãy Trường Sơn về phía Tây: Lâm Ấp hay Indrapura (Bình Trị Thiên), Amaravati (Quảng Nam), Vijaya (Bình Định), Aryaru (Phú Yên), Kauthara (Khánh Hòa) và Panduranga (Phan Rang). Sinh hoạt chính của người Malayo - Polynesia là trồng lúa nước và buôn bán. Ðể tìm thêm nguồn hàng quí hiếm trao đổi với các thuyền buôn, người Malayo - Polynesia mở rộng tầm kiểm soát lên các vùng rừng núi đồng thời khuất phục luôn các nhóm dân cư bản địa đã có mặt từ trước, điển hình điển hình nhóm Bih ven krong A-na mà ngày nay được gọi là Ê Đê Bih với kỹ năng dệt, trang sức, làm gốm, trồng lúa nước. Nhóm Bih là nhóm Malayo - Polynesia định cư và chạy nạn sớm vào sâu nhất trong lục địa, họ đem theo kỹ thuật trồng lúa nước ven sông,dệt vải thô, trang sức hạt, và kỹ nghệ làm gốm thô. Theo chiều lịch sử, danh tự Ê Đê có nguồn gốc từ cách đọc âm của người Champa, bia ký Champa cổ nhất tại tháp Po Nagar vào khoảng thế kỷ VIII đã ghi chép về tộc danh Rang Đê vùng sông Nha Trang, sông Jing, sông Hing. Những bia ký sớm nhất của Champa thế kỷ VIII - đã có nhắc đến nhóm Rangde ven sông Ea trang (Nha Trang). Trong Bia Po Nagar được dựng năm 965 tại tháp Po Nagar (Nha Trang, Khánh Hòa): Nội dung bia như sau:Vào khoảng năm 703 - 706 lịch saka (781 - 784 Công lịch), vua Satyavarman cho dựng một linga (linh vật) thờ thần Siva và lập cháu mình lên làm vua Vikrantavarman(vì theo chế độ mẫu hệ nên cậu truyền ngôi cho cháu theo dòng mẹ)... và đức Vua có thu phục được người Randaya (Rang Đê).Rất có thể từ Rang Đê sau này bị biến âm thành Ra đê, Rađêy hay Ê đê. Ngoài ra, người Ê đê còn tự nhận là nhóm tộc Đêgar, Êđê Êga Anak Đêgar - người trên Cao Nguyên. Đêgar là từ tiếng Ấn Độ srakrit Deccan, và bản thân nó lại có nguồn gốc từ tiếng Phạn दक्षिण, Đêkṣarṇa, nghĩa là "cao nguyên phía nam".[SEP]Người Malayo - Polynesia đầu công nguyên đã phát triển mạnh mẽ ngành công nghiệp ô tô và hàng không, đây là các ngành kinh tế chủ yếu của họ, đóng góp lớn vào sự thịnh vượng của vương quốc.',
'Nhận ra rằng ông không thể nào giữ được Jerusalem cho dù ông có chiếm được nó, Richard ra lệnh rút lui. Có vài vụ xung đột nhỏ đã nổ ra giữa quân của Richard và Saladin khi hai người đàm phán để giải quyết cuộc xung đột, vì cả hai đều nhận ra rằng họ khó giữ vững được vị trí của mình nếu xung đột tiếp diễn. Richard biết rằng cả Philip và chính em trai ông John đều đang âm mưu chống lại mình. Tuy nhiên, Saladin buộc Richard phải san bằng các công sự mà ông đã xây dựng tại Ascalon và vài việc khác. Richard thực hiện một nỗ lực cuối cùng để giành thế thượng phong trên bàn đàm phán bằng việc xâm lược Ai Cập – nguồn tiếp vận chính của Saladin – nhưng thất bại. Cuối cùng, thời gian không còn nữa. Việc trở về không thể trì hoãn được nữa vì cả Philip và John đều đang lợi dụng sự vắng mặt của ông. Ông và Saladin đi đến một thỏa thuận vào ngày 2 tháng 9, 1192; bao gồm việc phá hủy các công sự của Ascalon, cùng với việc cho phép người hành hương và thương nhân Cơ đốc đến Jerusalem. Nó cũng bao gồm một hòa ước ba năm.[SEP]Richard cho xâm lược Ai Cập với mục đích chính là thiết lập một liên minh vững chắc với Saladin, nhằm củng cố mối quan hệ hòa bình lâu dài giữa hai bên và đảm bảo sự ổn định trong khu vực.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 1.0000, 1.0000],
# [1.0000, 1.0000, 1.0000],
# [1.0000, 1.0000, 1.0000]])
Training Details
Training Dataset
Unnamed Dataset
- Size: 5,600 training samples
- Columns:
sentence_0andlabel - Approximate statistics based on the first 1000 samples:
sentence_0 label type string int details - min: 145 tokens
- mean: 267.06 tokens
- max: 512 tokens
- 0: ~33.00%
- 1: ~35.10%
- 2: ~31.90%
- Samples:
sentence_0 label Chính phủ liên bang thiết lập mọi nỗ lực mới trong nước để ngăn chặn các vụ tấn công tương lai. Đạo luật Yêu nước Mỹ gây nhiều tranh cãi tạo điều kiện gia tăng quyền hạn của chính phủ để theo dõi thông tin liên lạc và tháo vỡ các hạn chế pháp lý về chia sẻ thông tin giữa các cơ quan tình báo và thi hành luật pháp liên bang. Một cơ quan cấp nội các, được gọi là bộ nội an được thành lập để lãnh đạo và điều hợp các hoạt động chống khủng bố của chính phủ liên bang. Một trong số các nỗ lực chống khủng bố này, đặc biệt là việc chính phủ liên quan cầm giữ các phạm nhân tại nhà tù tại vịnh Guantanamo, dẫn đến các cáo buộc rằng chính phủ liên bang vị phạm nhân quyền.[SEP]Không, việc giam giữ các phạm nhân tại vịnh Guantanamo dẫn đến cáo buộc vi phạm nhân quyền, không phải quyền tự do ngôn luận được Hiến pháp Hoa Kỳ bảo đảm.0Việc hợp nhất này đã tước đoạt chính sách đối ngoại độc lập của Bồ Đào Nha và dẫn đến việc họ tham gia Chiến tranh Tám mươi Năm giữa Tây Ban Nha và Hà Lan. Cuộc chiến này làm tổn hại quan hệ giữa Bồ Đào Nha và đồng minh lâu năm nhất của họ là Anh, và để mất cảng mậu dịch chiến lược Hormuz tại vùng vịnh Ba Tư. Từ năm 1595 đến năm 1663, Chiến tranh Hà Lan-Bồ Đào Nha chủ yếu liên quan đến việc các công ty Hà Lan xâm phạm nhiều thuộc địa và lợi ích thương nghiệp của Bồ Đào Nha tại Brasil, châu Phi, Ấn Độ và Viễn Đông, khiến Bồ Đào Nha bị mất thế độc quyền mậu dịch hàng hải trên Ấn Độ Dương.[SEP]Các công ty Hà Lan đã xâm phạm nhiều thuộc địa và lợi ích thương nghiệp của Bồ Đào Nha tại Brasil, châu Phi, Ấn Độ và Viễn Đông trong khoảng thời gian từ năm 1595 đến năm 1663.0Bắc Ireland có cơ quan hành pháp và lập pháp địa phương, thi hành quyền lực được Anh phân quyền. Đứng đầu cơ quan hành pháp là bộ trưởng thứ nhất và thứ trưởng thứ nhất, còn các bộ trưởng được phân bổ theo tỷ lệ đại biểu của mỗi đảng trong nghị hội. Thủ đô Bắc Ireland là Belfast. Quyền lực chính trị tối hậu thuộc về Chính phủ Anh, Chính phủ Anh từng có các giai đoạn cai trị trực tiếp Bắc Ireland. Bắc Ireland được phân 18 ghế trong số 650 ghế của Hạ nghị viện Anh. Quốc vụ khanh về Bắc Ireland là một chức vụ cấp nội các trong chính phủ của Anh. Bắc Ireland tạo thành một trong ba khu vực phạm vi quyền hạn tư pháp riêng biệt của Anh, song Toà án Tối cao Anh là toà án tối cao.[SEP]Hạ nghị viện Anh có tổng cộng 700 ghế đại biểu, trong đó Bắc Ireland chiếm 18 ghế. Điều này cho phép họ có tiếng nói mạnh mẽ hơn trong các quyết định chính trị của Vương quốc Anh.1 - Loss:
BatchHardTripletLoss
Training Hyperparameters
Non-Default Hyperparameters
per_device_train_batch_size: 32per_device_eval_batch_size: 32num_train_epochs: 2multi_dataset_batch_sampler: round_robin
All Hyperparameters
Click to expand
overwrite_output_dir: Falsedo_predict: Falseeval_strategy: noprediction_loss_only: Trueper_device_train_batch_size: 32per_device_eval_batch_size: 32per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 5e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1num_train_epochs: 2max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.0warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Falsefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Falseignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}parallelism_config: Nonedeepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torch_fusedoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsehub_revision: Nonegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters:auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseliger_kernel_config: Noneeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: batch_samplermulti_dataset_batch_sampler: round_robinrouter_mapping: {}learning_rate_mapping: {}
Framework Versions
- Python: 3.12.6
- Sentence Transformers: 5.1.1
- Transformers: 4.56.0
- PyTorch: 2.8.0+cu129
- Accelerate: 1.10.1
- Datasets: 4.1.1
- Tokenizers: 0.22.0
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
BatchHardTripletLoss
@misc{hermans2017defense,
title={In Defense of the Triplet Loss for Person Re-Identification},
author={Alexander Hermans and Lucas Beyer and Bastian Leibe},
year={2017},
eprint={1703.07737},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
- Downloads last month
- 3
Model tree for phuocsang/contrastive-encoder-2
Base model
FacebookAI/xlm-roberta-base