SetFit with sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2

This is a SetFit model that can be used for Text Classification. This SetFit model uses sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2 as the Sentence Transformer embedding model. A LogisticRegression instance is used for classification.

The model has been trained using an efficient few-shot learning technique that involves:

  1. Fine-tuning a Sentence Transformer with contrastive learning.
  2. Training a classification head with features from the fine-tuned Sentence Transformer.

Model Details

Model Description

Model Sources

Model Labels

Label Examples
1
  • 'הודעה משותפת לשר הביטחון ישראל כ"ץ ולרמטכ"ל, רב-אלוף אייל זמיר\n\nבתום שיחה שקיימו שר הביטחון ישראל כ"ץ והרמטכ"ל, רב-אלוף אייל זמיר, סיכמו השניים כי בהתאם לחוק השיפוט הצבאי, הרמטכ"ל יגבש רשימת מועמדים מומלצים לשר הביטחון לצורך מינוי פרקליט צבאי ראשי, אשר ידע לעמוד עם האתגרים המשמעותיים העומדים בפני הפרקליטות הצבאית בעת הנוכחית, ובראשם ההגנה על חיילי צה"ל.\n\nשר הביטחון והרמטכ"ל פועלים ליצירת יציבות מיידית בפרקליטות הצבאית, מתוך אחריותם למערכת ולחיילי צה"ל.'
  • 'גורם ישראלי בכיר: הסיבה שבגללה יש פחות שיגורים היא פעולה ישראלית רציפה נגד המשגרים והטילים.\n\nעד עתה הושמדו 40% מהמשגרים האירניים'
  • '*חבר הקבינט המדיני בטחוני שר האוצר בצלאל סמוטריץ׳:*\n\nמאחל הצלחה רבה לאלוף אייל זמיר בתפקידו כרמטכ"ל הבא של צה"ל.\nהאלוף זמיר מתמנה לתפקידו בתקופה היסטורית ועם ישראל מצפה ממנו להוביל את צה"ל מהר מאוד לשינוי דרסטי בתפיסת הביטחון ולניצחון מלא בכל החזיתות.\n\nלשם כך יהא עליו לאייש מחדש חלק גדול מהתפקידים במטה הכללי ולמנות להם מפקדים לוחמים ונחושים של דור הניצחון.\n\nכשר אוצר וכחבר בקבינט המדיני ביטחוני אעמוד לצידו ואעשה הכל כדי לוודא שבעזרת השם כך יהיה.'
0
  • 'עמית פורים שמח!\nהפלוגה שלי מגדוד 9207 שפרסמת בזמנו קוראת מגילת איכה בציר נצרים - קוראת עכשיו מגילת אסתר בציר פלדפי. מגילה שניה, סבב רביעי'
  • 'המטה לביטחון לאומי מחדד את המלצתו להימנע מנסיעות שאינן חיוניות לאיחוד האמירויות: \n\nב-21 בנובמבר גורמי טרור רצחו אזרח ישראלי באיחוד האמירויות וחשש כי עדיין קיים איום בשטח כנגד ישראלים ויהודים בזירה - המטה לבטחון לאומי מחדד לציבור הישראלי היום (א'), 24 בנובמבר 2024, כי על איחוד האמירויות חלה אזהרת מסע ברמה 3 (איום בינוני) אשר המלצתה להימנע מנסיעות שאינן חיוניות ליעד וקורא לשוהים בנסיכויות לנקוט באמצעי הזהירות הבאים:\n1. להימנע מהגעה לעסקים, מקומות כינוס ובילוי המזוהים עם אוכלוסייה ישראלית ויהודית.\n\n2. לשמור על ערנות מוגברת במקומות ציבוריים (כולל מסעדות, מלונות, ברים וכו').\n\n3. להימנע מהחצנת סממנים ישראלים.\n\n4. לשתף פעולה עם כוחות הביטחון המקומיים להישמע להנחיותיהם ולדווח מיידית באם נחשפתם לפעילות טרור.\n\n5. להימנע מפרסום פרטי הנסיעה ברשתות חברתיות ופרסום תמונות ופרטי ביקור טרם הנסיעה ובזמן אמת" כולל קבוצות שונות המתמקדות בתיירות בחו"ל. מומלץ ככלל לנעול פרופילים ברשתות חברתיות ולהימנע משיתוף.\n\n6. מומלץ למבקרים במדינה, לצמצם תנועה, להישאר באזורים מאובטחים.\n\nלכללי זהירות נוספים מומלץ להיכנס לקישור:\n\nhttps://www.gov.il/he/pages/travel_warning_info\n\nלמען הסר ספק, באם קיים חשש שנחשפתם לאיום מצד גורמי טרור במדינה בחו"ל, מומלץ לעדכן בראש ובראשונה את שירותי הביטחון המקומיים של המדינה בה אתם שוהים, ולאחר מכן את מוקד אזהרות המסע של המטה לביטחון לאומי (פועל 24/7) בטלפון 02-6667444.\n\nלשאלות/ אירועים בסוגיות נוספות, כגון: ביטחון אישי בהקשרי פשיעה ואנטישמיות, סוגיות קונסולריות, יש לפנות למוקד משרד החוץ (פועל 24/7) בטלפון 02-5303155.'
  • 'אושר פה אחד מתווה נתניהו לאישור מינוי נציב המדינה'

Uses

Direct Use for Inference

First install the SetFit library:

pip install setfit

Then you can load this model and run inference.

from setfit import SetFitModel

# Download from the 🤗 Hub
model = SetFitModel.from_pretrained("gbenjos/fast-military")
# Run inference
preds = model("לוין מציע לנשיאות העליון את כל שופטי בית המשפט")

Training Details

Training Set Metrics

Training set Min Median Max
Word count 9 76.0 628
Label Training Sample Count
0 10
1 10

Training Hyperparameters

  • batch_size: (16, 16)
  • num_epochs: (1, 1)
  • max_steps: -1
  • sampling_strategy: oversampling
  • num_iterations: 20
  • body_learning_rate: (2e-05, 2e-05)
  • head_learning_rate: 2e-05
  • loss: CosineSimilarityLoss
  • distance_metric: cosine_distance
  • margin: 0.25
  • end_to_end: False
  • use_amp: False
  • warmup_proportion: 0.1
  • l2_weight: 0.01
  • seed: 42
  • eval_max_steps: -1
  • load_best_model_at_end: False

Training Results

Epoch Step Training Loss Validation Loss
0.02 1 0.2878 -
1.0 50 0.1532 -

Framework Versions

  • Python: 3.12.12
  • SetFit: 1.1.3
  • Sentence Transformers: 5.1.2
  • Transformers: 4.57.1
  • PyTorch: 2.8.0+cu126
  • Datasets: 4.0.0
  • Tokenizers: 0.22.1

Citation

BibTeX

@article{https://doi.org/10.48550/arxiv.2209.11055,
    doi = {10.48550/ARXIV.2209.11055},
    url = {https://arxiv.org/abs/2209.11055},
    author = {Tunstall, Lewis and Reimers, Nils and Jo, Unso Eun Seo and Bates, Luke and Korat, Daniel and Wasserblat, Moshe and Pereg, Oren},
    keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
    title = {Efficient Few-Shot Learning Without Prompts},
    publisher = {arXiv},
    year = {2022},
    copyright = {Creative Commons Attribution 4.0 International}
}
Downloads last month
12
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for gbenjos/fast-military