EuroBERT
/

EuroBERT-2.1B

Model card Files Files and versions

Nicolas-BZRD commited on Mar 25

Commit

2b04abf

·

verified ·

1 Parent(s): 692733f

Fix: flash_attention_2 mask

Files changed (1) hide show

modeling_eurobert.py +11 -11

modeling_eurobert.py CHANGED Viewed

@@ -26,15 +26,15 @@ import torch
 from torch import nn
 from torch.nn import BCEWithLogitsLoss, CrossEntropyLoss, MSELoss
-from transformers.activations import ACT2FN
-from transformers.cache_utils import Cache, StaticCache
-from transformers.modeling_attn_mask_utils import AttentionMaskConverter
-from transformers.modeling_flash_attention_utils import FlashAttentionKwargs
-from transformers.modeling_outputs import BaseModelOutput, BaseModelOutputWithPast, MaskedLMOutput, SequenceClassifierOutput
-from transformers.modeling_rope_utils import ROPE_INIT_FUNCTIONS
-from transformers.modeling_utils import ALL_ATTENTION_FUNCTIONS, PreTrainedModel
-from transformers.processing_utils import Unpack
-from transformers.utils import add_code_sample_docstrings, add_start_docstrings, add_start_docstrings_to_model_forward, logging
 from .configuration_eurobert import EuroBertConfig
@@ -224,7 +224,7 @@ EUROBERT_START_DOCSTRING = r"""
 @add_start_docstrings(
-    "The bare ModernBert Model outputting raw hidden-states without any specific head on top.",
     EUROBERT_START_DOCSTRING,
 )
 class EuroBertPreTrainedModel(PreTrainedModel):
@@ -523,7 +523,7 @@ class EuroBertModel(EuroBertPreTrainedModel):
         if inputs_embeds is None:
             inputs_embeds = self.embed_tokens(input_ids)
-        if attention_mask is not None:
             mask = self.mask_converter.to_4d(attention_mask, attention_mask.shape[1], inputs_embeds.dtype)
         else:
             mask = None

 from torch import nn
 from torch.nn import BCEWithLogitsLoss, CrossEntropyLoss, MSELoss
+from ...activations import ACT2FN
+from ...cache_utils import Cache, StaticCache
+from ...modeling_attn_mask_utils import AttentionMaskConverter
+from ...modeling_flash_attention_utils import FlashAttentionKwargs
+from ...modeling_outputs import BaseModelOutput, BaseModelOutputWithPast, MaskedLMOutput, SequenceClassifierOutput
+from ...modeling_rope_utils import ROPE_INIT_FUNCTIONS
+from ...modeling_utils import ALL_ATTENTION_FUNCTIONS, PreTrainedModel
+from ...processing_utils import Unpack
+from ...utils import add_code_sample_docstrings, add_start_docstrings, add_start_docstrings_to_model_forward, logging
 from .configuration_eurobert import EuroBertConfig
 @add_start_docstrings(
+    "The bare EuroBERT Model outputting raw hidden-states without any specific head on top.",
     EUROBERT_START_DOCSTRING,
 )
 class EuroBertPreTrainedModel(PreTrainedModel):
         if inputs_embeds is None:
             inputs_embeds = self.embed_tokens(input_ids)
+        if attention_mask is not None and self.config._attn_implementation != "flash_attention_2":
             mask = self.mask_converter.to_4d(attention_mask, attention_mask.shape[1], inputs_embeds.dtype)
         else:
             mask = None