ltg
/

norbert4-large

Model card Files Files and versions

davda54 commited on Jun 3

Commit

7ee002c

·

verified ·

1 Parent(s): 4d4d26d

Fix error

Files changed (1) hide show

modeling_gptbert.py +2 -5

modeling_gptbert.py CHANGED Viewed

@@ -10,7 +10,7 @@ from functools import partial, lru_cache
 from .configuration_gptbert import GptBertConfig
 from transformers.modeling_utils import PreTrainedModel
 from transformers.activations import gelu_new
-from transformers.utils import is_flash_attn_2_available, is_flax_available
 from transformers.modeling_outputs import (
     MaskedLMOutput,
     MultipleChoiceModelOutput,
@@ -352,8 +352,6 @@ class SelfAttention(nn.Module):
             self.rope_embedding = RotaryPositionalEmbeddings(config, theta)
         self.scale = 1.0 / math.sqrt(self.d_qk)
-        self.dropout = nn.Dropout(config.attention_dropout if hasattr(config, "attention_dropout") else 0.0)
         self.lambdas = nn.Parameter(torch.tensor([0.5]))
         self.sequence_length = config.max_sequence_length
@@ -399,7 +397,7 @@ class SelfAttention(nn.Module):
         return value, attention_probabilities.detach()
-    def forward(self, hidden_layer: torch.Tensor, qk_layer: torch.Tensor, v1: torch.Tensor | None, padding_info)]:
         # Get original shape info
         if is_flash_attn_2_available() and isinstance(padding_info, tuple):
             # Unpadded case
@@ -412,7 +410,6 @@ class SelfAttention(nn.Module):
             hidden_layer = hidden_layer.transpose(0, 1)  # [seq_len, batch_size, hidden_size]
             qk_layer = qk_layer.transpose(0, 1)
         hidden_layer = self.pre_v_norm(hidden_layer)
         qk_layer = self.pre_qk_norm(qk_layer)

 from .configuration_gptbert import GptBertConfig
 from transformers.modeling_utils import PreTrainedModel
 from transformers.activations import gelu_new
+from transformers.utils import is_flash_attn_2_available
 from transformers.modeling_outputs import (
     MaskedLMOutput,
     MultipleChoiceModelOutput,
             self.rope_embedding = RotaryPositionalEmbeddings(config, theta)
         self.scale = 1.0 / math.sqrt(self.d_qk)
         self.lambdas = nn.Parameter(torch.tensor([0.5]))
         self.sequence_length = config.max_sequence_length
         return value, attention_probabilities.detach()
+    def forward(self, hidden_layer: torch.Tensor, qk_layer: torch.Tensor, v1: torch.Tensor | None, padding_info):
         # Get original shape info
         if is_flash_attn_2_available() and isinstance(padding_info, tuple):
             # Unpadded case
             hidden_layer = hidden_layer.transpose(0, 1)  # [seq_len, batch_size, hidden_size]
             qk_layer = qk_layer.transpose(0, 1)
         hidden_layer = self.pre_v_norm(hidden_layer)
         qk_layer = self.pre_qk_norm(qk_layer)