BAAI
/

AquilaChat-7B

Model card Files Files and versions

shunxing1234 commited on Sep 21, 2023

Commit

d334358

·

1 Parent(s): 3d19935

Update configuration_aquila.py

Files changed (1) hide show

configuration_aquila.py +15 -0

configuration_aquila.py CHANGED Viewed

@@ -83,6 +83,7 @@ class AquilaConfig(PretrainedConfig):
         intermediate_size=11008,
         num_hidden_layers=32,
         num_attention_heads=32,
         hidden_act="silu",
         max_position_embeddings=2048,
         initializer_range=0.02,
@@ -91,7 +92,10 @@ class AquilaConfig(PretrainedConfig):
         pad_token_id=0,
         bos_token_id=1,
         eos_token_id=2,
         tie_word_embeddings=False,
         **kwargs,
     ):
         self.vocab_size = vocab_size
@@ -99,11 +103,22 @@ class AquilaConfig(PretrainedConfig):
         self.hidden_size = hidden_size
         self.intermediate_size = intermediate_size
         self.num_hidden_layers = num_hidden_layers
         self.num_attention_heads = num_attention_heads
         self.hidden_act = hidden_act
         self.initializer_range = initializer_range
         self.rms_norm_eps = rms_norm_eps
         self.use_cache = use_cache
         super().__init__(
             pad_token_id=pad_token_id,
             bos_token_id=bos_token_id,

         intermediate_size=11008,
         num_hidden_layers=32,
         num_attention_heads=32,
+        num_key_value_heads=None,
         hidden_act="silu",
         max_position_embeddings=2048,
         initializer_range=0.02,
         pad_token_id=0,
         bos_token_id=1,
         eos_token_id=2,
+        pretraining_tp=1,
         tie_word_embeddings=False,
+        rope_theta=10000.0,
+        rope_scaling=None,
         **kwargs,
     ):
         self.vocab_size = vocab_size
         self.hidden_size = hidden_size
         self.intermediate_size = intermediate_size
         self.num_hidden_layers = num_hidden_layers
+        # for backward compatibility
+        if num_key_value_heads is None:
+            num_key_value_heads = num_attention_heads
+        self.num_key_value_heads = num_key_value_heads
         self.num_attention_heads = num_attention_heads
         self.hidden_act = hidden_act
         self.initializer_range = initializer_range
         self.rms_norm_eps = rms_norm_eps
+        self.pretraining_tp = pretraining_tp
         self.use_cache = use_cache
+        self.rope_theta = rope_theta
+        self.rope_scaling = rope_scaling
         super().__init__(
             pad_token_id=pad_token_id,
             bos_token_id=bos_token_id,