kokolamba
/

SubspaceDecoder_mla0-0-0

Model card Files Files and versions

kokolamba commited on Sep 29

Commit

a2efb43

·

1 Parent(s): f640da0

Update model files

Files changed (2) hide show

checkpoint-2700/config.json +6 -2
checkpoint-3000/config.json +6 -2

checkpoint-2700/config.json CHANGED Viewed

@@ -2,6 +2,11 @@
   "architectures": [
     "SharedSpaceDecoderForCausalLM"
   ],
   "attention_backend": "flash_attention_2",
   "attention_bias": false,
   "attention_dropout_prob": 0.1,
@@ -18,7 +23,6 @@
   "kv_shared_dim": null,
   "layer_norm_eps": 1e-12,
   "max_position_embeddings": 1024,
-  "model_type": "shared_subspace_decoder",
   "nope_dims": 32,
   "norm_type": "rmsnorm",
   "num_attention_heads": 12,
@@ -40,4 +44,4 @@
   "vocab_rank": null,
   "vocab_size": 50257,
   "vocab_subspace": false
-}

   "architectures": [
     "SharedSpaceDecoderForCausalLM"
   ],
+  "model_type": "shared_subspace_decoder",
+  "auto_map": {
+    "AutoConfig": "shared_space_config.SharedSpaceDecoderConfig",
+    "AutoModelForCausalLM": "task_heads.SharedSpaceDecoderForCausalLM"
+  },
   "attention_backend": "flash_attention_2",
   "attention_bias": false,
   "attention_dropout_prob": 0.1,
   "kv_shared_dim": null,
   "layer_norm_eps": 1e-12,
   "max_position_embeddings": 1024,
   "nope_dims": 32,
   "norm_type": "rmsnorm",
   "num_attention_heads": 12,
   "vocab_rank": null,
   "vocab_size": 50257,
   "vocab_subspace": false
+}

checkpoint-3000/config.json CHANGED Viewed

@@ -2,6 +2,11 @@
   "architectures": [
     "SharedSpaceDecoderForCausalLM"
   ],
   "attention_backend": "flash_attention_2",
   "attention_bias": false,
   "attention_dropout_prob": 0.1,
@@ -18,7 +23,6 @@
   "kv_shared_dim": null,
   "layer_norm_eps": 1e-12,
   "max_position_embeddings": 1024,
-  "model_type": "shared_subspace_decoder",
   "nope_dims": 32,
   "norm_type": "rmsnorm",
   "num_attention_heads": 12,
@@ -40,4 +44,4 @@
   "vocab_rank": null,
   "vocab_size": 50257,
   "vocab_subspace": false
-}

   "architectures": [
     "SharedSpaceDecoderForCausalLM"
   ],
+  "model_type": "shared_subspace_decoder",
+  "auto_map": {
+    "AutoConfig": "shared_space_config.SharedSpaceDecoderConfig",
+    "AutoModelForCausalLM": "task_heads.SharedSpaceDecoderForCausalLM"
+  },
   "attention_backend": "flash_attention_2",
   "attention_bias": false,
   "attention_dropout_prob": 0.1,
   "kv_shared_dim": null,
   "layer_norm_eps": 1e-12,
   "max_position_embeddings": 1024,
   "nope_dims": 32,
   "norm_type": "rmsnorm",
   "num_attention_heads": 12,
   "vocab_rank": null,
   "vocab_size": 50257,
   "vocab_subspace": false
+}