change name to minicpm3

Files changed (3) hide show

config.json CHANGED Viewed

@@ -4,14 +4,14 @@
         "MiniCPM3ForCausalLM"
     ],
     "auto_map": {
-        "AutoConfig": "configuration_minicpm.MiniCPMConfig",
-        "AutoModel": "modeling_minicpm.MiniCPMModel",
-        "AutoModelForCausalLM": "modeling_minicpm.MiniCPMForCausalLM",
-        "AutoModelForSeq2SeqLM": "modeling_minicpm.MiniCPMForCausalLM",
-        "AutoModelForSequenceClassification": "modeling_minicpm.MiniCPMForSequenceClassification"
     },
     "bos_token_id": 1,
-    "eos_token_id": 2,
     "hidden_act": "silu",
     "initializer_range": 0.1,
     "hidden_size": 2560,
@@ -32,7 +32,7 @@
         "original_max_position_embeddings": 32768
     },
     "torch_dtype": "bfloat16",
-    "transformers_version": "4.36.0",
     "use_cache": true,
     "vocab_size": 73448,
     "scale_emb": 12,

         "MiniCPM3ForCausalLM"
     ],
     "auto_map": {
+        "AutoConfig": "configuration_minicpm.MiniCPM3Config",
+        "AutoModel": "modeling_minicpm.MiniCPM3Model",
+        "AutoModelForCausalLM": "modeling_minicpm.MiniCPM3ForCausalLM",
+        "AutoModelForSeq2SeqLM": "modeling_minicpm.MiniCPM3ForCausalLM",
+        "AutoModelForSequenceClassification": "modeling_minicpm.MiniCPM3ForSequenceClassification"
     },
     "bos_token_id": 1,
+    "eos_token_id": [2, 73440],
     "hidden_act": "silu",
     "initializer_range": 0.1,
     "hidden_size": 2560,
         "original_max_position_embeddings": 32768
     },
     "torch_dtype": "bfloat16",
+    "transformers_version": "4.41.0",
     "use_cache": true,
     "vocab_size": 73448,
     "scale_emb": 12,

configuration_minicpm.py CHANGED Viewed

@@ -28,7 +28,7 @@ logger = logging.get_logger(__name__)
 MINICPM_PRETRAINED_CONFIG_ARCHIVE_MAP = {}
-class MiniCPMConfig(PretrainedConfig):
     r"""
     This is the configuration class to store the configuration of a [`MiniCPMModel`]. It is used to instantiate an MiniCPM
     model according to the specified arguments, defining the model architecture. Instantiating a configuration with the

 MINICPM_PRETRAINED_CONFIG_ARCHIVE_MAP = {}
+class MiniCPM3Config(PretrainedConfig):
     r"""
     This is the configuration class to store the configuration of a [`MiniCPMModel`]. It is used to instantiate an MiniCPM
     model according to the specified arguments, defining the model architecture. Instantiating a configuration with the

modeling_minicpm.py CHANGED Viewed

@@ -979,7 +979,7 @@ MINICPM_START_DOCSTRING = r"""
     "The bare MiniCPM Model outputting raw hidden-states without any specific head on top.",
     MINICPM_START_DOCSTRING,
 )
-class MiniCPMPreTrainedModel(PreTrainedModel):
     config_class = MiniCPMConfig
     base_model_prefix = "model"
     supports_gradient_checkpointing = True
@@ -1075,7 +1075,7 @@ MINICPM_INPUTS_DOCSTRING = r"""
     "The bare MiniCPM Model outputting raw hidden-states without any specific head on top.",
     MINICPM_START_DOCSTRING,
 )
-class MiniCPMModel(MiniCPMPreTrainedModel):
     """
     Transformer decoder consisting of *config.num_hidden_layers* layers. Each layer is a [`MiniCPMDecoderLayer`]
@@ -1239,7 +1239,7 @@ class MiniCPMModel(MiniCPMPreTrainedModel):
         )
-class MiniCPMForCausalLM(MiniCPMPreTrainedModel):
     _tied_weights_keys = ["lm_head.weight"]
     def __init__(self, config):
@@ -1465,7 +1465,7 @@ class MiniCPMForCausalLM(MiniCPMPreTrainedModel):
     """,
     MINICPM_START_DOCSTRING,
 )
-class MiniCPMForSequenceClassification(MiniCPMPreTrainedModel):
     def __init__(self, config):
         super().__init__(config)
         self.num_labels = config.num_labels

     "The bare MiniCPM Model outputting raw hidden-states without any specific head on top.",
     MINICPM_START_DOCSTRING,
 )
+class MiniCPM3PreTrainedModel(PreTrainedModel):
     config_class = MiniCPMConfig
     base_model_prefix = "model"
     supports_gradient_checkpointing = True
     "The bare MiniCPM Model outputting raw hidden-states without any specific head on top.",
     MINICPM_START_DOCSTRING,
 )
+class MiniCPM3Model(MiniCPM3PreTrainedModel):
     """
     Transformer decoder consisting of *config.num_hidden_layers* layers. Each layer is a [`MiniCPMDecoderLayer`]
         )
+class MiniCPM3ForCausalLM(MiniCPM3PreTrainedModel):
     _tied_weights_keys = ["lm_head.weight"]
     def __init__(self, config):
     """,
     MINICPM_START_DOCSTRING,
 )
+class MiniCPM3ForSequenceClassification(MiniCPM3PreTrainedModel):
     def __init__(self, config):
         super().__init__(config)
         self.num_labels = config.num_labels