Alexhu1999
/

lfm2_vl

@@ -1,282 +1,9 @@
 {
   "metadata": {
-    "total_parameters": 2151301728,
-    "total_size": 8605206912
   },
   "weight_map": {
-    "model.audio_tower.conformer.0.attention.attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.0.attention.attn.per_dim_scale": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.0.attention.attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.0.attention.attn.relative_position_embedding.pos_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.0.attention.attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.0.attention.post.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.0.attention.post_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.0.attention.pre_attn_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.0.ffw_layer_end.ffw_layer_1.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.0.ffw_layer_end.ffw_layer_2.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.0.ffw_layer_end.post_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.0.ffw_layer_end.pre_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.0.ffw_layer_start.ffw_layer_1.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.0.ffw_layer_start.ffw_layer_2.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.0.ffw_layer_start.post_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.0.ffw_layer_start.pre_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.0.lconv1d.conv_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.0.lconv1d.depthwise_conv1d.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.0.lconv1d.linear_end.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.0.lconv1d.linear_start.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.0.lconv1d.pre_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.0.norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.1.attention.attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.1.attention.attn.per_dim_scale": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.1.attention.attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.1.attention.attn.relative_position_embedding.pos_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.1.attention.attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.1.attention.post.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.1.attention.post_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.1.attention.pre_attn_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.1.ffw_layer_end.ffw_layer_1.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.1.ffw_layer_end.ffw_layer_2.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.1.ffw_layer_end.post_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.1.ffw_layer_end.pre_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.1.ffw_layer_start.ffw_layer_1.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.1.ffw_layer_start.ffw_layer_2.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.1.ffw_layer_start.post_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.1.ffw_layer_start.pre_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.1.lconv1d.conv_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.1.lconv1d.depthwise_conv1d.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.1.lconv1d.linear_end.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.1.lconv1d.linear_start.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.1.lconv1d.pre_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.1.norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.10.attention.attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.10.attention.attn.per_dim_scale": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.10.attention.attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.10.attention.attn.relative_position_embedding.pos_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.10.attention.attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.10.attention.post.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.10.attention.post_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.10.attention.pre_attn_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.10.ffw_layer_end.ffw_layer_1.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.10.ffw_layer_end.ffw_layer_2.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.10.ffw_layer_end.post_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.10.ffw_layer_end.pre_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.10.ffw_layer_start.ffw_layer_1.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.10.ffw_layer_start.ffw_layer_2.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.10.ffw_layer_start.post_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.10.ffw_layer_start.pre_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.10.lconv1d.conv_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.10.lconv1d.depthwise_conv1d.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.10.lconv1d.linear_end.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.10.lconv1d.linear_start.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.10.lconv1d.pre_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.10.norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.11.attention.attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.11.attention.attn.per_dim_scale": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.11.attention.attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.11.attention.attn.relative_position_embedding.pos_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.11.attention.attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.11.attention.post.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.11.attention.post_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.11.attention.pre_attn_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.11.ffw_layer_end.ffw_layer_1.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.11.ffw_layer_end.ffw_layer_2.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.11.ffw_layer_end.post_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.11.ffw_layer_end.pre_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.11.ffw_layer_start.ffw_layer_1.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.11.ffw_layer_start.ffw_layer_2.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.11.ffw_layer_start.post_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.11.ffw_layer_start.pre_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.11.lconv1d.conv_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.11.lconv1d.depthwise_conv1d.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.11.lconv1d.linear_end.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.11.lconv1d.linear_start.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.11.lconv1d.pre_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.11.norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.2.attention.attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.2.attention.attn.per_dim_scale": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.2.attention.attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.2.attention.attn.relative_position_embedding.pos_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.2.attention.attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.2.attention.post.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.2.attention.post_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.2.attention.pre_attn_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.2.ffw_layer_end.ffw_layer_1.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.2.ffw_layer_end.ffw_layer_2.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.2.ffw_layer_end.post_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.2.ffw_layer_end.pre_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.2.ffw_layer_start.ffw_layer_1.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.2.ffw_layer_start.ffw_layer_2.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.2.ffw_layer_start.post_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.2.ffw_layer_start.pre_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.2.lconv1d.conv_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.2.lconv1d.depthwise_conv1d.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.2.lconv1d.linear_end.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.2.lconv1d.linear_start.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.2.lconv1d.pre_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.2.norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.3.attention.attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.3.attention.attn.per_dim_scale": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.3.attention.attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.3.attention.attn.relative_position_embedding.pos_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.3.attention.attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.3.attention.post.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.3.attention.post_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.3.attention.pre_attn_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.3.ffw_layer_end.ffw_layer_1.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.3.ffw_layer_end.ffw_layer_2.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.3.ffw_layer_end.post_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.3.ffw_layer_end.pre_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.3.ffw_layer_start.ffw_layer_1.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.3.ffw_layer_start.ffw_layer_2.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.3.ffw_layer_start.post_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.3.ffw_layer_start.pre_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.3.lconv1d.conv_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.3.lconv1d.depthwise_conv1d.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.3.lconv1d.linear_end.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.3.lconv1d.linear_start.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.3.lconv1d.pre_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.3.norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.4.attention.attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.4.attention.attn.per_dim_scale": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.4.attention.attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.4.attention.attn.relative_position_embedding.pos_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.4.attention.attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.4.attention.post.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.4.attention.post_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.4.attention.pre_attn_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.4.ffw_layer_end.ffw_layer_1.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.4.ffw_layer_end.ffw_layer_2.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.4.ffw_layer_end.post_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.4.ffw_layer_end.pre_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.4.ffw_layer_start.ffw_layer_1.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.4.ffw_layer_start.ffw_layer_2.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.4.ffw_layer_start.post_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.4.ffw_layer_start.pre_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.4.lconv1d.conv_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.4.lconv1d.depthwise_conv1d.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.4.lconv1d.linear_end.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.4.lconv1d.linear_start.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.4.lconv1d.pre_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.4.norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.5.attention.attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.5.attention.attn.per_dim_scale": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.5.attention.attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.5.attention.attn.relative_position_embedding.pos_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.5.attention.attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.5.attention.post.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.5.attention.post_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.5.attention.pre_attn_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.5.ffw_layer_end.ffw_layer_1.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.5.ffw_layer_end.ffw_layer_2.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.5.ffw_layer_end.post_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.5.ffw_layer_end.pre_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.5.ffw_layer_start.ffw_layer_1.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.5.ffw_layer_start.ffw_layer_2.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.5.ffw_layer_start.post_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.5.ffw_layer_start.pre_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.5.lconv1d.conv_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.5.lconv1d.depthwise_conv1d.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.5.lconv1d.linear_end.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.5.lconv1d.linear_start.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.5.lconv1d.pre_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.5.norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.6.attention.attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.6.attention.attn.per_dim_scale": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.6.attention.attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.6.attention.attn.relative_position_embedding.pos_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.6.attention.attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.6.attention.post.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.6.attention.post_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.6.attention.pre_attn_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.6.ffw_layer_end.ffw_layer_1.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.6.ffw_layer_end.ffw_layer_2.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.6.ffw_layer_end.post_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.6.ffw_layer_end.pre_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.6.ffw_layer_start.ffw_layer_1.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.6.ffw_layer_start.ffw_layer_2.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.6.ffw_layer_start.post_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.6.ffw_layer_start.pre_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.6.lconv1d.conv_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.6.lconv1d.depthwise_conv1d.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.6.lconv1d.linear_end.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.6.lconv1d.linear_start.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.6.lconv1d.pre_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.6.norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.7.attention.attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.7.attention.attn.per_dim_scale": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.7.attention.attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.7.attention.attn.relative_position_embedding.pos_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.7.attention.attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.7.attention.post.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.7.attention.post_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.7.attention.pre_attn_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.7.ffw_layer_end.ffw_layer_1.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.7.ffw_layer_end.ffw_layer_2.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.7.ffw_layer_end.post_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.7.ffw_layer_end.pre_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.7.ffw_layer_start.ffw_layer_1.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.7.ffw_layer_start.ffw_layer_2.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.7.ffw_layer_start.post_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.7.ffw_layer_start.pre_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.7.lconv1d.conv_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.7.lconv1d.depthwise_conv1d.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.7.lconv1d.linear_end.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.7.lconv1d.linear_start.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.7.lconv1d.pre_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.7.norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.8.attention.attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.8.attention.attn.per_dim_scale": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.8.attention.attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.8.attention.attn.relative_position_embedding.pos_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.8.attention.attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.8.attention.post.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.8.attention.post_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.8.attention.pre_attn_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.8.ffw_layer_end.ffw_layer_1.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.8.ffw_layer_end.ffw_layer_2.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.8.ffw_layer_end.post_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.8.ffw_layer_end.pre_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.8.ffw_layer_start.ffw_layer_1.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.8.ffw_layer_start.ffw_layer_2.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.8.ffw_layer_start.post_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.8.ffw_layer_start.pre_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.8.lconv1d.conv_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.8.lconv1d.depthwise_conv1d.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.8.lconv1d.linear_end.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.8.lconv1d.linear_start.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.8.lconv1d.pre_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.8.norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.9.attention.attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.9.attention.attn.per_dim_scale": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.9.attention.attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.9.attention.attn.relative_position_embedding.pos_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.9.attention.attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.9.attention.post.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.9.attention.post_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.9.attention.pre_attn_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.9.ffw_layer_end.ffw_layer_1.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.9.ffw_layer_end.ffw_layer_2.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.9.ffw_layer_end.post_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.9.ffw_layer_end.pre_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.9.ffw_layer_start.ffw_layer_1.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.9.ffw_layer_start.ffw_layer_2.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.9.ffw_layer_start.post_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.9.ffw_layer_start.pre_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.9.lconv1d.conv_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.9.lconv1d.depthwise_conv1d.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.9.lconv1d.linear_end.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.9.lconv1d.linear_start.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.9.lconv1d.pre_layer_norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.conformer.9.norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.subsample_conv_projection.conv_0.conv.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.subsample_conv_projection.conv_0.norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.subsample_conv_projection.conv_1.conv.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.subsample_conv_projection.conv_1.norm.weight": "model-00002-of-00002.safetensors",
-    "model.audio_tower.subsample_conv_projection.input_proj_linear.weight": "model-00002-of-00002.safetensors",
-    "model.embed_audio.embedding.weight": "model-00002-of-00002.safetensors",
-    "model.embed_audio.embedding_projection.weight": "model-00002-of-00002.safetensors",
-    "model.embed_audio.hard_embedding_norm.weight": "model-00002-of-00002.safetensors",
-    "model.embed_audio.soft_embedding_norm.weight": "model-00002-of-00002.safetensors",
     "model.embed_vision.embedding.weight": "model-00002-of-00002.safetensors",
     "model.embed_vision.embedding_projection.weight": "model-00002-of-00002.safetensors",
     "model.embed_vision.hard_embedding_norm.weight": "model-00002-of-00002.safetensors",
@@ -299,36 +26,36 @@
     "model.language_model.layers.1.feed_forward.w3.weight": "model-00001-of-00002.safetensors",
     "model.language_model.layers.1.ffn_norm.weight": "model-00001-of-00002.safetensors",
     "model.language_model.layers.1.operator_norm.weight": "model-00001-of-00002.safetensors",
-    "model.language_model.layers.10.feed_forward.w1.weight": "model-00001-of-00002.safetensors",
-    "model.language_model.layers.10.feed_forward.w2.weight": "model-00001-of-00002.safetensors",
-    "model.language_model.layers.10.feed_forward.w3.weight": "model-00001-of-00002.safetensors",
-    "model.language_model.layers.10.ffn_norm.weight": "model-00001-of-00002.safetensors",
-    "model.language_model.layers.10.operator_norm.weight": "model-00001-of-00002.safetensors",
-    "model.language_model.layers.10.self_attn.k_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.language_model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.language_model.layers.10.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
-    "model.language_model.layers.10.self_attn.q_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.language_model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.language_model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.language_model.layers.11.conv.conv.weight": "model-00001-of-00002.safetensors",
-    "model.language_model.layers.11.conv.in_proj.weight": "model-00001-of-00002.safetensors",
-    "model.language_model.layers.11.conv.out_proj.weight": "model-00001-of-00002.safetensors",
-    "model.language_model.layers.11.feed_forward.w1.weight": "model-00001-of-00002.safetensors",
-    "model.language_model.layers.11.feed_forward.w2.weight": "model-00001-of-00002.safetensors",
-    "model.language_model.layers.11.feed_forward.w3.weight": "model-00001-of-00002.safetensors",
-    "model.language_model.layers.11.ffn_norm.weight": "model-00001-of-00002.safetensors",
-    "model.language_model.layers.11.operator_norm.weight": "model-00001-of-00002.safetensors",
-    "model.language_model.layers.12.feed_forward.w1.weight": "model-00001-of-00002.safetensors",
     "model.language_model.layers.12.feed_forward.w2.weight": "model-00002-of-00002.safetensors",
     "model.language_model.layers.12.feed_forward.w3.weight": "model-00002-of-00002.safetensors",
     "model.language_model.layers.12.ffn_norm.weight": "model-00002-of-00002.safetensors",
     "model.language_model.layers.12.operator_norm.weight": "model-00002-of-00002.safetensors",
-    "model.language_model.layers.12.self_attn.k_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.language_model.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.language_model.layers.12.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
-    "model.language_model.layers.12.self_attn.q_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.language_model.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.language_model.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
     "model.language_model.layers.13.conv.conv.weight": "model-00002-of-00002.safetensors",
     "model.language_model.layers.13.conv.in_proj.weight": "model-00002-of-00002.safetensors",
     "model.language_model.layers.13.conv.out_proj.weight": "model-00002-of-00002.safetensors",
@@ -411,24 +138,24 @@
     "model.language_model.layers.7.ffn_norm.weight": "model-00001-of-00002.safetensors",
     "model.language_model.layers.7.operator_norm.weight": "model-00001-of-00002.safetensors",
     "model.language_model.layers.8.feed_forward.w1.weight": "model-00001-of-00002.safetensors",
-    "model.language_model.layers.8.feed_forward.w2.weight": "model-00001-of-00002.safetensors",
     "model.language_model.layers.8.feed_forward.w3.weight": "model-00001-of-00002.safetensors",
-    "model.language_model.layers.8.ffn_norm.weight": "model-00001-of-00002.safetensors",
-    "model.language_model.layers.8.operator_norm.weight": "model-00001-of-00002.safetensors",
     "model.language_model.layers.8.self_attn.k_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.language_model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
     "model.language_model.layers.8.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
     "model.language_model.layers.8.self_attn.q_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.language_model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
     "model.language_model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.language_model.layers.9.conv.conv.weight": "model-00001-of-00002.safetensors",
-    "model.language_model.layers.9.conv.in_proj.weight": "model-00001-of-00002.safetensors",
-    "model.language_model.layers.9.conv.out_proj.weight": "model-00001-of-00002.safetensors",
-    "model.language_model.layers.9.feed_forward.w1.weight": "model-00001-of-00002.safetensors",
-    "model.language_model.layers.9.feed_forward.w2.weight": "model-00001-of-00002.safetensors",
-    "model.language_model.layers.9.feed_forward.w3.weight": "model-00001-of-00002.safetensors",
-    "model.language_model.layers.9.ffn_norm.weight": "model-00001-of-00002.safetensors",
-    "model.language_model.layers.9.operator_norm.weight": "model-00001-of-00002.safetensors",
     "model.vision_tower.timm_model.blocks.0.0.bn1.weight": "model-00001-of-00002.safetensors",
     "model.vision_tower.timm_model.blocks.0.0.bn2.weight": "model-00001-of-00002.safetensors",
     "model.vision_tower.timm_model.blocks.0.0.conv_exp.weight": "model-00001-of-00002.safetensors",

 {
   "metadata": {
+    "total_parameters": 1466607680,
+    "total_size": 2933215360
   },
   "weight_map": {
     "model.embed_vision.embedding.weight": "model-00002-of-00002.safetensors",
     "model.embed_vision.embedding_projection.weight": "model-00002-of-00002.safetensors",
     "model.embed_vision.hard_embedding_norm.weight": "model-00002-of-00002.safetensors",
     "model.language_model.layers.1.feed_forward.w3.weight": "model-00001-of-00002.safetensors",
     "model.language_model.layers.1.ffn_norm.weight": "model-00001-of-00002.safetensors",
     "model.language_model.layers.1.operator_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.10.feed_forward.w1.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.10.feed_forward.w2.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.10.feed_forward.w3.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.10.ffn_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.10.operator_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.10.self_attn.k_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.10.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.10.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.10.self_attn.q_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.10.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.10.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.11.conv.conv.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.11.conv.in_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.11.conv.out_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.11.feed_forward.w1.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.11.feed_forward.w2.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.11.feed_forward.w3.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.11.ffn_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.11.operator_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.12.feed_forward.w1.weight": "model-00002-of-00002.safetensors",
     "model.language_model.layers.12.feed_forward.w2.weight": "model-00002-of-00002.safetensors",
     "model.language_model.layers.12.feed_forward.w3.weight": "model-00002-of-00002.safetensors",
     "model.language_model.layers.12.ffn_norm.weight": "model-00002-of-00002.safetensors",
     "model.language_model.layers.12.operator_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.12.self_attn.k_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.12.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.12.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.12.self_attn.q_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.12.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.12.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
     "model.language_model.layers.13.conv.conv.weight": "model-00002-of-00002.safetensors",
     "model.language_model.layers.13.conv.in_proj.weight": "model-00002-of-00002.safetensors",
     "model.language_model.layers.13.conv.out_proj.weight": "model-00002-of-00002.safetensors",
     "model.language_model.layers.7.ffn_norm.weight": "model-00001-of-00002.safetensors",
     "model.language_model.layers.7.operator_norm.weight": "model-00001-of-00002.safetensors",
     "model.language_model.layers.8.feed_forward.w1.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.8.feed_forward.w2.weight": "model-00002-of-00002.safetensors",
     "model.language_model.layers.8.feed_forward.w3.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.8.ffn_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.8.operator_norm.weight": "model-00002-of-00002.safetensors",
     "model.language_model.layers.8.self_attn.k_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.language_model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
     "model.language_model.layers.8.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
     "model.language_model.layers.8.self_attn.q_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.language_model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
     "model.language_model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.9.conv.conv.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.9.conv.in_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.9.conv.out_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.9.feed_forward.w1.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.9.feed_forward.w2.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.9.feed_forward.w3.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.9.ffn_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.9.operator_norm.weight": "model-00002-of-00002.safetensors",
     "model.vision_tower.timm_model.blocks.0.0.bn1.weight": "model-00001-of-00002.safetensors",
     "model.vision_tower.timm_model.blocks.0.0.bn2.weight": "model-00001-of-00002.safetensors",
     "model.vision_tower.timm_model.blocks.0.0.conv_exp.weight": "model-00001-of-00002.safetensors",