saim1212
/

qwen2_2b_git

@@ -18,7 +18,7 @@
   "max_window_layers": 28,
   "model_type": "qwen2_vl",
   "num_attention_heads": 12,
-  "num_hidden_layers": 28,
   "num_key_value_heads": 2,
   "rms_norm_eps": 1e-06,
   "rope_theta": 1000000.0,

   "max_window_layers": 28,
   "model_type": "qwen2_vl",
   "num_attention_heads": 12,
+  "num_hidden_layers": 24,
   "num_key_value_heads": 2,
   "rms_norm_eps": 1e-06,
   "rope_theta": 1000000.0,

model.safetensors.index.json CHANGED Viewed

@@ -208,54 +208,6 @@
     "model.layers.23.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.23.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.23.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.24.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.24.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.24.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.24.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.24.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.24.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.24.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.24.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.24.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.24.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.24.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.24.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.25.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.25.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.25.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.25.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.25.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.25.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.25.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.25.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.25.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.25.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.25.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.25.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.26.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.26.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.26.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.26.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.26.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.26.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.26.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.26.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.26.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.26.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.26.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.26.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.27.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.27.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.27.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.27.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.27.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.27.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.27.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.27.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.27.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.27.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.27.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.27.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",

     "model.layers.23.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.23.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.23.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",