Switch CogVLM CLIP to use merged QKV

Tianyue-Zhao · Tianyue-Zhao · commit ac3992dd4da6 · 2025-08-10T21:00:19.000Z
diff --git a/convert_hf_to_gguf.py b/convert_hf_to_gguf.py
@@ -8319,15 +8319,6 @@ def modify_tensors(self, data_torch: Tensor, name: str, bid: int | None) -> Iter
         if not name.startswith("model.vision."):
             return []
 
-        if "query_key_value" in name:
-            # Split tensor into three along first axis
-            q, k, v = data_torch.split(data_torch.shape[0] // 3, dim=0)
-            return [
-                (self.map_tensor_name(name.replace("query_key_value", "query")), q),
-                (self.map_tensor_name(name.replace("query_key_value", "key")), k),
-                (self.map_tensor_name(name.replace("query_key_value", "value")), v),
-            ]
-
         return [(self.map_tensor_name(name), data_torch)]
 
 
diff --git a/gguf-py/gguf/constants.py b/gguf-py/gguf/constants.py
@@ -576,6 +576,7 @@ class MODEL_TENSOR(IntEnum):
     V_ENC_EMBD_PATCH     = auto()
     V_ENC_EMBD_POS       = auto()
     V_ENC_INPUT_NORM     = auto()
+    V_ENC_ATTN_QKV       = auto()
     V_ENC_ATTN_Q         = auto()
     V_ENC_ATTN_Q_NORM    = auto()
     V_ENC_ATTN_K         = auto()
@@ -919,6 +920,7 @@ class MODEL_TENSOR(IntEnum):
     MODEL_TENSOR.V_ENC_EMBD_CLS:            "v.class_embd",
     MODEL_TENSOR.V_ENC_EMBD_PATCH:          "v.patch_embd",
     MODEL_TENSOR.V_ENC_EMBD_POS:            "v.position_embd",
+    MODEL_TENSOR.V_ENC_ATTN_QKV:            "v.blk.{bid}.attn_qkv",
     MODEL_TENSOR.V_ENC_ATTN_Q:              "v.blk.{bid}.attn_q",
     MODEL_TENSOR.V_ENC_ATTN_Q_NORM:         "v.blk.{bid}.attn_q_norm",
     MODEL_TENSOR.V_ENC_ATTN_K:              "v.blk.{bid}.attn_k",
@@ -994,6 +996,7 @@ class MODEL_TENSOR(IntEnum):
         MODEL_TENSOR.V_ENC_EMBD_PATCH,
         MODEL_TENSOR.V_ENC_EMBD_POS,
         MODEL_TENSOR.V_ENC_INPUT_NORM,
+        MODEL_TENSOR.V_ENC_ATTN_QKV,
         MODEL_TENSOR.V_ENC_ATTN_Q,
         MODEL_TENSOR.V_ENC_ATTN_Q_NORM,
         MODEL_TENSOR.V_ENC_ATTN_K,
diff --git a/gguf-py/gguf/tensor_mapping.py b/gguf-py/gguf/tensor_mapping.py
@@ -1163,6 +1163,10 @@ class TensorNameMap:
             "model.vision.patch_embedding.position_embedding", # cogvlm
         ),
 
+        MODEL_TENSOR.V_ENC_ATTN_QKV: (
+            "model.vision.transformer.layers.{bid}.attention.query_key_value", # cogvlm
+        ),
+
         MODEL_TENSOR.V_ENC_ATTN_Q: (
             "vision_tower.vision_model.encoder.layers.{bid}.self_attn.q_proj",
             "model.vision_tower.encoder.layer.{bid}.attention.q_proj", # Intern-S1
@@ -1171,7 +1175,6 @@ class TensorNameMap:
             "vision_model.model.layers.{bid}.self_attn.q_proj", # llama4
             "vision_tower.transformer.layers.{bid}.attention.q_proj", # pixtral
             "visual.blocks.{bid}.attn.q", # qwen2vl, generated
-            "model.vision.transformer.layers.{bid}.attention.query", # cogvlm
         ),
 
         MODEL_TENSOR.V_ENC_ATTN_Q_NORM: (
@@ -1187,7 +1190,6 @@ class TensorNameMap:
             "vision_model.model.layers.{bid}.self_attn.k_proj", # llama4
             "vision_tower.transformer.layers.{bid}.attention.k_proj", # pixtral
             "visual.blocks.{bid}.attn.k", # qwen2vl, generated
-            "model.vision.transformer.layers.{bid}.attention.key", # cogvlm
         ),
 
         MODEL_TENSOR.V_ENC_ATTN_K_NORM: (
@@ -1203,7 +1205,6 @@ class TensorNameMap:
             "vision_model.model.layers.{bid}.self_attn.v_proj", # llama4
             "vision_tower.transformer.layers.{bid}.attention.v_proj", # pixtral
             "visual.blocks.{bid}.attn.v", # qwen2vl, generated
-            "model.vision.transformer.layers.{bid}.attention.value", # cogvlm
         ),
 
         MODEL_TENSOR.V_ENC_INPUT_NORM: (
diff --git a/tools/mtmd/clip-impl.h b/tools/mtmd/clip-impl.h
@@ -59,6 +59,7 @@
 #define TN_PATCH_EMBD      "v.patch_embd.weight"  // not rename tensor with ".0" postfix for backwrad compat
 #define TN_PATCH_EMBD_1    "v.patch_embd.weight.1"
 #define TN_PATCH_BIAS      "v.patch_embd.bias"
+#define TN_ATTN_QKV        "%s.blk.%d.attn_qkv.%s"
 #define TN_ATTN_K          "%s.blk.%d.attn_k.%s"
 #define TN_ATTN_Q          "%s.blk.%d.attn_q.%s"
 #define TN_ATTN_V          "%s.blk.%d.attn_v.%s"
diff --git a/tools/mtmd/clip.cpp b/tools/mtmd/clip.cpp
@@ -211,6 +211,8 @@ struct clip_layer {
     ggml_tensor * q_b = nullptr;
     ggml_tensor * v_w = nullptr;
     ggml_tensor * v_b = nullptr;
+    ggml_tensor * qkv_w = nullptr;
+    ggml_tensor * qkv_b = nullptr;
 
     ggml_tensor * o_w = nullptr;
     ggml_tensor * o_b = nullptr;
@@ -1576,18 +1578,65 @@ struct clip_graph {
         ggml_tensor * inp = build_inp();
         inp = ggml_concat(ctx0, inp, model.class_embedding, 1);
 
-        // build ViT transformer
-        ggml_tensor * cur = build_vit(
-                                inp, n_pos,
-                                NORM_TYPE_NORMAL,
-                                hparams.ffn_op,
-                                model.position_embeddings,
-                                nullptr);
+        inp = ggml_add(ctx0, inp, model.position_embeddings);
+        cb(inp, "inp_pos", -1);
+
+        ggml_tensor * inpL = inp;
+
+        for (int il = 0; il < n_layer; il++) {
+            auto & layer = model.layers[il];
+            ggml_tensor * cur = inpL;
+
+            cur = ggml_mul_mat(ctx0, layer.qkv_w, cur);
+
+            cur = ggml_add(ctx0, cur, layer.qkv_b);
+
+            ggml_tensor * Qcur = ggml_cont(ctx0, ggml_view_2d(ctx0, cur, n_embd, n_pos,
+                cur->nb[1], 0));
+            ggml_tensor * Kcur = ggml_cont(ctx0, ggml_view_2d(ctx0, cur, n_embd, n_pos,
+                cur->nb[1], n_embd * sizeof(float)));
+            ggml_tensor * Vcur = ggml_cont(ctx0, ggml_view_2d(ctx0, cur, n_embd, n_pos,
+                cur->nb[1], 2 * n_embd * sizeof(float)));
+
+            Qcur = ggml_reshape_3d(ctx0, Qcur, d_head, n_head, n_pos);
+            Kcur = ggml_reshape_3d(ctx0, Kcur, d_head, n_head, n_pos);
+            Vcur = ggml_reshape_3d(ctx0, Vcur, d_head, n_head, n_pos);
+
+            cb(Qcur, "Qcur", il);
+            cb(Kcur, "Kcur", il);
+            cb(Vcur, "Vcur", il);
+
+            cur = build_attn(layer.o_w, layer.o_b,
+                Qcur, Kcur, Vcur, nullptr, kq_scale, il);
+            cb(cur, "attn_out", il);
+
+            cur = build_norm(cur, layer.ln_1_w, layer.ln_1_b, NORM_TYPE_NORMAL, eps, il);
+            cb(cur, "attn_post_norm", il);
+
+            cur = ggml_add(ctx0, cur, inpL);
+            inpL = cur;
+
+            cur = build_ffn(cur,
+                layer.ff_up_w, layer.ff_up_b,
+                layer.ff_gate_w, layer.ff_gate_b,
+                layer.ff_down_w, layer.ff_down_b,
+                hparams.ffn_op, il);
+
+            cb(cur, "ffn_out", il);
+
+            cur = build_norm(cur, layer.ln_2_w, layer.ln_2_b, NORM_TYPE_NORMAL, eps, il);
+            cb(cur, "ffn_post_norm", il);
+
+            cur = ggml_add(ctx0, cur, inpL);
+            cb(cur, "layer_out", il);
+            inpL = cur;
+
+        }
 
         // remove CLS token (like build_llama4 does)
-        cur = ggml_view_2d(ctx0, cur,
+        ggml_tensor * cur = ggml_view_2d(ctx0, inpL,
             n_embd, n_patches,
-            ggml_row_size(cur->type, n_embd), 0);
+            ggml_row_size(inpL->type, n_embd), 0);
 
         // Multiply with mm_model_proj
         cur = ggml_mul_mat(ctx0, model.mm_model_proj, cur);
@@ -1665,14 +1714,9 @@ struct clip_graph {
             auto & layer = model.layers[il];
             ggml_tensor * cur = inpL; // inpL = residual, cur = hidden_states
 
-            // Check if this is COGVLM projector type for post-norm layernorm order
-            const bool is_cogvlm = ctx->proj_type() == PROJECTOR_TYPE_COGVLM;
-
-            // layernorm1 (only for non-COGVLM)
-            if (!is_cogvlm) {
-                cur = build_norm(cur, layer.ln_1_w, layer.ln_1_b, norm_t, eps, il);
-                cb(cur, "layer_inp_normed", il);
-            }
+            // layernorm1
+            cur = build_norm(cur, layer.ln_1_w, layer.ln_1_b, norm_t, eps, il);
+            cb(cur, "layer_inp_normed", il);
 
             // self-attention
             {
@@ -1726,24 +1770,16 @@ struct clip_graph {
                 cb(cur, "attn_out_scaled", il);
             }
 
-            // Apply layernorm AFTER attention for COGVLM (post-norm)
-            if (is_cogvlm) {
-                cur = build_norm(cur, layer.ln_1_w, layer.ln_1_b, norm_t, eps, il);
-                cb(cur, "attn_post_norm", il);
-            }
-
             // re-add the layer input, e.g., residual
             cur = ggml_add(ctx0, cur, inpL);
 
             inpL = cur; // inpL = residual, cur = hidden_states
 
             cb(cur, "ffn_inp", il);
 
-            // layernorm2 (only for non-COGVLM)
-            if (!is_cogvlm) {
-                cur = build_norm(cur, layer.ln_2_w, layer.ln_2_b, norm_t, eps, il);
-                cb(cur, "ffn_inp_normed", il);
-            }
+            // layernorm2
+            cur = build_norm(cur, layer.ln_2_w, layer.ln_2_b, norm_t, eps, il);
+            cb(cur, "ffn_inp_normed", il);
 
             // ffn
             cur = build_ffn(cur,
@@ -1759,12 +1795,6 @@ struct clip_graph {
                 cb(cur, "ffn_out_scaled", il);
             }
 
-            // Apply layernorm AFTER MLP for COGVLM (post-norm)
-            if (is_cogvlm) {
-                cur = build_norm(cur, layer.ln_2_w, layer.ln_2_b, norm_t, eps, il);
-                cb(cur, "ffn_post_norm", il);
-            }
-
             // residual 2
             cur = ggml_add(ctx0, inpL, cur);
             cb(cur, "layer_out", il);
@@ -2466,10 +2496,11 @@ struct clip_model_loader {
         model.layers.resize(hparams.n_layer);
         for (int il = 0; il < hparams.n_layer; ++il) {
             auto & layer = model.layers[il];
-            layer.k_w    = get_tensor(string_format(TN_ATTN_K,      prefix, il, "weight"));
-            layer.q_w    = get_tensor(string_format(TN_ATTN_Q,      prefix, il, "weight"));
-            layer.v_w    = get_tensor(string_format(TN_ATTN_V,      prefix, il, "weight"));
+            layer.k_w    = get_tensor(string_format(TN_ATTN_K,      prefix, il, "weight"), false);
+            layer.q_w    = get_tensor(string_format(TN_ATTN_Q,      prefix, il, "weight"), false);
+            layer.v_w    = get_tensor(string_format(TN_ATTN_V,      prefix, il, "weight"), false);
             layer.o_w    = get_tensor(string_format(TN_ATTN_OUTPUT, prefix, il, "weight"));
+            layer.qkv_w  = get_tensor(string_format(TN_ATTN_QKV,    prefix, il, "weight"), false);
             layer.k_norm = get_tensor(string_format(TN_ATTN_K_NORM, prefix, il, "weight"), false);
             layer.q_norm = get_tensor(string_format(TN_ATTN_Q_NORM, prefix, il, "weight"), false);
             layer.ln_1_w = get_tensor(string_format(TN_LN_1,        prefix, il, "weight"), false);
@@ -2481,6 +2512,7 @@ struct clip_model_loader {
             layer.q_b    = get_tensor(string_format(TN_ATTN_Q,      prefix, il, "bias"), false);
             layer.v_b    = get_tensor(string_format(TN_ATTN_V,      prefix, il, "bias"), false);
             layer.o_b    = get_tensor(string_format(TN_ATTN_OUTPUT, prefix, il, "bias"), false);
+            layer.qkv_b  = get_tensor(string_format(TN_ATTN_QKV,    prefix, il, "bias"), false);
             layer.ln_1_b = get_tensor(string_format(TN_LN_1,        prefix, il, "bias"), false);
             layer.ln_2_b = get_tensor(string_format(TN_LN_2,        prefix, il, "bias"), false);