Switch CogVLM LLM graph to merged QKV tensor

Tianyue-Zhao · Tianyue-Zhao · commit e96923893b54 · 2025-08-10T19:46:55.000Z
diff --git a/convert_hf_to_gguf.py b/convert_hf_to_gguf.py
@@ -8342,15 +8342,6 @@ def modify_tensors(self, data_torch: Tensor, name: str, bid: int | None) -> Iter
         if name.startswith("model.vision."):
             return []
 
-        if "query_key_value.weight" in name:
-            # Slice tensor into three along first axis
-            q, k, v = data_torch.split(data_torch.shape[0] // 3, dim=0)
-            return [
-                (self.map_tensor_name(name.replace("query_key_value", "query")), q),
-                (self.map_tensor_name(name.replace("query_key_value", "key")), k),
-                (self.map_tensor_name(name.replace("query_key_value", "value")), v),
-            ]
-
         return [(self.map_tensor_name(name), data_torch)]
 
 ###### CONVERSION LOGIC ######
diff --git a/gguf-py/gguf/constants.py b/gguf-py/gguf/constants.py
@@ -562,9 +562,7 @@ class MODEL_TENSOR(IntEnum):
     SHORTCONV_CONV       = auto()
     SHORTCONV_INPROJ     = auto()
     SHORTCONV_OUTPROJ    = auto()
-    VISEXP_ATTN_Q        = auto()
-    VISEXP_ATTN_K        = auto()
-    VISEXP_ATTN_V        = auto()
+    VISEXP_ATTN_QKV      = auto()
     VISEXP_ATTN_OUT      = auto()
     VISEXP_GATE          = auto()
     VISEXP_DOWN          = auto()
@@ -908,9 +906,7 @@ class MODEL_TENSOR(IntEnum):
     MODEL_TENSOR.SHORTCONV_CONV:            "blk.{bid}.shortconv.conv",
     MODEL_TENSOR.SHORTCONV_INPROJ:          "blk.{bid}.shortconv.in_proj",
     MODEL_TENSOR.SHORTCONV_OUTPROJ:         "blk.{bid}.shortconv.out_proj",
-    MODEL_TENSOR.VISEXP_ATTN_Q:             "blk.{bid}.vis_attn_q",
-    MODEL_TENSOR.VISEXP_ATTN_K:             "blk.{bid}.vis_attn_k",
-    MODEL_TENSOR.VISEXP_ATTN_V:             "blk.{bid}.vis_attn_v",
+    MODEL_TENSOR.VISEXP_ATTN_QKV:           "blk.{bid}.vis_attn_qkv",
     MODEL_TENSOR.VISEXP_ATTN_OUT:           "blk.{bid}.vis_attn_output",
     MODEL_TENSOR.VISEXP_GATE:               "blk.{bid}.vis_gate",
     MODEL_TENSOR.VISEXP_DOWN:               "blk.{bid}.vis_down",
@@ -2649,17 +2645,13 @@ class MODEL_TENSOR(IntEnum):
         MODEL_TENSOR.OUTPUT_NORM,
         MODEL_TENSOR.OUTPUT,
         MODEL_TENSOR.ATTN_NORM,
-        MODEL_TENSOR.ATTN_Q,
-        MODEL_TENSOR.ATTN_K,
-        MODEL_TENSOR.ATTN_V,
+        MODEL_TENSOR.ATTN_QKV,
         MODEL_TENSOR.ATTN_OUT,
         MODEL_TENSOR.FFN_NORM,
         MODEL_TENSOR.FFN_GATE,
         MODEL_TENSOR.FFN_DOWN,
         MODEL_TENSOR.FFN_UP,
-        MODEL_TENSOR.VISEXP_ATTN_Q,
-        MODEL_TENSOR.VISEXP_ATTN_K,
-        MODEL_TENSOR.VISEXP_ATTN_V,
+        MODEL_TENSOR.VISEXP_ATTN_QKV,
         MODEL_TENSOR.VISEXP_ATTN_OUT,
         MODEL_TENSOR.VISEXP_GATE,
         MODEL_TENSOR.VISEXP_UP,
diff --git a/gguf-py/gguf/tensor_mapping.py b/gguf-py/gguf/tensor_mapping.py
@@ -176,6 +176,7 @@ class TensorNameMap:
             "encoder.layers.{bid}.self_attention.query_key_value",                 # chatglm
             "transformer.layers.{bid}.attn.qkv_proj",                              # openelm
             "transformer_encoder.{bid}.qkv",                                       # neobert
+            "model.layers.{bid}.self_attn.language_expert_query_key_value",        # cogvlm
         ),
 
         # Attention query
@@ -193,7 +194,6 @@ class TensorNameMap:
             "model.layers.{bid}.self_attn.q_proj",                       # llama4
             "model.transformer.blocks.{bid}.q_proj",                     # llada
             "layers.{bid}.self_attn.q_proj",                             # qwen3-embedding
-            "model.layers.{bid}.self_attn.language_expert_query",        # cogvlm
         ),
 
         # Attention key
@@ -212,7 +212,6 @@ class TensorNameMap:
             "model.layers.{bid}.self_attn.k_proj",                     # llama4
             "model.transformer.blocks.{bid}.k_proj",                   # llada
             "layers.{bid}.self_attn.k_proj",                           # qwen3-embedding
-            "model.layers.{bid}.self_attn.language_expert_key",        # cogvlm
         ),
 
         # Attention value
@@ -230,7 +229,6 @@ class TensorNameMap:
             "model.layers.{bid}.self_attn.v_proj",                       # llama4
             "model.transformer.blocks.{bid}.v_proj",                     # llada
             "layers.{bid}.self_attn.v_proj",                             # qwen3-embedding
-            "model.layers.{bid}.self_attn.language_expert_value",        # cogvlm
         ),
 
         # Attention output
@@ -1020,16 +1018,8 @@ class TensorNameMap:
             "model.layers.{bid}.self_attn.vision_expert_dense",  # cogvlm
         ),
 
-        MODEL_TENSOR.VISEXP_ATTN_Q: (
-            "model.layers.{bid}.self_attn.vision_expert_query",  # cogvlm
-        ),
-
-        MODEL_TENSOR.VISEXP_ATTN_K: (
-            "model.layers.{bid}.self_attn.vision_expert_key",  # cogvlm
-        ),
-
-        MODEL_TENSOR.VISEXP_ATTN_V: (
-            "model.layers.{bid}.self_attn.vision_expert_value",  # cogvlm
+        MODEL_TENSOR.VISEXP_ATTN_QKV: (
+            "model.layers.{bid}.self_attn.vision_expert_query_key_value",  # cogvlm
         ),
 
         ############################################################################
diff --git a/src/llama-arch.cpp b/src/llama-arch.cpp
@@ -2075,17 +2075,13 @@ static const std::map<llm_arch, std::map<llm_tensor, const char *>> LLM_TENSOR_N
             { LLM_TENSOR_OUTPUT_NORM,     "output_norm" },
             { LLM_TENSOR_OUTPUT,          "output" },
             { LLM_TENSOR_ATTN_NORM,       "blk.%d.attn_norm" },
-            { LLM_TENSOR_ATTN_Q,          "blk.%d.attn_q" },
-            { LLM_TENSOR_ATTN_K,          "blk.%d.attn_k" },
-            { LLM_TENSOR_ATTN_V,          "blk.%d.attn_v" },
+            { LLM_TENSOR_ATTN_QKV,        "blk.%d.attn_qkv" },
             { LLM_TENSOR_ATTN_OUT,        "blk.%d.attn_output" },
             { LLM_TENSOR_FFN_NORM,        "blk.%d.ffn_norm" },
             { LLM_TENSOR_FFN_GATE,        "blk.%d.ffn_gate" },
             { LLM_TENSOR_FFN_DOWN,        "blk.%d.ffn_down" },
             { LLM_TENSOR_FFN_UP,          "blk.%d.ffn_up" },
-            { LLM_TENSOR_VISEXP_ATTN_WQ,   "blk.%d.vis_attn_q" },
-            { LLM_TENSOR_VISEXP_ATTN_WK,   "blk.%d.vis_attn_k" },
-            { LLM_TENSOR_VISEXP_ATTN_WV,   "blk.%d.vis_attn_v" },
+            { LLM_TENSOR_VISEXP_ATTN_QKV, "blk.%d.vis_attn_qkv" },
             { LLM_TENSOR_VISEXP_ATTN_OUT, "blk.%d.vis_attn_output" },
             { LLM_TENSOR_VISEXP_FFN_GATE,     "blk.%d.vis_gate" },
             { LLM_TENSOR_VISEXP_FFN_DOWN,     "blk.%d.vis_down" },
@@ -2263,9 +2259,7 @@ static const std::map<llm_tensor, llm_tensor_info> LLM_TENSOR_INFOS = {
     {LLM_TENSOR_SHORTCONV_CONV,             {LLM_TENSOR_LAYER_REPEATING, GGML_OP_SSM_CONV}},
     {LLM_TENSOR_SHORTCONV_INPROJ,           {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL_MAT}},
     {LLM_TENSOR_SHORTCONV_OUTPROJ,          {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL_MAT}},
-    {LLM_TENSOR_VISEXP_ATTN_WQ,             {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL_MAT}},
-    {LLM_TENSOR_VISEXP_ATTN_WK,             {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL_MAT}},
-    {LLM_TENSOR_VISEXP_ATTN_WV,             {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL_MAT}},
+    {LLM_TENSOR_VISEXP_ATTN_QKV,            {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL_MAT}},
     {LLM_TENSOR_VISEXP_ATTN_OUT,            {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL_MAT}},
     {LLM_TENSOR_VISEXP_FFN_GATE,            {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL_MAT}},
     {LLM_TENSOR_VISEXP_FFN_DOWN,            {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL_MAT}},
diff --git a/src/llama-arch.h b/src/llama-arch.h
@@ -414,9 +414,7 @@ enum llm_tensor {
     LLM_TENSOR_SHORTCONV_CONV,
     LLM_TENSOR_SHORTCONV_INPROJ,
     LLM_TENSOR_SHORTCONV_OUTPROJ,
-    LLM_TENSOR_VISEXP_ATTN_WQ,
-    LLM_TENSOR_VISEXP_ATTN_WK,
-    LLM_TENSOR_VISEXP_ATTN_WV,
+    LLM_TENSOR_VISEXP_ATTN_QKV,
     LLM_TENSOR_VISEXP_ATTN_OUT,
     LLM_TENSOR_VISEXP_FFN_GATE,
     LLM_TENSOR_VISEXP_FFN_DOWN,
diff --git a/src/llama-model.cpp b/src/llama-model.cpp
@@ -5560,14 +5560,10 @@ bool llama_model::load_tensors(llama_model_loader & ml) {
                         auto & layer = layers[i];
 
                         layer.attn_norm = create_tensor(tn(LLM_TENSOR_ATTN_NORM, "weight", i), {n_embd}, 0);
-                        layer.wq = create_tensor(tn(LLM_TENSOR_ATTN_Q,   "weight", i), {n_embd, n_embd_head_k * n_head}, 0);
-                        layer.wk = create_tensor(tn(LLM_TENSOR_ATTN_K,   "weight", i), {n_embd, n_embd_head_k * n_head}, 0);
-                        layer.wv = create_tensor(tn(LLM_TENSOR_ATTN_V,   "weight", i), {n_embd, n_embd_head_k * n_head}, 0);
+                        layer.wqkv = create_tensor(tn(LLM_TENSOR_ATTN_QKV, "weight", i), {n_embd, n_embd_head_k * n_head * 3}, 0);
                         layer.wo = create_tensor(tn(LLM_TENSOR_ATTN_OUT, "weight", i), {n_embd_head_k * n_head, n_embd}, 0);
 
-                        layer.visexp_attn_wq = create_tensor(tn(LLM_TENSOR_VISEXP_ATTN_WQ, "weight", i), {n_embd, n_embd_head_k * n_head}, 0);
-                        layer.visexp_attn_wk = create_tensor(tn(LLM_TENSOR_VISEXP_ATTN_WK, "weight", i), {n_embd, n_embd_head_k * n_head}, 0);
-                        layer.visexp_attn_wv = create_tensor(tn(LLM_TENSOR_VISEXP_ATTN_WV, "weight", i), {n_embd, n_embd_head_k * n_head}, 0);
+                        layer.visexp_attn_wqkv = create_tensor(tn(LLM_TENSOR_VISEXP_ATTN_QKV, "weight", i), {n_embd, n_embd_head_k * n_head * 3}, 0);
                         layer.visexp_attn_wo = create_tensor(tn(LLM_TENSOR_VISEXP_ATTN_OUT, "weight", i), {n_embd_head_k * n_head, n_embd}, 0);
 
                         layer.rope_freqs = create_tensor(tn(LLM_TENSOR_ROPE_FREQS, "weight", i), {n_rot/2}, TENSOR_NOT_REQUIRED | (i != 0 ? TENSOR_DUPLICATED : 0));
@@ -18107,21 +18103,17 @@ struct llm_build_cogvlm : public llm_graph_context {
 
         for (int il = 0; il < n_layer; ++il) {
             // get either the text or image weight tensors
-            ggml_tensor * wq, * wk, * wv, * wo;
+            ggml_tensor * wqkv, * wo;
             ggml_tensor * ffn_gate, * ffn_down, * ffn_up;
 
             if (is_text) {
-                wq = model.layers[il].wq;
-                wk = model.layers[il].wk;
-                wv = model.layers[il].wv;
+                wqkv = model.layers[il].wqkv;
                 wo = model.layers[il].wo;
                 ffn_gate = model.layers[il].ffn_gate;
                 ffn_down = model.layers[il].ffn_down;
                 ffn_up = model.layers[il].ffn_up;
             } else {
-                wq = model.layers[il].visexp_attn_wq;
-                wk = model.layers[il].visexp_attn_wk;
-                wv = model.layers[il].visexp_attn_wv;
+                wqkv = model.layers[il].visexp_attn_wqkv;
                 wo = model.layers[il].visexp_attn_wo;
                 ffn_gate = model.layers[il].visexp_ffn_gate;
                 ffn_down = model.layers[il].visexp_ffn_down;
@@ -18133,17 +18125,16 @@ struct llm_build_cogvlm : public llm_graph_context {
 
             // build self attention
             {
-                ggml_tensor * Qcur = build_lora_mm(wq, cur);
-                cb(Qcur, "Qcur", il);
+                ggml_tensor * qkv = build_lora_mm(wqkv, cur);
 
-                ggml_tensor * Kcur = build_lora_mm(wk, cur);
-                cb(Kcur, "Kcur", il);
+                // split qkv into Q, K, V along the first dimension
+                ggml_tensor * Qcur = ggml_view_3d(ctx0, qkv, n_embd_head, n_head, n_tokens, n_embd_head * sizeof(float),
+                    qkv->nb[1], 0);
+                ggml_tensor * Kcur = ggml_view_3d(ctx0, qkv, n_embd_head, n_head_kv, n_tokens, n_embd_head * sizeof(float),
+                    qkv->nb[1], n_embd * ggml_element_size(qkv));
+                ggml_tensor * Vcur = ggml_cont(ctx0, ggml_view_2d(ctx0, qkv, n_embd, n_tokens,
+                    qkv->nb[1], 2 * n_embd * ggml_element_size(qkv)));
 
-                ggml_tensor * Vcur = build_lora_mm(wv, cur);
-                cb(Vcur, "Vcur", il);
-
-                Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
-                Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
                 Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
 
                 // TODO: Check Rope because this might not be the same as cogvlm
diff --git a/src/llama-model.h b/src/llama-model.h
@@ -368,9 +368,7 @@ struct llama_layer {
     struct ggml_tensor * attn_sinks = nullptr;
 
     // cogvlm
-    struct ggml_tensor * visexp_attn_wq = nullptr;
-    struct ggml_tensor * visexp_attn_wk = nullptr;
-    struct ggml_tensor * visexp_attn_wv = nullptr;
+    struct ggml_tensor * visexp_attn_wqkv = nullptr;
     struct ggml_tensor * visexp_attn_wo = nullptr;
     struct ggml_tensor * visexp_ffn_gate = nullptr;
     struct ggml_tensor * visexp_ffn_down = nullptr;