Use correct number of encoder tokens in attention metadata

russellb · russellb · commit de4d67325908 · 2025-08-30T19:03:23.000Z
Signed-off-by: Russell Bryant &lt;rbryant@redhat.com&gt;
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
@@ -911,7 +911,7 @@ def _dummy_blk_table_and_slot_mapping():
                                                           dtype=torch.int32,
                                                           device="cpu")
                 # NOTE - using max_encoder_len is whisper specific
-                total_num_scheduled_tokens_arg = self.max_encoder_len
+                total_num_scheduled_tokens_arg = num_encoder_tokens
                 max_num_scheduled_tokens_arg = self.max_encoder_len
                 max_seq_len_arg = self.max_encoder_len
             elif isinstance(kv_cache_group_spec.kv_cache_spec,