vllm-project · adabeyta · Oct 17, 2025 · Oct 21, 2025 · Oct 21, 2025 · Oct 21, 2025
diff --git a/vllm/v1/attention/backends/utils.py b/vllm/v1/attention/backends/utils.py
@@ -94,6 +94,8 @@ class CommonAttentionMetadata:
     dcp_local_seq_lens: torch.Tensor | None = None
     """Sequence lengths of the local rank in decode context parallelism world"""
 
+    enable_kv_scales_calculation: bool = False
+
 
 def slice_query_start_locs(
     query_start_loc: torch.Tensor,

diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
@@ -249,6 +249,8 @@ def __init__(
         # This will be overridden in load_model()
         self.is_multimodal_pruning_enabled = False
         self.max_model_len = model_config.max_model_len
+
+        self.kv_scales_calculated = False
-        self.kv_scales_calculated = False
+        # Always set to false after the first forward pass
+        self.calculate_kv_scales = self.cache_config.calculate_kv_scales
-        self.kv_scales_calculated = False
+        # Always set to false after the first forward pass
+        self.calculate_kv_scales = self.cache_config.calculate_kv_scales
         self.dcp_world_size = self.parallel_config.decode_context_parallel_size
         self.max_num_tokens = scheduler_config.max_num_batched_tokens
         self.max_num_reqs = scheduler_config.max_num_seqs
@@ -1328,6 +1330,12 @@ def _prepare_inputs(
                     kv_cache_group_id
                 ]
 
+            # Determine if we need to calculate KV scales on this forward pass.
+            # Only True on the first pass when calculate_kv_scales is enabled.
+            enable_kv_scales_calculation = (
+                self.cache_config.calculate_kv_scales
+                and not self.kv_scales_calculated)
-            # Determine if we need to calculate KV scales on this forward pass.
-            # Only True on the first pass when calculate_kv_scales is enabled.
-            enable_kv_scales_calculation = (
-                self.cache_config.calculate_kv_scales
-                and not self.kv_scales_calculated)
-            # Determine if we need to calculate KV scales on this forward pass.
-            # Only True on the first pass when calculate_kv_scales is enabled.
-            enable_kv_scales_calculation = (
-                self.cache_config.calculate_kv_scales
-                and not self.kv_scales_calculated)
+
             common_attn_metadata = CommonAttentionMetadata(
                 query_start_loc=query_start_loc,
                 query_start_loc_cpu=query_start_loc_cpu,
@@ -1347,6 +1355,7 @@ def _prepare_inputs(
                 dcp_local_seq_lens=self.dcp_local_seq_lens.gpu[:num_reqs]
                 if self.dcp_world_size > 1
                 else None,
+                enable_kv_scales_calculation=enable_kv_scales_calculation,
-                enable_kv_scales_calculation=enable_kv_scales_calculation,
+                enable_kv_scales_calculation=self.calculate_kv_scales,
-                enable_kv_scales_calculation=enable_kv_scales_calculation,
+                enable_kv_scales_calculation=self.calculate_kv_scales,
             )
 
             if self.speculative_config and spec_decode_common_attn_metadata is None:
@@ -2525,6 +2534,11 @@ def execute_model(
                 **model_kwargs,
             )
 
+            # Mark KV scales as calculated after the first forward pass
+            if (self.cache_config.calculate_kv_scales
+                    and not self.kv_scales_calculated):
+                self.kv_scales_calculated = True
-            if (self.cache_config.calculate_kv_scales
-                    and not self.kv_scales_calculated):
-                self.kv_scales_calculated = True
+            self.calculate_kv_scales = False
-            if (self.cache_config.calculate_kv_scales
-                    and not self.kv_scales_calculated):
-                self.kv_scales_calculated = True
+            self.calculate_kv_scales = False
+
         with record_function_or_nullcontext("Postprocess"):
             if self.use_aux_hidden_state_outputs:
                 # True when EAGLE 3 is used.