huggingface
diff --git a/‎src/transformers/generation/continuous_batching.py
Lines changed: 2 additions & 1 deletion b/‎src/transformers/generation/continuous_batching.py
Lines changed: 2 additions & 1 deletion
diff --git a/‎src/transformers/generation/utils.py
Lines changed: 18 additions & 0 deletions b/‎src/transformers/generation/utils.py
Lines changed: 18 additions & 0 deletions
diff --git a/‎src/transformers/integrations/flash_attention.py
Lines changed: 1 addition & 1 deletion b/‎src/transformers/integrations/flash_attention.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎src/transformers/integrations/flash_paged.py
Lines changed: 8 additions & 5 deletions b/‎src/transformers/integrations/flash_paged.py
Lines changed: 8 additions & 5 deletions
@@ -1119,7 +1119,8 @@ def __init__(
         self._request_lock = threading.Lock()
         self.model.generation_config.top_p = None
         self.do_sample = getattr(generation_config, "do_sample", True)
-        self.logit_processor = self.model._get_logits_processor(self.model.generation_config)
+        generation_config = model.generation_config if generation_config is None else generation_config
+        self.logit_processor = self.model._get_logits_processor(generation_config)
         self.use_cuda_graph = getattr(generation_config, "use_cuda_graph", True)
         self.profile = getattr(generation_config, "profile", False)
         self.manual_eviction = manual_eviction
 
@@ -677,6 +677,24 @@ def prepare_inputs_for_generation(
         if encoder_attention_mask is not None:
             model_inputs["attention_mask"] = encoder_attention_mask
 
+        if "flash" in self.config._attn_implementation and self._supports_attention_backend:
+            tensor_kws = {"dtype": torch.int32, "device": self.device}
+            pos = model_inputs["position_ids"][:, -1]
+
+            cu_seq_lens_k = torch.cat([torch.zeros(1, **tensor_kws), pos.cumsum(0).add(1)], 0)
+            max_length_k = int(pos.max()) + 1
+
+            bs, seq_len = input_ids.size()
+            q_len = torch.ones(bs, **tensor_kws) if seq_len == 1 else pos.to(torch.int32).add(1)
+            cu_seq_lens_q = torch.cat([torch.zeros(1, **tensor_kws), q_len.cumsum(0)], 0)
+            max_length_q = int(q_len.max())
+
+            model_inputs.update(
+                cu_seq_lens_q=cu_seq_lens_q.to(self.device),
+                cu_seq_lens_k=cu_seq_lens_k.to(self.device),
+                max_length_q=max_length_q,
+                max_length_k=max_length_k,
+            )
         # 7. Forward ALL kwargs that are uninitialized (e.g. `use_cache`).
         for key, value in kwargs.items():
             if key not in model_inputs:
 
@@ -38,7 +38,6 @@ def flash_attention_forward(
             "FlashAttention does not support inputs with dim=0.\n"
             "Please check your input shapes or use SDPA instead."
         )
-
     # FA2 uses non-transposed inputs
     query = query.transpose(1, 2)
     key = key.transpose(1, 2)
@@ -76,6 +75,7 @@ def flash_attention_forward(
         use_top_left_mask=_use_top_left_mask,
         target_dtype=target_dtype,
         attn_implementation=module.config._attn_implementation,
+        layer_idx=module.layer_idx if hasattr(module, "layer_idx") else None,
         **kwargs,
     )
 
 
@@ -5,7 +5,7 @@
 
 
 if is_flash_attn_2_available():
-    from flash_attn import flash_attn_varlen_func
+    from flash_attn import flash_attn_varlen_func  # noqa: F401
 
 
 def paged_attention_forward(
@@ -20,6 +20,7 @@ def paged_attention_forward(
     max_seqlen_q=None,
     max_seqlen_k=None,
     block_tables=None,
+    implementation=None,
     **kwargs,
 ) -> torch.Tensor:
     r"""Perform the forward pass of attention with paged key-value cache.
@@ -46,12 +47,14 @@ def paged_attention_forward(
     """
     k, v = cache.update(k, v, module.layer_idx, cumulative_seqlens_k=cumulative_seqlens_k, **kwargs)
 
+    if implementation is not None:
+        flash_attn_varlen_func = implementation.flash_attn_varlen_func
     attn_output = flash_attn_varlen_func(
-        q.transpose(1, 2).squeeze(0),
-        k.transpose(1, 2).squeeze(0),
-        v.transpose(1, 2).squeeze(0),
+        q.transpose(1, 2).squeeze(0).contiguous(),
+        k.transpose(1, 2).squeeze(0).contiguous(),
+        v.transpose(1, 2).squeeze(0).contiguous(),
         cumulative_seqlens_q.to(torch.int32),
-        cumulative_seqlens_k.to(torch.int32),
+        cumulative_seqlens_k.to(torch.int32).clone(),
         max_seqlen_q,
         max_seqlen_k,
         softmax_scale=module.scaling,
Original file line number	Diff line number	Diff line change
`@@ -38,7 +38,6 @@ def flash_attention_forward(`
`38`	`38`	`"FlashAttention does not support inputs with dim=0.\n"`
`39`	`39`	`"Please check your input shapes or use SDPA instead."`
`40`	`40`	`)`
`41`		`-`
`42`	`41`	`# FA2 uses non-transposed inputs`
`43`	`42`	`query = query.transpose(1, 2)`
`44`	`43`	`key = key.transpose(1, 2)`
`@@ -76,6 +75,7 @@ def flash_attention_forward(`
`76`	`75`	`use_top_left_mask=_use_top_left_mask,`
`77`	`76`	`target_dtype=target_dtype,`
`78`	`77`	`attn_implementation=module.config._attn_implementation,`
	`78`	`+ layer_idx=module.layer_idx if hasattr(module, "layer_idx") else None,`
`79`	`79`	`**kwargs,`
`80`	`80`	`)`
`81`	`81`