Add missing args for flashinfer 0.2.10

xinli-sw · nvpohanh · commit 7ff8b94faef2 · 2025-08-07T17:26:04.000-07:00
Signed-off-by: Xin Li. &lt;xinli@nvidia.com&gt;

Signed-off-by: XIn Li &lt;xinli@nvidia.com&gt;
Signed-off-by: Po-Han Huang &lt;pohanh@nvidia.com&gt;
diff --git a/vllm/model_executor/layers/quantization/modelopt.py b/vllm/model_executor/layers/quantization/modelopt.py
@@ -1286,9 +1286,14 @@ def apply(
                 gemm1_weights=layer.gemm1_weights_fp4_shuffled.data,
                 gemm1_weights_scale=layer.gemm1_scales_fp4_shuffled.data.view(
                     torch.float8_e4m3fn),
+                gemm1_bias=None,
+                gemm1_alpha=None,
+                gemm1_beta=None,
+                gemm1_clamp_limit=None,
                 gemm2_weights=layer.gemm2_weights_fp4_shuffled.data,
                 gemm2_weights_scale=layer.gemm2_scales_fp4_shuffled.data.view(
                     torch.float8_e4m3fn),
+                gemm2_bias=None,
                 output1_scale_scalar=layer.g1_scale_c.data,
                 output1_scale_gate_scalar=layer.g1_alphas.data,
                 output2_scale_scalar=layer.g2_alphas.data,