[NVIDIA] Explicitly disable shuffled weights for flashinfer blockscale moe fp8 kernels (vllm-project#21411)

kaixih · diegocastanibm · commit 42fca6f6be5c · 2025-08-15T11:43:20.000-04:00
Signed-off-by: kaixih &lt;kaixih@nvidia.com&gt;
Signed-off-by: Diego-Castan &lt;diego.castan@ibm.com&gt;
diff --git a/vllm/model_executor/layers/fused_moe/fused_moe.py b/vllm/model_executor/layers/fused_moe/fused_moe.py
@@ -1127,6 +1127,7 @@ def flashinfer_fused_moe_blockscale_fp8(
         tile_tokens_dim=_get_tile_tokens_dim(x.shape[0], top_k,
                                              global_num_experts),
         routing_method_type=2,  # DeepSeek-styled routing method
+        use_shuffled_weight=False,
     )
 
 

Original file line number	Diff line number	Diff line change
`@@ -1127,6 +1127,7 @@ def flashinfer_fused_moe_blockscale_fp8(`
`1127`	`1127`	`tile_tokens_dim=_get_tile_tokens_dim(x.shape[0], top_k,`
`1128`	`1128`	`global_num_experts),`
`1129`	`1129`	`routing_method_type=2, # DeepSeek-styled routing method`
	`1130`	`+ use_shuffled_weight=False,`
`1130`	`1131`	`)`
`1131`	`1132`
`1132`	`1133`