WA: OCL OUT_OF_RESOURCE when input token size < 8

riverlijunjie · riverlijunjie · commit 78a54617dfa4 · 2025-10-31T15:08:02.000+08:00
diff --git a/src/plugins/intel_gpu/src/graph/impls/ocl_v2/sdpa/paged_attention_opt.cpp b/src/plugins/intel_gpu/src/graph/impls/ocl_v2/sdpa/paged_attention_opt.cpp
@@ -1267,7 +1267,10 @@ class PagedAttentionOptImpl : public SDPAImplBase {
 
         if (rt_params->stage == PagedAttentionStage::PREFILL) {
 #ifdef ENABLE_ONEDNN_FOR_GPU
-            if (rt_params->use_micro_sdpa) {
+            // WA: avoid "OCL OUT OF RESOURCE" issue when running qwen3_moe with input token size < 8
+            // TODO: remove this limitation once micro_sdpa kernel resolve this problem.
+            const auto query_len = params.get_input_layout(PagedAttentionInputIdx::QUERY).get_partial_shape()[0].get_length();
+            if (rt_params->use_micro_sdpa && query_len >= 8) {
                 res_event = {execute_stage(res_event, instance, pa_sdpa_micro)};
             } else {
                 res_event = {execute_stage(res_event, instance, pa_sdpa_opt)};
diff --git a/src/plugins/intel_gpu/src/graph/impls/ocl_v2/sdpa/sdpa_gen_micro.cpp b/src/plugins/intel_gpu/src/graph/impls/ocl_v2/sdpa/sdpa_gen_micro.cpp
@@ -289,8 +289,8 @@ sdpa_config_t xehpg_q_h64_s64_2nd = {8, 8, 8, 8, 8, 2, 8, 2};
 sdpa_config_t xehpg_q_h64_s128_2nd = {16, 8, 8, 8, 8, 4, 8, 4};
 sdpa_config_t xehpg_q_h64_2nd = {16, 16, 8, 8, 16, 2, 8, 4};
 
-sdpa_config_t xehpg_h128_pa = {16, 16, 16, 16, 8, 1, 8, 1};
-sdpa_config_t xehpg_h128 = {16, 16, 16, 16, 8, 1, 8, 1};
+sdpa_config_t xehpg_h128_pa = {16, 16, 16, 16, 8, 4, 8, 4};
+sdpa_config_t xehpg_h128 = {16, 16, 32, 8, 8, 4, 4, 8};
 sdpa_config_t xehpg_h128_s32 = {16, 16, 16, 8, 16, 2, 8, 4};
 sdpa_config_t xehpg_h128_2nd = {8, 16, 16, 8, 16, 1, 8, 2};