intel
diff --git a/‎.editorconfig
Lines changed: 1 addition & 1 deletion b/‎.editorconfig
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/03_gemm_relu_bias/gemm_relu_bias.cpp
Lines changed: 3 additions & 3 deletions b/‎examples/03_gemm_relu_bias/gemm_relu_bias.cpp
Lines changed: 3 additions & 3 deletions
diff --git a/‎examples/04_gemm_polynomial/gemm_polynomial.cpp
Lines changed: 2 additions & 2 deletions b/‎examples/04_gemm_polynomial/gemm_polynomial.cpp
Lines changed: 2 additions & 2 deletions
diff --git a/‎examples/05_batch_gemm/batch_gemm.cpp
Lines changed: 3 additions & 3 deletions b/‎examples/05_batch_gemm/batch_gemm.cpp
Lines changed: 3 additions & 3 deletions
diff --git a/‎examples/05_batch_gemm/batch_gemm.hpp
Lines changed: 21 additions & 18 deletions b/‎examples/05_batch_gemm/batch_gemm.hpp
Lines changed: 21 additions & 18 deletions
diff --git a/‎examples/06_gemm_softmax/gemm_softmax.cpp
Lines changed: 3 additions & 3 deletions b/‎examples/06_gemm_softmax/gemm_softmax.cpp
Lines changed: 3 additions & 3 deletions
diff --git a/‎examples/07_multi_layer_perceptron/multi_layer_perceptron.cpp
Lines changed: 6 additions & 6 deletions b/‎examples/07_multi_layer_perceptron/multi_layer_perceptron.cpp
Lines changed: 6 additions & 6 deletions
diff --git a/‎examples/07_multi_layer_perceptron/multi_layer_perceptron.hpp
Lines changed: 43 additions & 37 deletions b/‎examples/07_multi_layer_perceptron/multi_layer_perceptron.hpp
Lines changed: 43 additions & 37 deletions
diff --git a/‎examples/08_scaled_dot_product_attention/scaled_dot_product_attention.cpp
Lines changed: 1 addition & 1 deletion b/‎examples/08_scaled_dot_product_attention/scaled_dot_product_attention.cpp
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/09_gate_recurrent_unit/kernel_func.hpp
Lines changed: 8 additions & 6 deletions b/‎examples/09_gate_recurrent_unit/kernel_func.hpp
Lines changed: 8 additions & 6 deletions
@@ -12,4 +12,4 @@ trim_trailing_whitespace = true
 # C/C++ follows clang-format
 [*.{c,cpp,h,hpp}]
 indent_style = space
-indent_size = 4
+indent_size = 2
@@ -148,7 +148,7 @@ void gemm_relu_bias_run(uint32_t iter) {
       xetla::mem_desc_t<float, mem_layout::row_major, mem_space::global>;
 
   using bias_op_t =
-      xetla::subgroup::bias_add_op_t<mem_desc_bias_t, gpu_arch::Xe>;
+      xetla::subgroup::bias_add_op_t<mem_desc_bias_t, gpu_arch::XeHpc>;
   using tile_op_t = xetla::subgroup::chained_tile_op_t<
       xetla::subgroup::relu_op_t, // apply elementwise ReLU
       bias_op_t // apply elementwise BiasAdd
@@ -160,7 +160,7 @@ void gemm_relu_bias_run(uint32_t iter) {
   // Mathematically epilogue_t is a map that applies to each element:
   //   epilogue_t: [m, n] -> [m, n], C_acc |-> tile_op_t(C_acc)
   using epilogue_policy =
-      xetla::group::epilogue_policy_tile_op<tile_op_t, gpu_arch::Xe>;
+      xetla::group::epilogue_policy_tile_op<tile_op_t, gpu_arch::XeHpc>;
 
   // Micro-kernel configuration
   using tune_option = dict_t<
@@ -180,7 +180,7 @@ void gemm_relu_bias_run(uint32_t iter) {
       mem_layout::row_major, // memory layout for C
       8, // leading dimension alignment for C, in unit of element
       data_type_acc, // accumulator data type for intermediate results
-      gpu_arch::Xe, // GPU arch
+      gpu_arch::XeHpc, // GPU arch
       tune_option>;
   using gemm_op_t = typename default_config_t::type;
 
 
@@ -153,7 +153,7 @@ void gemm_polynomial_run(int iter) {
   // Mathematically epilogue_t is a map that applies to each element:
   //   epilogue_t: [m, n] -> [m, n], C_acc |-> tile_op_t(C_acc)
   using epilogue_policy =
-      xetla::group::epilogue_policy_tile_op<tile_op_t, gpu_arch::Xe>;
+      xetla::group::epilogue_policy_tile_op<tile_op_t, gpu_arch::XeHpc>;
 
   // Micro-kernel configuration
   using tune_option = dict_t<
@@ -174,7 +174,7 @@ void gemm_polynomial_run(int iter) {
       mem_layout::row_major, // memory layout for C
       8, // leading dimension alignment for C, in unit of element
       data_type_acc, // accumulator data type for intermediate results
-      gpu_arch::Xe, // GPU arch
+      gpu_arch::XeHpc, // GPU arch
       tune_option>;
 
   using gemm_op_t = typename default_config_t::type;
 
@@ -118,7 +118,7 @@ void batch_gemm_run(uint32_t iter) {
       data_type_acc, // accumulator data type for intermediate results
       wg_shape, // computation tile shape
       wg_tile_k, // elements in each iteration
-      gpu_arch::Xe, // GPU arch
+      gpu_arch::XeHpc, // GPU arch
       tune_option>;
 
   using epilogue_t = xetla::group::default_epilogue_selector_t<
@@ -128,11 +128,11 @@ void batch_gemm_run(uint32_t iter) {
       mem_space::global, // memory writing to global mem for C
       wg_shape, // computation tile shape
       wg_tile_k, // elements in each iteration
-      gpu_arch::Xe, // GPU arch
+      gpu_arch::XeHpc, // GPU arch
       tune_option>;
 
   using batch_gemm_op_t =
-      xetla::kernel::batch_gemm_t<gemm_t, epilogue_t, gpu_arch::Xe>;
+      xetla::kernel::batch_gemm_t<gemm_t, epilogue_t, gpu_arch::XeHpc>;
 
   // set up gemm_universal arguments
   typename batch_gemm_op_t::arguments_t gemm_arg(
 
@@ -250,40 +250,43 @@ class batch_gemm_t {
     bool implementable = true;
     if (gemm_t::msg_type_a != msg_type::unaligned_2d) {
       if (gemm_t::msg_type_a == msg_type::block_2d) {
-        implementable &= kernel::block_2d<gpu_arch::Xe, dtype_a>::check_tensor(
-            (uint64_t)(args.matA_base.base),
-            args.matrix_k,
-            args.matrix_m * args.batch_size,
-            args.matA_ld);
+        implementable &=
+            kernel::block_2d<gpu_arch::XeHpc, dtype_a>::check_tensor(
+                (uint64_t)(args.matA_base.base),
+                args.matrix_k,
+                args.matrix_m * args.batch_size,
+                args.matA_ld);
       } else {
         implementable &=
-            kernel::general_1d<gpu_arch::Xe, dtype_a>::check_alignment(
+            kernel::general_1d<gpu_arch::XeHpc, dtype_a>::check_alignment(
                 args.matA_base.base, args.matA_ld);
       }
     }
     if (gemm_t::msg_type_b != msg_type::unaligned_2d) {
       if (gemm_t::msg_type_b == msg_type::block_2d) {
-        implementable &= kernel::block_2d<gpu_arch::Xe, dtype_b>::check_tensor(
-            (uint64_t)(args.matB_base.base),
-            args.matrix_n,
-            args.matrix_k * args.batch_size,
-            args.matB_ld);
+        implementable &=
+            kernel::block_2d<gpu_arch::XeHpc, dtype_b>::check_tensor(
+                (uint64_t)(args.matB_base.base),
+                args.matrix_n,
+                args.matrix_k * args.batch_size,
+                args.matB_ld);
       } else {
         implementable &=
-            kernel::general_1d<gpu_arch::Xe, dtype_b>::check_alignment(
+            kernel::general_1d<gpu_arch::XeHpc, dtype_b>::check_alignment(
                 args.matB_base.base, args.matB_ld);
       }
     }
     if (epilogue_t::msg_type_c != msg_type::unaligned_2d) {
       if (epilogue_t::msg_type_c == msg_type::block_2d) {
-        implementable &= kernel::block_2d<gpu_arch::Xe, dtype_c>::check_tensor(
-            (uint64_t)(args.matC_base.base),
-            args.matrix_n,
-            args.matrix_m * args.batch_size,
-            args.matC_ld);
+        implementable &=
+            kernel::block_2d<gpu_arch::XeHpc, dtype_c>::check_tensor(
+                (uint64_t)(args.matC_base.base),
+                args.matrix_n,
+                args.matrix_m * args.batch_size,
+                args.matC_ld);
       } else {
         implementable &=
-            kernel::general_1d<gpu_arch::Xe, dtype_c>::check_alignment(
+            kernel::general_1d<gpu_arch::XeHpc, dtype_c>::check_alignment(
                 args.matC_base.base, args.matC_ld);
       }
     }
 
@@ -227,7 +227,7 @@ void gemm_softmax_run(uint32_t iter) {
               data_type_sfx, // accumulator data type for intermediate results
               wg_shape, // computation tile shape
               k_iter_num, // elements in each iteration
-              gpu_arch::Xe, // GPU arch
+              gpu_arch::XeHpc, // GPU arch
               tune_option>;
 
           using gemm_args_t = gemm_op_t::arguments_t;
@@ -239,14 +239,14 @@ void gemm_softmax_run(uint32_t iter) {
               mem_space::global, // memory writing to global mem for C
               wg_shape, // computation tile shape
               k_iter_num, // elements in each iteration
-              gpu_arch::Xe, // GPU arch
+              gpu_arch::XeHpc, // GPU arch
               tune_option>;
 
           // using experimental::group::softmax
           // define softmax forward op
           using tile_shape = typename gemm_op_t::tile_shape;
           using softmax_fwd_t = softmax_t<
-              softmax_policy_fwd<data_type_sfx, gpu_arch::Xe>,
+              softmax_policy_fwd<data_type_sfx, gpu_arch::XeHpc>,
               tile_shape>;
           using softmax_fwd_args_t = typename softmax_fwd_t::arguments_t;
 
 
@@ -192,7 +192,7 @@ void mlp_run(uint32_t iter) {
   // Micro-kernel configuration
   using epilogue_policy_layer1 = xetla::group::epilogue_policy_tile_op<
       xetla::subgroup::chained_tile_op_t<gpu::xetla::subgroup::relu_op_t>,
-      gpu_arch::Xe>;
+      gpu_arch::XeHpc>;
   using layer1_tune_option = dict_t<
       elem_v_t<
           tune_key::param_optimizer_type,
@@ -213,7 +213,7 @@ void mlp_run(uint32_t iter) {
       data_type_acc, // accumulator data type for intermediate results
       wg_shape_layer1, // computation tile shape
       wg_tile_k, // elements in each iteration
-      gpu_arch::Xe, // GPU arch
+      gpu_arch::XeHpc, // GPU arch
       layer1_tune_option>;
 
   using epilogue_layer1_t = xetla::group::default_epilogue_selector_t<
@@ -223,7 +223,7 @@ void mlp_run(uint32_t iter) {
       mem_space::global, // memory writing to global mem for B
       wg_shape_layer1, // computation tile shape
       wg_tile_k, // elements in each iteration
-      gpu_arch::Xe, // GPU arch
+      gpu_arch::XeHpc, // GPU arch
       layer1_tune_option>;
 
   using wg_shape_layer2 = shape<wg_tile_n_layer2, wg_tile_m_layer2>;
@@ -249,7 +249,7 @@ void mlp_run(uint32_t iter) {
       data_type_acc, // accumulator data type for intermediate results
       wg_shape_layer2, // computation tile shape
       wg_tile_k, // elements in each iteration
-      gpu_arch::Xe, // GPU arch
+      gpu_arch::XeHpc, // GPU arch
       layer2_tune_option>;
 
   using epilogue_layer2_t = xetla::group::default_epilogue_selector_t<
@@ -259,15 +259,15 @@ void mlp_run(uint32_t iter) {
       mem_space::global, // memory writing to global mem for C
       wg_shape_layer2, // computation tile shape
       wg_tile_k, // elements in each iteration
-      gpu_arch::Xe, // GPU arch
+      gpu_arch::XeHpc, // GPU arch
       layer2_tune_option>;
 
   using mlp_op_t = xetla::kernel::multi_layer_perceptron_t<
       gemm_layer1_t,
       epilogue_layer1_t,
       gemm_layer2_t,
       epilogue_layer2_t,
-      gpu_arch::Xe>;
+      gpu_arch::XeHpc>;
 
   // set up mlp arguments
   // for relu we don't need to set arguments
 
@@ -383,79 +383,85 @@ class multi_layer_perceptron_t {
     bool implementable = true;
     if (gemm_layer1_t::msg_type_a != msg_type::unaligned_2d) {
       if (gemm_layer1_t::msg_type_a == msg_type::block_2d) {
-        implementable &= kernel::block_2d<gpu_arch::Xe, dtype_a>::check_tensor(
-            (uint64_t)(args.matA_base.base),
-            args.matrix_k_layer1,
-            args.matrix_m_layer1,
-            args.matA_ld);
+        implementable &=
+            kernel::block_2d<gpu_arch::XeHpc, dtype_a>::check_tensor(
+                (uint64_t)(args.matA_base.base),
+                args.matrix_k_layer1,
+                args.matrix_m_layer1,
+                args.matA_ld);
       } else {
         implementable &=
-            kernel::general_1d<gpu_arch::Xe, dtype_a>::check_alignment(
+            kernel::general_1d<gpu_arch::XeHpc, dtype_a>::check_alignment(
                 args.matA_base.base, args.matA_ld);
       }
     }
     if (gemm_layer1_t::msg_type_b != msg_type::unaligned_2d) {
       if (gemm_layer1_t::msg_type_b == msg_type::block_2d) {
-        implementable &= kernel::block_2d<gpu_arch::Xe, dtype_w>::check_tensor(
-            (uint64_t)(args.matW_base.base),
-            args.matrix_n_layer1,
-            args.matrix_k_layer1,
-            args.matW_ld);
+        implementable &=
+            kernel::block_2d<gpu_arch::XeHpc, dtype_w>::check_tensor(
+                (uint64_t)(args.matW_base.base),
+                args.matrix_n_layer1,
+                args.matrix_k_layer1,
+                args.matW_ld);
       } else {
         implementable &=
-            kernel::general_1d<gpu_arch::Xe, dtype_w>::check_alignment(
+            kernel::general_1d<gpu_arch::XeHpc, dtype_w>::check_alignment(
                 args.matW_base.base, args.matW_ld);
       }
     }
     if (epilogue_layer1_t::msg_type_c != msg_type::unaligned_2d) {
       if (epilogue_layer1_t::msg_type_c == msg_type::block_2d) {
-        implementable &= kernel::block_2d<gpu_arch::Xe, dtype_b>::check_tensor(
-            (uint64_t)(args.matB_base.base),
-            args.matrix_n_layer1,
-            args.matrix_m_layer1,
-            args.matB_ld);
+        implementable &=
+            kernel::block_2d<gpu_arch::XeHpc, dtype_b>::check_tensor(
+                (uint64_t)(args.matB_base.base),
+                args.matrix_n_layer1,
+                args.matrix_m_layer1,
+                args.matB_ld);
       } else {
         implementable &=
-            kernel::general_1d<gpu_arch::Xe, dtype_b>::check_alignment(
+            kernel::general_1d<gpu_arch::XeHpc, dtype_b>::check_alignment(
                 args.matB_base.base, args.matB_ld);
       }
     }
     if (gemm_layer2_t::msg_type_a != msg_type::unaligned_2d) {
       if (gemm_layer2_t::msg_type_a == msg_type::block_2d) {
-        implementable &= kernel::block_2d<gpu_arch::Xe, dtype_b>::check_tensor(
-            (uint64_t)(args.matB_base.base),
-            args.matrix_k_layer2,
-            args.matrix_m_layer2,
-            args.matB_ld);
+        implementable &=
+            kernel::block_2d<gpu_arch::XeHpc, dtype_b>::check_tensor(
+                (uint64_t)(args.matB_base.base),
+                args.matrix_k_layer2,
+                args.matrix_m_layer2,
+                args.matB_ld);
       } else {
         implementable &=
-            kernel::general_1d<gpu_arch::Xe, dtype_a>::check_alignment(
+            kernel::general_1d<gpu_arch::XeHpc, dtype_a>::check_alignment(
                 args.matB_base.base, args.matB_ld);
       }
     }
     if (gemm_layer2_t::msg_type_b != msg_type::unaligned_2d) {
       if (gemm_layer2_t::msg_type_b == msg_type::block_2d) {
-        implementable &= kernel::block_2d<gpu_arch::Xe, dtype_v>::check_tensor(
-            (uint64_t)(args.matV_base.base),
-            args.matrix_n_layer2,
-            args.matrix_k_layer2,
-            args.matV_ld);
+        implementable &=
+            kernel::block_2d<gpu_arch::XeHpc, dtype_v>::check_tensor(
+                (uint64_t)(args.matV_base.base),
+                args.matrix_n_layer2,
+                args.matrix_k_layer2,
+                args.matV_ld);
       } else {
         implementable &=
-            kernel::general_1d<gpu_arch::Xe, dtype_v>::check_alignment(
+            kernel::general_1d<gpu_arch::XeHpc, dtype_v>::check_alignment(
                 args.matV_base.base, args.matV_ld);
       }
     }
     if (epilogue_layer2_t::msg_type_c != msg_type::unaligned_2d) {
       if (epilogue_layer2_t::msg_type_c == msg_type::block_2d) {
-        implementable &= kernel::block_2d<gpu_arch::Xe, dtype_c>::check_tensor(
-            (uint64_t)(args.matC_base.base),
-            args.matrix_n_layer2,
-            args.matrix_m_layer2,
-            args.matC_ld);
+        implementable &=
+            kernel::block_2d<gpu_arch::XeHpc, dtype_c>::check_tensor(
+                (uint64_t)(args.matC_base.base),
+                args.matrix_n_layer2,
+                args.matrix_m_layer2,
+                args.matC_ld);
       } else {
         implementable &=
-            kernel::general_1d<gpu_arch::Xe, dtype_c>::check_alignment(
+            kernel::general_1d<gpu_arch::XeHpc, dtype_c>::check_alignment(
                 args.matC_base.base, args.matC_ld);
       }
     }
@@ -557,7 +563,7 @@ class multi_layer_perceptron_t {
     xetla_nbarrier_t<
         work_group_layer2_t::size,
         work_group_layer2_t::size,
-        gpu_arch::Xe>
+        gpu_arch::XeHpc>
         nbarrier_global;
     nbarrier_global.init_nbarrier(
         global_nbarr_base, nbarrier_role::producer_consumer);
 
@@ -170,7 +170,7 @@ void sdp_fwd_run(uint32_t iter, uint32_t warmup = 10) {
 
   constexpr double slm_ratio_to_pvc =
       static_cast<double>(arch_attr_t<arch_tag>::local_mem_size) /
-      arch_attr_t<gpu_arch::Xe>::local_mem_size;
+      arch_attr_t<gpu_arch::XeHpc>::local_mem_size;
 
   constexpr uint32_t wg_tile_m_qksv = 64 * slm_ratio_to_pvc;
 
 
@@ -113,9 +113,11 @@ struct gru_layer {
   using perf_tuning_knob =
       perf_tuning_knob_t<sg_tile_k, prefetch_distance, periodic_sync_interval>;
 
-  using compute_attr = group::compute_attr_t<T, T, Act_T>;
-  using compute_policy =
-      compute_policy_default_xmx<compute_attr, perf_tuning_knob, gpu_arch::Xe>;
+  using compute_attr = xetla::group::compute_attr_t<T, T, Act_T>;
+  using compute_policy = compute_policy_default_xmx<
+      compute_attr,
+      perf_tuning_knob,
+      gpu_arch::XeHpc>;
   using mem_desc_a_t = mem_desc_t<T, layout_input, mem_loc_input>;
   using mem_desc_b_t = mem_desc_t<T, layout_weight, mem_loc_weight>;
   // Org the compute shape for sub-matrix
@@ -138,7 +140,7 @@ struct gru_layer {
   // define arguments for each epilogue_tile_op in chained_tile_op_t<>
 
   using epilogue_t = epilogue_t<
-      epilogue_policy_default<gpu_arch::Xe>,
+      epilogue_policy_default<gpu_arch::XeHpc>,
       tile_shape,
       mem_desc_c_t>;
   using epilogue_args_t = typename epilogue_t::arguments_t;
@@ -155,12 +157,12 @@ struct gru_layer {
       mem_desc_a_t,
       matC_tile_desc_t,
       msg_type_v<matC_tile_desc_t, mem_loc_input>,
-      gpu_arch::Xe>;
+      gpu_arch::XeHpc>;
   using matC_payload_t = mem_payload_t<
       mem_desc_c_t,
       matC_tile_desc_t,
       msg_type::block_2d,
-      gpu_arch::Xe>;
+      gpu_arch::XeHpc>;
   using sigmoid_t = typename subgroup::sigmoid_op_t;
   using tanh_t = typename subgroup::tanh_op_t;
   static void inline call(sycl::nd_item<3>& item, fused_config_t<T>* args) {