intel
diff --git a/‎CMakeLists.txt
Lines changed: 2 additions & 2 deletions b/‎CMakeLists.txt
Lines changed: 2 additions & 2 deletions
diff --git a/‎examples/05_batch_gemm/batch_gemm.hpp
Lines changed: 14 additions & 14 deletions b/‎examples/05_batch_gemm/batch_gemm.hpp
Lines changed: 14 additions & 14 deletions
diff --git a/‎examples/07_multi_layer_perceptron/multi_layer_perceptron.hpp
Lines changed: 28 additions & 28 deletions b/‎examples/07_multi_layer_perceptron/multi_layer_perceptron.hpp
Lines changed: 28 additions & 28 deletions
diff --git a/‎examples/08_scaled_dot_product_attention/softmax.hpp
Lines changed: 7 additions & 4 deletions b/‎examples/08_scaled_dot_product_attention/softmax.hpp
Lines changed: 7 additions & 4 deletions
diff --git a/‎examples/09_gate_recurrent_unit/kernel_func.hpp
Lines changed: 1 addition & 1 deletion b/‎examples/09_gate_recurrent_unit/kernel_func.hpp
Lines changed: 1 addition & 1 deletion
diff --git a/‎include/common/core/arch_config.hpp
Lines changed: 4 additions & 4 deletions b/‎include/common/core/arch_config.hpp
Lines changed: 4 additions & 4 deletions
diff --git a/‎include/common/core/base_consts.hpp
Lines changed: 2 additions & 3 deletions b/‎include/common/core/base_consts.hpp
Lines changed: 2 additions & 3 deletions
diff --git a/‎include/common/core/base_types.hpp
Lines changed: 40 additions & 0 deletions b/‎include/common/core/base_types.hpp
Lines changed: 40 additions & 0 deletions
diff --git a/‎include/common/core/common_types.hpp
Lines changed: 9 additions & 0 deletions b/‎include/common/core/common_types.hpp
Lines changed: 9 additions & 0 deletions
@@ -46,7 +46,7 @@ if (${LOG} STREQUAL "on")
 endif ()
 
 # For large registers mode, enable 256 registers for kernels
-set(XETLA_OFFLINE_OPTIONS "-doubleGRF")
+# set(XETLA_OFFLINE_OPTIONS "-doubleGRF")
 set(XETLA_OFFLINE_OPTIONS "${XETLA_OFFLINE_OPTIONS} -vc-disable-indvars-opt")
 set(XETLA_OFFLINE_OPTIONS "${XETLA_OFFLINE_OPTIONS} -vc-codegen")
 # Enable bank conflict reduction.
@@ -75,7 +75,7 @@ add_link_options(-fsycl -fsycl-device-code-split=per_kernel -fsycl-max-parallel-
 add_link_options(${XETLA_KERNEL_FLAGS})
 
 if(UNIX)
-    add_compile_options(-fp-model=precise)
+    add_compile_options(-fp-model=precise -ftemplate-backtrace-limit=0)
     add_link_options(-lmkl_intel_lp64 -lmkl_sequential -lmkl_core -lpthread -lm)
     link_libraries(-lgtest -lgtest_main)
 else() # Windows
 
@@ -276,20 +276,20 @@ class batch_gemm_t {
                 args.matB_base.base, args.matB_ld);
       }
     }
-    if (epilogue_t::msg_type_c != msg_type::unaligned_2d) {
-      if (epilogue_t::msg_type_c == msg_type::block_2d) {
-        implementable &=
-            kernel::block_2d<gpu_arch::XeHpc, dtype_c>::check_tensor(
-                (uint64_t)(args.matC_base.base),
-                args.matrix_n,
-                args.matrix_m * args.batch_size,
-                args.matC_ld);
-      } else {
-        implementable &=
-            kernel::general_1d<gpu_arch::XeHpc, dtype_c>::check_alignment(
-                args.matC_base.base, args.matC_ld);
-      }
-    }
+    // if (epilogue_t::msg_type_c != msg_type::unaligned_2d) {
+    //   if (epilogue_t::msg_type_c == msg_type::block_2d) {
+    //     implementable &=
+    //         kernel::block_2d<gpu_arch::XeHpc, dtype_c>::check_tensor(
+    //             (uint64_t)(args.matC_base.base),
+    //             args.matrix_n,
+    //             args.matrix_m * args.batch_size,
+    //             args.matC_ld);
+    //   } else {
+    //     implementable &=
+    //         kernel::general_1d<gpu_arch::XeHpc, dtype_c>::check_alignment(
+    //             args.matC_base.base, args.matC_ld);
+    //   }
+    // }
 
     return implementable;
   }
 
@@ -409,20 +409,20 @@ class multi_layer_perceptron_t {
                 args.matW_base.base, args.matW_ld);
       }
     }
-    if (epilogue_layer1_t::msg_type_c != msg_type::unaligned_2d) {
-      if (epilogue_layer1_t::msg_type_c == msg_type::block_2d) {
-        implementable &=
-            kernel::block_2d<gpu_arch::XeHpc, dtype_b>::check_tensor(
-                (uint64_t)(args.matB_base.base),
-                args.matrix_n_layer1,
-                args.matrix_m_layer1,
-                args.matB_ld);
-      } else {
-        implementable &=
-            kernel::general_1d<gpu_arch::XeHpc, dtype_b>::check_alignment(
-                args.matB_base.base, args.matB_ld);
-      }
-    }
+    // if (epilogue_layer1_t::msg_type_c != msg_type::unaligned_2d) {
+    //   if (epilogue_layer1_t::msg_type_c == msg_type::block_2d) {
+    //     implementable &=
+    //         kernel::block_2d<gpu_arch::XeHpc, dtype_b>::check_tensor(
+    //             (uint64_t)(args.matB_base.base),
+    //             args.matrix_n_layer1,
+    //             args.matrix_m_layer1,
+    //             args.matB_ld);
+    //   } else {
+    //     implementable &=
+    //         kernel::general_1d<gpu_arch::XeHpc, dtype_b>::check_alignment(
+    //             args.matB_base.base, args.matB_ld);
+    //   }
+    // }
     if (gemm_layer2_t::msg_type_a != msg_type::unaligned_2d) {
       if (gemm_layer2_t::msg_type_a == msg_type::block_2d) {
         implementable &=
@@ -451,20 +451,20 @@ class multi_layer_perceptron_t {
                 args.matV_base.base, args.matV_ld);
       }
     }
-    if (epilogue_layer2_t::msg_type_c != msg_type::unaligned_2d) {
-      if (epilogue_layer2_t::msg_type_c == msg_type::block_2d) {
-        implementable &=
-            kernel::block_2d<gpu_arch::XeHpc, dtype_c>::check_tensor(
-                (uint64_t)(args.matC_base.base),
-                args.matrix_n_layer2,
-                args.matrix_m_layer2,
-                args.matC_ld);
-      } else {
-        implementable &=
-            kernel::general_1d<gpu_arch::XeHpc, dtype_c>::check_alignment(
-                args.matC_base.base, args.matC_ld);
-      }
-    }
+    // if (epilogue_layer2_t::msg_type_c != msg_type::unaligned_2d) {
+    //   if (epilogue_layer2_t::msg_type_c == msg_type::block_2d) {
+    //     implementable &=
+    //         kernel::block_2d<gpu_arch::XeHpc, dtype_c>::check_tensor(
+    //             (uint64_t)(args.matC_base.base),
+    //             args.matrix_n_layer2,
+    //             args.matrix_m_layer2,
+    //             args.matC_ld);
+    //   } else {
+    //     implementable &=
+    //         kernel::general_1d<gpu_arch::XeHpc, dtype_c>::check_alignment(
+    //             args.matC_base.base, args.matC_ld);
+    //   }
+    // }
 
     return implementable;
   }
 
@@ -60,18 +60,21 @@ struct xetla_softmax_fwd_t {
   using softmax_tile_desc_t = subgroup::
       tile_desc_t<SIMD, block_height, SIMD, block_height, reg_layout::tiled>;
   using softmax_load_t = subgroup::tile_t<dtype_in, softmax_tile_desc_t>;
+  using mem_desc_in_t = mem_desc_t<dtype_in, mem_layout::row_major, mem_space_in>;
   using softmax_load_payload_t = subgroup::mem_payload_t<
-      mem_desc_t<dtype_in, mem_layout::row_major, mem_space_in>,
+      mem_desc_in_t,
       softmax_tile_desc_t,
-      subgroup::msg_type_v<softmax_tile_desc_t, mem_space_in>,
+      subgroup::msg_type_v<softmax_tile_desc_t, mem_desc_in_t>,
       arch_tag>;
 
   // this tile will store the softmax result to global memory
   using softmax_store_t = subgroup::tile_t<dtype_out, softmax_tile_desc_t>;
+  using mem_desc_out_t =
+      mem_desc_t<dtype_out, mem_layout::row_major, mem_space_out>;
   using softmax_store_payload_t = subgroup::mem_payload_t<
-      mem_desc_t<dtype_out, mem_layout::row_major, mem_space_out>,
+      mem_desc_out_t,
       softmax_tile_desc_t,
-      subgroup::msg_type_v<softmax_tile_desc_t, mem_space_out>,
+      subgroup::msg_type_v<softmax_tile_desc_t, mem_desc_out_t>,
       arch_tag>;
 
   struct arguments_t {
 
@@ -156,7 +156,7 @@ struct gru_layer {
   using mat_hidden_payload_t = mem_payload_t<
       mem_desc_a_t,
       matC_tile_desc_t,
-      msg_type_v<matC_tile_desc_t, mem_loc_input>,
+      msg_type_v<matC_tile_desc_t, mem_desc_a_t>,
       gpu_arch::XeHpc>;
   using matC_payload_t = mem_payload_t<
       mem_desc_c_t,
 
@@ -93,15 +93,15 @@ inline constexpr bool arch_has_2d_load_store =
 
 template <gpu_arch arch_tag>
 struct load_store_attr_t<msg_type::block_1d, arch_tag> {
-  static constexpr uint32_t max_load_vec_len = 32;
-  static constexpr uint32_t max_store_vec_len = 32;
+  static constexpr uint32_t max_load_vec_len = 256;
+  static constexpr uint32_t max_store_vec_len = 256;
   static constexpr uint32_t max_prefetch_vec_len = 32;
 };
 
 template <>
 struct load_store_attr_t<msg_type::block_1d, gpu_arch::XeHpc> {
-  static constexpr uint32_t max_load_vec_len = 64;
-  static constexpr uint32_t max_store_vec_len = 64;
+  static constexpr uint32_t max_load_vec_len = 512;
+  static constexpr uint32_t max_store_vec_len = 512;
   static constexpr uint32_t max_prefetch_vec_len = 64;
 };
 
 
@@ -23,9 +23,8 @@
 
 namespace gpu::xetla {
 
-/// @addtogroup xetla_core_base_types
+/// @addtogroup xetla_core_base_consts
 /// @{
-
-/// @} xetla_core_base_types
+/// @} xetla_core_base_consts
 
 } // namespace gpu::xetla
@@ -55,6 +55,32 @@ using fp16 = sycl::half;
 ///
 using tf32 = sycl::ext::intel::experimental::esimd::tfloat32;
 
+/// @brief xetla 4bits data packed as 8bits data type.
+/// 2 4bit data pack to one byte
+struct int4x2 {
+  uint8_t data;
+
+  operator uint8_t() const {
+    return data;
+  }
+  int4x2(uint8_t val) {
+    data = val;
+  }
+};
+
+/// @brief xetla 4bits data packed as 32bits data type.
+/// 8 4bit data pack to 4 bytes
+struct int4x8 {
+  uint32_t data;
+
+  operator uint32_t() const {
+    return data;
+  }
+  int4x8(uint32_t val) {
+    data = val;
+  }
+};
+
 /// @brief mx_fp4(E2M1) data packed as 8bits data type.
 struct mx_fp4 {
   uint8_t data;
@@ -89,6 +115,8 @@ template <typename T>
 struct is_internal_type {
   static constexpr bool value = std::is_same<remove_const_t<T>, bf16>::value ||
       std::is_same<remove_const_t<T>, tf32>::value ||
+      std::is_same<remove_const_t<T>, int4x2>::value ||
+      std::is_same<remove_const_t<T>, int4x8>::value ||
       std::is_same<remove_const_t<T>, mx_fp4>::value;
 };
 template <typename T>
@@ -137,6 +165,18 @@ struct native_type<mx_fp4> {
   using type = uint8_t;
 };
 
+/// @brief Set uint8_t as the native data type of int4x2.
+template <>
+struct native_type<int4x2> {
+  using type = uint8_t;
+};
+
+/// @brief Set uint8_t as the native data type of int4x8.
+template <>
+struct native_type<int4x8> {
+  using type = uint32_t;
+};
+
 /// @brief Return the native data type of T
 template <typename T>
 using native_type_t = typename native_type<T>::type;
 
@@ -26,4 +26,13 @@ enum class gpu_arch : uint8_t { XeLpg = 0, XeHpg = 1, XeHpc = 2 };
 enum class grf_mode : uint8_t { normal = 0, double_grf = 1 };
 
 enum class mem_layout : uint8_t { row_major = 0, col_major = 1 };
+
+enum class quant_mode : uint8_t { S4_ASYM = 0, S4_FULLRANGE_NO_ZP = 1 };
+
+struct quant_info {
+  quant_mode quant_mode;
+  uint32_t dequant_s;
+  mem_layout weight_mem_layout;
+};
+
 } // namespace gpu::xetla