Enable fp32 tests for Windows

cyyever · cyyever · commit 7e835e8ed9c2 · 2025-08-18T09:14:25.000+08:00
Signed-off-by: cyy &lt;cyyever@outlook.com&gt;
diff --git a/CMakeLists.txt b/CMakeLists.txt
@@ -175,9 +175,6 @@ endif()
 ################################################################################
 
 get_filelist("get_fbgemm_generic_srcs(with_base=True)" FBGEMM_GENERIC_SRCS)
-if(MSVC)
-  list(FILTER FBGEMM_GENERIC_SRCS EXCLUDE REGEX "src/fp32/.*\\.cc$")
-endif()
 
 set(fbgemm_generic_defs "${fbgemm_arm_defs}")
 if(FBGEMM_LIBRARY_TYPE STREQUAL STATIC)
diff --git a/bench/CMakeLists.txt b/bench/CMakeLists.txt
@@ -95,11 +95,6 @@ if(FBGEMM_BUILD_BENCHMARKS)
     file(GLOB BENCH_LIST "*Benchmark.cc")
   endif()
 
-  if(MSVC)
-    # NOTE: Skip FP32 benchmark for MSVC until intrinsic kernels are implemented
-    list(FILTER BENCH_LIST EXCLUDE REGEX "FP32Benchmark\\.cc$")
-  endif()
-
   foreach(BENCH_FILE ${BENCH_LIST})
     get_filename_component(BENCH_NAME ${BENCH_FILE} NAME_WE)
     get_filename_component(BENCH_FILENAME ${BENCH_FILE} NAME)
diff --git a/cmake/modules/CxxCompilerSetup.cmake b/cmake/modules/CxxCompilerSetup.cmake
@@ -40,7 +40,7 @@ BLOCK_PRINT(
 )
 
 # Strip all symbols from the .SO file after building
-if(NOT MSVC AND NOT APPLE)
+if(NOT WIN32 AND NOT APPLE)
   add_link_options($<$<CONFIG:RELEASE>:-s>)
 endif()
 
diff --git a/defs.bzl b/defs.bzl
@@ -47,6 +47,7 @@ def get_fbgemm_generic_srcs(with_base = False, msvc = False, buck = False):
         "src/FbgemmSparseDense.cc",
         "src/FbgemmI8Spmdm.cc",
         "src/FbgemmPackMatrixB.cc",
+        "src/fp32/FbgemmFP32.cc",
         "src/GenerateKernelDirectConvU8S8S32ACC32.cc",
         "src/GenerateKernel.cc",
         "src/GenerateKernelU8S8S32ACC16.cc",
@@ -73,17 +74,7 @@ def get_fbgemm_generic_srcs(with_base = False, msvc = False, buck = False):
         "src/TransposeUtils.cc",
     ] + (get_fbgemm_base_srcs() if with_base else [])
 
-    fp32sources = [
-        "src/fp32/FbgemmFP32.cc",
-    ]
-
-    if buck:
-        return select({
-            "DEFAULT": sources + fp32sources,
-            "ovr_config//compiler:cl": sources,
-        })
-
-    return sources + fp32sources if not msvc else sources
+    return sources
 
 def get_fbgemm_public_headers():
     return [
diff --git a/include/fbgemm/FbgemmFP16.h b/include/fbgemm/FbgemmFP16.h
@@ -13,6 +13,7 @@
 
 #include <cpuinfo.h>
 
+#include "fbgemm/FbgemmFPCommon.h"
 #include "./FbgemmPackMatrixB.h" // @manual
 #include "./FloatConversion.h" // @manual
 #include "./Types.h" // @manual
@@ -31,17 +32,6 @@ struct TypeConverter<float16> {
 
 using PackedGemmMatrixFP16 = PackedGemmMatrixB<float16>;
 
-template <typename T>
-FBGEMM_API void cblas_gemm_compute(
-    const matrix_op_t transa,
-    const int m,
-    const float* A,
-    const PackedGemmMatrixB<T>& Bp,
-    const float beta,
-    float* C,
-    int thread_id = 0,
-    int num_threads = 1);
-
 extern template void cblas_gemm_compute<float16>(
     const matrix_op_t transa,
     const int m,
diff --git a/include/fbgemm/FbgemmFP32.h b/include/fbgemm/FbgemmFP32.h
@@ -22,17 +22,6 @@ struct TypeConverter<float> {
 using GemmParamsFP32 = GemmParams<float>;
 using PackedGemmMatrixFP32 = PackedGemmMatrixB<float>;
 
-template <typename T, int _kernel_ncol_blocks, int _brow>
-void cblas_gemm_compute(
-    const matrix_op_t transa,
-    const int m,
-    const float* A,
-    const PackedGemmMatrixB<T>& Bp,
-    const float beta,
-    float* C,
-    int thread_id = 0,
-    int num_threads = 1);
-
 extern template void cblas_gemm_compute(
     const matrix_op_t transa,
     const int m,
diff --git a/src/fp32/FbgemmFP32.cc b/src/fp32/FbgemmFP32.cc
@@ -32,7 +32,7 @@ namespace {
 // Here with kernel_ncol_blocks = 2, we can provide up to 6x2 kernels, due to
 // the restrictions of ymm register numbers (16).
 constexpr kernel_array_t<float> kernel_f32_avx2 = {
-#ifndef __aarch64__
+#if !defined(__aarch64__) && !defined(_MSC_VER)
     nullptr,
     gemmkernel_1x2_Avx2_fp32_fA0fB0fC0,
     gemmkernel_2x2_Avx2_fp32_fA0fB0fC0,
@@ -45,7 +45,7 @@ constexpr kernel_array_t<float> kernel_f32_avx2 = {
 #endif
 
 constexpr kernel_array_t<float> kernel_f32_avx512 = {
-#ifndef __aarch64__
+#if !defined(__aarch64__) && !defined(_MSC_VER)
     nullptr,
     gemmkernel_1x2_Avx512_fp32_fA0fB0fC0,
     gemmkernel_2x2_Avx512_fp32_fA0fB0fC0,
@@ -67,7 +67,7 @@ constexpr kernel_array_t<float> kernel_f32_avx512 = {
 
 // clang-format on
 constexpr kernel_array_t<float> kernel_f32_avx512_256 = {
-#ifndef __aarch64__
+#if !defined(__aarch64__) && !defined(_MSC_VER)
     nullptr,
     gemmkernel_1x2_Avx2_fp32_fA0fB0fC0,
     gemmkernel_2x2_Avx2_fp32_fA0fB0fC0,
diff --git a/test/CMakeLists.txt b/test/CMakeLists.txt
@@ -117,11 +117,6 @@ foreach(TEST_FILE ${TEST_LIST})
     endif()
   endif()
 
-  if(MSVC AND TEST_FILE MATCHES "FP32Test.cc$")
-    # NOTE: Skip FP32 test for MSVC until intrinsic kernels are implemented
-    continue()
-  endif()
-
   message(STATUS "Processing: ${TEST_FILE}")
 
   get_filename_component(TEST_NAME "${TEST_FILE}" NAME_WE)

Original file line number	Diff line number	Diff line change
`@@ -40,7 +40,7 @@ BLOCK_PRINT(`
`40`	`40`	`)`
`41`	`41`
`42`	`42`	`# Strip all symbols from the .SO file after building`
`43`		`-if(NOT MSVC AND NOT APPLE)`
	`43`	`+if(NOT WIN32 AND NOT APPLE)`
`44`	`44`	`add_link_options($<$<CONFIG:RELEASE>:-s>)`
`45`	`45`	`endif()`
`46`	`46`