removed templated shuffle

DiamonDinoia · DiamonDinoia · commit 7fa61b3ba54d · 2025-07-11T14:20:06.000-04:00
diff --git a/.github/workflows/emulated.yml b/.github/workflows/emulated.yml
@@ -17,7 +17,7 @@ jobs:
           - { compiler: 'clang', version: '16'}
     steps:
     - name: Setup compiler
-      if: ${{ matrix.sys.compiler == 'gcc' }}
+      if: ${{ matrix.sys.compiler == 'gcc' }}
       run: |
         GCC_VERSION=${{ matrix.sys.version }}
         sudo apt-get update
@@ -31,7 +31,7 @@ jobs:
     - name: Setup compiler
       if: ${{ matrix.sys.compiler == 'clang' }}
       run: |
-        LLVM_VERSION=${{ matrix.sys.version }}
+        LLVM_VERSION=${{ matrix.sys.version }}
         sudo apt-get update || exit 1
         sudo apt-get --no-install-suggests --no-install-recommends install clang-$LLVM_VERSION || exit 1
         sudo apt-get --no-install-suggests --no-install-recommends install g++ g++-multilib || exit 1
@@ -49,7 +49,7 @@ jobs:
     - name: Configure build
       env:
         CC: ${{ env.CC }}
-        CXX: ${{ env.CXX }}
+        CXX: ${{ env.CXX }}
       run: |
 
         mkdir _build
diff --git a/.github/workflows/linux.yml b/.github/workflows/linux.yml
@@ -29,7 +29,7 @@ jobs:
           - { compiler: 'clang', version: '18', flags: 'avx512' }
     steps:
     - name: Setup compiler
-      if: ${{ matrix.sys.compiler == 'gcc' }}
+      if: ${{ matrix.sys.compiler == 'gcc' }}
       run: |
         GCC_VERSION=${{ matrix.sys.version }}
         sudo apt-get update
@@ -45,7 +45,7 @@ jobs:
     - name: Setup compiler
       if: ${{ matrix.sys.compiler == 'clang' }}
       run: |
-        LLVM_VERSION=${{ matrix.sys.version }}
+        LLVM_VERSION=${{ matrix.sys.version }}
         sudo apt-get update || exit 1
         sudo apt-get --no-install-suggests --no-install-recommends install clang-$LLVM_VERSION || exit 1
         sudo apt-get --no-install-suggests --no-install-recommends install g++ g++-multilib || exit 1
@@ -66,7 +66,7 @@ jobs:
     - name: Configure build
       env:
         CC: ${{ env.CC }}
-        CXX: ${{ env.CXX }}
+        CXX: ${{ env.CXX }}
       run: |
         if [[ '${{ matrix.sys.flags }}' == 'enable_xtl_complex' ]]; then
           CMAKE_EXTRA_ARGS="$CMAKE_EXTRA_ARGS -DENABLE_XTL_COMPLEX=ON"
diff --git a/include/xsimd/arch/common/xsimd_common_swizzle.hpp b/include/xsimd/arch/common/xsimd_common_swizzle.hpp
@@ -204,41 +204,6 @@ namespace xsimd
             static_assert(no_duplicates_v<0, 1, 2, 3, 4, 5, 6, 7>(), "N=8: [0..7] → distinct");
             static_assert(!no_duplicates_v<0, 1, 2, 3, 4, 5, 6, 0>(), "N=8: last repeats 0");
 
-            // ────────────────────────────────────────────────────────────────────────
-            // ────── log2 for powers of 2 ──────
-            template <std::size_t N>
-            struct log2_c
-            {
-                static_assert(N > 0 && (N & (N - 1)) == 0, "N must be power of 2");
-                static constexpr std::size_t value = 1 + log2_c<N / 2>::value;
-            };
-            template <>
-            struct log2_c<1>
-            {
-                static constexpr std::size_t value = 0;
-            };
-
-            // ────── Recursive encoder ──────
-            template <std::size_t I, std::size_t N, std::size_t SHIFT, uint32_t... Values>
-            struct shuffle_impl
-            {
-                static constexpr uint32_t value = (get_nth_value<I, Values...>::value << (I * SHIFT)) | shuffle_impl<I + 1, N, SHIFT, Values...>::value;
-            };
-            template <std::size_t N, std::size_t SHIFT, uint32_t... Values>
-            struct shuffle_impl<N, N, SHIFT, Values...>
-            {
-                static constexpr uint32_t value = 0;
-            };
-            template <uint32_t... Values>
-            XSIMD_INLINE constexpr std::uint32_t shuffle() noexcept
-            {
-                return shuffle_impl<0, sizeof...(Values), log2_c<sizeof...(Values)>::value, Values...>::value;
-            }
-            template <uint32_t... Values>
-            XSIMD_INLINE constexpr std::uint32_t mod_shuffle() noexcept
-            {
-                return shuffle<(Values % sizeof...(Values))...>();
-            }
         } // namespace detail
     } // namespace kernel
 } // namespace xsimd
diff --git a/include/xsimd/arch/xsimd_avx.hpp b/include/xsimd/arch/xsimd_avx.hpp
@@ -1058,7 +1058,7 @@ namespace xsimd
         template <class A, class T, class _ = typename std::enable_if<(sizeof(T) <= 2), void>::type>
         XSIMD_INLINE T reduce_max(batch<T, A> const& self, requires_arch<avx>) noexcept
         {
-            constexpr auto mask = detail::shuffle<1, 0>();
+            constexpr auto mask = detail::shuffle(1, 0);
             batch<T, A> step = _mm256_permute2f128_si256(self, self, mask);
             batch<T, A> acc = max(self, step);
             __m128i low = _mm256_castsi256_si128(acc);
@@ -1069,7 +1069,7 @@ namespace xsimd
         template <class A, class T, class _ = typename std::enable_if<(sizeof(T) <= 2), void>::type>
         XSIMD_INLINE T reduce_min(batch<T, A> const& self, requires_arch<avx>) noexcept
         {
-            constexpr auto mask = detail::shuffle<1, 0>();
+            constexpr auto mask = detail::shuffle(1, 0);
             batch<T, A> step = _mm256_permute2f128_si256(self, self, mask);
             batch<T, A> acc = min(self, step);
             __m128i low = _mm256_castsi256_si128(acc);
@@ -1214,7 +1214,7 @@ namespace xsimd
         template <class A, class ITy, ITy I0, ITy I1, ITy I2, ITy I3, ITy I4, ITy I5, ITy I6, ITy I7>
         XSIMD_INLINE batch<float, A> shuffle(batch<float, A> const& x, batch<float, A> const& y, batch_constant<ITy, A, I0, I1, I2, I3, I4, I5, I6, I7> mask, requires_arch<avx>) noexcept
         {
-            constexpr uint32_t smask = detail::mod_shuffle<I0, I1, I2, I3>();
+            constexpr uint32_t smask = detail::mod_shuffle(I0, I1, I2, I3);
             // shuffle within lane
             if (I4 == (I0 + 4) && I5 == (I1 + 4) && I6 == (I2 + 4) && I7 == (I3 + 4) && I0 < 4 && I1 < 4 && I2 >= 8 && I2 < 12 && I3 >= 8 && I3 < 12)
                 return _mm256_shuffle_ps(x, y, smask);
@@ -1488,7 +1488,7 @@ namespace xsimd
                 auto split = _mm256_permute2f128_ps(self, self, control);
                 if (!is_dup_identity)
                 {
-                    constexpr auto shuffle_mask = is_dup_low ? detail::mod_shuffle<V0, V1, V2, V3>() : detail::mod_shuffle<V4 - 4, V5 - 4, V6 - 4, V7 - 4>();
+                    constexpr auto shuffle_mask = is_dup_low ? detail::mod_shuffle(V0, V1, V2, V3) : detail::mod_shuffle(V4 - 4, V5 - 4, V6 - 4, V7 - 4);
                     split = _mm256_permute_ps(split, shuffle_mask);
                 }
                 return split;
@@ -1910,4 +1910,4 @@ namespace xsimd
     }
 }
 
-#endif
+#endif
diff --git a/include/xsimd/arch/xsimd_avx2.hpp b/include/xsimd/arch/xsimd_avx2.hpp
@@ -964,15 +964,15 @@ namespace xsimd
                 constexpr auto imm = ((V0 & 1) << 0) | ((V1 & 1) << 1) | ((V2 & 1) << 2) | ((V3 & 1) << 3);
                 return _mm256_permute_pd(self, imm);
             }
-            constexpr auto imm = detail::mod_shuffle<V0, V1, V2, V3>();
+            constexpr auto imm = detail::mod_shuffle(V0, V1, V2, V3);
             // fallback to full 4-element permute
             return _mm256_permute4x64_pd(self, imm);
         }
 
         template <class A, uint64_t V0, uint64_t V1, uint64_t V2, uint64_t V3>
         XSIMD_INLINE batch<uint64_t, A> swizzle(batch<uint64_t, A> const& self, batch_constant<uint64_t, A, V0, V1, V2, V3>, requires_arch<avx2>) noexcept
         {
-            constexpr auto mask = detail::mod_shuffle<V0, V1, V2, V3>();
+            constexpr auto mask = detail::mod_shuffle(V0, V1, V2, V3);
             return _mm256_permute4x64_epi64(self, mask);
         }
         template <class A, uint64_t V0, uint64_t V1, uint64_t V2, uint64_t V3>
diff --git a/include/xsimd/arch/xsimd_common_fwd.hpp b/include/xsimd/arch/xsimd_common_fwd.hpp
@@ -50,10 +50,6 @@ namespace xsimd
             XSIMD_INLINE constexpr bool is_dup_lo(batch_constant<T, A, Vs...>) noexcept;
             template <typename T, class A, T... Vs>
             XSIMD_INLINE constexpr bool is_dup_hi(batch_constant<T, A, Vs...>) noexcept;
-            template <uint32_t... Values>
-            XSIMD_INLINE constexpr std::uint32_t shuffle() noexcept;
-            template <uint32_t... Values>
-            XSIMD_INLINE constexpr std::uint32_t mod_shuffle() noexcept;
             template <typename T, class A, T... Vs>
             XSIMD_INLINE constexpr bool is_cross_lane(batch_constant<T, A, Vs...>) noexcept;
             template <typename T, class A, T... Vs>
diff --git a/include/xsimd/arch/xsimd_sse2.hpp b/include/xsimd/arch/xsimd_sse2.hpp
@@ -33,6 +33,28 @@ namespace xsimd
     {
         using namespace types;
 
+        namespace detail
+        {
+            constexpr uint32_t shuffle(uint32_t w, uint32_t x, uint32_t y, uint32_t z)
+            {
+                return (z << 6) | (y << 4) | (x << 2) | w;
+            }
+            constexpr uint32_t shuffle(uint32_t x, uint32_t y)
+            {
+                return (y << 1) | x;
+            }
+
+            constexpr uint32_t mod_shuffle(uint32_t w, uint32_t x, uint32_t y, uint32_t z)
+            {
+                return shuffle(w % 4, x % 4, y % 4, z % 4);
+            }
+
+            constexpr uint32_t mod_shuffle(uint32_t w, uint32_t x)
+            {
+                return shuffle(w % 2, x % 2);
+            }
+        }
+
         // fwd
         template <class A, class T, size_t I>
         XSIMD_INLINE batch<T, A> insert(batch<T, A> const& self, T val, index<I>, requires_arch<common>) noexcept;
@@ -1282,13 +1304,16 @@ namespace xsimd
         template <class A, class T, class _ = typename std::enable_if<(sizeof(T) <= 2), void>::type>
         XSIMD_INLINE T reduce_max(batch<T, A> const& self, requires_arch<sse2>) noexcept
         {
-            batch<T, A> step0 = _mm_shuffle_epi32(self, detail::shuffle<2, 3, 0, 0>());
+            constexpr auto mask0 = detail::shuffle(2, 3, 0, 0);
+            batch<T, A> step0 = _mm_shuffle_epi32(self, mask0);
             batch<T, A> acc0 = max(self, step0);
 
-            batch<T, A> step1 = _mm_shuffle_epi32(acc0, detail::shuffle<1, 0, 0, 0>());
+            constexpr auto mask1 = detail::shuffle(1, 0, 0, 0);
+            batch<T, A> step1 = _mm_shuffle_epi32(acc0, mask1);
             batch<T, A> acc1 = max(acc0, step1);
 
-            batch<T, A> step2 = _mm_shufflelo_epi16(acc1, detail::shuffle<1, 0, 0, 0>());
+            constexpr auto mask2 = detail::shuffle(1, 0, 0, 0);
+            batch<T, A> step2 = _mm_shufflelo_epi16(acc1, mask2);
             batch<T, A> acc2 = max(acc1, step2);
             if (sizeof(T) == 2)
                 return first(acc2, A {});
@@ -1301,13 +1326,16 @@ namespace xsimd
         template <class A, class T, class _ = typename std::enable_if<(sizeof(T) <= 2), void>::type>
         XSIMD_INLINE T reduce_min(batch<T, A> const& self, requires_arch<sse2>) noexcept
         {
-            batch<T, A> step0 = _mm_shuffle_epi32(self, detail::shuffle<2, 3, 0, 0>());
+            constexpr auto mask0 = detail::shuffle(2, 3, 0, 0);
+            batch<T, A> step0 = _mm_shuffle_epi32(self, mask0);
             batch<T, A> acc0 = min(self, step0);
 
-            batch<T, A> step1 = _mm_shuffle_epi32(acc0, detail::shuffle<1, 0, 0, 0>());
+            constexpr auto mask1 = detail::shuffle(1, 0, 0, 0);
+            batch<T, A> step1 = _mm_shuffle_epi32(acc0, mask1);
             batch<T, A> acc1 = min(acc0, step1);
 
-            batch<T, A> step2 = _mm_shufflelo_epi16(acc1, detail::shuffle<1, 0, 0, 0>());
+            constexpr auto mask2 = detail::shuffle(1, 0, 0, 0);
+            batch<T, A> step2 = _mm_shufflelo_epi16(acc1, mask2);
             batch<T, A> acc2 = min(acc1, step2);
             if (sizeof(T) == 2)
                 return first(acc2, A {});
@@ -1355,7 +1383,7 @@ namespace xsimd
         template <class A, class ITy, ITy I0, ITy I1, ITy I2, ITy I3>
         XSIMD_INLINE batch<float, A> shuffle(batch<float, A> const& x, batch<float, A> const& y, batch_constant<ITy, A, I0, I1, I2, I3> mask, requires_arch<sse2>) noexcept
         {
-            constexpr uint32_t smask = detail::mod_shuffle<I0, I1, I2, I3>();
+            constexpr uint32_t smask = detail::mod_shuffle(I0, I1, I2, I3);
             // shuffle within lane
             if (I0 < 4 && I1 < 4 && I2 >= 4 && I3 >= 4)
                 return _mm_shuffle_ps(x, y, smask);
@@ -1369,7 +1397,7 @@ namespace xsimd
         template <class A, class ITy, ITy I0, ITy I1>
         XSIMD_INLINE batch<double, A> shuffle(batch<double, A> const& x, batch<double, A> const& y, batch_constant<ITy, A, I0, I1> mask, requires_arch<sse2>) noexcept
         {
-            constexpr uint32_t smask = detail::mod_shuffle<I0, I1>();
+            constexpr uint32_t smask = detail::mod_shuffle(I0, I1);
             // shuffle within lane
             if (I0 < 2 && I1 >= 2)
                 return _mm_shuffle_pd(x, y, smask);
@@ -1617,26 +1645,24 @@ namespace xsimd
             return _mm_sub_pd(self, other);
         }
 
-        // swizzle
-
         template <class A, uint32_t V0, uint32_t V1, uint32_t V2, uint32_t V3>
         XSIMD_INLINE batch<float, A> swizzle(batch<float, A> const& self, batch_constant<uint32_t, A, V0, V1, V2, V3>, requires_arch<sse2>) noexcept
         {
-            constexpr uint32_t index = detail::shuffle<V0, V1, V2, V3>();
+            constexpr uint32_t index = detail::shuffle(V0, V1, V2, V3);
             return _mm_shuffle_ps(self, self, index);
         }
 
         template <class A, uint64_t V0, uint64_t V1>
         XSIMD_INLINE batch<double, A> swizzle(batch<double, A> const& self, batch_constant<uint64_t, A, V0, V1>, requires_arch<sse2>) noexcept
         {
-            constexpr uint32_t index = detail::shuffle<V0, V1>();
+            constexpr uint32_t index = detail::shuffle(V0, V1);
             return _mm_shuffle_pd(self, self, index);
         }
 
         template <class A, uint64_t V0, uint64_t V1>
         XSIMD_INLINE batch<uint64_t, A> swizzle(batch<uint64_t, A> const& self, batch_constant<uint64_t, A, V0, V1>, requires_arch<sse2>) noexcept
         {
-            constexpr uint32_t index = detail::shuffle<2 * V0, 2 * V0 + 1, 2 * V1, 2 * V1 + 1>();
+            constexpr uint32_t index = detail::shuffle(2 * V0, 2 * V0 + 1, 2 * V1, 2 * V1 + 1);
             return _mm_shuffle_epi32(self, index);
         }
 
@@ -1649,7 +1675,7 @@ namespace xsimd
         template <class A, uint32_t V0, uint32_t V1, uint32_t V2, uint32_t V3>
         XSIMD_INLINE batch<uint32_t, A> swizzle(batch<uint32_t, A> const& self, batch_constant<uint32_t, A, V0, V1, V2, V3>, requires_arch<sse2>) noexcept
         {
-            constexpr uint32_t index = detail::shuffle<V0, V1, V2, V3>();
+            constexpr uint32_t index = detail::shuffle(V0, V1, V2, V3);
             return _mm_shuffle_epi32(self, index);
         }
 
@@ -1663,8 +1689,8 @@ namespace xsimd
         XSIMD_INLINE batch<int16_t, A>
         swizzle(batch<int16_t, A> const& self, batch_constant<uint16_t, A, V0, V1, V2, V3, V4, V5, V6, V7> mask, requires_arch<sse2>) noexcept
         {
-            constexpr int imm_lo = detail::mod_shuffle<V0, V1, V2, V3>();
-            constexpr int imm_hi = detail::mod_shuffle<V4, V5, V6, V7>();
+            constexpr int imm_lo = detail::mod_shuffle(V0, V1, V2, V3);
+            constexpr int imm_hi = detail::mod_shuffle(V4, V5, V6, V7);
             // 0) identity?
             constexpr bool identity = detail::is_identity(mask);
             XSIMD_IF_CONSTEXPR(identity)
@@ -1735,6 +1761,7 @@ namespace xsimd
         {
             return bitwise_cast<uint16_t>(swizzle(bitwise_cast<int16_t>(self), mask, sse2 {}));
         }
+
         // transpose
         template <class A>
         XSIMD_INLINE void transpose(batch<float, A>* matrix_begin, batch<float, A>* matrix_end, requires_arch<sse2>) noexcept
@@ -1852,7 +1879,8 @@ namespace xsimd
         {
             return _mm_unpacklo_pd(self, other);
         }
+
     }
 }
 
-#endif
+#endif

Original file line number	Diff line number	Diff line change
`@@ -1058,7 +1058,7 @@ namespace xsimd`
`1058`	`1058`	`template <class A, class T, class _ = typename std::enable_if<(sizeof(T) <= 2), void>::type>`
`1059`	`1059`	`XSIMD_INLINE T reduce_max(batch<T, A> const& self, requires_arch<avx>) noexcept`
`1060`	`1060`	`{`
`1061`		`- constexpr auto mask = detail::shuffle<1, 0>();`
	`1061`	`+ constexpr auto mask = detail::shuffle(1, 0);`
`1062`	`1062`	`batch<T, A> step = _mm256_permute2f128_si256(self, self, mask);`
`1063`	`1063`	`batch<T, A> acc = max(self, step);`
`1064`	`1064`	`__m128i low = _mm256_castsi256_si128(acc);`
`@@ -1069,7 +1069,7 @@ namespace xsimd`
`1069`	`1069`	`template <class A, class T, class _ = typename std::enable_if<(sizeof(T) <= 2), void>::type>`
`1070`	`1070`	`XSIMD_INLINE T reduce_min(batch<T, A> const& self, requires_arch<avx>) noexcept`
`1071`	`1071`	`{`
`1072`		`- constexpr auto mask = detail::shuffle<1, 0>();`
	`1072`	`+ constexpr auto mask = detail::shuffle(1, 0);`
`1073`	`1073`	`batch<T, A> step = _mm256_permute2f128_si256(self, self, mask);`
`1074`	`1074`	`batch<T, A> acc = min(self, step);`
`1075`	`1075`	`__m128i low = _mm256_castsi256_si128(acc);`
`@@ -1214,7 +1214,7 @@ namespace xsimd`
`1214`	`1214`	`template <class A, class ITy, ITy I0, ITy I1, ITy I2, ITy I3, ITy I4, ITy I5, ITy I6, ITy I7>`
`1215`	`1215`	`XSIMD_INLINE batch<float, A> shuffle(batch<float, A> const& x, batch<float, A> const& y, batch_constant<ITy, A, I0, I1, I2, I3, I4, I5, I6, I7> mask, requires_arch<avx>) noexcept`
`1216`	`1216`	`{`
`1217`		`- constexpr uint32_t smask = detail::mod_shuffle<I0, I1, I2, I3>();`
	`1217`	`+ constexpr uint32_t smask = detail::mod_shuffle(I0, I1, I2, I3);`
`1218`	`1218`	`// shuffle within lane`
`1219`	`1219`	`if (I4 == (I0 + 4) && I5 == (I1 + 4) && I6 == (I2 + 4) && I7 == (I3 + 4) && I0 < 4 && I1 < 4 && I2 >= 8 && I2 < 12 && I3 >= 8 && I3 < 12)`
`1220`	`1220`	`return _mm256_shuffle_ps(x, y, smask);`
`@@ -1488,7 +1488,7 @@ namespace xsimd`
`1488`	`1488`	`auto split = _mm256_permute2f128_ps(self, self, control);`
`1489`	`1489`	`if (!is_dup_identity)`
`1490`	`1490`	`{`
`1491`		`- constexpr auto shuffle_mask = is_dup_low ? detail::mod_shuffle<V0, V1, V2, V3>() : detail::mod_shuffle<V4 - 4, V5 - 4, V6 - 4, V7 - 4>();`
	`1491`	`+ constexpr auto shuffle_mask = is_dup_low ? detail::mod_shuffle(V0, V1, V2, V3) : detail::mod_shuffle(V4 - 4, V5 - 4, V6 - 4, V7 - 4);`
`1492`	`1492`	`split = _mm256_permute_ps(split, shuffle_mask);`
`1493`	`1493`	`}`
`1494`	`1494`	`return split;`
`@@ -1910,4 +1910,4 @@ namespace xsimd`
`1910`	`1910`	`}`
`1911`	`1911`	`}`
`1912`	`1912`
`1913`		`-#endif`
	`1913`	`+#endif`
Original file line number	Diff line number	Diff line change
`@@ -964,15 +964,15 @@ namespace xsimd`
`964`	`964`	`constexpr auto imm = ((V0 & 1) << 0) \| ((V1 & 1) << 1) \| ((V2 & 1) << 2) \| ((V3 & 1) << 3);`
`965`	`965`	`return _mm256_permute_pd(self, imm);`
`966`	`966`	`}`
`967`		`- constexpr auto imm = detail::mod_shuffle<V0, V1, V2, V3>();`
	`967`	`+ constexpr auto imm = detail::mod_shuffle(V0, V1, V2, V3);`
`968`	`968`	`// fallback to full 4-element permute`
`969`	`969`	`return _mm256_permute4x64_pd(self, imm);`
`970`	`970`	`}`
`971`	`971`
`972`	`972`	`template <class A, uint64_t V0, uint64_t V1, uint64_t V2, uint64_t V3>`
`973`	`973`	`XSIMD_INLINE batch<uint64_t, A> swizzle(batch<uint64_t, A> const& self, batch_constant<uint64_t, A, V0, V1, V2, V3>, requires_arch<avx2>) noexcept`
`974`	`974`	`{`
`975`		`- constexpr auto mask = detail::mod_shuffle<V0, V1, V2, V3>();`
	`975`	`+ constexpr auto mask = detail::mod_shuffle(V0, V1, V2, V3);`
`976`	`976`	`return _mm256_permute4x64_epi64(self, mask);`
`977`	`977`	`}`
`978`	`978`	`template <class A, uint64_t V0, uint64_t V1, uint64_t V2, uint64_t V3>`