Merge pull request #51 from QuState/as-chunks

Shnatsel · web-flow · commit 877ad1d6d07d · 2025-11-30T17:31:25.000Z
Use `.as_chunks_mut()` instead of `.chunks_exact_mut()` for better performance
diff --git a/src/kernels/dit.rs b/src/kernels/dit.rs
@@ -33,9 +33,8 @@ pub fn fft_dit_chunk_4_simd_f64(reals: &mut [f64], imags: &mut [f64]) {
 
     let two = 2.0_f64;
 
-    reals
-        .chunks_exact_mut(CHUNK_SIZE)
-        .zip(imags.chunks_exact_mut(CHUNK_SIZE))
+    (reals.as_chunks_mut::<CHUNK_SIZE>().0.iter_mut())
+        .zip(imags.as_chunks_mut::<CHUNK_SIZE>().0.iter_mut())
         .for_each(|(reals_chunk, imags_chunk)| {
             let (reals_s0, reals_s1) = reals_chunk.split_at_mut(DIST);
             let (imags_s0, imags_s1) = imags_chunk.split_at_mut(DIST);
@@ -84,9 +83,8 @@ pub fn fft_dit_chunk_4_simd_f32(reals: &mut [f32], imags: &mut [f32]) {
 
     let two = 2.0_f32;
 
-    reals
-        .chunks_exact_mut(CHUNK_SIZE)
-        .zip(imags.chunks_exact_mut(CHUNK_SIZE))
+    (reals.as_chunks_mut::<CHUNK_SIZE>().0.iter_mut())
+        .zip(imags.as_chunks_mut::<CHUNK_SIZE>().0.iter_mut())
         .for_each(|(reals_chunk, imags_chunk)| {
             let (reals_s0, reals_s1) = reals_chunk.split_at_mut(DIST);
             let (imags_s0, imags_s1) = imags_chunk.split_at_mut(DIST);
@@ -147,9 +145,8 @@ pub fn fft_dit_chunk_8_simd_f64(reals: &mut [f64], imags: &mut [f64]) {
         -std::f64::consts::FRAC_1_SQRT_2, // W_8^3 imag (-sqrt(2)/2)
     ]);
 
-    reals
-        .chunks_exact_mut(CHUNK_SIZE)
-        .zip(imags.chunks_exact_mut(CHUNK_SIZE))
+    (reals.as_chunks_mut::<CHUNK_SIZE>().0.iter_mut())
+        .zip(imags.as_chunks_mut::<CHUNK_SIZE>().0.iter_mut())
         .for_each(|(reals_chunk, imags_chunk)| {
             let (reals_s0, reals_s1) = reals_chunk.split_at_mut(DIST);
             let (imags_s0, imags_s1) = imags_chunk.split_at_mut(DIST);
@@ -204,9 +201,8 @@ pub fn fft_dit_chunk_8_simd_f32(reals: &mut [f32], imags: &mut [f32]) {
         -std::f32::consts::FRAC_1_SQRT_2, // W_8^3 imag (-sqrt(2)/2)
     ]);
 
-    reals
-        .chunks_exact_mut(CHUNK_SIZE)
-        .zip(imags.chunks_exact_mut(CHUNK_SIZE))
+    (reals.as_chunks_mut::<CHUNK_SIZE>().0.iter_mut())
+        .zip(imags.as_chunks_mut::<CHUNK_SIZE>().0.iter_mut())
         .for_each(|(reals_chunk, imags_chunk)| {
             let (reals_s0, reals_s1) = reals_chunk.split_at_mut(DIST);
             let (imags_s0, imags_s1) = imags_chunk.split_at_mut(DIST);
@@ -272,9 +268,8 @@ pub fn fft_dit_chunk_16_simd_f64(reals: &mut [f64], imags: &mut [f64]) {
         -0.38268343236508984,             // W_16^7 = -sin(pi/8)
     ]);
 
-    reals
-        .chunks_exact_mut(CHUNK_SIZE)
-        .zip(imags.chunks_exact_mut(CHUNK_SIZE))
+    (reals.as_chunks_mut::<CHUNK_SIZE>().0.iter_mut())
+        .zip(imags.as_chunks_mut::<CHUNK_SIZE>().0.iter_mut())
         .for_each(|(reals_chunk, imags_chunk)| {
             let (reals_s0, reals_s1) = reals_chunk.split_at_mut(DIST);
             let (imags_s0, imags_s1) = imags_chunk.split_at_mut(DIST);
@@ -339,9 +334,8 @@ pub fn fft_dit_chunk_16_simd_f32(reals: &mut [f32], imags: &mut [f32]) {
         -0.382_683_43_f32,                // W_16^7 = -sin(pi/8)
     ]);
 
-    reals
-        .chunks_exact_mut(CHUNK_SIZE)
-        .zip(imags.chunks_exact_mut(CHUNK_SIZE))
+    (reals.as_chunks_mut::<CHUNK_SIZE>().0.iter_mut())
+        .zip(imags.as_chunks_mut::<CHUNK_SIZE>().0.iter_mut())
         .for_each(|(reals_chunk, imags_chunk)| {
             let (reals_s0, reals_s1) = reals_chunk.split_at_mut(DIST);
             let (imags_s0, imags_s1) = imags_chunk.split_at_mut(DIST);
@@ -428,9 +422,8 @@ pub fn fft_dit_chunk_32_simd_f64(reals: &mut [f64], imags: &mut [f64]) {
         -0.19509032201612825,             // W_32^15
     ]);
 
-    reals
-        .chunks_exact_mut(CHUNK_SIZE)
-        .zip(imags.chunks_exact_mut(CHUNK_SIZE))
+    (reals.as_chunks_mut::<CHUNK_SIZE>().0.iter_mut())
+        .zip(imags.as_chunks_mut::<CHUNK_SIZE>().0.iter_mut())
         .for_each(|(reals_chunk, imags_chunk)| {
             let (reals_s0, reals_s1) = reals_chunk.split_at_mut(DIST);
             let (imags_s0, imags_s1) = imags_chunk.split_at_mut(DIST);
@@ -535,9 +528,8 @@ pub fn fft_dit_chunk_32_simd_f32(reals: &mut [f32], imags: &mut [f32]) {
         -0.195_090_32_f32,                // W_32^15
     ]);
 
-    reals
-        .chunks_exact_mut(CHUNK_SIZE)
-        .zip(imags.chunks_exact_mut(CHUNK_SIZE))
+    (reals.as_chunks_mut::<CHUNK_SIZE>().0.iter_mut())
+        .zip(imags.as_chunks_mut::<CHUNK_SIZE>().0.iter_mut())
         .for_each(|(reals_chunk, imags_chunk)| {
             let (reals_s0, reals_s1) = reals_chunk.split_at_mut(DIST);
             let (imags_s0, imags_s1) = imags_chunk.split_at_mut(DIST);
@@ -671,9 +663,8 @@ pub fn fft_dit_chunk_64_simd_f64(reals: &mut [f64], imags: &mut [f64]) {
         -0.0980171403295606,              // W_64^31
     ]);
 
-    reals
-        .chunks_exact_mut(CHUNK_SIZE)
-        .zip(imags.chunks_exact_mut(CHUNK_SIZE))
+    (reals.as_chunks_mut::<CHUNK_SIZE>().0.iter_mut())
+        .zip(imags.as_chunks_mut::<CHUNK_SIZE>().0.iter_mut())
         .for_each(|(reals_chunk, imags_chunk)| {
             let (reals_s0, reals_s1) = reals_chunk.split_at_mut(DIST);
             let (imags_s0, imags_s1) = imags_chunk.split_at_mut(DIST);
@@ -846,9 +837,8 @@ pub fn fft_dit_chunk_64_simd_f32(reals: &mut [f32], imags: &mut [f32]) {
         -0.098_017_14_f32,                // W_64^31
     ]);
 
-    reals
-        .chunks_exact_mut(CHUNK_SIZE)
-        .zip(imags.chunks_exact_mut(CHUNK_SIZE))
+    (reals.as_chunks_mut::<CHUNK_SIZE>().0.iter_mut())
+        .zip(imags.as_chunks_mut::<CHUNK_SIZE>().0.iter_mut())
         .for_each(|(reals_chunk, imags_chunk)| {
             let (reals_s0, reals_s1) = reals_chunk.split_at_mut(DIST);
             let (imags_s0, imags_s1) = imags_chunk.split_at_mut(DIST);
@@ -910,7 +900,6 @@ pub fn fft_dit_64_chunk_n_simd(
 ) {
     const LANES: usize = 8;
     let chunk_size = dist << 1;
-    let two = f64x8::splat(2.0);
     assert!(chunk_size >= LANES * 2);
 
     reals
@@ -920,39 +909,51 @@ pub fn fft_dit_64_chunk_n_simd(
             let (reals_s0, reals_s1) = reals_chunk.split_at_mut(dist);
             let (imags_s0, imags_s1) = imags_chunk.split_at_mut(dist);
 
-            reals_s0
-                .chunks_exact_mut(LANES)
-                .zip(reals_s1.chunks_exact_mut(LANES))
-                .zip(imags_s0.chunks_exact_mut(LANES))
-                .zip(imags_s1.chunks_exact_mut(LANES))
-                .zip(twiddles_re.chunks_exact(LANES))
-                .zip(twiddles_im.chunks_exact(LANES))
-                .for_each(|(((((re_s0, re_s1), im_s0), im_s1), w_re), w_im)| {
-                    let in0_re = f64x8::new(re_s0[0..8].try_into().unwrap());
-                    let in1_re = f64x8::new(re_s1[0..8].try_into().unwrap());
-                    let in0_im = f64x8::new(im_s0[0..8].try_into().unwrap());
-                    let in1_im = f64x8::new(im_s1[0..8].try_into().unwrap());
-
-                    let tw_re = f64x8::new(w_re[0..8].try_into().unwrap());
-                    let tw_im = f64x8::new(w_im[0..8].try_into().unwrap());
-
-                    // out0.re = (in0.re + tw_re * in1.re) - tw_im * in1.im
-                    let out0_re = tw_im.mul_neg_add(in1_im, tw_re.mul_add(in1_re, in0_re));
-                    // out0.im = (in0.im + tw_re * in1.im) + tw_im * in1.re
-                    let out0_im = tw_im.mul_add(in1_re, tw_re.mul_add(in1_im, in0_im));
-
-                    // Use FMA for out1 = 2*in0 - out0
-                    let out1_re = two.mul_sub(in0_re, out0_re);
-                    let out1_im = two.mul_sub(in0_im, out0_im);
-
-                    re_s0.copy_from_slice(out0_re.as_array());
-                    im_s0.copy_from_slice(out0_im.as_array());
-                    re_s1.copy_from_slice(out1_re.as_array());
-                    im_s1.copy_from_slice(out1_im.as_array());
+            (reals_s0.as_chunks_mut::<LANES>().0.iter_mut())
+                .zip(reals_s1.as_chunks_mut::<LANES>().0.iter_mut())
+                .zip(imags_s0.as_chunks_mut::<LANES>().0.iter_mut())
+                .zip(imags_s1.as_chunks_mut::<LANES>().0.iter_mut())
+                .zip(twiddles_re.as_chunks::<LANES>().0.iter())
+                .zip(twiddles_im.as_chunks::<LANES>().0.iter())
+                .for_each(|(((((re_s0, re_s1), im_s0), im_s1), tw_re), tw_im)| {
+                    fft_dit_64_chunk_n_simd_kernel(re_s0, re_s1, im_s0, im_s1, tw_re, tw_im)
                 });
         });
 }
 
+#[inline(always)] // for multiversioning to work
+fn fft_dit_64_chunk_n_simd_kernel(
+    re_s0: &mut [f64; 8],
+    re_s1: &mut [f64; 8],
+    im_s0: &mut [f64; 8],
+    im_s1: &mut [f64; 8],
+    tw_re: &[f64; 8],
+    tw_im: &[f64; 8],
+) {
+    let two = f64x8::splat(2.0);
+    let in0_re = f64x8::new(*re_s0);
+    let in1_re = f64x8::new(*re_s1);
+    let in0_im = f64x8::new(*im_s0);
+    let in1_im = f64x8::new(*im_s1);
+
+    let tw_re = f64x8::new(*tw_re);
+    let tw_im = f64x8::new(*tw_im);
+
+    // out0.re = (in0.re + tw_re * in1.re) - tw_im * in1.im
+    let out0_re = tw_im.mul_neg_add(in1_im, tw_re.mul_add(in1_re, in0_re));
+    // out0.im = (in0.im + tw_re * in1.im) + tw_im * in1.re
+    let out0_im = tw_im.mul_add(in1_re, tw_re.mul_add(in1_im, in0_im));
+
+    // Use FMA for out1 = 2*in0 - out0
+    let out1_re = two.mul_sub(in0_re, out0_re);
+    let out1_im = two.mul_sub(in0_im, out0_im);
+
+    re_s0.copy_from_slice(out0_re.as_array());
+    im_s0.copy_from_slice(out0_im.as_array());
+    re_s1.copy_from_slice(out1_re.as_array());
+    im_s1.copy_from_slice(out1_im.as_array());
+}
+
 /// General DIT butterfly for f32
 #[multiversion::multiversion(targets(
     "x86_64+avx512f+avx512bw+avx512cd+avx512dq+avx512vl+gfni",
@@ -973,7 +974,6 @@ pub fn fft_dit_32_chunk_n_simd(
 ) {
     const LANES: usize = 16;
     let chunk_size = dist << 1;
-    let two = f32x16::splat(2.0);
     assert!(chunk_size >= LANES * 2);
 
     reals
@@ -983,37 +983,47 @@ pub fn fft_dit_32_chunk_n_simd(
             let (reals_s0, reals_s1) = reals_chunk.split_at_mut(dist);
             let (imags_s0, imags_s1) = imags_chunk.split_at_mut(dist);
 
-            reals_s0
-                .chunks_exact_mut(LANES)
-                .zip(reals_s1.chunks_exact_mut(LANES))
-                .zip(imags_s0.chunks_exact_mut(LANES))
-                .zip(imags_s1.chunks_exact_mut(LANES))
-                .zip(twiddles_re.chunks_exact(LANES))
-                .zip(twiddles_im.chunks_exact(LANES))
-                .for_each(|(((((re_s0, re_s1), im_s0), im_s1), w_re), w_im)| {
-                    let in0_re = f32x16::new(re_s0[0..16].try_into().unwrap());
-                    let in1_re = f32x16::new(re_s1[0..16].try_into().unwrap());
-                    let in0_im = f32x16::new(im_s0[0..16].try_into().unwrap());
-                    let in1_im = f32x16::new(im_s1[0..16].try_into().unwrap());
-
-                    let tw_re = f32x16::new(w_re[0..16].try_into().unwrap());
-                    let tw_im = f32x16::new(w_im[0..16].try_into().unwrap());
-
-                    // Exactly 6 FMAs for DIT butterfly:
-                    // tw_im contains negative values (standard twiddle convention)
-                    // out0.re = (in0.re + tw_re*in1.re) - tw_im*in1.im
-                    let out0_re = tw_im.mul_neg_add(in1_im, tw_re.mul_add(in1_re, in0_re));
-                    // out0.im = (in0.im + tw_re*in1.im) + tw_im*in1.re
-                    let out0_im = tw_im.mul_add(in1_re, tw_re.mul_add(in1_im, in0_im));
-
-                    // Use FMA for out1 = 2*in0 - out0
-                    let out1_re = two.mul_sub(in0_re, out0_re);
-                    let out1_im = two.mul_sub(in0_im, out0_im);
-
-                    re_s0.copy_from_slice(out0_re.as_array());
-                    im_s0.copy_from_slice(out0_im.as_array());
-                    re_s1.copy_from_slice(out1_re.as_array());
-                    im_s1.copy_from_slice(out1_im.as_array());
+            (reals_s0.as_chunks_mut::<LANES>().0.iter_mut())
+                .zip(reals_s1.as_chunks_mut::<LANES>().0.iter_mut())
+                .zip(imags_s0.as_chunks_mut::<LANES>().0.iter_mut())
+                .zip(imags_s1.as_chunks_mut::<LANES>().0.iter_mut())
+                .zip(twiddles_re.as_chunks::<LANES>().0.iter())
+                .zip(twiddles_im.as_chunks::<LANES>().0.iter())
+                .for_each(|(((((re_s0, re_s1), im_s0), im_s1), tw_re), tw_im)| {
+                    fft_dit_32_chunk_n_simd_kernel(re_s0, re_s1, im_s0, im_s1, tw_re, tw_im)
                 });
         });
 }
+
+#[inline(always)] // for multiversioning to work
+fn fft_dit_32_chunk_n_simd_kernel(
+    re_s0: &mut [f32; 16],
+    re_s1: &mut [f32; 16],
+    im_s0: &mut [f32; 16],
+    im_s1: &mut [f32; 16],
+    tw_re: &[f32; 16],
+    tw_im: &[f32; 16],
+) {
+    let two = f32x16::splat(2.0);
+    let in0_re = f32x16::new(*re_s0);
+    let in1_re = f32x16::new(*re_s1);
+    let in0_im = f32x16::new(*im_s0);
+    let in1_im = f32x16::new(*im_s1);
+
+    let tw_re = f32x16::new(*tw_re);
+    let tw_im = f32x16::new(*tw_im);
+
+    // out0.re = (in0.re + tw_re * in1.re) - tw_im * in1.im
+    let out0_re = tw_im.mul_neg_add(in1_im, tw_re.mul_add(in1_re, in0_re));
+    // out0.im = (in0.im + tw_re * in1.im) + tw_im * in1.re
+    let out0_im = tw_im.mul_add(in1_re, tw_re.mul_add(in1_im, in0_im));
+
+    // Use FMA for out1 = 2*in0 - out0
+    let out1_re = two.mul_sub(in0_re, out0_re);
+    let out1_im = two.mul_sub(in0_im, out0_im);
+
+    re_s0.copy_from_slice(out0_re.as_array());
+    im_s0.copy_from_slice(out0_im.as_array());
+    re_s1.copy_from_slice(out1_re.as_array());
+    im_s1.copy_from_slice(out1_im.as_array());
+}