Fix usage of libswscale. Avoid intermediate quantization in ycbcr->rgb video conversion.

mzient · mzient · commit 6b4219923cc6 · 2025-10-28T11:13:17.000+01:00
Signed-off-by: Michal Zientkiewicz &lt;michalz@nvidia.com&gt;
diff --git a/dali/operators/video/color_space.cu b/dali/operators/video/color_space.cu
@@ -47,22 +47,24 @@ __global__ static void VideoColorSpaceConversionKernel(
 
     #pragma unroll
     for (int i = 0; i < 2; i++) {
-        float cy = halfy + i * 0.5f + 0.25f;
+        float cy = halfy + i * 0.5f + 0.5f;
         #pragma unroll
         for (int j = 0; j < 2; j++) {
-            float cx = halfx + j * 0.5f + 0.25f;
-            u8vec3 yuv_val;
+            float cx = halfx + j * 0.5f + 0.5f;
+            vec3 yuv_val;
             yuv_val[0] = Y.at(ivec2{x + j, y + i}, 0, kernels::BorderClamp());
 
             UV(&yuv_val[1], vec2(cx, cy), kernels::BorderClamp());
 
-            u8vec3 out_val;
+            yuv_val *= 1.0f / 255.0f;
+
+            vec3 out_val;
             switch (conversion_type) {
               case VIDEO_COLOR_SPACE_CONVERSION_TYPE_YUV_TO_RGB_FULL_RANGE:
-                out_val = dali::kernels::color::jpeg::ycbcr_to_rgb<uint8_t>(yuv_val);
+                out_val = dali::kernels::color::jpeg::ycbcr_to_rgb<float>(yuv_val);
                 break;
               case VIDEO_COLOR_SPACE_CONVERSION_TYPE_YUV_TO_RGB:
-                out_val = dali::kernels::color::itu_r_bt_601::ycbcr_to_rgb<uint8_t>(yuv_val);
+                out_val = dali::kernels::color::itu_r_bt_601::ycbcr_to_rgb<float>(yuv_val);
                 break;
               case VIDEO_COLOR_SPACE_CONVERSION_TYPE_YUV_UPSAMPLE:
                 out_val = yuv_val;
@@ -71,10 +73,11 @@ __global__ static void VideoColorSpaceConversionKernel(
                 assert(false);
             }
             if (normalized_range) {
-              output({x + j, y + i, 0}) = ConvertNorm<Out>(out_val.x);
-              output({x + j, y + i, 1}) = ConvertNorm<Out>(out_val.y);
-              output({x + j, y + i, 2}) = ConvertNorm<Out>(out_val.z);
+              output({x + j, y + i, 0}) = ConvertSatNorm<Out>(out_val.x);
+              output({x + j, y + i, 1}) = ConvertSatNorm<Out>(out_val.y);
+              output({x + j, y + i, 2}) = ConvertSatNorm<Out>(out_val.z);
             } else {
+              out_val *= 255.0f;
               output({x + j, y + i, 0}) = ConvertSat<Out>(out_val.x);
               output({x + j, y + i, 1}) = ConvertSat<Out>(out_val.y);
               output({x + j, y + i, 2}) = ConvertSat<Out>(out_val.z);
diff --git a/dali/operators/video/frames_decoder_cpu.cc b/dali/operators/video/frames_decoder_cpu.cc
@@ -93,7 +93,7 @@ void FramesDecoderCpu::CopyToOutput(uint8_t *data) {
         Width(),
         Height(),
         sws_output_format,
-        SWS_BILINEAR,
+        SWS_BILINEAR|SWS_FULL_CHR_H_INT|SWS_ACCURATE_RND,
         nullptr,
         nullptr,
         nullptr),
diff --git a/dali/test/python/test_video_reader.py b/dali/test/python/test_video_reader.py
@@ -139,12 +139,8 @@ def video_reader_pipeline():
                 ), f"Number of frames mismatch: {num_frames} != {sample_experimental.shape[0]}"
                 if i == 0:
                     for k in range(num_frames):
-                        if device == "cpu":
-                            additional_args = {"threshold": 0.06}
-                        else:
-                            additional_args = {}
                         compare_frames(
-                            sample_experimental[k], sample_legacy[k], i, j, k, **additional_args
+                            sample_experimental[k], sample_legacy[k], i, j, k
                         )
                 else:
                     np.testing.assert_array_equal(sample_legacy, sample_experimental)