[EXIR] Register _clone_dim_order op and map aten.clone (#13735)

keyprocedure · Gasoonjia · digantdesai · web-flow · commit c5ff74cf02d3 · 2025-09-04T10:45:16.000-07:00
### Summary This is PR 2 of 3 implementing a dim order aware clone op. This PR registers the new `_clone_dim_order` op and maps `aten.clone` to `dim_order_ops._clone_dim_order` in EXIR during export to preserve memory layout changes (contiguous/channels_last). It also updates the Core ML, ARM, and Qualcomm backends to handle the new clone op. Related PRs: - PR 1: [#12974](#12974) - Add `_clone_dim_order` portable kernel - PR 3: [#12976](#12976) - Update RemoveCloneOpsTransform to be dim order aware Fixes #12645 ### Test plan - Operator level tests to verify kernel behavior for layout preservation and changes. - Graph level checks to confirm that clone mapping occurs. - End to end tests to validate that functional clone behavior is unchanged. - Backend tests to ensure clone semantics are preserved. All tests pass via: `python -m unittest exir.tests.test_memory_format_ops_pass` `python -m unittest backends.apple.coreml.test.test_torch_ops` `pytest backends/arm/test/ops/test_clone.py` `pytest backends/arm/test/passes/test_remove_clone_pass.py` --------- Co-authored-by: Gasoonjia <gasoonjia@meta.com> Co-authored-by: Digant Desai <digantdesai@meta.com>
diff --git a/backends/apple/coreml/compiler/torch_ops.py b/backends/apple/coreml/compiler/torch_ops.py
@@ -15,6 +15,7 @@
 from coremltools.converters.mil.frontend.torch.ops import (
     _get_inputs,
     _get_kwinputs,
+    noop,
     NUM_TO_NUMPY_DTYPE,
     NUM_TO_TORCH_DTYPE,
     split,
@@ -91,6 +92,28 @@ def _to_dim_order_copy(context, node):
         to(context, node)
 
 
+@register_torch_op(
+    torch_alias=[
+        "dim_order_ops::_clone_dim_order",
+        "dim_order_ops._clone_dim_order",
+    ],
+    override=False,
+)
+def _clone_dim_order(context, node):
+    dim_order = _get_kwinputs(context, node, "dim_order", default=[None])[0]
+    node.kwinputs.pop("dim_order")
+
+    # In CoreML, dim_order.val will be a ndarray, so we convert it to a list to check memory format.
+    dim_order = [int(d) for d in dim_order.val]
+    memory_format = get_memory_format(dim_order)
+    assert (
+        memory_format == _torch.contiguous_format
+    ), "Only contiguous memory format is supported in CoreML"
+
+    # Since CoreML only supports contiguous format, no dim_order preservation is needed. Treat this as a no-op clone.
+    noop(context, node)
+
+
 # https://github.com/apple/coremltools/pull/2558
 @register_torch_op(
     torch_alias=["torchao::dequantize_affine", "torchao.dequantize_affine"],
diff --git a/backends/apple/coreml/test/test_torch_ops.py b/backends/apple/coreml/test/test_torch_ops.py
@@ -268,6 +268,28 @@ def test_dequantize_codebook_embedding_per_grouped_row(self):
         et_prog = delegated_program.to_executorch()
         self._compare_outputs(et_prog, model, example_inputs)
 
+    def test__clone_dim_order_contiguous(self):
+        class Model(torch.nn.Module):
+            def forward(self, x):
+                return torch.ops.dim_order_ops._clone_dim_order(
+                    x, dim_order=[0, 1, 2, 3]
+                )
+
+        model, example_inputs = Model(), (torch.randn(1, 3, 8, 8),)
+        ep = torch.export.export(model, example_inputs)
+        delegated_program = executorch.exir.to_edge_transform_and_lower(
+            ep,
+            partitioner=[self._coreml_partitioner()],
+        )
+        for node in delegated_program.exported_program().graph.nodes:
+            if node.op == "call_function":
+                assert node.target.__name__ in [
+                    "executorch_call_delegate",
+                    "getitem",
+                ], f"Got unexpected node target after delegation: {node.target.__name__}"
+        et_prog = delegated_program.to_executorch()
+        self._compare_outputs(et_prog, model, example_inputs)
+
 
 if __name__ == "__main__":
     test_runner = TestTorchOps()
@@ -280,3 +302,4 @@ def test_dequantize_codebook_embedding_per_grouped_row(self):
     test_runner.test_dequantize_codebook_linear_per_grouped_row()
     test_runner.test_dequantize_codebook_embedding_per_grouped_col()
     test_runner.test_dequantize_codebook_embedding_per_grouped_row()
+    test_runner.test__clone_dim_order_contiguous()
diff --git a/backends/arm/_passes/remove_clone_pass.py b/backends/arm/_passes/remove_clone_pass.py
@@ -18,7 +18,7 @@ class RemoveClonePass(ExportPass):
     """Remove all clones from graph_module"""
 
     def call_operator(self, op, args, kwargs, meta):
-        if op != exir_ops.edge.aten.clone.default:
+        if op != exir_ops.edge.dim_order_ops._clone_dim_order.default:
             return super().call_operator(op, args, kwargs, meta)
 
         if len(args) != 1:
diff --git a/backends/arm/operator_support/clone_support.py b/backends/arm/operator_support/clone_support.py
@@ -5,6 +5,7 @@
 
 import logging
 
+import torch
 import torch.fx as fx
 from executorch.backends.arm.operator_support.tosa_supported_operators import (
     register_tosa_support_check,
@@ -18,7 +19,7 @@
 
 @register_tosa_support_check
 class CloneSupported(SupportedTOSAOperatorCheck):
-    targets = [exir_ops.edge.aten.clone.default]
+    targets = [exir_ops.edge.dim_order_ops._clone_dim_order.default]
 
     tosa_specs = [
         TosaSpecification.create_from_string("TOSA-1.0+INT"),
@@ -28,10 +29,62 @@ class CloneSupported(SupportedTOSAOperatorCheck):
     def is_node_tosa_supported(
         self, node: fx.Node, tosa_spec: TosaSpecification
     ) -> bool:
+        if node.target not in self.targets:
+            self.reporter.report_reject(node, f"Target {node.target} is not supported.")
+            return False
 
         input_node = node.args[0]
         if not isinstance(input_node, fx.Node):
             self.reporter.report_reject(node, "Non tensor clones are not supported")
             return False
 
+        # Check input node
+        if len(node.all_input_nodes) != 1:
+            self.reporter.report_reject(
+                node, f"Expected 1 input node, got {len(node.all_input_nodes)}"
+            )
+            return False
+
+        input_val = node.all_input_nodes[0].meta["val"]
+        if not isinstance(input_val, torch._subclasses.FakeTensor):
+            self.reporter.report_reject(node, "Expected input to be a FakeTensor.")
+            return False
+
+        input_dtype = input_val.dtype
+
+        # Check output node
+        output_val = node.meta["val"]
+        if not isinstance(output_val, torch._subclasses.FakeTensor):
+            self.reporter.report_reject(node, "Expected output to be a FakeTensor.")
+            return False
+
+        if output_val.dtype != input_dtype:
+            self.reporter.report_reject(
+                node,
+                f"Input dtype {input_val.dtype} does not match {output_val.dtype}.",
+            )
+            return False
+
+        # Check memory format
+        if "memory_format" in node.kwargs:
+            if node.kwargs["memory_format"] in (torch.preserve_format,):
+                self.reporter.report_reject(
+                    node,
+                    f"Argument 'memory_format' is not supported for "
+                    f"{node.target} right now.",
+                )
+                return False
+
+        # Check dim_order
+        if "dim_order" in node.kwargs:
+            dim_order = node.kwargs["dim_order"]
+            # pyre-ignore[6]
+            if dim_order != list(range(len(dim_order))):  # type: ignore[arg-type]
+                self.reporter.report_reject(
+                    node,
+                    f"Argument {dim_order=} is not supported for "
+                    f"{node.target} right now.",
+                )
+                return False
+
         return True
diff --git a/backends/arm/test/misc/test_partition_decomposed_quantized_ops.py b/backends/arm/test/misc/test_partition_decomposed_quantized_ops.py
@@ -38,7 +38,7 @@
 ]
 linear_residual_exir_op: list[str] = [
     "executorch_exir_dialects_edge__ops_aten_gelu_default",
-    "executorch_exir_dialects_edge__ops_aten_clone_default",
+    "executorch_exir_dialects_edge__ops_dim_order_ops__clone_dim_order_default",
     "executorch_exir_dialects_edge__ops_aten_linear_default",
     "executorch_exir_dialects_edge__ops_aten_add_Tensor",
 ]
diff --git a/backends/arm/test/ops/test_clone.py b/backends/arm/test/ops/test_clone.py
@@ -19,7 +19,7 @@
 )
 
 aten_op = "torch.ops.aten.clone.default"
-exir_op = "executorch_exir_dialects_edge__ops_aten_clone_default"
+exir_op = "executorch_exir_dialects_edge__ops_dim_order_ops__clone_dim_order_default"
 
 input_t = Tuple[torch.Tensor]
 
diff --git a/backends/arm/test/passes/test_remove_clone_pass.py b/backends/arm/test/passes/test_remove_clone_pass.py
@@ -35,9 +35,11 @@ def test_remove_clone_tosa_INT():
         module.get_inputs(),
         quantize=True,
         ops_before_pass={
-            "executorch_exir_dialects_edge__ops_aten_clone_default": 1,
+            "executorch_exir_dialects_edge__ops_dim_order_ops__clone_dim_order_default": 1,
         },
-        ops_not_after_pass=["executorch_exir_dialects_edge__ops_aten_clone_default"],
+        ops_not_after_pass=[
+            "executorch_exir_dialects_edge__ops_dim_order_ops__clone_dim_order_default"
+        ],
         pass_list=[RemoveClonePass],
     )
     pipeline.run()
diff --git a/backends/qualcomm/_passes/convert_bmm_to_matmul.py b/backends/qualcomm/_passes/convert_bmm_to_matmul.py
@@ -21,7 +21,7 @@ class ConvertBmmToMatmul(ExportPass):
 
     view_copy = exir_ops.edge.aten.view_copy.default
     expand_copy = exir_ops.edge.aten.expand_copy.default
-    clone = exir_ops.edge.aten.clone.default
+    clone = exir_ops.edge.dim_order_ops._clone_dim_order.default
     bmm = exir_ops.edge.aten.bmm.default
     matmul = exir_ops.edge.aten.matmul.default
     patterns = [
diff --git a/backends/qualcomm/_passes/remove_redundancy.py b/backends/qualcomm/_passes/remove_redundancy.py
@@ -19,7 +19,7 @@ def __init__(self, quantization_capture=False):
         self.redundant_ops_general = {
             torch.clone: self._default_condition,
             torch.ops.aten.clone.default: self._default_condition,
-            exir_ops.edge.aten.clone.default: self._default_condition,
+            exir_ops.edge.dim_order_ops._clone_dim_order.default: self._default_condition,
             torch.ops.aten.alias.default: self._default_condition,
             exir_ops.edge.aten.alias.default: self._default_condition,
             exir_ops.edge.aten.alias_copy.default: self._default_condition,
diff --git a/backends/qualcomm/partition/common_defs.py b/backends/qualcomm/partition/common_defs.py
@@ -10,7 +10,7 @@
 from executorch.exir.dialects._ops import ops as exir_ops
 
 not_supported_operator = [
-    exir_ops.edge.aten.clone.default,
+    exir_ops.edge.dim_order_ops._clone_dim_order.default,
     exir_ops.edge.quantized_decomposed.embedding_4bit.dtype,
 ]
 
diff --git a/backends/qualcomm/tests/utils.py b/backends/qualcomm/tests/utils.py
@@ -660,7 +660,7 @@ def _insert_clone(
                         users = list(node.users.keys())
                         inserted_node = graph_module.graph.create_node(
                             "call_function",
-                            exir_ops.edge.aten.clone.default,
+                            exir_ops.edge.dim_order_ops._clone_dim_order.default,
                             (node,),
                         )
                         inserted_node.meta["val"] = node.meta["val"]
diff --git a/exir/passes/dim_order_ops_registry.py b/exir/passes/dim_order_ops_registry.py
@@ -28,6 +28,14 @@
     "_empty_dim_order.out(int[] size, *, int[]? dim_order=None, Tensor(a!) out) -> Tensor(a!)"
 )
 
+lib.define(
+    "_clone_dim_order(Tensor self, *, bool non_blocking=False, int[]? dim_order=None) -> Tensor"
+)
+
+lib.define(
+    "_clone_dim_order.out(Tensor self, *, bool non_blocking=False, int[]? dim_order=None, Tensor(a!) out) -> Tensor(a!)"
+)
+
 
 def _op_impl(target, *args, **kwargs):
     kwargs["memory_format"] = get_memory_format(kwargs.get("dim_order", None))
@@ -57,12 +65,23 @@ def _empty_dim_order_out_impl(*args, **kwargs):
     return _op_impl(torch.ops.aten.empty.out, *args, **kwargs)
 
 
+@impl(lib, "_clone_dim_order", "CompositeImplicitAutograd")
+def _clone_dim_order_impl(*args, **kwargs):
+    return _op_impl(torch.ops.aten.clone.default, *args, **kwargs)
+
+
+@impl(lib, "_clone_dim_order.out", "CompositeImplicitAutograd")
+def _clone_dim_order_out_impl(*args, **kwargs):
+    return _op_impl(torch.ops.aten.clone.out, *args, **kwargs)
+
+
 """
 Defines a map of edge ops to the corresponding dim_order ops for quick lookup
 """
 DimOrderOpsMap = {
     exir_ops.edge.aten._to_copy.default: exir_ops.edge.dim_order_ops._to_dim_order_copy.default,
     exir_ops.edge.aten.empty.memory_format: exir_ops.edge.dim_order_ops._empty_dim_order.default,
+    exir_ops.edge.aten.clone.default: exir_ops.edge.dim_order_ops._clone_dim_order.default,
 }
 
 """
diff --git a/exir/tests/test_memory_format_ops_pass.py b/exir/tests/test_memory_format_ops_pass.py
@@ -27,7 +27,10 @@
     AmbiguousDimOrderError,
     MemoryFormatOpsPassTestUtils,
     MemoryFormatTestSet,
+    PropagateToCloneChannelsLastModule,
     PropagateToCopyChannalsLastModule,
+    SimpleCloneChannelsLastModule,
+    SimpleCloneContiguousModule,
     SimpleEmptyChannelLastModule,
     SimpleEmptyContiguoustModule,
     SimpleToCopyChannelsLastModule,
@@ -91,6 +94,36 @@ def test_op_empty_replacement_contiguous(self) -> None:
             ),
         )
 
+    def test_op_clone_replacement_contiguous(self) -> None:
+        model = SimpleCloneContiguousModule()
+        MemoryFormatOpsPassTestUtils.memory_format_test_runner(
+            self,
+            MemoryFormatTestSet(
+                module=model.eval(),
+                op=torch.ops.aten.clone.default,
+                sample_input=(
+                    torch.randn((3, 4, 5, 6)).to(memory_format=torch.channels_last),
+                ),
+                target_memory_format=torch.contiguous_format,
+                _load_for_executorch_from_buffer=_load_for_executorch_from_buffer,
+            ),
+        )
+
+    def test_op_clone_replacement_channels_last(self) -> None:
+        model = SimpleCloneChannelsLastModule()
+        MemoryFormatOpsPassTestUtils.memory_format_test_runner(
+            self,
+            MemoryFormatTestSet(
+                module=model.eval(),
+                op=torch.ops.aten.clone.default,
+                sample_input=(
+                    torch.randn((3, 4, 5, 6)).to(memory_format=torch.contiguous_format),
+                ),
+                target_memory_format=torch.channels_last,
+                _load_for_executorch_from_buffer=_load_for_executorch_from_buffer,
+            ),
+        )
+
     def test_op_dim_order_update(self) -> None:
         MemoryFormatOpsPassTestUtils.memory_format_test_runner(
             self,
@@ -128,6 +161,25 @@ def test_op_dim_order_propagation(self) -> None:
             check_unambiguous_dim_order=True,
         )
 
+    def test_op_clone_dim_order_propagation(self) -> None:
+        MemoryFormatOpsPassTestUtils.memory_format_test_runner(
+            self,
+            MemoryFormatTestSet(
+                module=PropagateToCloneChannelsLastModule().eval(),
+                op=torch.ops.aten.clone.default,
+                sample_input=(
+                    torch.rand_like(
+                        torch.zeros([2, 2, 2, 2]),
+                        dtype=torch.float32,
+                        memory_format=torch.contiguous_format,
+                    ),
+                ),
+                target_memory_format=torch.channels_last,
+                _load_for_executorch_from_buffer=_load_for_executorch_from_buffer,
+            ),
+            check_unambiguous_dim_order=True,
+        )
+
     def test_op_dim_order_propagation_ambiguous(self) -> None:
         try:
             MemoryFormatOpsPassTestUtils.memory_format_test_runner(
diff --git a/exir/tests/test_memory_format_ops_pass_utils.py b/exir/tests/test_memory_format_ops_pass_utils.py
@@ -38,6 +38,10 @@
         "torch.ops.aten.empty.memory_format",
         "executorch_exir_dialects_edge__ops_dim_order_ops__empty_dim_order_default",
     ),
+    torch.ops.aten.clone.default: (
+        "torch.ops.aten.clone.default",
+        "executorch_exir_dialects_edge__ops_dim_order_ops__clone_dim_order_default",
+    ),
 }
 
 
@@ -70,6 +74,22 @@ def forward(self, x: torch.Tensor) -> torch.Tensor:
         return x.to(dtype=torch.double, memory_format=torch.channels_last)
 
 
+class SimpleCloneContiguousModule(torch.nn.Module):
+    def __init__(self):
+        super().__init__()
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        return x.clone(memory_format=torch.contiguous_format)
+
+
+class SimpleCloneChannelsLastModule(torch.nn.Module):
+    def __init__(self):
+        super().__init__()
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        return x.clone(memory_format=torch.channels_last)
+
+
 class SimpleEmptyContiguoustModule(torch.nn.Module):
     def __init__(self):
         super().__init__()
@@ -102,6 +122,16 @@ def forward(self, x: torch.Tensor) -> torch.Tensor:
         return t1 * t2
 
 
+class PropagateToCloneChannelsLastModule(torch.nn.Module):
+    def __init__(self):
+        super().__init__()
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        t1 = x.clone(memory_format=torch.channels_last)
+        t2 = t1 + t1
+        return t1 * t2
+
+
 class AmbiguousDimOrderError(RuntimeError):
     pass
 

Original file line number	Diff line number	Diff line change
`@@ -38,7 +38,7 @@`
`38`	`38`	`]`
`39`	`39`	`linear_residual_exir_op: list[str] = [`
`40`	`40`	`"executorch_exir_dialects_edge__ops_aten_gelu_default",`
`41`		`- "executorch_exir_dialects_edge__ops_aten_clone_default",`
	`41`	`+ "executorch_exir_dialects_edge__ops_dim_order_ops__clone_dim_order_default",`
`42`	`42`	`"executorch_exir_dialects_edge__ops_aten_linear_default",`
`43`	`43`	`"executorch_exir_dialects_edge__ops_aten_add_Tensor",`
`44`	`44`	`]`
Original file line number	Diff line number	Diff line change
`@@ -19,7 +19,7 @@`
`19`	`19`	`)`
`20`	`20`
`21`	`21`	`aten_op = "torch.ops.aten.clone.default"`
`22`		`-exir_op = "executorch_exir_dialects_edge__ops_aten_clone_default"`
	`22`	`+exir_op = "executorch_exir_dialects_edge__ops_dim_order_ops__clone_dim_order_default"`
`23`	`23`
`24`	`24`	`input_t = Tuple[torch.Tensor]`
`25`	`25`
Original file line number	Diff line number	Diff line change
`@@ -10,7 +10,7 @@`
`10`	`10`	`from executorch.exir.dialects._ops import ops as exir_ops`
`11`	`11`
`12`	`12`	`not_supported_operator = [`
`13`		`- exir_ops.edge.aten.clone.default,`
	`13`	`+ exir_ops.edge.dim_order_ops._clone_dim_order.default,`
`14`	`14`	`exir_ops.edge.quantized_decomposed.embedding_4bit.dtype,`
`15`	`15`	`]`
`16`	`16`